- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-03-04來源:億信華辰瀏覽數:3057次
在大數據分析時,你有沒有遇到這樣一種奇怪現象:當分開看數據的時候會得到一種結論,但是合起來之后發現情況卻完全改變?這就是著名的辛普森悖論。它總是隱藏在大數據之中,成為大數據分析的陷阱之一。
1、含義
辛普森悖論(Simpson’s Paradox)是概率和統計學中的一種現象,即幾組不同的數據中均存在一種趨勢,但當這些數據組組合在一起后,這種趨勢消失或反轉。
2、案例
案例1:腎結石治療
這是一個真實案例,比較了兩種腎結石治療的成功率。其中方案A包括所有開放式外科手術,方案B僅涉及小的穿刺,
小腎結石和大腎結石的治療的成功率和治療案例數如下表所示:
(括號中的數字表示:成功案例數/治療總案例數)
?
?
?
從表格中可以發現治療方案A的成功率更高,那是否我們就應該選擇方案A呢?
?
?
?
我們把兩種治療方案進行總計,卻發現方案B的成功率更高。
案例2:運動與患病的關系
假設我們有關于每周運動小時數與兩組患者(50歲以下和50歲以上患者)患病風險的數據。下圖顯示根據年齡分層的疾病概率與每周運動小時數的關系圖。我們清楚地看到其呈現負相關關系,表明每周運動水平的增加可以使患病的風險降低。
?
?
?
當我們將數據組合在一起:相關性完全逆轉了! 如果只顯示這個數字,我們會得出結論,運動增加了疾病的風險!這與常理相悖。
?
?
?
3、原理
數據中存在多個單獨分布的隱藏變量,不當拆分時就會造成辛普森悖論。這種隱藏變量被稱為潛伏變量,并且它們通常難以識別。而這種潛伏變量可能是由于采樣錯誤或者數據領域本身屬性造成的。
1)如案例1所示,可能是由于我們的采樣方法存在誤差導致加權結果出現問題,不同大小的結石中對于不同方法的應用數量有較大的差異,沒有做到正確的控制變量。
2)如案例2所示,年齡就是一個與患病非常相關的潛伏變量,如果繪制患病概率與年齡的關系,我們可以看到患者的年齡與疾病概率強烈正相關。
?
?
?
隨著患者年齡的增加,患病的風險增加。所以即使運動量相同,老年患者也比年輕患者更容易患病。
4、啟示
在大數據分析時代,我們嘗試在很短的時間內檢測模式并做出決策。 時間越短,出現短期誤導的可能性越大,越不可能找到被隱藏的真正趨勢,導致錯誤的決策和行動。
如果我們依賴于經過嚴格模板化和打包的軟件并且沒有意識到數據的驅動因素和限制,那么這些偏見的出現概率會很大。
辛普森悖論警示我們在大數據分析和數據科學過程中要更加注意以下幾個方面:
1)不能單純看數據本身。直接計算會得出錯誤的結論,我們必須考慮數據生成過程——因果模型——決定數據,減少潛伏變量的影響。
2)對數據保持懷疑態度。數據分析中我們總是試圖從單一的數據觀點來看待整個事件,而不是用理性認真思考并深入挖掘。特別是當有人要銷售產品或實施議程時,我們必須對這些數字保持批判性思維。
3)關注數據采樣的正確性。了解我們是否正在查看采樣不良的數據或悖論的真實案例,這一點非常重要,更可能早的避免決策錯誤的發生。
4)找到數據中的潛伏變量。盡可能多地檢查、重組合和重采樣數據。如果從不同分類中可以得出多個不同的結論,我們需要知道我們尋找的重點,并用最佳的數據觀點來公正地表達真相。
5)很強的洞察力和領域知識。如果沒有足夠的洞察力和領域知識,我們無法找到隱藏在數據背后的潛伏變量,使得簡單的統計分析也可以徹底誤導和激發錯誤的決策。