中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)分析陷阱與Simpson’s Paradox(辛普森悖論)

2019-03-01    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在大數(shù)據(jù)分析時,你有沒有遇到這樣一種奇怪現(xiàn)象:當(dāng)分開看數(shù)據(jù)的時候會得到一種結(jié)論,但是合起來之后發(fā)現(xiàn)情況卻完全改變?這就是著名的辛普森悖論。它總是隱藏在大數(shù)據(jù)之中,成為大數(shù)據(jù)分析的陷阱之一。

1、含義

辛普森悖論(Simpson’s Paradox)是概率和統(tǒng)計學(xué)中的一種現(xiàn)象,即幾組不同的數(shù)據(jù)中均存在一種趨勢,但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢消失或反轉(zhuǎn)。

2、案例

案例1:腎結(jié)石治療

這是一個真實案例,比較了兩種腎結(jié)石治療的成功率。其中方案A包括所有開放式外科手術(shù),方案B僅涉及小的穿刺,

小腎結(jié)石和大腎結(jié)石的治療的成功率和治療案例數(shù)如下表所示:

(括號中的數(shù)字表示:成功案例數(shù)/治療總案例數(shù))

 

 

從表格中可以發(fā)現(xiàn)治療方案A的成功率更高,那是否我們就應(yīng)該選擇方案A呢?

 

 

我們把兩種治療方案進行總計,卻發(fā)現(xiàn)方案B的成功率更高。

案例2:運動與患病的關(guān)系

假設(shè)我們有關(guān)于每周運動小時數(shù)與兩組患者(50歲以下和50歲以上患者)患病風(fēng)險的數(shù)據(jù)。下圖顯示根據(jù)年齡分層的疾病概率與每周運動小時數(shù)的關(guān)系圖。我們清楚地看到其呈現(xiàn)負相關(guān)關(guān)系,表明每周運動水平的增加可以使患病的風(fēng)險降低。

 

 

當(dāng)我們將數(shù)據(jù)組合在一起:相關(guān)性完全逆轉(zhuǎn)了! 如果只顯示這個數(shù)字,我們會得出結(jié)論,運動增加了疾病的風(fēng)險!這與常理相悖。

 

 

3、原理

數(shù)據(jù)中存在多個單獨分布的隱藏變量,不當(dāng)拆分時就會造成辛普森悖論。這種隱藏變量被稱為潛伏變量,并且它們通常難以識別。而這種潛伏變量可能是由于采樣錯誤或者數(shù)據(jù)領(lǐng)域本身屬性造成的。

1)如案例1所示,可能是由于我們的采樣方法存在誤差導(dǎo)致加權(quán)結(jié)果出現(xiàn)問題,不同大小的結(jié)石中對于不同方法的應(yīng)用數(shù)量有較大的差異,沒有做到正確的控制變量。

2)如案例2所示,年齡就是一個與患病非常相關(guān)的潛伏變量,如果繪制患病概率與年齡的關(guān)系,我們可以看到患者的年齡與疾病概率強烈正相關(guān)。

 

 

隨著患者年齡的增加,患病的風(fēng)險增加。所以即使運動量相同,老年患者也比年輕患者更容易患病。

4、啟示

在大數(shù)據(jù)分析時代,我們嘗試在很短的時間內(nèi)檢測模式并做出決策。 時間越短,出現(xiàn)短期誤導(dǎo)的可能性越大,越不可能找到被隱藏的真正趨勢,導(dǎo)致錯誤的決策和行動。

如果我們依賴于經(jīng)過嚴格模板化和打包的軟件并且沒有意識到數(shù)據(jù)的驅(qū)動因素和限制,那么這些偏見的出現(xiàn)概率會很大。

辛普森悖論警示我們在大數(shù)據(jù)分析和數(shù)據(jù)科學(xué)過程中要更加注意以下幾個方面:

1)不能單純看數(shù)據(jù)本身。直接計算會得出錯誤的結(jié)論,我們必須考慮數(shù)據(jù)生成過程——因果模型——決定數(shù)據(jù),減少潛伏變量的影響。

2)對數(shù)據(jù)保持懷疑態(tài)度。數(shù)據(jù)分析中我們總是試圖從單一的數(shù)據(jù)觀點來看待整個事件,而不是用理性認真思考并深入挖掘。特別是當(dāng)有人要銷售產(chǎn)品或?qū)嵤┳h程時,我們必須對這些數(shù)字保持批判性思維。

3)關(guān)注數(shù)據(jù)采樣的正確性。了解我們是否正在查看采樣不良的數(shù)據(jù)或悖論的真實案例,這一點非常重要,更可能早的避免決策錯誤的發(fā)生。

4)找到數(shù)據(jù)中的潛伏變量。盡可能多地檢查、重組合和重采樣數(shù)據(jù)。如果從不同分類中可以得出多個不同的結(jié)論,我們需要知道我們尋找的重點,并用最佳的數(shù)據(jù)觀點來公正地表達真相。

5)很強的洞察力和領(lǐng)域知識。如果沒有足夠的洞察力和領(lǐng)域知識,我們無法找到隱藏在數(shù)據(jù)背后的潛伏變量,使得簡單的統(tǒng)計分析也可以徹底誤導(dǎo)和激發(fā)錯誤的決策。

參考文獻

[1] https://towardsdatascience.com/simpsons-paradox-and-interpreting-data-6a0443516765

[2] https://en.wikipedia.org/wiki/Simpson%27s_paradox

[3] https://towardsdatascience.com/simpsons-paradox-how-to-prove-two-opposite-arguments-using-one-dataset-1c9c917f5ff9

[4] https://towardsdatascience.com/solving-simpsons-paradox-e85433c68d03

[5] https://www.analyticsindiamag.com/understanding-simpsons-paradox-and-its-impact-on-data-analytics/

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)分析 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:1500+星標(biāo),簡單易用 TensorFlow 代碼集,隨查隨看!

下一篇:谷歌開源機器學(xué)習(xí)數(shù)據(jù)集,可在TensorFlow直接調(diào)用