中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)分析陷阱與Simpson’s Paradox(辛普森悖論)

2019-03-01    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

在大數(shù)據(jù)分析時(shí),你有沒(méi)有遇到這樣一種奇怪現(xiàn)象:當(dāng)分開(kāi)看數(shù)據(jù)的時(shí)候會(huì)得到一種結(jié)論,但是合起來(lái)之后發(fā)現(xiàn)情況卻完全改變?這就是著名的辛普森悖論。它總是隱藏在大數(shù)據(jù)之中,成為大數(shù)據(jù)分析的陷阱之一。

1、含義

辛普森悖論(Simpson’s Paradox)是概率和統(tǒng)計(jì)學(xué)中的一種現(xiàn)象,即幾組不同的數(shù)據(jù)中均存在一種趨勢(shì),但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢(shì)消失或反轉(zhuǎn)。

2、案例

案例1:腎結(jié)石治療

這是一個(gè)真實(shí)案例,比較了兩種腎結(jié)石治療的成功率。其中方案A包括所有開(kāi)放式外科手術(shù),方案B僅涉及小的穿刺,

小腎結(jié)石和大腎結(jié)石的治療的成功率和治療案例數(shù)如下表所示:

(括號(hào)中的數(shù)字表示:成功案例數(shù)/治療總案例數(shù))

 

 

從表格中可以發(fā)現(xiàn)治療方案A的成功率更高,那是否我們就應(yīng)該選擇方案A呢?

 

 

我們把兩種治療方案進(jìn)行總計(jì),卻發(fā)現(xiàn)方案B的成功率更高。

案例2:運(yùn)動(dòng)與患病的關(guān)系

假設(shè)我們有關(guān)于每周運(yùn)動(dòng)小時(shí)數(shù)與兩組患者(50歲以下和50歲以上患者)患病風(fēng)險(xiǎn)的數(shù)據(jù)。下圖顯示根據(jù)年齡分層的疾病概率與每周運(yùn)動(dòng)小時(shí)數(shù)的關(guān)系圖。我們清楚地看到其呈現(xiàn)負(fù)相關(guān)關(guān)系,表明每周運(yùn)動(dòng)水平的增加可以使患病的風(fēng)險(xiǎn)降低。

 

 

當(dāng)我們將數(shù)據(jù)組合在一起:相關(guān)性完全逆轉(zhuǎn)了! 如果只顯示這個(gè)數(shù)字,我們會(huì)得出結(jié)論,運(yùn)動(dòng)增加了疾病的風(fēng)險(xiǎn)!這與常理相悖。

 

 

3、原理

數(shù)據(jù)中存在多個(gè)單獨(dú)分布的隱藏變量,不當(dāng)拆分時(shí)就會(huì)造成辛普森悖論。這種隱藏變量被稱(chēng)為潛伏變量,并且它們通常難以識(shí)別。而這種潛伏變量可能是由于采樣錯(cuò)誤或者數(shù)據(jù)領(lǐng)域本身屬性造成的。

1)如案例1所示,可能是由于我們的采樣方法存在誤差導(dǎo)致加權(quán)結(jié)果出現(xiàn)問(wèn)題,不同大小的結(jié)石中對(duì)于不同方法的應(yīng)用數(shù)量有較大的差異,沒(méi)有做到正確的控制變量。

2)如案例2所示,年齡就是一個(gè)與患病非常相關(guān)的潛伏變量,如果繪制患病概率與年齡的關(guān)系,我們可以看到患者的年齡與疾病概率強(qiáng)烈正相關(guān)。

 

 

隨著患者年齡的增加,患病的風(fēng)險(xiǎn)增加。所以即使運(yùn)動(dòng)量相同,老年患者也比年輕患者更容易患病。

4、啟示

在大數(shù)據(jù)分析時(shí)代,我們嘗試在很短的時(shí)間內(nèi)檢測(cè)模式并做出決策。 時(shí)間越短,出現(xiàn)短期誤導(dǎo)的可能性越大,越不可能找到被隱藏的真正趨勢(shì),導(dǎo)致錯(cuò)誤的決策和行動(dòng)。

如果我們依賴(lài)于經(jīng)過(guò)嚴(yán)格模板化和打包的軟件并且沒(méi)有意識(shí)到數(shù)據(jù)的驅(qū)動(dòng)因素和限制,那么這些偏見(jiàn)的出現(xiàn)概率會(huì)很大。

辛普森悖論警示我們?cè)诖髷?shù)據(jù)分析和數(shù)據(jù)科學(xué)過(guò)程中要更加注意以下幾個(gè)方面:

1)不能單純看數(shù)據(jù)本身。直接計(jì)算會(huì)得出錯(cuò)誤的結(jié)論,我們必須考慮數(shù)據(jù)生成過(guò)程——因果模型——決定數(shù)據(jù),減少潛伏變量的影響。

2)對(duì)數(shù)據(jù)保持懷疑態(tài)度。數(shù)據(jù)分析中我們總是試圖從單一的數(shù)據(jù)觀點(diǎn)來(lái)看待整個(gè)事件,而不是用理性認(rèn)真思考并深入挖掘。特別是當(dāng)有人要銷(xiāo)售產(chǎn)品或?qū)嵤┳h程時(shí),我們必須對(duì)這些數(shù)字保持批判性思維。

3)關(guān)注數(shù)據(jù)采樣的正確性。了解我們是否正在查看采樣不良的數(shù)據(jù)或悖論的真實(shí)案例,這一點(diǎn)非常重要,更可能早的避免決策錯(cuò)誤的發(fā)生。

4)找到數(shù)據(jù)中的潛伏變量。盡可能多地檢查、重組合和重采樣數(shù)據(jù)。如果從不同分類(lèi)中可以得出多個(gè)不同的結(jié)論,我們需要知道我們尋找的重點(diǎn),并用最佳的數(shù)據(jù)觀點(diǎn)來(lái)公正地表達(dá)真相。

5)很強(qiáng)的洞察力和領(lǐng)域知識(shí)。如果沒(méi)有足夠的洞察力和領(lǐng)域知識(shí),我們無(wú)法找到隱藏在數(shù)據(jù)背后的潛伏變量,使得簡(jiǎn)單的統(tǒng)計(jì)分析也可以徹底誤導(dǎo)和激發(fā)錯(cuò)誤的決策。

參考文獻(xiàn)

[1] https://towardsdatascience.com/simpsons-paradox-and-interpreting-data-6a0443516765

[2] https://en.wikipedia.org/wiki/Simpson%27s_paradox

[3] https://towardsdatascience.com/simpsons-paradox-how-to-prove-two-opposite-arguments-using-one-dataset-1c9c917f5ff9

[4] https://towardsdatascience.com/solving-simpsons-paradox-e85433c68d03

[5] https://www.analyticsindiamag.com/understanding-simpsons-paradox-and-its-impact-on-data-analytics/

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)分析 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:1500+星標(biāo),簡(jiǎn)單易用 TensorFlow 代碼集,隨查隨看!

下一篇:谷歌開(kāi)源機(jī)器學(xué)習(xí)數(shù)據(jù)集,可在TensorFlow直接調(diào)用