中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

我是一名數(shù)據(jù)科學(xué)家,但我對大數(shù)據(jù)持懷疑態(tài)度

2020-12-04    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

都說未來是數(shù)據(jù)時代。數(shù)據(jù)說明一切,數(shù)據(jù)不會騙人。數(shù)據(jù)是羅塞塔之石,可破譯一切人類代碼,F(xiàn)實果真如此嗎?紐約大學(xué)數(shù)據(jù)科學(xué)教授Andrea Jones-RooyJuly不同意這種說法。因為數(shù)據(jù)并不是客觀的現(xiàn)實,它也是由人來定義的,會存在各種偏差。所以我們需要仔細甄別,周全考慮。

原文標題是:I’m a data scientist who is skeptical about data

 

我是一名數(shù)據(jù)科學(xué)家,但我對大數(shù)據(jù)持懷疑態(tài)度

 

幾千年來,我們一直都在靠軼事、直覺以及老太太的故事來做為我們觀點的證據(jù),今天我們大多數(shù)人都要求大家要用數(shù)據(jù)來支持自己的論點和想法。無論是治愈癌癥,解決職場的不平等,還是贏得選舉,數(shù)據(jù)現(xiàn)在都被認為是羅塞塔石,幾乎可以破譯人類所有現(xiàn)存的代碼。

但在這一片狂熱當中,我們已經(jīng)將數(shù)據(jù)與真相混為一談。這種認知,對我們理解、解釋以及改進我們所關(guān)心的事物的能力,會產(chǎn)生危險的影響。

我這么講對自己是有風險的。我是紐約大學(xué)數(shù)據(jù)科學(xué)教授和企業(yè)的社會科學(xué)顧問,我為他們進行定量研究,幫助他們理解和改進多樣性。我靠數(shù)據(jù)謀生,但我卻總發(fā)現(xiàn)不管我跟學(xué)生還是客戶交談時,我都要提醒他們數(shù)據(jù)其實并不是現(xiàn)實的完美體現(xiàn):數(shù)據(jù)這東西基本上是人類的杜撰,因此會受制于偏見和局限,以及其他隨之而來的不完美。

這種誤解最清晰的表現(xiàn)是從會議室到教室都能聽到的問題,當好心人試圖弄清楚棘手問題的真相時:

“數(shù)據(jù)是怎么說的?”

數(shù)據(jù)什么都沒說。說話的是人類。他們說的是數(shù)據(jù)當中他們注意到的或者要尋找的東西,數(shù)據(jù)從一開始之所以存在,是因為人類選擇去收集它們,并且利用了人類制造的工具去收集數(shù)據(jù)。

數(shù)據(jù)說明不了問題的任何東西,它的作用不會大過可以造房子的錘子或者做馬卡龍的杏仁粉。數(shù)據(jù)是發(fā)現(xiàn)的必要因素,但是你需要有人來選擇它,塑造它,然后把它變成洞察。

因此,數(shù)據(jù)的有用程度只能跟它的質(zhì)量以及掌握它的人的技能一樣。(如果你曾經(jīng)試過制作馬卡龍就知道我說的了。我就試過。我們只能說那種數(shù)據(jù)肯定不符合法國糕點店的標準。)

因此,如果數(shù)據(jù)本身不能做任何事情或者說明不了任何東西的話,那數(shù)據(jù)是什么?

數(shù)據(jù)是什么?

在某個時間和地點,數(shù)據(jù)是這個世界某個方面不完美的相似物。(我知道,這個定義遠不如我們所希望的那么性感。)這是當人們想要了解關(guān)于某個東西的一些東西,試圖去測量它,然后以特定方式去組合這些測量值時的結(jié)果。

以下是我們會把不完美引入到數(shù)據(jù)當中的四種主要方法。

隨機偏差
系統(tǒng)偏差
測量選擇偏差
排除偏差

但是,這些錯誤并不意味著我們應(yīng)該拋棄所有數(shù)據(jù),意味著一切都是不可知的。而是意味著要深思熟慮地進行數(shù)據(jù)收集,問問我們自己可能錯過了什么,并對收集更多數(shù)據(jù)表示歡迎。

這種觀點不是反科學(xué)或反數(shù)據(jù)。相反,這兩者的優(yōu)勢來自于清楚我們自身工作的局限性。意識到可能會出現(xiàn)的錯誤可令我們的推斷更加強大。

首先是隨機偏差。隨機錯誤發(fā)生在當人類決定要去測量某些東西之時,由于設(shè)備損壞或他們自己的錯誤,導(dǎo)致記錄的數(shù)據(jù)是錯誤的。其形式可以是將溫度計掛在墻上測量溫度,或者用聽診器來計算心跳。如果溫度計壞了,它可能無法告訴你正確的度數(shù)。聽診器可能沒壞,但是計數(shù)的人可能會錯過一次心跳。

隨機錯誤會對我們的余生造成很大的影響(當我們沒有勤勉地記錄溫度和心跳時),其形式之一是醫(yī)療篩檢中的誤報。例如,乳腺癌的誤報意味著篩檢結(jié)果說患有癌癥,但其實沒有。發(fā)生這種情況的可能原因有很多,其中大部分可歸結(jié)為在將關(guān)于世界的事實(是否患有癌癥)轉(zhuǎn)化為數(shù)據(jù)(通過乳房X線照片和人得出數(shù)據(jù))的過程中的失誤。

這種錯誤造成的后果也是非常真實的。研究表明,誤報可導(dǎo)致出現(xiàn)多年負面的心理健康的后果,哪怕患者的身體狀況良好。從好的方面來說,對誤報的恐懼也會導(dǎo)致對篩查更加小心謹慎(......這會進一步增加誤報的可能性,算了不說了,這離題了)。

一般來說,只要我們的設(shè)備沒壞并且我們努力做到了最好,我們希望這些錯誤在統(tǒng)計上是隨機的,因此會隨著時間的推移而慢慢被中和掉——盡管如果你的醫(yī)療篩查是錯誤之一的話,這并不算一個很大的安慰。

其次是系統(tǒng)偏差。系統(tǒng)誤差是指這樣一種可能性,即某些數(shù)據(jù)以犧牲其他數(shù)據(jù)為代價不斷進入到你的數(shù)據(jù)集,從而可能導(dǎo)致你對世界做出錯誤的結(jié)論。這可能是由于許多不同的原因而導(dǎo)致的:你抽樣誰,什么時候抽樣,或者加入你的研究或填寫你的調(diào)查的人是誰。

選擇偏差就是一種常見的系統(tǒng)誤差。比方說,用來自Twitter推文的數(shù)據(jù)來理解公眾對特定問題的情緒如何,這種作法是有瑕疵的,因為我們大多數(shù)人都不會發(fā)推文——而且那些發(fā)推的人并不總是將自己的真實感受示于人。相反,來自Twitter的數(shù)據(jù)集就是:一種了解方式,通過它可以知道選擇了參與到該特定平臺的部分人跟世界分享了什么東西,僅此而已。

2016年的美國總統(tǒng)大選就是例子,一系列的系統(tǒng)誤差可能導(dǎo)致了民意調(diào)查錯誤地偏向于希拉里·克林頓。人們很容易得出結(jié)論認為其實一切民意調(diào)查都是錯誤的——也許是,但跟我們平時想象的可能不一樣。

有一種可能性是選民不太可能會報告說自己將投票給特朗普,因為大家認為這是不受歡迎的選擇。我們稱之為社會期望偏差。停下來思考一下這個問題很有幫助,因為如果我們事先對這種偏差更加警惕的話,我們可能就會將它植入到我們的模型里面,從而更好地預(yù)測選舉結(jié)果。

令人遺憾的是,醫(yī)學(xué)研究的系統(tǒng)偏差也到處可見:醫(yī)學(xué)研究的對象往往是那些已經(jīng)生病并且有手段找醫(yī)生或者參加臨床試驗的人。作為克服這一缺點的辦法之一,可穿戴技術(shù)的發(fā)展稍微令人有點興奮。比方說,如果有Apple Watch的每個人都可以將他們的心率和每天的步數(shù)發(fā)送到云端,那么我們就會擁有更多的數(shù)據(jù),而且偏差更小。但這可能也會引入一種全新的偏差:現(xiàn)在的數(shù)據(jù)有可能會偏向西方世界的富裕成員。

第三是選擇測量內(nèi)容選擇偏差。當我們以為我們正在測一樣?xùn)|西,但事實上測的卻是其他東西時就會發(fā)生這種情況。

有很多公司對想辦法做出更客觀的招聘和晉升決策都比較感興趣,我跟他們有過合作。為此他們往往會求助于技術(shù):我們?nèi)绾谓o經(jīng)理提供更多的數(shù)據(jù),好讓他們做出更好的決策?我們怎么才能應(yīng)用正確的篩選條件來確保招聘人員能找到最優(yōu)秀的人才?

但很少有人會停下來問一下自己在測量的數(shù)據(jù)是不是他們想要測量的東西。比方說,如果我們正在尋找頂尖的求職者,我們可能更青睞那些上名牌大學(xué)的人。但這可能并非衡量人才的手段,而是衡量社交網(wǎng)絡(luò)成員不僅僅是衡量人才的標準,它可能只是衡量你是否具備某些社交網(wǎng)絡(luò)成員資格的一種標準,這種資格能為某些人提供一系列“合適”的機會,讓他們得以能進入一所優(yōu)秀的大學(xué)。一個人的GPA成績可能是衡量一個人選擇自己能勝任的課程的能力很好手段,而他們的SAT成績可能是他們父母在請私教方面的財力的一種可愛的表達。

企業(yè)以及我的學(xué)生對最前沿的方法論如此癡迷,以至于他們都忽略了一個更深層次的問題:為什么我們要用這種方式去衡量這個?還有沒有可以更徹底去了解人的方式?而且,根據(jù)我們手上的數(shù)據(jù),我們?nèi)绾螌^濾器進行調(diào)整才能減少這種偏差?

最后一個,是排除偏差。當數(shù)據(jù)集里面系統(tǒng)性地忽略了某個群體時就會發(fā)生這種情況,而這就會為進一步的排除創(chuàng)造出先例。

比方說,現(xiàn)在女性比男性更容易死于心臟病,這被認為主要是因為大多數(shù)心血管數(shù)據(jù)都是基于男性的,而男性經(jīng)歷的癥狀與女性的不同,從而導(dǎo)致診斷的不正確。

關(guān)于白人女性在美國競選政治職位時的表現(xiàn)的數(shù)據(jù)目前有很多,但是有色人種的就不是很多,相對于競選過程當中的白人女性,她們會面臨著不同的偏差。在我們進行這些研究之前,我們就會試圖從有關(guān)橙子的數(shù)據(jù)推斷出蘋果——但其結(jié)果要比一盆不均衡的水果沙拉要糟糕得多。

選擇去研究一樣?xùn)|西還可以激勵對該專題進行進一步的研究,這本身就是一種偏差。由于根據(jù)現(xiàn)有數(shù)據(jù)集做東西要比創(chuàng)建自己的數(shù)據(jù)集更容易,因此研究人員經(jīng)常會圍繞著某些主題展開研究——比如參與競選的白人女性或男性的心血管健康——而犧牲了其他人。如果你反復(fù)多次如此這般,突然之間的男性就成了默認的心臟病研究對象,而白人女性就成了默認的政治參與研究對象。

其他的例子比比皆是。衡量“領(lǐng)導(dǎo)力”可能會激勵大家在會議中表現(xiàn)得更加積極,從長遠來看這會破壞溝通。給SAT中增加“逆境”分可能會慫恿父母搬到不同的社區(qū),以便讓他們的得分更高。

我看到這在多元化領(lǐng)域也產(chǎn)生了影響:DiversityInc等嘗試蘋果公司多樣性的組織已經(jīng)選擇若干用來獎勵公司的指標——比方說,“領(lǐng)導(dǎo)認可”的衡量標準是是否設(shè)有首席多元化官(Chief Diversity Officer)。為了給這個方框打勾,它可能會刺激一些并無任何實際用途的行為,比如任命一個沒有實權(quán)的CDO。

為什么我們?nèi)匀恍枰嘈艛?shù)據(jù)

在反智主義、假新聞以及另類事實和偽科學(xué)橫行的時代,我其實非常不愿意這么說。有時我感覺我們科學(xué)家?guī)缀醵紱]有堅持下去。但我相信數(shù)據(jù)和科學(xué)之所以有用,并不是因為它是完美的和完整的,而是因為我們認識到我們自身努力的局限性。就像我們想要用統(tǒng)計數(shù)據(jù)和算法對事情進行仔細分析一樣,我們也需要仔細地收集數(shù)據(jù)。我們有多謙卑,對自身局限性的認識有多深,我們自己就有多強。

這并不意味著要拋棄數(shù)據(jù)。這意味著當我們的分析中包含有證據(jù)時,我們應(yīng)該考慮影響其可靠性的偏差。我們不應(yīng)該僅僅去問“它說明了什么?”而且還要問,“ 數(shù)據(jù)是誰收集的?他們是怎么做的?那些決定是如何影響結(jié)果的?”

我們需要去質(zhì)疑數(shù)據(jù),而不是僅僅因為我們已經(jīng)把一個數(shù)字分配給某個東西,就假設(shè)那個東西突然之間就變成冰冷的真相。當你遇到一項研究或一個數(shù)據(jù)集時,我懇請你問問自己:這幅圖中可能缺了什么?還有沒有其他辦法可以去考慮究竟發(fā)生了什么?這個特定的衡量手段包含了什么,排除了什么,激勵了什么?

我們需要對數(shù)據(jù)考慮周全,因為我們正在開始關(guān)注統(tǒng)計數(shù)據(jù),算法和隱私。只要數(shù)據(jù)被認為是冰冷、確切、絕對可靠的事實,對我們周圍的世界,我們就有可能產(chǎn)生并且強化許多不準確的理解的風險。

原文鏈接:https://qz.com/1664575/is-data-science-legit/

譯者:boxi。

來源:36氪神譯局

標簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大型數(shù)據(jù)庫支持面部識別抓取,隱私何處安放?

下一篇:入門機器學(xué)習,照這個課程清單按順序?qū)W就對了