中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

書單推薦:六本好書帶你入門數(shù)據(jù)科學(xué)

2020-04-28    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在日常的數(shù)據(jù)科學(xué)運算中,人們其實很少考慮“人”在其中的意義,盡管數(shù)據(jù)本身都是為人服務(wù)的。因此,要想做最完美的統(tǒng)計方案,就不僅要閱讀技術(shù)類的文章,還要閱讀一些研究人們?nèi)绾巫龀鲞x擇,以及如何使用數(shù)據(jù)來改進這些選擇的作品。本文將重點介紹6本塑造“世界觀”而非“方法論”的書,幫助你進一步通過數(shù)據(jù)更好地為現(xiàn)實服務(wù)。本文譯自Medium.com中原標(biāo)題為“A Non-Technical Reading List for Data Science”的文章。

如今的數(shù)據(jù)科學(xué)家經(jīng)常被要求學(xué)習(xí)一系列的建模技術(shù)、運算方法等。諸如線性回歸,很多人都在使用它,但卻不知道為什么使用它,因此就會出現(xiàn)這么一種情況,很多新人隨時都準(zhǔn)備好部署模型,但卻不了解實際情況,這些技術(shù)群體并沒有把重心放在解決技術(shù)的盲目性上,而是放在了關(guān)于選擇何種工具的爭論上(R 或 Python)。

與一些數(shù)據(jù)科學(xué)家可能希望相信的相反,我們永遠不可能將世界簡化為數(shù)字和算法。歸根結(jié)底,決策是由人類做出的,想要成為一名專業(yè)的數(shù)據(jù)科學(xué)家意味著必須既了解人性又了解數(shù)據(jù)。

請體會一下如下案例:

當(dāng)美國科技公司Opower(一家致力于發(fā)掘能源數(shù)據(jù),為用戶提供節(jié)能建議的公司)想讓人們節(jié)約用電時,他們向客戶提供了大量關(guān)于其用電量及成本的數(shù)據(jù)。然而,僅僅靠這些冷冰冰的數(shù)字并不足以讓人們做出改變。為了達到目的,Opower需要一些關(guān)于心理學(xué)及行為科學(xué)的知識,比如,研究表明,如果在家庭能源賬單上用笑臉表示費用低于鄰居平均水平,用皺眉表情表示高于鄰居平均水平的話,人們的能源使用就會減少,也會更配合能源公司的環(huán)保要求。該市市政部門借此給隨機選出的顧客發(fā)賬單,將他們的能源使用量與相似家庭和最節(jié)能的鄰居進行對比,并給出如何節(jié)能的建議。第二年,統(tǒng)計表明,高消費家庭的用戶減少了3%的用電量!

當(dāng)用電量比鄰居少的時候,通過這種簡單干預(yù)人們的電費賬單的方法直接節(jié)省了數(shù)百萬美元的成本,也有效防止了數(shù)百萬磅的二氧化碳排放。對于一個數(shù)據(jù)科學(xué)家來說,這可能是一件令人震驚的事情——人們直接干預(yù)了統(tǒng)計的結(jié)果!但這對Opower的首席科學(xué)官羅伯特·恰爾蒂尼(Robert Cialdini)來說并不奇怪,畢竟他曾是一位心理學(xué)教授,還寫過一些關(guān)于人類行為的書,對消費心理可謂頗有研究。Opower公司的這一舉動也為市場帶來一個信號:雖然你可以得到任何你想要的數(shù)據(jù),但仍然需要了解人們的行為對數(shù)據(jù)產(chǎn)生的影響,而有時候后者比前者更能得償所愿。

 

 

相比笑臉表情,柱狀圖也許并不是最有效的可視化方法

作為數(shù)據(jù)科學(xué)家,在日常工作和學(xué)校教育的影響下,我們其實很少考慮“人”在其中的意義,退一步講,我們其實不會思考這份數(shù)據(jù)工作的社會影響。因此,要想做最完美的統(tǒng)計方案,就不僅要閱讀技術(shù)類的文章,還要擴展閱讀一些研究人們?nèi)绾巫龀鲞x擇,以及如何使用數(shù)據(jù)來改進這些選擇的作品,個人認為這一點至關(guān)重要。

為此,在這篇文章中,我將重點介紹6本塑造“世界觀”而非“方法論”的書,其中的知識并不涉及數(shù)學(xué)和算法的講解,但卻能教會人們?nèi)绾瓮ㄟ^數(shù)據(jù)更好地為現(xiàn)實服務(wù)。

No.1 The Signal and the Noise 信號與噪聲

作者:納特·西爾弗(Nate Silver)

 

 

本書可能是世界上最受歡迎的與統(tǒng)計相關(guān)的書籍之一。信號與噪聲是數(shù)據(jù)科學(xué)中一種常用的比喻手法。“信號”指的是我們想要并需要的事實,而“噪聲”則是另一回事,通常指的是不相干的信息,它阻礙或誤導(dǎo)我們搜索真實的信號。

大數(shù)據(jù)時代,海量的信息充斥在我們周圍,然而隨著現(xiàn)實中生活節(jié)奏的逐步加快,所做出的預(yù)測的速度及數(shù)量也被迫逐步增加。

然而事實卻是,現(xiàn)實世界中的很多預(yù)測都失敗了,人們?yōu)榇烁冻隽司薮蟮纳鐣鷥r。本書檢視了從颶風(fēng)到地震、從經(jīng)濟到股市、從NBA到政治選舉在內(nèi)的眾多領(lǐng)域的預(yù)測事例,旨在回答一個問題:如何才能從繁雜的海量數(shù)據(jù)中篩選出真正的信號,摒棄噪聲的干擾,從而做出接近的預(yù)測。西爾弗認為,未來是沒有精準(zhǔn)的答案的,只有偉大的預(yù)言家所實踐的基本法則能夠幫助我們改善社會。

任何人都可以從書中提供的簡單建議中獲得如下經(jīng)驗:

像狐貍一樣思考(而不是像刺猬那樣):以賽亞·伯林(Isaiah Berlin)在古希臘詩歌的影響下曾寫下著名的文章《刺猬與狐貍》。在這篇文章中,伯林區(qū)分了兩類知識分子:一類是刺猬,用一個觀點統(tǒng)攝對世界的認識;另一類狐貍,則承認種種無法統(tǒng)一的經(jīng)驗,拒絕單一觀點。如果你只有一個想法,你會傾向于尋找確認它的證據(jù),忽略任何與之相矛盾的東西。如果你有很多小想法,你會更關(guān)心什么是正確的,而不是什么支持你當(dāng)前的信仰,當(dāng)證據(jù)不再支持它們時,你可以放棄任何想法。這兩種不同的思維方式也解釋了為什么那些對自己的預(yù)測更有信心的人(比如股票專家)往往更容易出錯。

做大量的預(yù)測并得到快速的反饋:我們對于頻繁發(fā)生的事件,做出估計往往更準(zhǔn)確,主要是因為反饋和改進周期的影響。每天的天氣預(yù)報都是錯誤的,這些信息被輸入到模型中,使明天的天氣預(yù)報變得更好(這也是幾十年來天氣預(yù)報大幅改善的一個原因)。在我們面臨很少遇到的情況時,我們最難做出選擇,在這些情況下,使用盡可能多的數(shù)據(jù)才是關(guān)鍵。

盡可能多地利用各種不同的數(shù)據(jù)來源:每個數(shù)據(jù)提供者都有自己的偏見,但是通過匯總不同的估計數(shù)據(jù),你可以利用平均值找出錯誤,這一點在Silver的Fivethirtyeight網(wǎng)站上得到了很好的體現(xiàn)。這種群體智慧的方法意味著使用了與你的觀點不一致的資源,而不是僅僅依靠某個領(lǐng)域的“專家”。

要囊括不確定性區(qū)間,不要害怕在證據(jù)改變時更新觀點:人們在預(yù)測時犯的最大錯誤就是只提供一個數(shù)字。盡管有一個答案可能是公眾希望聽到的,但這個世界從來就不是嚴(yán)格意義上的非黑即白,而是存在于灰色的過渡陰影中,我們有責(zé)任在我們的預(yù)測中表現(xiàn)出來這一點。表達不確定性似乎是懦弱的,比如說希拉里有70%的獲勝機會,那就意味著無論結(jié)果如何,你都是對的,但實際上它比一個單一的“是/否”更現(xiàn)實。此外,人們認為改變別人的觀點是一種攻擊性的負面行為,但在數(shù)據(jù)科學(xué)和形成世界觀的過程中,基礎(chǔ)認知的變化實際上幾乎是不可避免而且利大于弊的。

總結(jié)一下作者的經(jīng)典名言:

我們對世界的預(yù)測永遠不會是完全正確的,但這不應(yīng)阻止我們依靠經(jīng)過充分證明的原則做出更高的預(yù)測,從而減少錯誤。

真正的預(yù)測者會用概率的方法思考問題,他們謙虛而且勤懇,能清楚地區(qū)分什么是不可預(yù)測的、什么是可預(yù)測的,他們注重任何靠近真相一步的成千上百個小細節(jié),他們能辨識出什么是噪聲、什么是信號。

從全球經(jīng)濟的健康到戰(zhàn)勝恐怖主義,都依靠預(yù)測的質(zhì)量。在這里,《信號與噪聲》可以給你想要的答案。此外還有兩本同樣類別的書,分別是菲利普·特洛克的《超級預(yù)測》和《專家政治判斷》。

No. 2 Weapons of Math Destruction算法霸權(quán):數(shù)學(xué)殺傷性武器的威脅

作者:凱西•奧尼爾(Cathy O’Neill)

 

 

數(shù)據(jù)科學(xué)家凱西•奧尼爾認為,我們應(yīng)該警惕不斷滲透和深入我們生活的數(shù)學(xué)模型——它們的存在,很有可能威脅到我們的社會結(jié)構(gòu)。

通過追蹤一個人的生命軌跡,凱西•奧尼爾試圖在書中揭露數(shù)學(xué)這類殺傷性武器對塑造個人和社會未來的影響。這些“殺傷性武器”會給教師和學(xué)生評分,篩選簡歷,批準(zhǔn)貸款或拒絕貸款,評估員工,甚至監(jiān)督我們的健康狀況,因此凱西•奧尼爾呼吁建模者,要對自己的算法承擔(dān)責(zé)任,并且呼吁政策制定者對模型的使用進行監(jiān)督管理。她還指出,對模型的掌控最終取決于我們自己。這本重要的書迫使我們直面問題,探求真理。

我們生活在一個依賴“算法”的時代,它對我們生活的影響越來越大,我們?nèi)ツ睦锷蠈W(xué),我是不是應(yīng)該貸款買車,我們應(yīng)該花多少錢來買健康保險,這些都不是由人來決定的,而是由大數(shù)據(jù)模型來決定的。從理論上來說,這一模型應(yīng)該讓社會更加公平,因為每一個人的衡量標(biāo)準(zhǔn)都是一樣的,不應(yīng)該存在偏見。

但是,正如凱西•奧尼爾書里所揭示的那樣,事實剛好相反。如今,被廣泛使用的算法模型,即使其本身充斥著錯誤,也依舊不受管束、不被質(zhì)疑。其中,“強化歧視”的問題特別值得反思:如果一個窮學(xué)生因為被借貸模型認定為風(fēng)險過高(僅僅是根據(jù)該學(xué)生所生活的街區(qū)就得出此判斷)而貸不了款,那么接下來,他就會被剝奪能夠幫他擺脫貧困的接受優(yōu)質(zhì)教育機會,繼而陷入一系列的惡性循環(huán)。

因此,我們今天所使用的這些數(shù)學(xué)模型是不透明的、未經(jīng)調(diào)節(jié)的、極富爭議的,有的甚至還是錯誤的。最糟糕的是,數(shù)學(xué)模型和大數(shù)據(jù)算法加劇了偏見與不公。奧尼爾的書似乎對機器學(xué)習(xí)模式持悲觀態(tài)度,但我更愿意把它看作是一種必要的批評:由于圍繞機器學(xué)習(xí)的熱情如此之大,我們需要愿意退后一步并問:這些工具真的能改善人們的生活嗎?作為一個社會,我們應(yīng)該如何接納他們?

讀完本書,你會發(fā)現(xiàn),大數(shù)據(jù)的武器化是無處不在的。也許,當(dāng)你看到世界上最強大的數(shù)據(jù)系統(tǒng)做的這些事,你會產(chǎn)生一些焦慮,但是,對于那些我們未能認識到的問題,我們誰都無法解決。

在作者看來,大數(shù)據(jù)猶如一個黑盒,規(guī)模、傷害和隱秘共存,她在書中引用了大量發(fā)生在美國當(dāng)下的、基于大數(shù)據(jù)和算法的、改變個人生活的案例,并對影響這些城市生活經(jīng)驗的算法做了特別的觀察和研究。

作者認為,數(shù)據(jù)和算法的關(guān)系就像槍械和軍火,數(shù)據(jù)沒有價值觀,是中立的,但來自人類行為的輸入,難免隱含偏向,而算法創(chuàng)造的數(shù)據(jù)又對人類行為產(chǎn)生反作用,從而導(dǎo)致更多的不公。

凱西指出:算法模型一旦運轉(zhuǎn),執(zhí)法行為就會增多,產(chǎn)生的新數(shù)據(jù)又會進一步證明加強執(zhí)法的必要性。形象地說,就是哪里“前科”越多,哪里就越受算法“關(guān)照”,最終形成一個失真,甚至有害的回饋環(huán)路。這個觀點也正是近來Facebook干預(yù)美國大選,國內(nèi)很多專家學(xué)者熱議“今日頭條”推送模式的核心所在。

不過,機器學(xué)習(xí)算法只是工具,和任何工具一樣具有兩面性,使用得當(dāng)也可以造福人類。幸運的是,我們?nèi)蕴幱谠缙陔A段,這意味著我們可以對其進行改造,以確保它們能夠做出客觀的決策,并為大多數(shù)人創(chuàng)造最佳的結(jié)果。我們現(xiàn)在在這方面所做的選擇將在未來幾十年塑造數(shù)據(jù)科學(xué)的未來。

數(shù)據(jù)科學(xué)雖然是一個年輕的領(lǐng)域,但已經(jīng)在數(shù)百萬人的生活中對好與壞產(chǎn)生了巨大的影響。作為這一新領(lǐng)域的開拓者,我們現(xiàn)在的工作人員有義務(wù)確保我們的算法不會變成毀滅性的數(shù)學(xué)武器。

如果你想從事數(shù)據(jù)科學(xué)相關(guān)的工作,這本書絕對是必讀之作。

No. 3 Algorithms to Live By: The Computer Science of Human Decisions 算法之美:指導(dǎo)工作與生活的算法

作者:布萊恩·克里斯汀&湯姆·格里菲思

 

 

How Not to be Wrong: The Power of Mathematical Thinking 魔鬼數(shù)學(xué):大數(shù)據(jù)時代,數(shù)學(xué)思維的力量

作者:喬丹·艾倫伯格(Jordan Ellenberg)

 

 

計算機科學(xué)和統(tǒng)計學(xué)(包括其他所有的研究性學(xué)科)在學(xué)校的課堂上往往會遇到一個問題:學(xué)起來既抽象又無聊。只有當(dāng)它們被應(yīng)用于解決現(xiàn)實的問題的時候,才會變得足夠有趣,讓我們想要去探索。而上述這兩本書都把枯燥的主題轉(zhuǎn)變成了有趣的、信息豐富的描繪,講述了如何在日常生活中使用算法、統(tǒng)計和數(shù)學(xué)。

所謂算法,是指解題方案的準(zhǔn)確而完整的描述,是一系列解決問題的清晰指令,算法代表著用系統(tǒng)的方法描述解決問題的策略機制。如果我們在考慮問題時,清晰地了解我們所與之對應(yīng)的算法,那么就可以更容易地解析問題或者更優(yōu)地解決問題。

例如,在關(guān)于生活方式的算法中,作者展示了該如何利用探索與利用權(quán)衡和最佳停站的概念,找出我們應(yīng)該花多長時間尋找配偶(或新員工、餐廳等)。同樣,我們可以使用排序算法最有效地整理我們的物品,以便快速檢索需要的東西。雖然你可能接觸過這些想法,甚至可以用代碼來寫,但你可能從來沒有利用它們來優(yōu)化自己的生活吧。

而在艾倫伯格的這本書中,主要講述了數(shù)學(xué)的魅力,以及如何獲得用數(shù)學(xué)原則解決生活中問題的技巧。作者認為,數(shù)學(xué)可以幫助我們更好地了解這個世界的結(jié)構(gòu)和本質(zhì),應(yīng)該被放在每個有思想的人的工具箱里,用于更好地解決問題,規(guī)避謬誤和錯誤的方法。這本書摒棄了復(fù)雜的專業(yè)術(shù)語,用現(xiàn)實世界中的逸事、基礎(chǔ)的方程式和簡單的圖表,為讀者帶來一堂零基礎(chǔ)的數(shù)學(xué)課。

艾倫伯格通過故事向我們展示了線性回歸、推理、貝葉斯推理和概率等統(tǒng)計概念的使用和誤用,幫助我們學(xué)會最優(yōu)決策。應(yīng)用概率定律表明,玩彩票總是會導(dǎo)致失敗,除非在少數(shù)情況下,實際回報是積極的。

艾倫伯格這本書的中心引述是數(shù)學(xué)思維,“通過其他方式擴展常識”。在許多情況下,主要是在遙遠的過去,我們的直覺很好地服務(wù)于我們,但在現(xiàn)代世界,有許多情況下,我們的最初反應(yīng)是完全錯誤的。在這種情況下,我們不需要依靠直覺,而是可以使用概率和統(tǒng)計數(shù)據(jù)來做出最佳決策。

這兩本書的嚴(yán)謹(jǐn)程度都是恰到好處的,其中夾雜著一些公式邏輯,還有很多實際案例。在此書中,我發(fā)現(xiàn)了許多從未在課堂上完全掌握的數(shù)據(jù)科學(xué)概念,最后我一遍又一遍地翻閱,體驗了獲得知識時刻的快樂。當(dāng)然,數(shù)學(xué)、統(tǒng)計學(xué)和計算機科學(xué)只在能幫你更好地生活的情況下有用,而且這兩本書都展示了你從未考慮過的這些學(xué)科的用途。

No.4 Thinking, Fast and Slow 思考的快與慢

作者:丹尼爾·卡尼曼(Daniel Kahneman)

 

 

人類是非理性的,我們通常會在生活中的各種情況里做出可怕的決定。然而,一旦理解了為什么我們會這怎么做而不是采取最佳行動時,就可以開始著手改變自己的行為以獲得更好的結(jié)果了,這是就是卡尼曼數(shù)十年實驗成果的核心。他的研究打開了認知心理學(xué)、認知科學(xué)、對理性與幸福的研究以及行為經(jīng)濟學(xué)的新局面,而本書也是他的集大成之作。

卡尼曼在《思考,快與慢》中揭示了三十多種理性偏差,如啟發(fā)式聯(lián)想,其中包括可得性偏見、錨定效應(yīng)、直覺判斷、光環(huán)效應(yīng)等;如過度自信,其中包括后見之明、有效性錯覺、算法判斷等;如前景理論,包括風(fēng)險決策、損失厭惡、稟賦效應(yīng)、四重模式等。它們像一面思維的立體鏡子,360度角照見大腦思考過程和頑固的偏差,讓你認知你自己的思考決策過程。

作為2002年諾貝爾經(jīng)濟學(xué)獎獲得者,卡尼曼和他的研究伙伴阿莫斯·特沃斯基(Amos Tversky,因?qū)Q策過程的研究而著名)以及理查德·塞勒(Richard Thaler,2017年諾貝爾經(jīng)濟學(xué)獎得主)等其他人共同創(chuàng)造了行為經(jīng)濟學(xué)的高光時刻,也讓這個經(jīng)濟學(xué)中本來頗為小眾的分支走進了更多人的視野,它將人們視為非理性的決策者,而非追逐效用最大化的理性人。當(dāng)然事實也的確如此。這使得人們不僅在經(jīng)濟學(xué)上,而且在醫(yī)學(xué)、體育、商業(yè)實踐、節(jié)能和退休基金等生活領(lǐng)域的思維和設(shè)計選擇發(fā)生了一些巨大的轉(zhuǎn)變。我們也可以將本書中的許多發(fā)現(xiàn)應(yīng)用于數(shù)據(jù)科學(xué),例如如何呈現(xiàn)研究結(jié)果等。

《思考,快與慢》的基礎(chǔ)是作者提出的關(guān)于人類的思考框架:系統(tǒng)1和系統(tǒng)2。系統(tǒng)1代指人類的非受控或者說是無意識的思考模式;系統(tǒng)2代指受人自身控制的或為有意識進行的思考模式。用系統(tǒng)1思考或判斷是非?旖莸模瑤缀跬耆Q于直覺和經(jīng)驗,因此人們往往第一時間通過它在腦海中形成觀點。但有時系統(tǒng)1可能得不到結(jié)論甚至得到錯誤的結(jié)論,在這種情況下,人類也經(jīng)常求助系統(tǒng)2進行更為復(fù)雜和費力的思考過程,以補充或糾正系統(tǒng)1。

但是,上述說法不等于系統(tǒng)1是感性的、系統(tǒng)2是理性的。實際上系統(tǒng)2經(jīng)常受到系統(tǒng)1的影響。這種影響可能是正確的,也可能是錯誤的。而且系統(tǒng)2很懶惰,經(jīng)常疏于校驗,從而無法糾正系統(tǒng)1形成的錯誤。

這種差異,使我們的直覺充滿錯誤。卡尼曼和其他科學(xué)家的實驗表明:復(fù)雜而華麗的句子,讓我們覺得信息量豐富、容易信服,盡管可能它們什么都沒說;咬住一支鉛筆保持微笑的表情,也會讓熱人的情緒有實質(zhì)性的提升,因為大腦無法分辨自己是真的高興,還是僅僅被一根小木棍抵住了嘴角———正是認知系統(tǒng)的這種不可靠,以及通常我們獲得信息的不完備,讓我們更可能依賴一些簡單的辦法完成日常生活中的認知任務(wù)。

上述這些都是卡尼曼在傳統(tǒng)心理學(xué)方面的研究,正是這樣的研究讓他認識到,經(jīng)濟學(xué)中理性人的假設(shè)是有缺陷的。人們在進行選擇時考慮的效用,是拿未來的預(yù)期與現(xiàn)在的擁有進行比較,然后才進行判斷。在判斷中還有大腦工作的兩種不同的模式會影響最后的結(jié)果。

這本書對于理解人們?nèi)绾巫龀鰶Q定,以及我們作為數(shù)據(jù)科學(xué)家可以做些什么來幫助人們做出更好的選擇至關(guān)重要。

此外,這本書也有一些其他的結(jié)論,適用描述自我概念:體驗和記憶。體驗自我是我們在一個事件中擁有的瞬間的感覺,但比記憶自我重要得多,記憶自我是我們事后對事件的感知。記憶自我根據(jù)體感高峰的結(jié)束過程來評價一種體驗,這對健康、生活滿意度和強迫自己做不愉快的任務(wù)有著深遠的影響。我們會記住事件的時間比我們經(jīng)歷的時間長得多,所以在一次經(jīng)歷中,我們必須努力最大限度地提高我們記憶自我的未來滿意度。

如果你想了解實際的人類心理學(xué),而不是傳統(tǒng)課堂上的那種理想化的知識,那么這本書是最好的開始。嚴(yán)格地說,卡尼曼并不是一個熱衷于科普書籍的作家,但是他和他的同事杰出的學(xué)術(shù)貢獻,卻深刻地改變了我們對自己的認識。相較之下,近年來很多研究開始將目光投向社會行為的神經(jīng)基礎(chǔ),用磁共振腦成像之類的法子探究問題。卡尼曼的工作專注于人類的行為,嚴(yán)謹(jǐn)?shù)乇苊膺^多關(guān)于機制的推論。在如今的心理學(xué)界看來,似乎不那么時髦了。但是他的實驗充滿巧思與洞見,卻不會是科學(xué)史上曇花一現(xiàn)的觀點。

No.5 The Black Swan: The Impact of the Highly Improbable 黑天鵝:如何應(yīng)對不可預(yù)知的未來

作者: 納西姆•尼古拉斯•塔勒布 (Nassim Nicholas Taleb)

 

 

只有一個地方可以讓塔勒布在名單上占有一席之地,那就是一個局外人。塔勒布曾是一名定量交易員,在2000年和2007年的市場低迷期間賺了大量的錢,他已成為一名有聲學(xué)者研究者,為他的作品贏得了全世界的目光,數(shù)不盡的贊譽和批評接踵而至。那時,塔勒布感知到一種想法:當(dāng)代思維方式的失敗,尤其是在不確定性的時代的失敗,是非常嚴(yán)重的。在《黑天鵝》一書中,塔勒布提出了這樣一個概念:我們對支配人類活動的隨機性視而不見,因而,當(dāng)事情沒有如預(yù)期那樣發(fā)展時,我們就會被毀滅。黑天鵝最初于2007年出版,自2008年和2016年的金融危機意外以來,它變得更加有說服力,完全顛覆了傳統(tǒng)的一套思維模式。

當(dāng)然,根據(jù)中心前提,我們所要思考的問題是:不可能發(fā)生的事件不會經(jīng)常發(fā)生,那么我們應(yīng)該不應(yīng)該擔(dān)心它們?關(guān)鍵點是,雖然每個不可能發(fā)生的事件本身不太可能發(fā)生,但綜合起來,幾乎可以肯定,許多意想不到的事件最終都將出現(xiàn)在你的一生中,甚至在一年內(nèi)。任何一年發(fā)生經(jīng)濟崩潰的可能性都很小,但這種可能性加起來你就會發(fā)現(xiàn),世界上每十年都會出現(xiàn)一次經(jīng)濟衰退,這幾乎是可以肯定的。

我們不僅應(yīng)該預(yù)期到那些能使世界變化的事件會以高頻率發(fā)生,而且不應(yīng)該聽取那些被過去經(jīng)驗所束縛的專家的意見。任何投資股市的人都應(yīng)該知道,過去的表現(xiàn)并不能預(yù)測未來的表現(xiàn),我們應(yīng)該在我們的數(shù)據(jù)科學(xué)模型(使用過去的數(shù)據(jù)進行推測的方法)中考慮這一教訓(xùn)。此外,我們的世界不是正態(tài)分布的,而是長尾分布的,有一些極端事件如大衰退,或一些富有的個人如比爾蓋茨,能夠蓋過其他所有人。所以當(dāng)極端事件發(fā)生時,其實沒有人能準(zhǔn)備好迎接它,因為這種事件遠遠超過了以往任何事件的規(guī)模。

“黑天鵝”對數(shù)據(jù)科學(xué)家很重要,因為它表明,任何僅基于過去性能的模型通常都會出錯,并產(chǎn)生災(zāi)難性的后果。所有機器學(xué)習(xí)模型都是用過去的數(shù)據(jù)構(gòu)建的,這意味著我們不能太信任它們。模型(包括Taleb)是有缺陷的,為了盡可能與現(xiàn)實貼近,我們應(yīng)該確保有系統(tǒng)來處理這些不可避免的失敗。

值得一提的是,塔勒布不僅以其新穎的思想而聞名,而且他的性格也極端好斗。他甚至愿意和所有人較量,經(jīng)常批評像史蒂文·平克(美國實驗心理學(xué)家)這樣的學(xué)者,或者像內(nèi)特·西爾弗(數(shù)據(jù)分析師,曾經(jīng)在2012年美國總統(tǒng)大選中準(zhǔn)確預(yù)測了50個州的選舉結(jié)果)那樣的公眾人物。在我們這個嚴(yán)重扭曲的時代,他的想法有助于理解一些超前的事物,但他的態(tài)度可能有點令人不快。盡管如此,我還是認為這本書值得一讀,因為它提供了一個非主流的思想體系。

(這本書是塔勒布的第二系列的第五部分,因瑟托闡述了他的完整哲學(xué)思想。《黑天鵝》討論了極不可能發(fā)生的事件的概念,而《亂倫:從混亂中獲得的東西》中的第四本書則討論了如何使自己不僅能夠經(jīng)受住破壞,而且能夠因此使自己變得更好。我認為黑天鵝的思想是與數(shù)據(jù)科學(xué)最為貼近的。)

結(jié)論

在盯著電腦屏幕整理了一整天之后,我想不出比看書(印刷品、電子書或有聲讀物都可以)更好的方法來為這充實的一天收尾。需要提醒的是,數(shù)據(jù)科學(xué)需要不斷擴展工具箱中的工具,即使我們想要放松一下,讓我們的思維遠離工作,但也不能停止學(xué)習(xí)。

以上推薦的這些書都是需要全神貫注去閱讀的,它們將教會我們很多關(guān)于數(shù)據(jù)科學(xué)和生活的課程。這些作品將通過展示什么是真正驅(qū)動人類的思想來為更多的技術(shù)作品提供有益的補充。了解人們在現(xiàn)實中的想法而非理想化的模型,對貫徹更有效的數(shù)據(jù)決策來說,與統(tǒng)計它們一樣重要。

譯者:小灼

原文鏈接:https://towardsdatascience.com/a-non-technical-reading-list-for-data-science-d72451429a70

標(biāo)簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:BAT 程序員們常用的開發(fā)工具

下一篇:入門機器學(xué)習(xí),照這個課程清單按順序?qū)W就對了