中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

2019-11-14    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

如果你參加過統(tǒng)計學(xué)入門課程,就會知道數(shù)據(jù)點可以用來激發(fā)靈感,也可以用來測試?yán)碚,但兩者卻不能兼顧,這是為什么呢?

 

 

圖1

人類擅長在所有的事物中尋找對應(yīng)的模式。 真模式,假模式,命名的模式。 我們是那種能在薯片上找到貓王的臉的生物。 如果你傾向于將模式與洞察力等同起來,請記住有三種數(shù)據(jù)模式:

1、存在于你的數(shù)據(jù)集中和數(shù)據(jù)之外的模式/事實

2、僅存在于數(shù)據(jù)集中的模式/事實

3、只存在于你想象中的模式/事實

 

 

圖2:A data pattern can exist (1) in the entire sample, or (3) only in xkcd

數(shù)據(jù)模式可以存在于(1)所有感興趣的人群中,(2)僅僅在樣本中,或者(3)只存在于你的頭腦中

哪一種對你來說更有用,取決于你的目標(biāo)是什么

一、追求靈感

你追求的是純粹的靈感,那么它們都非常適用。即使是來自術(shù)語apophenia中的奇特的定義apopheny(人類有錯誤地感知不相關(guān)事物之間的聯(lián)系和意義的傾向)也可以激發(fā)你(文章里面的稱呼統(tǒng)一一下,要么都你,要么都你吧)的創(chuàng)意。 創(chuàng)造力是沒有特定的答案的,所以你需要做的就是查看你的數(shù)據(jù),并享受它帶來的樂趣。 創(chuàng)造力是一種額外的收獲,盡量不要在這個過程中浪費太多時間。

二、崇尚事實

政府想要向你征稅的時候,它一點也不關(guān)心你這一年除了財務(wù)數(shù)據(jù)之外的模式。 基于事實的決定是,通過你的欠債情況,分析去年的數(shù)據(jù)得出應(yīng)該采取的方法。它會基于事實對你所欠下的債務(wù)做出決定,而做出決定的方法就是分析去年的數(shù)據(jù)。換句話說,查看數(shù)據(jù)并使用公式進(jìn)行評估。你只需要對手頭的數(shù)據(jù)進(jìn)行描述性統(tǒng)計分析。前面兩種模式都可以很好地做到這一點。

三、在不確定的情況下做出決策

 

 

騰訊視頻:統(tǒng)計思維-1-什么是統(tǒng)計數(shù)據(jù)

YouTube:https://youtu.be/OJt-k9h9pmk

有時,理想和現(xiàn)實是有差距的,當(dāng)你不具備做決定所需要的全部信息時,你就需要在不確定性中尋找方向,選擇一個合理的行動方案。

這就是統(tǒng)計學(xué),它是一門會改變你在不確定情況下思維方式的科學(xué)。它的目的是能產(chǎn)生一個像icarus一樣的飛躍,突破你的知識局限,而不是遇到短板就突然結(jié)束。

這就是數(shù)據(jù)科學(xué)的核心挑戰(zhàn):如何應(yīng)對數(shù)據(jù)不足的情況。

在你離開一個斷崖式的障礙之前,你當(dāng)然會希望你在現(xiàn)實中可以運用的模式是可以突破它的。換句話說,模式必須一般化才能真正有用。

 

 

圖3:Source: xkcd

在三種類型中,如果你是在不確定的情況下做出決策,那么只有第一種(可推廣的)模式是安全的。 不幸的是,你還會在數(shù)據(jù)中發(fā)現(xiàn)其他類型的模式,這也是數(shù)據(jù)科學(xué)的核心問題: 如何應(yīng)對數(shù)據(jù)不足的情況。

四、泛化

如果你認(rèn)為從數(shù)據(jù)中提取無用的模式純粹是人類才會做出的事情,那就大錯特錯了!如果你不小心,機(jī)器也會自動為你做出同樣的蠢事。

ML / AI的全部要點是對出現(xiàn)的新情況進(jìn)行正確的歸納。

機(jī)器學(xué)習(xí)是一種能做出,許多類似決策的方法,這些決策涉及在算法中查找數(shù)據(jù)中的模式,并使用這些模式對全新數(shù)據(jù)做出正確決策。 在ML / AI術(shù)語中,泛化是指這個模型能夠很好地處理以前從未見過的數(shù)據(jù)。 基于模式的方法如果只能在原來的數(shù)據(jù)上起作用,那又有什么用處呢?ML / AI的全部要點是對出現(xiàn)的新情況也能通用。

 

 

圖4

這就是為什么我們列表中的第一種模式是唯一適合機(jī)器學(xué)習(xí)的模式。它是信號的一部分,其余部分只是干擾信息(這些干擾只存在于舊數(shù)據(jù)中,分散了你對于可泛化模型的注意力)。

信號:存在于你的數(shù)據(jù)集中以及它之外的模式。

噪聲:僅存在于數(shù)據(jù)集中的模式。

事實上,在機(jī)器學(xué)習(xí)中,“過擬合”指的是獲得一個處理原始干擾而不是新數(shù)據(jù)的解決方案。我們在機(jī)器學(xué)習(xí)中所做的幾乎所有工作都是為了避免過度擬合。

五、尋找合適的模式

假設(shè)你(或你的機(jī)器)從數(shù)據(jù)中提取的模式超出了你的想象,那么它是哪種模式呢?它是存在于感興趣的對象(“信號”)中的真實現(xiàn)象,還是當(dāng)前數(shù)據(jù)集的特性(“噪聲”)。如何判斷在訪問數(shù)據(jù)集時發(fā)現(xiàn)了哪種模式?

如果你已經(jīng)查看了所有可用的數(shù)據(jù),那么你就被困住了,無法判斷你的模式是否存在于其他地方。統(tǒng)計性假設(shè)檢驗的分析手段取決于出現(xiàn)的意外情況,而對數(shù)據(jù)中已經(jīng)存在的模式可能會出現(xiàn)的意外進(jìn)行模擬,效果會差異性很大。

 

 

圖5

這有點像在云中看到兔子的形狀,然后使用相同的云測試所有的云是否都像兔子。我希望你們需要一些新的云來驗證你們的理論。

任何用來激發(fā)理論或問題的數(shù)據(jù)點都不能用來測試同一理論

在查看數(shù)據(jù)之前要先提出問題

數(shù)學(xué)從來都不是基本常識的反制

我們在這里得到了一個結(jié)論。 如果你在尋求靈感的時候用光了你的數(shù)據(jù)集,你就不能再用它來嚴(yán)格測試它所帶來的理論(無論你多么充分的使用數(shù)學(xué),因為數(shù)學(xué)絕不是基本常識的反制)。

六、進(jìn)行艱難的選擇

這意味著你必須進(jìn)行選擇! 如果你只有一個數(shù)據(jù)集,你就不得不問自己:“我是否有認(rèn)真思索,設(shè)置了所有的統(tǒng)計性假設(shè)檢驗,然后仔細(xì)采取嚴(yán)格的方法,或者只是挖掘數(shù)據(jù)獲取了靈感。

這里的問題是,你只有一個數(shù)據(jù)集,而你需要不止一個數(shù)據(jù)集。如果你有很多數(shù)據(jù),那么我會為你模擬一個黑客攻擊,擾亂你的思路。

 

 

圖6

七、奇特的技巧

要想在數(shù)據(jù)科學(xué)中勝出,只需通過拆分?jǐn)?shù)據(jù)將一個數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個數(shù)據(jù)集。然后用一個獲取靈感,另一個用于嚴(yán)格的測試。如果最初啟發(fā)你的模式也存在于那些沒有機(jī)會影響你的觀點的數(shù)據(jù)中,那么這將是一個更有希望的選擇,這種模式就像是存在于貓砂里的東西,你要從中挖出你的數(shù)據(jù)。

如果相同的現(xiàn)象存在于兩個數(shù)據(jù)集中,也許這是一個普遍的現(xiàn)象,它也存在于這些數(shù)據(jù)集中的任何地方。

八、令人驚嘆

如果未經(jīng)審視的生活不值得過下去,那么以下四個詞就是生活的準(zhǔn)則:把該死的數(shù)據(jù)拆開。

如果每個人都能分享自己的數(shù)據(jù),世界會變得更好。我們會有更優(yōu)的答案(從統(tǒng)計學(xué))到更好的問題(從分析學(xué))。人們不把數(shù)據(jù)分割作為一種強(qiáng)制性習(xí)慣的唯一原因是,在上個世紀(jì),它是一種奢侈的事情,很少有人能負(fù)擔(dān)得起;數(shù)據(jù)集非常小,如果你試圖拆分它們,那么可能就什么都沒有了。(在這里可以了解更多關(guān)于數(shù)據(jù)科學(xué)史的信息。)

 

 

圖7

將你的數(shù)據(jù)拆分為一個探索性數(shù)據(jù)集,每個人都可以挖掘靈感和測試數(shù)據(jù)集,以后專家可以使用這些數(shù)據(jù)集嚴(yán)格確認(rèn)在探索階段發(fā)現(xiàn)的任何“見解”。

如果你沒有拆分?jǐn)?shù)據(jù)的習(xí)慣,你可能會被困在20世紀(jì)。

如果你有大量的數(shù)據(jù),但是你看到的是未分割的數(shù)據(jù)集,那么你的瓶頸可能就是會受到老式視角的影響。每個人都習(xí)慣了陳舊的思維方式,卻忘記了與時俱進(jìn)。

九、機(jī)器學(xué)習(xí)是數(shù)據(jù)分裂的產(chǎn)物

說到底,這里的想法很簡單。使用一個數(shù)據(jù)集來形成一個理論,發(fā)號施令,然后開始執(zhí)行,證明你知道你在一個全新的數(shù)據(jù)集中談?wù)摰氖鞘裁础?/span>

為了更健康的數(shù)據(jù)文化,數(shù)據(jù)分割是最簡單且快速解決方案。

這就是你如何在統(tǒng)計數(shù)據(jù)中保持安全,以及你如何避免因過度擬合ML / AI而被活活吃掉的方法。 事實上,機(jī)器學(xué)習(xí)的歷史就是數(shù)據(jù)分裂的歷史。

十、如何在數(shù)據(jù)科學(xué)中運用最好的理念

為了利用數(shù)據(jù)科學(xué)中最佳創(chuàng)意,你所要做的就是確保將一些測試數(shù)據(jù)放在窺探者無法觸及的地方,然后對其余的數(shù)據(jù)進(jìn)行充分的分析。

要贏得數(shù)據(jù)科學(xué),只需通過拆分?jǐn)?shù)據(jù)將一個數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個。

如果你認(rèn)為他們?yōu)槟闾峁┝顺鏊麄兯剿餍畔⒌目刹僮鞫床炝,請使用你的秘密測試數(shù)據(jù)來檢查他們的結(jié)論。 就這么簡單!

小結(jié):數(shù)據(jù)科學(xué)需要強(qiáng)大的思維邏輯,與時俱進(jìn)的洞察力,還要能膽大心細(xì)摒棄一系列的干擾信息。即使是機(jī)器也并不能脫離人腦自行工作,還需要在理論與精準(zhǔn)模式的加持下不斷探索,這可真不是一項簡單的工作。

原文鏈接:https://medium.com/@kozyrkov/the-most-powerful-idea-in-data-science-78b9cd451e72

標(biāo)簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:超4.19億賬戶信息遭泄露,F(xiàn)acebook回應(yīng):數(shù)據(jù)庫已刪除

下一篇:21個必知的機(jī)器學(xué)習(xí)開源工具,涵蓋5大領(lǐng)域