中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

寫(xiě)給機(jī)器學(xué)習(xí)從業(yè)者的 12 條寶貴建議

2019-04-25    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 

一位微軟的機(jī)器學(xué)習(xí)愛(ài)好者,在學(xué)習(xí)之旅中發(fā)現(xiàn)了一位 SIGKDD 創(chuàng)新獎(jiǎng)獲得者以及國(guó)際機(jī)器學(xué)習(xí)協(xié)會(huì)的聯(lián)合創(chuàng)始人在實(shí)踐中總結(jié)的若干寶貴的經(jīng)驗(yàn)和教訓(xùn)。于是,用本文為機(jī)器學(xué)習(xí)的研究者和從業(yè)者總結(jié)了 12 條經(jīng)驗(yàn),這很難在課本或機(jī)器學(xué)習(xí)入門(mén)課程中找到,但對(duì)成功至關(guān)重要。

機(jī)器學(xué)習(xí)算法承諾,通過(guò)學(xué)習(xí)數(shù)據(jù),能夠弄清楚如何執(zhí)行重要任務(wù)。也就是說(shuō),在不被明確告知要做什么的情況下,從樣例中歸納出來(lái)某種結(jié)論。這意味著數(shù)據(jù)量越大,問(wèn)題就越容易處理。然而,開(kāi)發(fā)成功的機(jī)器學(xué)習(xí)應(yīng)用程序需要相當(dāng)多的所謂“黑科技”,這很難在課本或機(jī)器學(xué)習(xí)入門(mén)課程中找到。

最近偶然發(fā)現(xiàn)了Pedro Domingos 教授的一篇很好的研究論文, 該論文匯集了機(jī)器學(xué)習(xí)研究人員和從業(yè)者的經(jīng)驗(yàn)教訓(xùn)。在這篇文章中,我將與你一起學(xué)習(xí)這些寶貴的教訓(xùn)。

準(zhǔn)備好了解:要避免的陷阱,要關(guān)注的重要問(wèn)題,以及一些常見(jiàn)問(wèn)題的答案。

1. 學(xué)習(xí) = 表征 + 評(píng)估 + 優(yōu)化

你有一個(gè)應(yīng)用程序,你認(rèn)為機(jī)器學(xué)習(xí)可能是一個(gè)很好的選擇,F(xiàn)在,一旦進(jìn)入機(jī)器學(xué)習(xí)的世界,有大量的學(xué)習(xí)算法可供使用,每年發(fā)布數(shù)百種。用哪一個(gè)?

 

 

在這個(gè)巨大的空間中不迷路的關(guān)鍵,是要理解所有學(xué)習(xí)算法都包含三個(gè)核心要素:

表征(Representation): 輸入數(shù)據(jù),即要使用的特征,學(xué)習(xí)器(learner)和分類(lèi)器(classifier)必須以計(jì)算機(jī)可以理解的語(yǔ)言表示。學(xué)習(xí)器可以訓(xùn)練的分類(lèi)器的集合稱(chēng)為學(xué)習(xí)器的假設(shè)空間。如果分類(lèi)器不在假設(shè)空間中,則無(wú)法進(jìn)行學(xué)習(xí)。

說(shuō)明:我們所說(shuō)的分類(lèi)器與學(xué)習(xí)器的含義是什么?假設(shè)有訓(xùn)練數(shù)據(jù),并使用該數(shù)據(jù)構(gòu)建另 ** 一個(gè)程序(模型),例如決策樹(shù)。學(xué)習(xí)器將是從輸入數(shù)據(jù)構(gòu)建決策樹(shù)模型的程序,而決策樹(shù)模型將是 ** 分類(lèi)器(能夠?yàn)槊總(gè)輸入數(shù)據(jù)樣本提供預(yù)測(cè)輸出的東西)。

評(píng)估(Evaluation): 需要一個(gè)評(píng)價(jià)函數(shù)來(lái)區(qū)分好的分類(lèi)器和壞的分類(lèi)器。算法內(nèi)部使用的評(píng)估函數(shù)是一個(gè),而我們希望的分類(lèi)器的外部評(píng)估函數(shù)可能是另外一個(gè)(為了便于優(yōu)化,也由于后面討論的問(wèn)題)。

優(yōu)化(Optimization): 最后,我們需要一種方法來(lái)搜索分類(lèi)器,以便我們可以選擇最好的分類(lèi)器。優(yōu)化技術(shù)的選擇是提高學(xué)習(xí)器效率的關(guān)鍵。開(kāi)始時(shí)使用現(xiàn)成的優(yōu)化器是很常見(jiàn)的做法,如果需要的話,可以稍后用自定義的來(lái)替換它。

下表顯示了這三個(gè)組件中每個(gè)組件的一些常見(jiàn)示例。

 

 

2. 泛化很重要

機(jī)器學(xué)習(xí)的基本目標(biāo)是超越訓(xùn)練集中的樣本進(jìn)行泛化。因?yàn),無(wú)論我們有多少數(shù)據(jù),我們都不太可能在測(cè)試時(shí)再次看到這些確切的樣本。在學(xué)習(xí)上表現(xiàn)出色很容易,初學(xué)者最常見(jiàn)的錯(cuò)誤是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試并產(chǎn)生成功的假象。如果選擇分類(lèi)器然后在新的數(shù)據(jù)上進(jìn)行測(cè)試,這樣做通常不會(huì)比隨機(jī)猜測(cè)更好。所以,從一開(kāi)始就把一些數(shù)據(jù)放在一邊,只在最后用它來(lái)測(cè)試所選的分類(lèi)器,然后在整個(gè)數(shù)據(jù)上學(xué)習(xí)那個(gè)最終的分類(lèi)器。

當(dāng)然,保留數(shù)據(jù)會(huì)減少可供學(xué)習(xí)的數(shù)據(jù)量,這可以通過(guò)進(jìn)行交叉驗(yàn)證來(lái)緩解:將訓(xùn)練數(shù)據(jù)隨機(jī)劃分為(例如)10 個(gè)子集,每次用其中 9 個(gè)子集進(jìn)行訓(xùn)練,用剩下的一個(gè)樣本測(cè)試學(xué)習(xí)后的分類(lèi)器,權(quán)衡它們的結(jié)果來(lái)評(píng)估特定參數(shù)的設(shè)置效果如何。

3. 僅有數(shù)據(jù)是不夠的

把泛化當(dāng)成目標(biāo)時(shí),會(huì)遇到另一個(gè)主要的后果:不管有多少數(shù)據(jù),單憑數(shù)據(jù)是不夠的。假設(shè)我們想從一百萬(wàn)個(gè)樣本中學(xué)習(xí) 100 個(gè)變量的布爾函數(shù)(yes/no 分類(lèi)),這意味著有 2^100-10^6 個(gè)不知道是什么分類(lèi)的樣本。在沒(méi)有更多信息的情況下,這怎么能比拋硬幣更有效呢?

聽(tīng)起來(lái)我們被卡住了吧?幸運(yùn)的是,我們想要在現(xiàn)實(shí)世界中學(xué)習(xí)到的函數(shù),并不是從所有數(shù)學(xué)上可能的函數(shù)一步步地推導(dǎo)出來(lái)的!事實(shí)上,非常一般的假設(shè) – 比如相似的樣本有相似的分類(lèi) – 是機(jī)器學(xué)習(xí)能成功的一個(gè)重要原因。

這意味著領(lǐng)域知識(shí)和對(duì)數(shù)據(jù)的理解對(duì)于做出正確的假設(shè)非常重要。學(xué)習(xí)過(guò)程中對(duì)知識(shí)的需要是很自然的,機(jī)器學(xué)習(xí)不是魔術(shù),它不能從虛無(wú)中得到什么,它所做的是從較少的數(shù)據(jù)中得到更多的信息。與所有的工程一樣,編程也是一項(xiàng)艱巨的工作:我們必須從頭開(kāi)始構(gòu)建一切。學(xué)習(xí)更像是農(nóng)業(yè)耕作,讓大自然做大部分的工作,而農(nóng)民把種子和營(yíng)養(yǎng)物質(zhì)結(jié)合起來(lái)種植農(nóng)作物。學(xué)習(xí)器將知識(shí)與數(shù)據(jù)結(jié)合起來(lái),以編出程序。

4. 過(guò)擬合的多種面孔

過(guò)擬合的問(wèn)題是機(jī)器學(xué)習(xí)中令人煩惱的事。當(dāng)學(xué)習(xí)器輸出一個(gè)對(duì)訓(xùn)練數(shù)據(jù) 100%準(zhǔn)確,但對(duì)測(cè)試數(shù)據(jù)只有 50%準(zhǔn)確的分類(lèi)器時(shí),實(shí)際上它可以輸出一個(gè)對(duì)兩者的準(zhǔn)確度都為 75%的分類(lèi)器,這時(shí)已經(jīng)過(guò)擬合了。

熟悉機(jī)器學(xué)習(xí)的每個(gè)人都知道過(guò)擬合,但它有多種形式,并不是很明顯。理解過(guò)擬合的一種方法是將泛化誤差分解為偏差和方差。

偏差是學(xué)習(xí)器一直學(xué)習(xí)同樣錯(cuò)誤。無(wú)論真實(shí)情況如何,方差是學(xué)習(xí)與真實(shí)信號(hào)無(wú)關(guān)的隨機(jī)事物。用飛鏢來(lái)類(lèi)比可以更好地理解這一點(diǎn),如下圖所示:

 

 

例如,線性學(xué)習(xí)器具有較高的偏差,因?yàn)楫?dāng)兩個(gè)類(lèi)之間的劃分不是一個(gè)清晰的超平面時(shí),學(xué)習(xí)器無(wú)法正確地推導(dǎo)出某種關(guān)系。決策樹(shù)沒(méi)有這個(gè)問(wèn)題,因?yàn)樗鼈兊膶W(xué)習(xí)方法很靈活。但另一方面,它們可能會(huì)有較高的方差, 在同一任務(wù)的不同訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)的決策樹(shù)通常區(qū)別很大,雖然實(shí)際上它們應(yīng)該是相同的。

那么現(xiàn)在,如何應(yīng)對(duì)過(guò)擬合?

交叉驗(yàn)證可以解決這個(gè)問(wèn)題,例如通過(guò)它來(lái)選擇要學(xué)習(xí)的決策樹(shù)的最佳大小。但請(qǐng)注意,這里還有一個(gè)問(wèn)題:如果選擇了太多的參數(shù),從開(kāi)始可能就會(huì)過(guò)擬合,這樣又陷入了同樣的陷阱。

除了交叉驗(yàn)證之外,還有許多方法可以對(duì)抗過(guò)擬合。最受歡迎的是在評(píng)估函數(shù)中添加正則化項(xiàng),另一個(gè)選擇是執(zhí)行類(lèi)似卡方檢驗(yàn)這樣的統(tǒng)計(jì)顯著性檢驗(yàn),以更多分析復(fù)雜性的增加是否會(huì)對(duì)類(lèi)的分布產(chǎn)生任何影響。這里的一個(gè)重點(diǎn)是沒(méi)有特定的技術(shù)“解決”過(guò)擬合問(wèn)題。例如,可以通過(guò)陷入欠擬合(偏差)來(lái)避免過(guò)擬合(方差)。同時(shí),不要試圖學(xué)習(xí)出一個(gè)完美的分類(lèi)器,并沒(méi)有一種技術(shù)總能做到最好(沒(méi)有免費(fèi)的午餐)。

5. 直覺(jué)在高維空間中失效

緊隨過(guò)擬合之后,機(jī)器學(xué)習(xí)中最大的問(wèn)題是維數(shù)的詛咒。這意味著如果輸入是高維的,許多在低維度下正常工作的算法會(huì)變得難以處理。由于固定大小的訓(xùn)練集只覆蓋了輸入空間的一小部分(可能的組合變得巨大),因此隨著樣本維度(即特征的數(shù)量)的增長(zhǎng),正確泛化的難度呈指數(shù)增加。但這就是機(jī)器學(xué)習(xí)既有必要又有困難的原因。如下圖所示,即使從 1-D 過(guò)渡到 3-D,分辨出不同樣本的工作似乎開(kāi)始變得越來(lái)越難——在高維度上,所有的樣本看起來(lái)都是一樣的。

 

 

這里的問(wèn)題是,來(lái)自三維世界的直覺(jué)在高維度上失效。例如高維的橘子,大部分體積都在果皮里,而不是果肉里!

難以置信的是:如果固定數(shù)量的樣本在高維超立方中均勻分布,并且,如果我們通過(guò)將其嵌入超立方中來(lái)近似超球面,那么在高維空間中,超立方體的幾乎所有體積都在超球體之外。這是個(gè)壞消息,因?yàn)樵跈C(jī)器學(xué)習(xí)中,一種類(lèi)型的形狀常常通過(guò)另一種類(lèi)型的形狀近似。

注意:你可能已經(jīng)被所有這些“超(hyper)”給弄糊涂了,超立方內(nèi)部的超球面在二維和三維空間中看起來(lái)會(huì)像下面這樣:

 

 

因此,現(xiàn)在可以理解,構(gòu)建 2 維或 3 維的分類(lèi)器很容易。但在高維度上,很難理解發(fā)生了什么。反過(guò)來(lái),這讓設(shè)計(jì)好的分類(lèi)器變得困難。事實(shí)上,我們經(jīng)常陷入這樣的陷阱:認(rèn)為收集更多的特征永遠(yuǎn)不會(huì)有害,因?yàn)樵谧顗牡那闆r下,它們不會(huì)提供關(guān)于類(lèi)的新信息。但事實(shí)上,維度的詛咒帶來(lái)的問(wèn)題會(huì)超過(guò)它們的好處。

建議:下次當(dāng)考慮添加更多特征時(shí),請(qǐng)考慮當(dāng)維度變得太大時(shí)可能帶來(lái)的潛在問(wèn)題。

6. 特征工程是關(guān)鍵

最終,有些機(jī)器學(xué)習(xí)項(xiàng)目會(huì)成功,有些會(huì)失敗。有什么區(qū)別?最重要的因素很容易識(shí)別,就是所使用的特征。如果有許多獨(dú)立的特征,每一個(gè)都與類(lèi)密切相關(guān),那么學(xué)習(xí)就很容易。另一方面,如果類(lèi)是一個(gè)配方,在使用前需要以復(fù)雜的方式處理其成分(特征),那么事情就會(huì)變得更加困難,特征工程基本上是從現(xiàn)有的特征中創(chuàng)建新的輸入特征。

通常,原始數(shù)據(jù)的形式并不適合學(xué)習(xí),不過(guò)可以從中構(gòu)建可用于學(xué)習(xí)的特征。事實(shí)上,這通常是機(jī)器學(xué)習(xí)項(xiàng)目中的大部分工作。它通常也是最有趣的部分之一,直覺(jué)、創(chuàng)造力和“暗黑藝術(shù)”,與技術(shù)一樣重要。

第一次嘗試機(jī)器學(xué)習(xí)的人通常會(huì)驚訝于實(shí)際花費(fèi)在機(jī)器學(xué)習(xí)項(xiàng)目上訓(xùn)練的時(shí)間如此之少。但是,如果考慮到收集數(shù)據(jù)、整合數(shù)據(jù)、清理數(shù)據(jù)和預(yù)處理數(shù)據(jù)是多么耗時(shí),以及在特征設(shè)計(jì)中可以進(jìn)行多少?lài)L試和遇到多少錯(cuò)誤,那么這就可以理解了。此外,機(jī)器學(xué)習(xí)不是構(gòu)建數(shù)據(jù)集和運(yùn)行學(xué)習(xí)器的一次性過(guò)程,而是運(yùn)行學(xué)習(xí)器、分析結(jié)果、修改數(shù)據(jù)和 / 或?qū)W習(xí)器的重復(fù)迭代過(guò)程。訓(xùn)練往往是最快的一部分,但那是因?yàn)槲覀円呀?jīng)很好地掌握了它!特征工程更為困難,因?yàn)樗翘囟I(lǐng)域的,而學(xué)習(xí)器基本上可以是通用的。當(dāng)然,機(jī)器學(xué)習(xí)的圣杯之一就是自動(dòng)化越來(lái)越多的特征工程過(guò)程。

 

 

7. 更多的數(shù)據(jù)擊敗更聰明的算法

假設(shè)已經(jīng)構(gòu)建了盡可能好的一組特征,但是得到的分類(lèi)器仍然不夠精確。你現(xiàn)在能做什么?主要有兩種選擇:設(shè)計(jì)一個(gè)更好的學(xué)習(xí)算法,或者收集更多的數(shù)據(jù)(更多的樣本,可能還有更多的原始特征)。機(jī)器學(xué)習(xí)研究人員會(huì)致力于改進(jìn)設(shè)計(jì),但在現(xiàn)實(shí)世界中,最快的成功之路往往是獲取更多的數(shù)據(jù)。

根據(jù)經(jīng)驗(yàn)法則,一個(gè)擁有大量數(shù)據(jù)的傻瓜算法比一個(gè)擁有少量數(shù)據(jù)的聰明算法要好。

通常在計(jì)算機(jī)科學(xué)中,兩個(gè)主要的有限資源是時(shí)間和內(nèi)存。在機(jī)器學(xué)習(xí)中,還有第三個(gè):訓(xùn)練數(shù)據(jù)。在這三者之中,今天的主要瓶頸通常是時(shí)間——大量數(shù)據(jù)可用,但沒(méi)有足夠的時(shí)間來(lái)處理它,導(dǎo)致數(shù)據(jù)并沒(méi)有被好好利用。這意味著在實(shí)踐中,更簡(jiǎn)單的分類(lèi)器最終會(huì)得到好的結(jié)果,因?yàn)閺?fù)雜的分類(lèi)器需要很長(zhǎng)時(shí)間才能學(xué)習(xí)。

更聰明的算法并不能得到更好的結(jié)果的部分原因是,它們最終都在做同樣的事情 – 所有的學(xué)習(xí)器基本上都是通過(guò)將附近的樣本分組到同一個(gè)類(lèi)中來(lái)工作的,關(guān)鍵的區(qū)別在于“附近”的含義。當(dāng)數(shù)據(jù)的分布不均勻時(shí),即使比較復(fù)雜的學(xué)習(xí)器也可以產(chǎn)生差別很大的分類(lèi)結(jié)果邊界,他們最終仍然會(huì)在重要區(qū)域(具有大量訓(xùn)練樣本的區(qū)域,也可能是大多數(shù)測(cè)試樣本出現(xiàn)的地方)做出相同的預(yù)測(cè)。如下圖所示,無(wú)論是一條奇特的曲線、一條直線還是一個(gè)階梯邊界,最終都可以得到相同的預(yù)測(cè):

 

 

通常,首先嘗試最簡(jiǎn)單的學(xué)習(xí)器(例如,邏輯回歸之前的樸素貝葉斯,支持向量機(jī)之前的 k- 最近鄰)。更復(fù)雜的學(xué)習(xí)器是誘人的,但通常更難使用,因?yàn)樗鼈冃枰D(zhuǎn)動(dòng)更多的旋鈕來(lái)獲得好的結(jié)果,并且它們的內(nèi)部更像是黑盒子。

8. 學(xué)習(xí)許多模型,而不只是一個(gè)

在機(jī)器學(xué)習(xí)的早期,人們會(huì)努力嘗試許多不同的學(xué)習(xí)器,然后選擇最好的。但后來(lái)研究人員注意到,如果我們不選擇所發(fā)現(xiàn)的最佳學(xué)習(xí)器,而是將許多學(xué)習(xí)器組合在一起,結(jié)果會(huì)更好(通常會(huì)更好),而且對(duì)用戶來(lái)說(shuō)幾乎沒(méi)有額外的工作。創(chuàng)建這樣的模型集合現(xiàn)在非常常見(jiàn):

在最簡(jiǎn)單的技術(shù)(稱(chēng)為bagging)中,我們使用相同的算法,對(duì)原始數(shù)據(jù)的不同子集進(jìn)行訓(xùn)練。最后,我們只需要權(quán)衡這些結(jié)果,或通過(guò)某種投票機(jī)制將它們結(jié)合起來(lái)。

在boosting技術(shù)中,學(xué)習(xí)器依次接受訓(xùn)練。隨后每一個(gè)都將大部分注意力放在前一個(gè)預(yù)測(cè)失誤的數(shù)據(jù)點(diǎn)上,一直到對(duì)結(jié)果滿意為止。

在stacking技術(shù)中,相互獨(dú)立的分類(lèi)器的輸出作為新分類(lèi)器的輸入,直到給出最終的預(yù)測(cè)結(jié)果。

在 Netflix Prize 競(jìng)賽中,來(lái)自世界各地的團(tuán)隊(duì)競(jìng)相構(gòu)建最佳的視頻推薦系統(tǒng)。隨著比賽的進(jìn)行,團(tuán)隊(duì)發(fā)現(xiàn),將他們的學(xué)習(xí)器與其他團(tuán)隊(duì)的相結(jié)合獲得了最佳結(jié)果,進(jìn)而他們合并為越來(lái)越大的團(tuán)隊(duì)。優(yōu)勝者和亞軍都是超過(guò) 100 個(gè)學(xué)習(xí)器的組合,這兩個(gè)組合的結(jié)合進(jìn)一步提高了效果。在一起更好!

 

 

9. 理論并不能保證什么

機(jī)器學(xué)習(xí)論文充滿理論上的保證,對(duì)這些保證我們能做些什么?歸納法傳統(tǒng)上是與演繹法相對(duì)立的:在演繹法中,可以保證結(jié)論是正確的;但在歸納法中,情況則截然不同。近幾十年的主要發(fā)展之一是認(rèn)識(shí)到,事實(shí)上,如果我們?cè)敢饨邮芨怕噬系谋WC,就可以保證歸納的結(jié)果。

 

 

例如,可以保證,如果給定足夠大的訓(xùn)練集,并且具有很高的概率,那么學(xué)習(xí)器將返回一個(gè)泛化得很好的假設(shè),或者找不到一致的假設(shè)。

另一種常見(jiàn)的理論保證是,給定無(wú)限的數(shù)據(jù),學(xué)習(xí)器可以保證輸出正確的分類(lèi)器。在實(shí)踐中,由于我們前面討論的偏差 / 方差的情況,如果學(xué)習(xí)器 A 比學(xué)習(xí)器 B 在給定的無(wú)限數(shù)據(jù)下更好,則 B 在給定有限數(shù)據(jù)的情況下通常比 A 更好。

理論上的保證在機(jī)器學(xué)習(xí)中的主要作用不是作為實(shí)際決策的標(biāo)準(zhǔn),而是理解算法設(shè)計(jì)的源泉。

10. 簡(jiǎn)單并不意味著準(zhǔn)確

在機(jī)器學(xué)習(xí)中,奧卡姆剃刀定律通常被認(rèn)為是指,如果兩個(gè)分類(lèi)器具有相同的訓(xùn)練錯(cuò)誤,兩個(gè)分類(lèi)器中較簡(jiǎn)單的分類(lèi)器可能具有較低的測(cè)試誤差。

 

 

但事實(shí)并非如此,我們?cè)谇懊婵吹搅艘粋(gè)反例:即使在訓(xùn)練誤差為零之后,通過(guò)添加分類(lèi)器進(jìn)行增強(qiáng)的分類(lèi)器組合的泛化誤差仍在不斷地增加。與直覺(jué)相反,模型的參數(shù)數(shù)量與其過(guò)擬合的傾向之間沒(méi)有必然的聯(lián)系。也就是說(shuō),在機(jī)器學(xué)習(xí)中,更簡(jiǎn)單的假設(shè)仍然是首選,因?yàn)楹?jiǎn)單本身就是一種美德,而不是因?yàn)樗馕吨鴾?zhǔn)確性。

11. 可表征并不意味著可學(xué)習(xí)

函數(shù)可以被表征,并不意味著它可以被學(xué)習(xí)。例如,標(biāo)準(zhǔn)的決策樹(shù)學(xué)習(xí)器不能學(xué)習(xí)葉節(jié)點(diǎn)多于訓(xùn)練樣本的樹(shù)。

給定有限的數(shù)據(jù)、時(shí)間和內(nèi)存,標(biāo)準(zhǔn)的學(xué)習(xí)器只能學(xué)習(xí)所有可能函數(shù)的一小部分,而這些子集對(duì)于具有不同表征的學(xué)習(xí)器是不同的。因此,關(guān)鍵在于嘗試不同的學(xué)習(xí)器(并盡可能將它們結(jié)合起來(lái))是值得的。

12. 相關(guān)性并不意味著因果關(guān)系

我們都聽(tīng)說(shuō)過(guò),相關(guān)性并不意味著因果關(guān)系,但人們?nèi)匀粌A向于認(rèn)為相關(guān)性意味著因果關(guān)系。

 

 

通常,學(xué)習(xí)預(yù)測(cè)模型的目標(biāo)是將它們用作行動(dòng)指南。如果我們發(fā)現(xiàn)啤酒和尿布經(jīng)常在超市被一起買(mǎi)走,那么把啤酒放在尿布區(qū)旁邊或許會(huì)增加銷(xiāo)量。但除非我們進(jìn)行實(shí)際的實(shí)驗(yàn),否則很難判斷這是否屬實(shí)。相關(guān)性是潛在因果關(guān)系的標(biāo)志,我們可以將其作為進(jìn)一步調(diào)查的指南,而不是作為我們的最終結(jié)論。

結(jié) 論

像任何一門(mén)學(xué)科一樣,機(jī)器學(xué)習(xí)也有許多的“民間智慧”,雖然很難獲得,但對(duì)成功至關(guān)重要。

作者:Samia Khalid 譯者:楊雷

原文鏈接:https://towardsml.com/2019/04/09/12-key-lessons-from-ml-researchers-and-practitioners/

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:淺談大數(shù)據(jù)開(kāi)發(fā)工程師的兩年工作經(jīng)驗(yàn)總結(jié)

下一篇:統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)到底有什么區(qū)別?