站長資訊平臺

機(jī)器學(xué)習(xí)并不“萬能”

2019-08-21 來源：raincent

機(jī)器學(xué)習(xí)有時候是好的解決方案，有時候則不是。

“如果一個人可以在1秒以內(nèi)完成一項(xiàng)思維任務(wù)，那么可能在現(xiàn)在或者不久的將來，我們可以使用人工智能(AI)來自動化處理這項(xiàng)任務(wù)。”

——吳恩達(dá)

本文讀者大多數(shù)比較熟悉機(jī)器學(xué)習(xí)，也會使用相關(guān)算法來根據(jù)數(shù)據(jù)對結(jié)果進(jìn)行分類和預(yù)測。然而，很重要的一點(diǎn)，就是機(jī)器學(xué)習(xí)并不是解決一切問題的萬能鑰匙。機(jī)器學(xué)習(xí)如此有用，所以大家很難接受一個事實(shí)——有時候機(jī)器學(xué)習(xí)并不是一個問題的最佳解決方法。

這篇文章就是想告訴大家，機(jī)器學(xué)習(xí)有時候是好的解決方案，有時候則不是。

眾所周知，機(jī)器學(xué)習(xí)作為人工智能的一部分，在過去十年對世界產(chǎn)生了革命性的影響。信息爆炸引起了大數(shù)據(jù)的采集，尤其是像臉書、谷歌這樣的大公司。數(shù)據(jù)量加上處理器功耗和計(jì)算機(jī)并行處理的快速發(fā)展，使得大數(shù)據(jù)的獲取和學(xué)習(xí)變得相對容易。

今天，對機(jī)器學(xué)習(xí)和人工智能的吹捧無處不再。這可能是對的，因?yàn)檫@個領(lǐng)域的潛力是巨大的。人工智能公司數(shù)量在過去幾年里爆發(fā)式增加，根據(jù) Indeed 的一份報告，2015-2018 年，與人工智能相關(guān)的崗位數(shù)量增加了 100%。

截至2018年12月，福布斯發(fā)現(xiàn) 47% 的企業(yè)在其業(yè)務(wù)流程中包含至少一個人工智能功能。根據(jù) Deloitte 的報告，內(nèi)置 AI 和基于云的 AI 開發(fā)服務(wù)在企業(yè)軟件的滲透率估計(jì)分別達(dá)到 87% 和 83%。這些數(shù)據(jù)是非常驚人的——如果近期你想做些職業(yè)變動，人工智能看上去是個不錯的選擇。

一切看上去都挺美好的?公司滿意，想來消費(fèi)者也是滿意的——否則企業(yè)是不會使用人工智能的。

這很好，因?yàn)槲沂菣C(jī)器學(xué)習(xí)和人工智能的超級粉絲。然而，有時候使用機(jī)器學(xué)習(xí)就沒什么必要，也說不通，甚至在操作的時候會給人帶來困難。

局限1——倫理

眾所周知，機(jī)器學(xué)習(xí)作為人工智能的一部分，在過去十年對世界產(chǎn)生了革命性的影響。信息爆炸引起了大數(shù)據(jù)的采集，尤其是像臉書、谷歌這樣的大公司。數(shù)據(jù)量加上處理器功耗和計(jì)算機(jī)并行處理的快速發(fā)展，使得大數(shù)據(jù)的獲取和學(xué)習(xí)變得相對容易。

不難理解為什么機(jī)器學(xué)習(xí)會對世界產(chǎn)生如此大的影響，不用再明確它的能力是什么，可能更重要的，是知道它的局限是什么。尤瓦爾·赫拉利創(chuàng)造了有名的“數(shù)據(jù)主義”一詞，指的是我們正在進(jìn)入的一個假定的文明新階段，在這個階段里，我們對算法和數(shù)據(jù)的信任超過了對我們自身判斷和邏輯的信任。

雖然會覺得這個想法可笑，但你想想上次去旅行的時候，是不是跟著 GPS 的導(dǎo)航而不是自己看著地圖走——你質(zhì)疑過 GPS 的判斷嗎?人們盲目地跟隨 GPS 的指引，結(jié)果掉進(jìn)了湖里...

信任數(shù)據(jù)和算法超過自身的判斷，有利有弊。顯然地，我們從算法中獲益，不然一開始也不會使用。算法通過可用數(shù)據(jù)作出預(yù)期判斷來實(shí)現(xiàn)自動化處理。雖然有時候，這意味著某個人的工作會被一種算法取代，產(chǎn)生一些倫理問題。加之，如果事情變得糟糕，我們應(yīng)歸責(zé)于誰?

最近討論最廣泛的例子就是自動駕駛——我們應(yīng)該如何選擇汽車在撞死人后應(yīng)該作出的反應(yīng)?未來我們在購買汽車的時候，也不得不選擇自己購買自動駕駛車輛的倫理框架嗎?

如果我的自動駕駛車在路上撞死了人，那么是誰的責(zé)任?

這些都是引人深思的問題，但并不是本文的主要目的。顯然，機(jī)器學(xué)習(xí)不能告訴我們應(yīng)該接受什么規(guī)范價值，即在世界上特定的處境里，應(yīng)該如何采取行動。就像大衛(wèi)·休謨著名諺語所說，一個人永遠(yuǎn)不能從“本來如此”得出“應(yīng)該如此”。

限制2——確定性問題

這是我個人必須面對的一個問題，因?yàn)槲业膶I(yè)領(lǐng)域是環(huán)境科學(xué)，它嚴(yán)重依賴于計(jì)算建模和使用傳感器/物聯(lián)網(wǎng)設(shè)備。

機(jī)器學(xué)習(xí)對于傳感器來說是非常強(qiáng)大的，當(dāng)連接到其他測量環(huán)境變量(如溫度、壓力和濕度)的傳感器時，機(jī)器學(xué)習(xí)可以幫助校準(zhǔn)和校正傳感器。這些傳感器信號之間的相關(guān)性可以用來發(fā)展自校準(zhǔn)程序，這在我研究的大氣化學(xué)研究領(lǐng)域中是一個熱點(diǎn)研究課題。

然而，當(dāng)涉及到計(jì)算建模時，事情會變得更有趣。

運(yùn)行模擬全球天氣、地球的排放和這些排放的傳輸?shù)挠?jì)算模型在計(jì)算上是非常昂貴的。事實(shí)上，計(jì)算成本太高，即使在超級計(jì)算機(jī)上運(yùn)行，研究級的模擬也可能需要數(shù)周的時間。

MM5和WRF是這方面的很好的例子，它們是用于氣候研究和在早間新聞上給你天氣預(yù)報的數(shù)值天氣預(yù)報模型。知道天氣預(yù)報員一整天都做些什么嗎?答案：運(yùn)行并研究這些模型。

運(yùn)行天氣模型是很好，但是現(xiàn)在我們有了機(jī)器學(xué)習(xí)，我們是否可以用它來獲取我們的天氣預(yù)報呢?我們能利用衛(wèi)星、氣象站的數(shù)據(jù)，并使用基本的預(yù)測算法來判斷明天是否會下雨嗎?

令人驚訝，答案是肯定的。如果我們了解某一區(qū)域周圍的空氣壓力、空氣中的濕度水平、風(fēng)速、與相鄰點(diǎn)及其自身變量有關(guān)的信息，就有可能訓(xùn)練，例如，神經(jīng)網(wǎng)絡(luò)。但代價是什么?

用一個有上千個輸入的神經(jīng)網(wǎng)絡(luò)來確定明天波士頓是否會下雨是可能的。然而，利用神經(jīng)網(wǎng)絡(luò)忽略了整個天氣系統(tǒng)的物理過程。

機(jī)器學(xué)習(xí)是隨機(jī)的，而不是確定性的。

神經(jīng)網(wǎng)絡(luò)不理解牛頓第二定律，或者說密度不可能是負(fù)的-沒有物理約束。

然而，這可能不會是一個長期的限制。有多個研究人員正在研究在神經(jīng)網(wǎng)絡(luò)和其他算法中加入物理約束，以便它們能夠被用于類似這樣的目的。

局限3——數(shù)據(jù)

這是最明顯的限制。模型喂得不好，輸出結(jié)果就不好，主要表現(xiàn)為兩種方式：缺乏數(shù)據(jù)和缺乏優(yōu)質(zhì)數(shù)據(jù)。

缺乏數(shù)據(jù)

許多機(jī)器學(xué)習(xí)算法在給出有用結(jié)果之前需要大量的數(shù)據(jù)，一個好的例子就是神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是需要大量訓(xùn)練數(shù)據(jù)的數(shù)據(jù)喂養(yǎng)機(jī)器。網(wǎng)絡(luò)的架構(gòu)越大，產(chǎn)生可用結(jié)果需要的數(shù)據(jù)就越多。重復(fù)使用數(shù)據(jù)是不好的想法，一定程度上數(shù)據(jù)增強(qiáng)是有用的，但是有更多的數(shù)據(jù)往往是更好的解決方法。

如果可以獲得數(shù)據(jù)，那就用上。

缺乏優(yōu)質(zhì)數(shù)據(jù)

雖然看上去相似，這種情況和上述情況也是不同的。我們來想象一下，你認(rèn)為你可以通過給神經(jīng)網(wǎng)絡(luò)放入1萬個生成的假數(shù)據(jù)來蒙混過關(guān)，當(dāng)你把它們放進(jìn)入的時候，會發(fā)生什么?

網(wǎng)絡(luò)會自己訓(xùn)練自己，當(dāng)你用一組沒見過的數(shù)據(jù)測試網(wǎng)絡(luò)的時候，效果就不會好：你有了數(shù)據(jù)，但是數(shù)據(jù)的質(zhì)量沒有達(dá)到標(biāo)準(zhǔn)。

同樣地，缺乏優(yōu)質(zhì)的特征會導(dǎo)致算法表現(xiàn)不佳，缺乏優(yōu)質(zhì)的正確標(biāo)注數(shù)據(jù)也會限制模型的能力。沒有一家公司愿意使用比人工水平誤差還大的機(jī)器學(xué)習(xí)模型。

類似地，將在一種情況下一組數(shù)據(jù)訓(xùn)練出地模型應(yīng)用于另一種情況，效果并不相當(dāng)。目前為止我發(fā)現(xiàn)最好的例子，就是乳腺癌預(yù)測。

胸部X光數(shù)據(jù)庫包含了大量照片，但是近幾年這些數(shù)據(jù)庫面臨一個共同的引發(fā)熱議的問題——幾乎所有的X光片都來源于白人女性。這聽起來不像什么大事，但實(shí)際上，因?yàn)闄z測和獲取醫(yī)療的差異等各種因素，黑人女性死于乳腺癌的概率已達(dá)到了42%。因此，主要基于白人女性訓(xùn)練出的算法，對黑人女性并不友好。

在這個例子里，需要的就是在訓(xùn)練集中增加更多黑人病人的 X 光片數(shù)量。更多與導(dǎo)致這42%增加的相關(guān)特征，以及通過相關(guān)性進(jìn)行數(shù)據(jù)分層的更客觀的算法。

如果你還有疑問或想要了解更多，建議閱讀這篇文章。

局限4——誤用

和前面第二個討論的局限性相關(guān)，不管是自然界中的確定性問題還是統(tǒng)計(jì)性問題，人們盲目地使用機(jī)器學(xué)習(xí)來嘗試分析系統(tǒng)，于是形成了所謂的“學(xué)術(shù)研究中機(jī)器學(xué)習(xí)的危害”。

在局限 2 中討論原因的時候提到，將機(jī)器學(xué)習(xí)應(yīng)用于統(tǒng)計(jì)性系統(tǒng)是可行的，但算法不會學(xué)習(xí)兩個變量間的關(guān)系，也不知道何時違背了物理定律。我們只是給網(wǎng)絡(luò)一些輸入和輸出，告訴它們?nèi)W(xué)習(xí)聯(lián)系——就像一個人將字典又用文字翻譯一遍，算法只是掌握簡單的基礎(chǔ)物理。

對于統(tǒng)計(jì)性(隨機(jī))系統(tǒng)，情況就不太明顯。機(jī)器學(xué)習(xí)用于統(tǒng)計(jì)性系統(tǒng)的危害主要有兩種表現(xiàn)形式：

P 值篡改
分析范圍

P 值篡改

當(dāng)一個人可以獲得大量數(shù)據(jù)，可能上百、上千，甚至上百萬的變量，就不難發(fā)現(xiàn)顯著性統(tǒng)計(jì)結(jié)果(假設(shè)大多數(shù)研究設(shè)定的顯著性水平 p<0.05)。這通常為導(dǎo)致偽相關(guān)的發(fā)現(xiàn)，這些偽相關(guān)是從 P 值篡改獲取的(查看大數(shù)據(jù)，直到發(fā)現(xiàn)統(tǒng)計(jì)顯著相關(guān))。這些并不是真正的相關(guān)，只是對測量噪聲進(jìn)行的響應(yīng)。

這已導(dǎo)致個體通過大數(shù)據(jù)集在統(tǒng)計(jì)顯著相關(guān)性上“釣魚”，把它們偽裝成真相關(guān)。有時候，這只是無意的失誤(這種情況下，科學(xué)家需要更好地訓(xùn)練)。但另外一些時候，被研究員用來增加發(fā)布論文的數(shù)量——即使在學(xué)術(shù)世界，競爭也是非常激烈的，人們?yōu)榱颂嵘笜?biāo)無所不用其極。

分析范圍

統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)的分析范圍存在本質(zhì)區(qū)別——統(tǒng)計(jì)模型本質(zhì)是確定性的，機(jī)器學(xué)習(xí)本質(zhì)是探索性的。

我們可以把確定性分析和模型看成某人的博士課題或研究領(lǐng)域。想象一下，你和一個顧問合作，試著建立一個理論框架來學(xué)習(xí)一些真實(shí)世界的系統(tǒng)。這個系統(tǒng)有一組受其影響的預(yù)定義特征，并且，在仔細(xì)設(shè)計(jì)實(shí)驗(yàn)和開發(fā)假設(shè)后，可以運(yùn)行測試以確定假設(shè)的有效性。

另一方面，探索性缺乏和確定性分析的相關(guān)的一些特點(diǎn)。事實(shí)上，在真正大量數(shù)據(jù)和信息的情況下，由于數(shù)據(jù)的巨大體量，確認(rèn)性方法完全無法使用。換言之，在存在上百個、上千個，乃至上百萬個特征的情況下，根本不可能仔細(xì)地布置一組有限的可測試假設(shè)。

因此從廣義上講，在有大量數(shù)據(jù)和可計(jì)算負(fù)責(zé)特征的情況下，機(jī)器學(xué)習(xí)算法和方法是探索預(yù)測模型和分類的最佳選擇。一些人認(rèn)為它們可以用于“小”數(shù)據(jù)，但為什么在經(jīng)典的多變量統(tǒng)計(jì)方法這樣做時，信息更多呢?

機(jī)器學(xué)習(xí)是一個領(lǐng)域，很大程度上解決了來自信息技術(shù)、計(jì)算機(jī)科學(xué)等領(lǐng)域的重要問題，這些問題既有理論性的也有應(yīng)用問題。正如此，機(jī)器學(xué)習(xí)和像物理、數(shù)學(xué)、概率論、統(tǒng)計(jì)學(xué)等領(lǐng)域也相關(guān)，但它也確實(shí)是一個獨(dú)立的領(lǐng)域。機(jī)器學(xué)習(xí)領(lǐng)域不會受其他學(xué)科提出問題的影響。大多是機(jī)器學(xué)習(xí)專家和從業(yè)者提出的解決方法都犯了嚴(yán)重錯誤...但他們還是完成了工作。

局限5——可解釋性

可解釋性是機(jī)器學(xué)習(xí)的主要問題之一。一家人工智能公司試圖向一家只使用傳統(tǒng)統(tǒng)計(jì)方法的企業(yè)講解，但如果他們認(rèn)為模型不可解釋，就可以停止了。如果你不能向客戶確保你明白算法是如何得到結(jié)果的，那如何讓他們信任你和你的專業(yè)度?

正如《商業(yè)數(shù)據(jù)挖掘——機(jī)器學(xué)習(xí)視角》中所言：

“在商務(wù)項(xiàng)目中，如果機(jī)器學(xué)習(xí)的結(jié)果是可解釋的，那么商業(yè)經(jīng)理人會更傾向于機(jī)器學(xué)習(xí)的推薦。”

除非可以解釋這些模型，不然它們顯得無能為力，而且人類解釋過程遵守的規(guī)則，遠(yuǎn)遠(yuǎn)超出技術(shù)能力。因此，可解釋性成為機(jī)器學(xué)習(xí)應(yīng)用于實(shí)踐需要實(shí)現(xiàn)的一個重要指標(biāo)。

特別地，興起的組學(xué)科學(xué)(基因組學(xué)，蛋白質(zhì)組學(xué)，代謝組學(xué)等)已經(jīng)成為機(jī)器學(xué)習(xí)研究者的主要目標(biāo)，因?yàn)檫@些科學(xué)對大型和有意義數(shù)據(jù)庫具有依賴性。然而，盡管取得了明顯的成功，但他們的方法缺乏可解釋性。

總結(jié)及Peter Voss' 列表

不可否認(rèn)，在人工智能開辟了大量有前景機(jī)會的同時，也導(dǎo)致了一種被稱為“人工智能解決主義”的心態(tài)的出現(xiàn)。這種心態(tài)是一種哲學(xué)，假定數(shù)據(jù)足夠多，機(jī)器學(xué)習(xí)算法就可以解決所有的人類問題。

希望我在文中清楚表示了在目前情況下機(jī)器學(xué)習(xí)存在的一些限制，從而防止一些情況的發(fā)生。神經(jīng)網(wǎng)絡(luò)永遠(yuǎn)不會告訴我們?nèi)绾巫鲆粋€好人，至少現(xiàn)在不會，也不會理解牛頓運(yùn)動定律和愛因斯坦相對論。

機(jī)器學(xué)習(xí)基礎(chǔ)理論——計(jì)算學(xué)習(xí)理論里也存在基本限制，主要是統(tǒng)計(jì)限制。我們已經(jīng)討論了分析范圍和 p 值篡改危害的相關(guān)問題，這些會帶來虛假結(jié)論。還有結(jié)果可解釋性的問題，如果不能讓客戶和投資者確信他們的方法是準(zhǔn)確可信的，就對商業(yè)會產(chǎn)生消極影響。

我己經(jīng)在文章內(nèi)大量介紹了人工智能的最重要的局限，最后，我會把Peter Voss’在 2016 年 10 月發(fā)布的文章列一張表，整理更全面的關(guān)于人工智能的局限。雖然目前在細(xì)小領(lǐng)域內(nèi)主流技術(shù)是非常強(qiáng)大的，但它們通常會列出部分或所有約束列表，我在這里進(jìn)行完整引用：

每個特定的應(yīng)用都需要經(jīng)過專門訓(xùn)練

需要大量手工標(biāo)記的結(jié)構(gòu)化的數(shù)據(jù)

學(xué)習(xí)通常必須要受監(jiān)督：訓(xùn)練數(shù)據(jù)必須被標(biāo)記

需要冗長的離線/批量訓(xùn)練

不要實(shí)時地以增量或交互的方式學(xué)習(xí)

遷移學(xué)習(xí)、模型重復(fù)使用和集成的能力差

系統(tǒng)不透明，很難進(jìn)行調(diào)試

“長尾”效應(yīng)難以審核和保證

它們編碼相關(guān)性，而不是因果關(guān)系或本體論關(guān)系

實(shí)體之間不進(jìn)行實(shí)體或空間的編碼

只能處理自然語言里非常局限的部分

不適合高層次，象征推理或計(jì)劃

話雖如此，機(jī)器學(xué)習(xí)和人工智能將繼續(xù)為工業(yè)帶來革命，而且在未來幾年只會變得更加普及。雖然我建議大家最大限度地利用機(jī)器學(xué)習(xí)和人工智能，但我也建議你記住手里工具的局限性——畢竟，沒有什么是完美的。

via https://towardsdatascience.com/the-limitations-of-machine-learning-a00e0c3040c6

標(biāo)簽：機(jī)器學(xué)習(xí) 數(shù)據(jù)處理

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:2019 年 7 種最受歡迎的編程語言

下一篇:后Hadoop世界中的大數(shù)據(jù)

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機(jī)器學(xué)習(xí)并不“萬能”