解讀：五條人工智能（AI）基礎(chǔ)規(guī)律

2018-11-06 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線(xiàn)！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

如果每個(gè)人都有足夠的時(shí)間和熱誠(chéng)，并樂(lè)意去大學(xué)拿個(gè) AI 學(xué)位，那你大概就不會(huì)讀到這篇博客了。雖說(shuō) AI 的工作方式挺神秘的，但在處理技術(shù)問(wèn)題的時(shí)候，以下這五個(gè) AI 原則應(yīng)該可以幫你規(guī)避一些錯(cuò)誤。它們對(duì)于當(dāng)代的基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)(Machine Learning)系統(tǒng)，尤其是深度學(xué)習(xí)(Deep Learning)系統(tǒng)尤其適用。

這篇來(lái)自 eloquent.ai 博客的文章所說(shuō)的，總結(jié)起來(lái)就是這 5 條 AI 原則：

♦ 利用未曾見(jiàn)過(guò)的數(shù)據(jù)評(píng)估AI系統(tǒng)

♦ 更多數(shù)據(jù)可以帶來(lái)更好的模型

♦ 有效數(shù)據(jù)的價(jià)值遠(yuǎn)遠(yuǎn)超過(guò)無(wú)效數(shù)據(jù)

♦ 從一個(gè)簡(jiǎn)單的基線(xiàn)開(kāi)始

♦ 人工智能并不是魔法

給大家一個(gè)小小的忠告——通過(guò)對(duì)機(jī)器學(xué)習(xí)的基本理解，這篇文章將更有意義。之前的另一篇文章(https://blog.eloquent.ai/2018/08/30/machine-learning-for-executives/)對(duì)這些基礎(chǔ)知識(shí)有所解釋。當(dāng)然了，不是說(shuō)這篇文章你非讀不可，但是讀了的話(huà)肯定會(huì)對(duì)你后面的理解更有幫助!(也歡迎大家閱讀雷鋒網(wǎng) AI 科技評(píng)論的其它文章)

1. 利用未曾見(jiàn)過(guò)的數(shù)據(jù)評(píng)估AI系統(tǒng)

在上一篇文章中，我們介紹了如何構(gòu)建分類(lèi)器以將圖像標(biāo)記為貓(綠色圓圈)或狗(藍(lán)色三角形)。在將我們的訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為向量之后，我們得到了下面的圖表，其中紅線(xiàn)表示我們的“決策邊界”(即將訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為向量后，這條“邊界線(xiàn)”就將圖像劃分為貓和狗)。

顯然，圖中的決策邊界錯(cuò)誤地將一只貓(綠色圓形)標(biāo)記標(biāo)記成了狗(藍(lán)色三角形)，即遺漏了一個(gè)訓(xùn)練個(gè)樣本。那么，是什么讓訓(xùn)練算法沒(méi)有選擇下圖中的紅線(xiàn)作為決策邊界呢?

在這兩種情況下，我們對(duì)訓(xùn)練集進(jìn)行分類(lèi)都得到了同樣的準(zhǔn)確率——兩中決策邊界都標(biāo)錯(cuò)了一個(gè)例子。但是如圖示，當(dāng)我們?cè)跀?shù)據(jù)中加上一只未出現(xiàn)過(guò)的貓時(shí)，只有左圖的決策邊界會(huì)正確地預(yù)測(cè)這個(gè)點(diǎn)為貓：

分類(lèi)器可以在用來(lái)訓(xùn)練它的數(shù)據(jù)集上工作得很順利，但它未必適用于訓(xùn)練的時(shí)候沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)。此外，即使分類(lèi)器在特定類(lèi)型的輸入(例如，室內(nèi)場(chǎng)景中的貓)上工作良好，它對(duì)于相同任務(wù)的不同數(shù)據(jù)(例如，室外場(chǎng)景中的貓)也可能無(wú)法很好地工作。

盲目地購(gòu)買(mǎi) AI 系統(tǒng)而不對(duì)相關(guān)的未知信息進(jìn)行測(cè)試，可能會(huì)付出很大的代價(jià)。一種測(cè)試未知數(shù)據(jù)的實(shí)用方法是——先保留一部分?jǐn)?shù)據(jù)不提供給開(kāi)發(fā)人工智能系統(tǒng)的企業(yè)或個(gè)人，然后自己通過(guò)生成的系統(tǒng)運(yùn)行這些保留數(shù)據(jù)。最不濟(jì)，也得保證你能自己試用才行。

2. 更多數(shù)據(jù)可以帶來(lái)更好的模型

如果給你下面的訓(xùn)練數(shù)據(jù)集，你會(huì)把決策邊界畫(huà)在哪里?

你想的可能沒(méi)錯(cuò)——許多決策邊界可以準(zhǔn)確地分割這些數(shù)據(jù)。雖然下面的每個(gè)假設(shè)決策邊界都正確地分割了數(shù)據(jù)，但它們彼此之間的差別很大，正如我們上面所看到的，其中一些可能會(huì)在目前尚未見(jiàn)到的數(shù)據(jù)(也就是你真正關(guān)心的數(shù)據(jù))上更糟糕：

從這個(gè)小數(shù)據(jù)集中，我們不知道這些彼此不同的決策邊界中，究竟哪一個(gè)最準(zhǔn)確地代表了現(xiàn)實(shí)世界。缺乏數(shù)據(jù)會(huì)導(dǎo)致不確定性，因此我們得收集更多數(shù)據(jù)點(diǎn)，并將其添加到初始圖表中，則可得到下圖：

額外的數(shù)據(jù)能幫助我們大幅縮小選擇范圍，立即畫(huà)出綠色和藍(lán)色間的決策邊界，因此決策邊界會(huì)是如下所示：

當(dāng)機(jī)器學(xué)習(xí)模型表現(xiàn)異常時(shí)，潛在的問(wèn)題通常是模型沒(méi)有經(jīng)過(guò)足夠或正確的數(shù)據(jù)訓(xùn)練。盡管更多的數(shù)據(jù)幾乎總是有幫助，但需要注意，數(shù)據(jù)越多可能得到的回報(bào)卻在減少。當(dāng)我們將第一個(gè)圖的數(shù)據(jù)加倍時(shí)，準(zhǔn)確度明顯增加。但是基于該圖表，如果將數(shù)據(jù)再加倍，則精度的提高不會(huì)有之前那么大。準(zhǔn)確度隨著訓(xùn)練數(shù)據(jù)的數(shù)量大致呈對(duì)數(shù)增長(zhǎng)，因此從 1k 到 10k 個(gè)樣本可能比從 10k 到 20k 個(gè)對(duì)準(zhǔn)確性產(chǎn)生更大的影響。

對(duì)于我個(gè)人來(lái)說(shuō)，這一條特別忌諱，尤其是對(duì)于預(yù)算緊張的創(chuàng)業(yè)公司：你們經(jīng)常給ML工程師支付數(shù)高額薪水，但也請(qǐng)確保提供足夠的預(yù)算和時(shí)間來(lái)讓他們仔細(xì)收集數(shù)據(jù)。

3. 有效數(shù)據(jù)的價(jià)值遠(yuǎn)遠(yuǎn)超過(guò)無(wú)效數(shù)據(jù)

在上面的例子中，雖說(shuō)有更多的數(shù)據(jù)會(huì)對(duì)訓(xùn)練有所幫助，但前提是它們足夠準(zhǔn)確才行。還是前面的例子，在收集了附加數(shù)據(jù)之后，可以得到一個(gè)這樣的圖形和一個(gè)決策邊界，如下所示：

但是，如果這些新數(shù)據(jù)點(diǎn)中的一些其實(shí)是被錯(cuò)誤標(biāo)記了，而真是情況是下面這樣的呢?

我們要注意，雖然這些標(biāo)記錯(cuò)誤的點(diǎn)與第一個(gè)圖中的點(diǎn)坐標(biāo)相同，但它們代表的意義已經(jīng)改變。這導(dǎo)致了一個(gè)完全不同的決策邊界：

即使只有四分之一的數(shù)據(jù)集被錯(cuò)誤標(biāo)記，但很明顯，錯(cuò)誤的數(shù)據(jù)會(huì)對(duì)我們的模型構(gòu)建有重大影響。我們可以在訓(xùn)練期間使用一些技術(shù)來(lái)減少標(biāo)記數(shù)據(jù)時(shí)的錯(cuò)誤，但這些技術(shù)作用有限。在大多數(shù)情況下，清理基礎(chǔ)數(shù)據(jù)更加容易和可靠。

這里的要點(diǎn)是“有效數(shù)據(jù)”至關(guān)重要，有效數(shù)據(jù)意味著數(shù)據(jù)準(zhǔn)確標(biāo)記，意味著數(shù)據(jù)合理涵蓋了我們想關(guān)注的范圍，也意味著訓(xùn)練集中同時(shí)存在簡(jiǎn)單案例和困難案例等等。因而決策邊界沒(méi)有那么多的擺動(dòng)空間，只有一個(gè)“正確”的答案。

4. 從一個(gè)簡(jiǎn)單的基線(xiàn)開(kāi)始

這并不是說(shuō)你應(yīng)該嘗試了一點(diǎn)簡(jiǎn)單的東西就覺(jué)得滿(mǎn)意然后停下來(lái)。即便你最終的方法既現(xiàn)代又復(fù)雜，通過(guò)這條原則，你也會(huì)開(kāi)發(fā)得更快，并且最終的結(jié)果也會(huì)更好。

我可以舉一個(gè)關(guān)于我自己的真實(shí)例子，當(dāng)我讀研一時(shí)，我們實(shí)驗(yàn)室的同學(xué)兼 Eloquent 的研究員 Angel 和我參與了一個(gè)項(xiàng)目，我們各自將語(yǔ)言里描述時(shí)間的詞轉(zhuǎn)化成可供機(jī)器閱讀的格式。本質(zhì)上來(lái)說(shuō)，就是試圖讓計(jì)算機(jī)理解諸如“上周五”或“明天中午”之類(lèi)的短語(yǔ)。

由于這些項(xiàng)目是申基金所必需的，Angel 致力于一個(gè)實(shí)用性強(qiáng)，有確定性的規(guī)則系統(tǒng)。她為了讓這個(gè)系統(tǒng)能實(shí)用起來(lái)而絞盡腦汁。而我當(dāng)時(shí)只是一個(gè)在實(shí)驗(yàn)室輪崗的學(xué)生，團(tuán)隊(duì)讓我自主選擇任何花哨的方法，就像糖果店里的孩子一樣。我探索了最時(shí)髦、最動(dòng)人的語(yǔ)義解析方法。在我的項(xiàng)目中，我運(yùn)用了 EM、共軛先驗(yàn)、一個(gè)完整的自定義語(yǔ)義解析器等等新奇的方法。

差不多十年之后，我很高興還留下了一篇受到好評(píng)并且引用數(shù)還行的論文。然而，Angel 的項(xiàng)目 SUTime 呢，現(xiàn)在是斯坦福流行的 CoreNLP 工具包中最常用的組件之一——簡(jiǎn)單的方法擊敗了時(shí)髦的方法。

你可能以為我已經(jīng)吸取了教訓(xùn)，然而幾年之后，當(dāng)我成為一名高年級(jí)研究生時(shí)，我要讓另一個(gè)系統(tǒng)啟動(dòng)并用于另一個(gè)基金項(xiàng)目。我再一次試圖訓(xùn)練一個(gè)花哨的機(jī)器學(xué)習(xí)模型，但幾乎沒(méi)有做出什么成果。有一天我覺(jué)得無(wú)比失敗和沮喪，以至于我甚至開(kāi)始寫(xiě)“模式”。“模式”就是一些簡(jiǎn)單的確定性規(guī)則。比如，當(dāng)一個(gè)句子包含“出生于”這個(gè)詞時(shí)，則假設(shè)這是一個(gè)出生地。模式不會(huì)學(xué)習(xí)，作用有限，但它們易于編寫(xiě)且用起來(lái)合理。

最后，基于模式的系統(tǒng)不僅勝過(guò)我們?cè)瓉?lái)的系統(tǒng)，它后來(lái)還被加到了 NIST 排名前 5 的系統(tǒng)中，并深深影響了那些基于機(jī)器學(xué)習(xí)的模型高性能系統(tǒng)。

結(jié)論就是：先做簡(jiǎn)單的事。當(dāng)然了，我們還有其他更好的理由：

它會(huì)給你的最終模型的性能提供一個(gè)安全的最低值。當(dāng)你做出一個(gè)簡(jiǎn)單的基準(zhǔn)模型之后，你會(huì)希望任何聰明的東西都會(huì)擊敗它。幾乎不會(huì)有什么模型會(huì)比一個(gè)基于規(guī)則的模型表現(xiàn)還要差。這給你的更高級(jí)的方法提供了一個(gè)比較，如果你的高級(jí)方法的表現(xiàn)更差，那意味著你有什么東西徹底做錯(cuò)了，并不是任務(wù)太過(guò)艱巨。

通常，簡(jiǎn)單的方法需要較少的(或不用!)訓(xùn)練數(shù)據(jù)，這就使你可以在沒(méi)有大量數(shù)據(jù)投資的情況下進(jìn)行原型設(shè)計(jì)。

它經(jīng)常會(huì)揭示出手頭任務(wù)的難度，這通常會(huì)向你指明如何選擇更好的機(jī)器學(xué)習(xí)方法來(lái)處理這些困難的部分。此外，它還能向你指明如何給需要更多數(shù)據(jù)的方法收集數(shù)據(jù)。

簡(jiǎn)單的方法一般只需要很少的額外努力就可以泛化到未見(jiàn)過(guò)的數(shù)據(jù)上。(記�。嚎偸怯媚Ｐ蜎](méi)有見(jiàn)過(guò)的數(shù)據(jù)來(lái)評(píng)估模型!)更簡(jiǎn)單的模型往往更容易解釋?zhuān)@使得它們更具可預(yù)測(cè)性，因此讓它們向沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)上泛化的過(guò)程也更明了。

5. 人工智能并不是魔法

這句話(huà)是我經(jīng)常掛在嘴邊的。大家雖然表面上都表示贊同，但心里未必真的服氣，因?yàn)槿斯ぶ悄芸雌饋?lái)就像魔術(shù)一樣。在談到 Eloquent 人工智能的宏偉未來(lái)計(jì)劃時(shí)，我對(duì)曾經(jīng)反復(fù)強(qiáng)調(diào)這個(gè)錯(cuò)誤觀念感到內(nèi)疚。我從訓(xùn)練機(jī)器學(xué)習(xí)模型的細(xì)節(jié)中得到的越多，模型看起來(lái)就越看起來(lái)不像是曲線(xiàn)的擬合，它們看起來(lái)更像一個(gè)黑匣子，我可以付出一些代價(jià)來(lái)進(jìn)行操控。

人們很容易忘記，現(xiàn)代機(jī)器學(xué)習(xí)領(lǐng)域還很年輕——只有二三十歲。與現(xiàn)代機(jī)器學(xué)習(xí)工具包的成熟度和復(fù)雜性相比，整個(gè)領(lǐng)域仍然相當(dāng)不成熟。它的快速進(jìn)步使人們很容易忘記這一點(diǎn)。

機(jī)器學(xué)習(xí)的一部分邪惡之處在于它具有內(nèi)在的概率性。它在技術(shù)上無(wú)所不能，但不一定達(dá)到你想要的準(zhǔn)確度。我懷疑在許多機(jī)構(gòu)中，在組織結(jié)構(gòu)圖上添加新東西時(shí)，“準(zhǔn)確度”的細(xì)微差別被漏下，只留下“人工智能可以做任何事情”的敘述部分。

你如何將不可能與可能分開(kāi)?我嘗試遵循一些最佳做法：

與實(shí)際訓(xùn)練模型的人交談。不是團(tuán)隊(duì)領(lǐng)導(dǎo)，不是部門(mén)主管，而是讓模型訓(xùn)練代碼運(yùn)行起來(lái)的人。他們通�？梢愿玫亓私饽Ｐ偷墓ぷ髟砑捌湎拗�。確保他們?cè)敢怆S時(shí)告訴你，你的模型有限制并且在某些方面表現(xiàn)不佳。我敢保證，無(wú)論他們是否告訴你，你的模型總會(huì)有一些不行的方面。

至少對(duì)于 NLP 項(xiàng)目，你通�？梢允褂靡粋€(gè)快速又繁雜的基于規(guī)則的系統(tǒng)來(lái)檢查任務(wù)的可行性。機(jī)器學(xué)習(xí)是一種很好的方式，可以用來(lái)生成一個(gè)非常大且模糊的、很難用人工的方法寫(xiě)下來(lái)的規(guī)則集。但如果一開(kāi)始你就很難寫(xiě)下一套合理的規(guī)則來(lái)完成你的任務(wù)，那這通常是一個(gè)不好的跡象。然后，收集一個(gè)小數(shù)據(jù)集并嘗試使用你學(xué)習(xí)到的系統(tǒng)。接下來(lái)是一個(gè)稍微大一點(diǎn)的數(shù)據(jù)集，并且在你獲得表現(xiàn)提升時(shí)繼續(xù)這樣做。一個(gè)重要的經(jīng)驗(yàn)法則就是：準(zhǔn)確度隨著數(shù)據(jù)集大小的對(duì)數(shù)而增長(zhǎng)。

永遠(yuǎn)不要相信高得出奇的準(zhǔn)確性：任何超過(guò) 95 或 97% 的數(shù)值。同樣地，不要相信任何高于人類(lèi)輸出平的準(zhǔn)確性，或者高于一致性評(píng)價(jià)。很大概率上，要么是數(shù)據(jù)集有缺失，有么是評(píng)估不完善。兩者都經(jīng)常發(fā)生，即使是對(duì)于經(jīng)驗(yàn)豐富的研究人員

你在網(wǎng)上看到的所有和機(jī)器學(xué)習(xí)有關(guān)的內(nèi)容(新聞，博客，論文)，如果沒(méi)有其它作證那它們都是有歧義或錯(cuò)誤的——包括現(xiàn)在這篇。

謝謝你的閱讀! 另外再說(shuō)一下，謝謝大家給我們上一篇文章的留言�？吹缴鐓^(qū)中的大家一起參與進(jìn)來(lái)真的感覺(jué)很棒。

和往常一樣，如果你有任何問(wèn)題、意見(jiàn)或反饋，請(qǐng)發(fā)送電子郵件至 hello@eloquent.ai。填寫(xiě)注冊(cè)表格訂閱，我們將直接發(fā)送這些帖子到你的郵箱，并訪(fǎng)問(wèn)我們的主頁(yè) eloquent.ai。如果能這么做的話(huà)我就很滿(mǎn)足了�；亓�!

原文： blog.eloquent.ai

標(biāo)簽：安全代碼電子郵件排名

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:AI 從業(yè)者都應(yīng)該知道的實(shí)驗(yàn)數(shù)據(jù)集

下一篇:四大機(jī)器學(xué)習(xí)編程語(yǔ)言對(duì)比：R、Python、MATLAB、Octave

相關(guān)文章

最新資訊

熱門(mén)推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

解讀：五條人工智能（AI）基礎(chǔ)規(guī)律