中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Yoshua Bengio首次中國演講:深度學(xué)習(xí)通往人類水平AI的挑戰(zhàn)

2018-11-09    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

「機器學(xué)習(xí)研究不是關(guān)于 AI 應(yīng)該具備哪些知識的研究,而是提出優(yōu)秀的學(xué)習(xí)算法的研究!

11 月 7 日,Yoshua Bengio 受邀來到北京參加第二十屆「二十一世紀(jì)的計算」國際學(xué)術(shù)研討會。會上以及隨后受邀前往清華時,他給出了題為「深度學(xué)習(xí)通往人類水平 AI 的挑戰(zhàn)」(Challenges for Deep Learning towards Human-Level AI)的演講。本文在 Yoshua Bengio 的授權(quán)下介紹了整篇演講。

演講中,Bengio 以去年發(fā)布在 arXiv 的研究計劃論文「有意識先驗」(The consciousness prior)為主旨,重申了他與 Yann Lecun 十年前提出的解糾纏(disentangle)觀念:我們應(yīng)該以「關(guān)鍵要素需要彼此解糾纏」為約束,學(xué)習(xí)用于描述整個世界的高維表征(unconscious state)、用于推理的低維特征(conscious state),以及從高維到低維的注意力機制——這正是深度學(xué)習(xí)通往人類水平 AI 的挑戰(zhàn)。

雖然主題看起來比較廣大,但實際上,Bengio 討論了非常多的技術(shù)細(xì)節(jié)內(nèi)容。

 

 

圖:Bengio在清華。

Bengio 認(rèn)為,直觀上而言,目前的深度神經(jīng)網(wǎng)絡(luò)非常擅長于從文字圖像等原始數(shù)據(jù)抽取高層語義信息,它們會直接在隱藏空間做預(yù)測,這就類似于在無意識空間做預(yù)測。但是實際上每一次預(yù)測所需要的具體信息都非常精簡,因此實際上我們可以使用注意力機制挑選具體的信息,并在這種有意識空間進(jìn)行預(yù)測,這種模型和建模方法才能真正理解最初的輸入樣本。

演講

今天我將介紹我與合作者共同探討的一些問題,關(guān)于深度學(xué)習(xí)研究的下一步發(fā)展以及如何通向真正人工智能。

在此之前,我想先糾正一個目前看來非常普遍的誤解,即「深度學(xué)習(xí)沒有理論依據(jù),我們不知道深度學(xué)習(xí)是如何工作的!

我的很多工作都圍繞深度學(xué)習(xí)理論展開。這也是為什么我在大約 12 年前開始研究深度學(xué)習(xí)的原因。雖然深度學(xué)習(xí)仍然有諸多未解之謎,但現(xiàn)在我們已經(jīng)對它的很多重要方面有了更好的理解。

我們更好地理解了為什么優(yōu)化問題并不像人們想象中那樣棘手,或者說局部極小值問題并不像 90 年代的研究者認(rèn)為的那樣是一個巨大障礙。我們更好地理解了為什么像隨機梯度下降這樣看起來非!改X殘」的方法實際上在優(yōu)化和泛化方面都非常高效。

這只是我們在過去十年中學(xué)到的一小部分,而它們有助于我們理解為什么深度學(xué)習(xí)真正好用。數(shù)學(xué)家和理論研究者仍然對此展現(xiàn)出了極大的興趣,因為深度學(xué)習(xí)開始在諸多領(lǐng)域變得極為重要。

 

 

從人類的兩種認(rèn)知類型解釋經(jīng)典 AI 與神經(jīng)網(wǎng)絡(luò)的失敗

我今天演講的主題是「通往人類水平的 AI」:我們試圖讓計算機能夠進(jìn)行人與動物所擅長的「決策」,為此,計算機需要掌握知識——這是幾乎全體 AI 研究者都同意的觀點。他們持有不同意見的部分是,我們應(yīng)當(dāng)如何把知識傳授給計算機。

經(jīng)典 AI(符號主義)試圖將我們能夠用語言表達(dá)的那部分知識放入計算機中。但是除此之外,我們還有大量直觀的(intuitive)、 無法用語言描述的、不能通過「意識」獲得的知識,它們很難應(yīng)用于計算機中,而這就是機器學(xué)習(xí)的用武之地——我們可以訓(xùn)練機器去獲取那些我們無法以編程形式給予它們的知識。

 

 

深度學(xué)習(xí)和 AI 領(lǐng)域有很大進(jìn)步、大量行業(yè)應(yīng)用。但是它們使用的都是監(jiān)督學(xué)習(xí),即計算機無需真正發(fā)掘底層概念、高級表征和數(shù)據(jù)中的因果關(guān)系。事實上,如果你用不同的方式攻擊這些模型,就像很多對抗方法所做的那樣,僅僅微調(diào)輸入,也會使模型變得非常愚蠢。

 

 

舉例來說,我們在一篇論文中改變圖像的傅立葉頻譜,變換后,圖像的類別對于人類來說仍然很明顯,但是在自然圖像上訓(xùn)練的卷積網(wǎng)絡(luò)的識別率則變得非常糟糕。

對我來說,現(xiàn)在的系統(tǒng)的失敗之處在于,它們無法捕捉我們真正想讓機器捕捉到的高級抽象(high level abstraction)。事實上,這是我和合作者希望設(shè)計出能夠發(fā)現(xiàn)高級表征的學(xué)習(xí)機器的原因:這樣的表征可以捕捉構(gòu)成數(shù)據(jù)的根本因素。

 

 

我在大約十年前介紹過「解糾纏」(disentangle)這個概念,即在一個好的表征空間中,不同要素的變化應(yīng)該可以彼此分離。(而在像素空間中,所有的變化都彼此糾纏著的。)十年之后,我們認(rèn)為,除了解糾纏變量,我們還希望系統(tǒng)能解糾纏計算。解糾纏和因果的概念相關(guān),而因果正是機器學(xué)習(xí)界需要重點關(guān)注的領(lǐng)域,我將在之后回到這個話題的討論。

 

 

五年前,我在一篇綜述論文提出,為了還原那些可以解釋數(shù)據(jù)的根本要素,我們需要引入知識。我們不能只是從零開始學(xué)習(xí),還需要對世界作出一些可能比較溫和的假設(shè)。這對于解糾纏變量會有幫助?臻g、時間以及邊際獨立性可能是一些過于強的假設(shè),但也值得考慮。

一個先驗是某些要素對應(yīng)于世界的某些「可控層面」(controllable aspect)。例如我手上這個翻頁器,它有一個三維坐標(biāo),而我可以通過移動它改變坐標(biāo)。這種空間位置體系在我們的大腦中也明確存在,因為這是我們能控制的世界層面。

因此在世界的意圖、動作、策略和層面的表征之間有著很強的聯(lián)系。與其用最底層的像素表征關(guān)于世界的信息,對于智能體而言,用更高級的、可交互的、與控制相關(guān)的要素來表征信息會方便的多。

 

 

在談及具體的深度學(xué)習(xí)工作之前,讓我先介紹一下心理學(xué)家是如何劃分人類認(rèn)知活動的,這有助于我們理解當(dāng)前深度學(xué)習(xí)的優(yōu)勢以及我們應(yīng)該如何走向人類水平的 AI。

人類的認(rèn)知任務(wù)可以分為系統(tǒng) 1 認(rèn)知(System 1 cognition)和系統(tǒng) 2 認(rèn)知(System 2 cognition)。系統(tǒng) 1 認(rèn)知任務(wù)是那些你可以在不到 1 秒時間內(nèi)無意識完成的任務(wù)。例如你可以很快認(rèn)出手上拿著的物體是一個瓶子,但是無法向其他人解釋如何完成這項任務(wù)。這也是當(dāng)前深度學(xué)習(xí)擅長的事情,「感知」。系統(tǒng) 2 認(rèn)知任務(wù)與系統(tǒng) 1 任務(wù)的方式完全相反,它們很「慢」。例如我要求你計算「23+56」,大多數(shù)人需要遵循一定的規(guī)則、按照步驟完成計算。這是有意識的行為,你可以向別人解釋你的做法,而那個人可以重現(xiàn)你的做法——這就是算法。計算機科學(xué)正是關(guān)于這項任務(wù)的學(xué)科。

而我對此的觀點是,AI 系統(tǒng)需要同時完成這兩類任務(wù)。經(jīng)典 AI 試圖用符號的方法完成系統(tǒng) 2 任務(wù),其失敗的原因很多,其中之一是我們擁有的很多知識并不在系統(tǒng) 2 層面,而是在系統(tǒng) 1 層面。所以當(dāng)你只使用系統(tǒng) 2 知識,你的體系缺少了一部分重要的內(nèi)容:那些自下而上的有根源知識(Grounded knowledge)。有根源自然語言學(xué)習(xí)(Ground language learning)是 NLP 的一個子領(lǐng)域,研究者試圖用除了文本之外的其他形式,例如圖像、視頻,去將語言與感知層面的知識聯(lián)系起來,構(gòu)建一個世界模型。

 

 

意識先驗

我接下來將介紹意識先驗,意識領(lǐng)域的研究正逐漸變成主流。我在這里將聚焦于意識的最重要問題:當(dāng)你注意某些東西,或者在你的意識中浮現(xiàn)了某些東西的時候,你意識到了它的某些現(xiàn)實層面情景。

深度學(xué)習(xí)的表征學(xué)習(xí)關(guān)注信息如何被表征,以及如何管理信息。因此對于意識先驗很基本的一個觀察是,在特定時刻處于你意識中的想法(thought)是非常低維的。其信息量可能不超過一句話、一張圖像,并且處于一個你可以進(jìn)行推理的空間內(nèi)。

你可以將一個「想法」看做是經(jīng)典 AI 中的一條「規(guī)則」。每個想法只涉及很少的概念,就像一句話中只有幾個單詞。從機器學(xué)習(xí)的角度來看,你可以利用很少的變量進(jìn)行預(yù)測,準(zhǔn)確度還很高。這種具有良好性質(zhì)的低維表征空間是非常罕見的,例如,嘗試通過給定的 3 到 4 個像素來預(yù)測 1 個像素是不可行的。但是人類可以通過自然語言做到這一點。例如,如果我說「下雨時,人們更可能會撐傘!惯@里僅有兩個二值隨機變量,是否下雨和是否撐傘。并且這種語句具備很強的預(yù)測能力。即使它僅使用了很少的變量,也能給出很高概率的預(yù)測結(jié)果。也就是說,根據(jù)很少的信息來執(zhí)行預(yù)測。

因此,我將「意識」稱作一個「先驗」,是因為意識是一個約束條件、一個正則化項、一個假設(shè):我們可以用非常少的變量進(jìn)行大量的預(yù)測。

滿足這些條件意味著我們需要好的空間表征。好的表征的一個特性是當(dāng)把數(shù)據(jù)映射到該空間時,變量之間的依賴關(guān)系只需要用很少的概念表達(dá)(例如規(guī)則),且涉及很少的維度。

學(xué)習(xí)好的表征意味著可以將知識用兩種方式表達(dá):在編碼器中,將原始數(shù)據(jù)映射到高級空間;通過規(guī)則將變量關(guān)聯(lián)起來并執(zhí)行預(yù)測。

因此我們有兩種形式的解糾纏。我以前的論文僅考慮了解糾纏變量,現(xiàn)在我們還考慮了解糾纏規(guī)則。如果我們將這些變量看成是代表因果變量的因子,這對應(yīng)著一種因果機制。因果變量是指在因果陳述中使用的變量,例如「下雨導(dǎo)致人們撐傘」。這些變量需要處在一個好的表征空間來作出因果陳述。像素空間并非能夠進(jìn)行因果陳述的合適表征空間:我們無法說某些像素的改變導(dǎo)致了其它像素的改變,而在因果空間中推理是可行的。

 

 

那么要如何實現(xiàn)這種表征呢?對此,注意力機制是一種很重要的工具。注意力機制在過去幾年獲得了很大的成功,尤其是在機器翻譯中,它可以按順序選取重點關(guān)注的信息。

更棒的是你可以使用軟注意力來實現(xiàn)整個系統(tǒng)的端到端訓(xùn)練。我們不需要設(shè)計一個獨立的系統(tǒng)來做這種選擇。你可以將注意力機制作為在某些全局目標(biāo)下端到端訓(xùn)練的更大系統(tǒng)的一部分。而這正是深度學(xué)習(xí)擅長的地方。

 

 

在架構(gòu)方面,意識先驗在「原始輸入」和「某些更高級的表征」之外,還引入了第三個層次:這也就是有意識狀態(tài)(conscious state)。

如上所示無意識狀態(tài)通常是深度學(xué)習(xí)所考慮的表征,是模型將數(shù)據(jù)映射到的一些表示空間。這些隱藏表征通常有非常高的維度與稀疏性,因為任何時候都只有少數(shù)變量與輸入相關(guān)。在此之外,我們還會使用注意力機制選擇無意識狀態(tài)(高維隱藏表征)的幾個重要維度,并在有意識狀態(tài)下表示它們。進(jìn)入有意識狀態(tài)的信息就像短期記憶,我們可以使用注意力機制選擇一些重要的信息,并通過某種交互表示它們。

 

 

這個理論框架還有非常多的細(xì)節(jié)需要完善,去年我們主要關(guān)注其中的一個方面:目標(biāo)函數(shù)。機器學(xué)習(xí)和深度學(xué)習(xí)中的標(biāo)準(zhǔn)訓(xùn)練目標(biāo)函數(shù)都基于最大似然估計,而即使與最大似然無關(guān)的目標(biāo)函數(shù),例如 GAN 的一些目標(biāo)函數(shù),也是在像素級別進(jìn)行構(gòu)建的。然而,我們實際上想要在隱藏空間中表現(xiàn)出可預(yù)測性。

這很難做到,但我們其實可以訓(xùn)練一些不需要返回到像素空間的機器學(xué)習(xí)算法,例如主成分分析(PCA)。我們可以像自編碼器那樣用最小化重構(gòu)誤差訓(xùn)練 PCA:這是在像素空間中構(gòu)造目標(biāo)函數(shù),但同時我們也可以在隱藏空間中訓(xùn)練它,例如我們希望降維后的表征每一個都有非常大的方差,從而捕捉到足夠多的輸入信息。

但我們不止想做 PCA,我們希望有更強大的模型。其中一個很好的擴展概念是互信息(mutual information),它允許我們在編碼器輸出的隱藏空間中定義目標(biāo)函數(shù)。這個想法很早就已經(jīng)提出來了,在聯(lián)接主義的早期,Suzanna Becker 就認(rèn)為我們應(yīng)該「尋找數(shù)據(jù)變換的方法,使空間中的近鄰特征擁有比較高的互信息水平」,以此進(jìn)行無監(jiān)督圖像學(xué)習(xí)。我認(rèn)為這是一個被遺忘的重要方向。

注:接下來 Bengio 沿著互信息這個方向介紹了很多研究論文,包括它們的基本過程、核心思想和技術(shù)等,這里只給出了研究論文列表,感興趣的讀者可以查看原論文。

Learning Independent Features with Adversarial Nets for Non-linear ICA,ArXiv:1710.05050

MINE: Mutual Information Neural Estimation,ArXiv:1801.04062

 

 

意識先驗的現(xiàn)實意義:世界模型實現(xiàn)人類水平的語言模型

回到系統(tǒng) 1 和系統(tǒng) 2 認(rèn)知任務(wù),以及意識先驗。這些概念的實際意義是什么?

首先,為了真正理解語言,我們要構(gòu)建同時具有系統(tǒng) 1 和系統(tǒng) 2 能力的系統(tǒng)。當(dāng)下的 NLP 算法與 NLP 產(chǎn)品,無論是機器翻譯、語音識別、問答系統(tǒng),還是根本不能理解任何東西的閱讀理解,所有這些系統(tǒng)都僅僅是在大型文本語料庫和標(biāo)簽上做訓(xùn)練而已。

 

 

我認(rèn)為這樣是不夠的,你可以從它們犯的錯誤中發(fā)現(xiàn)這一點。舉個例子,你可以對系統(tǒng)做個測試,看他們能否消除這些 Winograd 模式歧義句:「The women stopped taking pills because they were pregnant(懷孕).」這里的「they」指什么?是 women 還是 pills?「The women stopped taking pills because they were carcinogenic(致癌)」這句中的「they」又指代什么?事實證明,機器僅僅通過研究樣本的使用模式是不足以回答這個問題的,機器需要真正理解「女性」和「藥」是什么,因為如果我把「懷孕」換成「致癌」,答案就從「女性」變成了「藥」。在人類看來這個問題非常簡單,但是現(xiàn)有的機器系統(tǒng)回答起來比隨機猜測好不了多少。

 

 

當(dāng)我們想要構(gòu)建能理解語言的系統(tǒng)時,我們必須問問自己,對于機器而言理解問題或文檔意味著什么。如果它們需要相關(guān)知識,那么從哪里獲取這些知識呢?我們又該如何訓(xùn)練那些具備特定知識的系統(tǒng)?

有一個個思想實驗可以幫助我們看清僅在文本上訓(xùn)練模型的局限。想象一下你乘坐宇宙飛船到達(dá)另一個星球。外星人說著你聽不懂的語言,這時如果你能夠捕捉到他們在交流中傳達(dá)的信息,或許你可以訓(xùn)練語言模型以理解外星語言。而那個星球與地球有一個區(qū)別:那里的通信通道不帶噪聲(地球上的通信通道是有噪聲的,因此,人類語音為了在噪聲中保持魯棒性,包含了大量信息冗余。)

由于外星的通信通道沒有噪聲,因此傳輸信息的最佳方式是壓縮信息。而信息被壓縮后,看起來和噪聲沒什么區(qū)別:在你看來,它們交換的都是一些獨立同分布的比特信息,語言建模和 NLP 工具也無法幫到你。

 

 

這個時候我們該怎么辦呢?我們需要做更多工作。僅觀察信息本身是不夠的,你必須找出它們的意圖,理解它們的語境和行為的原因。因此,在語言建模之外,你必須建模環(huán)境并理解原因,這意味著大量額外工作。AI 領(lǐng)域研究者「懶惰」又「貪婪」,他們不想進(jìn)行額外工作,因此他們嘗試僅通過觀察文本來解決語言理解問題。然而很不幸,這并不會給出有效解決方案。

 

 

一種可行方法是先學(xué)習(xí)一個不錯的世界模型,然后基于該模型解決語言問題,就像根據(jù)語言模型弄清楚某個單詞的意義一樣。我認(rèn)為嬰兒在一定程度上就是這么做的,因為嬰兒并非一開始就使用語言進(jìn)行學(xué)習(xí),最初它們只是嘗試?yán)斫猸h(huán)境。但是在某個時間點,將「學(xué)習(xí)語言模型」和「學(xué)習(xí)世界模型」兩種學(xué)習(xí)模式結(jié)合起來是有益的。

 

 

語言可以提供良好表征。因為如果想弄懂這些語義變量,深度學(xué)習(xí)應(yīng)該從感知器中提取出語義。比如你媽媽說「狗」,恰好這時你看到了一只狗,這就很有幫助,因為當(dāng)你在不同語境中使用這個詞時你的感官感知是不同的。這就是監(jiān)督學(xué)習(xí)性能好的原因。

事實上,以監(jiān)督學(xué)習(xí)方式訓(xùn)練出的深層網(wǎng)絡(luò)的表征比無監(jiān)督模型好很多,最起碼對于目前的無監(jiān)督學(xué)習(xí)來說。我認(rèn)為應(yīng)該將二者結(jié)合起來,不過你必須理解世界的運行方式。世界運行方式的一個方面是因果關(guān)系,機器學(xué)習(xí)目前對此缺乏關(guān)注。

 

 

具體而言,我們的學(xué)習(xí)理論在這方面仍然很匱乏。目前的學(xué)習(xí)理論假設(shè)測試分布與訓(xùn)練分布相同,但是該假設(shè)并不成立。你在訓(xùn)練集上構(gòu)建的系統(tǒng)在現(xiàn)實世界中可能效果并不好,因為測試分布與訓(xùn)練分布不同。

因此我認(rèn)為我們應(yīng)該創(chuàng)建新的學(xué)習(xí)理論,它應(yīng)該不會基于「測試分布與訓(xùn)練分布相同」這樣生硬的假設(shè)。我們可以采用物理學(xué)家的方式,假設(shè)訓(xùn)練分布和測試分布的底層因果機制相同。這樣即使動態(tài)系統(tǒng)的初始條件不同,底層物理機制仍然不會改變。

 

 

那么如何去做呢?事實上,構(gòu)建好的世界模型令人望而生畏,我沒有足夠的計算能力對真實世界建模,因此我認(rèn)為更合理的方法是利用機器學(xué)習(xí),機器學(xué)習(xí)研究不是關(guān)于 AI 應(yīng)該具備哪些知識的研究,而是提出優(yōu)秀的學(xué)習(xí)算法的研究。優(yōu)秀的機器學(xué)習(xí)算法理應(yīng)在任何分布中都可以良好運行。

近年來深度學(xué)習(xí)社區(qū)涌現(xiàn)了大量關(guān)于搭建虛擬環(huán)境的研究,如在深度強化學(xué)習(xí)體系下,人們構(gòu)建虛擬環(huán)境并在其中測試不同的智能體學(xué)習(xí)步驟。深度強化學(xué)習(xí)最酷的一點是便于做科學(xué)實驗,我們可以借助虛擬環(huán)境測試?yán)碚,更快速地獲取反饋。

 

 

在我實驗室開始的一個項目,是 1971 年 Winograd 用 SHRDLU 系統(tǒng)進(jìn)行 blocks world 實驗的延伸。他們當(dāng)初試圖建立一個能夠用自然語言執(zhí)行任務(wù)的系統(tǒng),比如「拿起一個紅色的木塊」,但他們試圖用基于規(guī)則的經(jīng)典 AI 來實現(xiàn)目標(biāo)。這在某種程度上起作用了,但它和大多數(shù)規(guī)則系統(tǒng)一樣非常脆弱。它無法擴展,因為你需要手動設(shè)計大量知識,像當(dāng)前大多數(shù)脆弱且無法擴展的對話系統(tǒng)一樣。我認(rèn)為,除非我們真正做更多的基礎(chǔ)研究,否則這種情況不會改善。

BabyAI 平臺:模擬世界模型

 

 

所以我們構(gòu)建了一個叫做 BabyAI(或 BabyAI game)的平臺,其中設(shè)置了有一個「學(xué)習(xí)者」和一個「人類」的游戲或場景。

學(xué)習(xí)者就是「baby AI」,我們要為學(xué)習(xí)者設(shè)計學(xué)習(xí)算法,而其中的人類與學(xué)習(xí)者互動,并使用自然語言幫助它理解周圍的環(huán)境。人類可以通過課程學(xué)習(xí)(curriculum learning)、為學(xué)習(xí)者設(shè)計正確的問題以及考慮學(xué)習(xí)者知道什么和不知道什么等等來幫助它。當(dāng)然了,課程學(xué)習(xí)本身就是一個有趣的研究領(lǐng)域,因為如果我們能夠構(gòu)建出計算機與人類互動的更好系統(tǒng),那也會非常有用。

所以我們在 2D 網(wǎng)格世界中構(gòu)建了一個非常簡單的環(huán)境,并能在其中使用類似「把藍(lán)色鑰匙放在綠色的球旁邊」這種簡單的自然語言表述。

 

 

在這個階段,我們有 19 個學(xué)習(xí)者應(yīng)該能夠?qū)W習(xí)的難度級別和任務(wù)類型。我們還設(shè)計和訓(xùn)練了一個知道如何解決任務(wù)的啟發(fā)式專家。當(dāng)然,這個專家扮演的是人類的角色,因為在這個階段,我們實際上還不想讓人類參與進(jìn)來。所以我們希望能夠模擬人類,然后查看和測試不同的學(xué)習(xí)者表現(xiàn)如何。

 

 

我們有更大的版本,不同級別有不同的房間數(shù)量和不同類別的任務(wù)。我們定義了一系列的概念,比如房間和迷宮,也定義了一系列動作,如去某個地方、打開、撿、放等等,以及使用這些概念的不同任務(wù)。當(dāng)你進(jìn)階學(xué)習(xí)更加復(fù)雜的任務(wù),需要的概念也越來越多。

 

 

但是,我們目前嘗試過的機器學(xué)習(xí)方法還做不到這一點。如果我們有真正的人類來教 baby,他們就不需要給 baby 提供成百上千的軌跡示例。

我們嘗試了模仿學(xué)習(xí)和強化學(xué)習(xí)。在強化學(xué)習(xí)中,人類會提供獎勵。在學(xué)習(xí)者收斂之前,他需要在數(shù)百萬軌跡上提供數(shù)百萬條獎勵。但即使是效率更高的模仿學(xué)習(xí)(類似監(jiān)督學(xué)習(xí)),如果要從模仿示例中學(xué)習(xí),對于一個人來說,花時間訓(xùn)練這些系統(tǒng)還是遠(yuǎn)遠(yuǎn)超出了我們認(rèn)為的合理范圍。

我們還發(fā)現(xiàn)當(dāng)前的系統(tǒng)可以非?焖俚貙W(xué)習(xí)來做這樣的工作,但要達(dá)到 99% 的正確回答率還需要大量訓(xùn)練。因此我們認(rèn)為可以用這些基準(zhǔn)來研究簡單效率數(shù)據(jù)、不同學(xué)習(xí)程序效率。

標(biāo)簽: 通信 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:監(jiān)管來臨,數(shù)據(jù)行業(yè)洗牌加劇

下一篇:人工智能黑暗面