中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

像人一樣腦補世界!DeepMind歷時一年半搞出GQN,登上Science

2018-06-16    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

歷時一年半的研發(fā)之后,新成果浮出水面 。

被稱為人工智能“夢之隊”的DeepMind,剛剛在Science上發(fā)表論文,提出一種像人類一樣具備“腦補”世界能力的AI:GQN(Generative Query Network)。

GQN能夠基于2D圖像,重建/腦補出整個場景的3D表示。

“與嬰兒和動物非常相似,GQN通過理解對周圍環(huán)境的觀察來學習。”DeepMind在官方博客中稱這個學習方式,就像人類一樣。

DeepMind的創(chuàng)始人兼CEO哈薩比斯表示,他一直都對大腦如何重現(xiàn)圖像非常著迷,而這次提出的GQN模型可以根據(jù)幾個2D快照重現(xiàn)3D場景表示,還能從任何角度渲染出來。

?

?

 

△ 哈薩比斯Twitter截圖

這個AI高級在哪?

你可能已經(jīng)從前邊的描述中注意到,它是一種無監(jiān)督學習模型,連訓練的圖像都是自己獲取的。

而現(xiàn)在那些很厲害的計算機視覺系統(tǒng),都是監(jiān)督學習的成果,它們需要用人類制造的大規(guī)模標注圖像數(shù)據(jù)集來訓練,這就限制了數(shù)據(jù)集包含場景的范圍,進而限制了這種數(shù)據(jù)所訓練出來的視覺系統(tǒng)的能力。

 

 

論文一作、DeepMind研究員Ali Eslami說,監(jiān)督學習超級成功,但它還是無法讓人滿足。有這樣兩個原因:第一,人類需要手動創(chuàng)建數(shù)據(jù)集來訓練它,這種操作又貴又不全面;第二,人類嬰兒和高級哺乳動物都不是這么學習的。

如果要開發(fā)在現(xiàn)實世界里可用的復雜機器,想讓AI完全理解周邊環(huán)境,知道能就近坐在哪、旁邊的沙發(fā)是什么材質(zhì)、地上的影子是哪個光源制造出來的、又該去哪關(guān)燈,就需要換一個思路。

DeepMind新提出的GQN,就是這樣一種新思路。

兩個網(wǎng)絡(luò)

GQN模型由兩部分組成:一個表示網(wǎng)絡(luò)、一個生成網(wǎng)絡(luò)。

表示網(wǎng)絡(luò)將智能體觀察到的圖像作為輸入,然后生成一個描述潛在場景的表示(向量)。

 

 

生成網(wǎng)絡(luò)的任務是從一個之前沒有觀察到的角度,來預測(也可以叫“想象”)出這個潛在的場景。

 

 

表示網(wǎng)絡(luò)并不知道人類會讓生成網(wǎng)絡(luò)從哪些視角來預測,所以,它必須有效地描繪出整個場景的真實布局。

在這個過程中,它會先構(gòu)建一個簡單的分布表示,抓住最重要的元素,比如物體的位置、顏色和整個房間的布局。在訓練過程中,生成器了解了這個環(huán)境中典型的物體、特性、關(guān)系、規(guī)則。這些兩個網(wǎng)絡(luò)共享的“概念”讓表示網(wǎng)絡(luò)可以用高度壓縮、概略的方式來描述場景,讓生成網(wǎng)絡(luò)在有必要的時候去補全細節(jié)。

比如說,一個藍色立方體,在表示網(wǎng)絡(luò)那里就是一組數(shù)字,而生成網(wǎng)絡(luò)知道在不同角度該用怎樣的像素來呈現(xiàn)它。

四大特性

DeepMind在模擬的三維世界中,基于多個程序生成的環(huán)境,對GQN進行了一系列受控實驗。其中的多個物體的位置、顏色、形狀、紋理、光源都是隨機生成,并且伴隨著重度的遮擋。

在這些環(huán)境中進行訓練之后,GQN被用于新的場景。DeepMind在實驗中,發(fā)現(xiàn)了GQN的幾個重要特性。

第一,GQN能以非常精確的方式,從全新的視角“想象/腦補”出以前從未見過的場景。只要給出一個場景表示和新的攝像機視點后,GQN就能生成清晰的圖像,無需實現(xiàn)規(guī)定透視、遮擋或光線規(guī)則。

效果請看下面幾個演示,左邊是觀察到的2D圖片,右邊是GQN“腦補”出的世界。

 

 

 

 

 

 

第二,GQN學會對對象進行計數(shù)、定位和分類,而且無需任何對象級標簽。盡管露出的表示部分可能非常小,但GQN的預測仍然高度準確,幾乎可以亂真。這意味著GQN能夠準確感知。

效果請看下圖,同樣左邊是觀察,右邊是腦補:

 

 

第三,GQN能夠表示、衡量和減少不確定性。即便內(nèi)容不是完全可見,GQN也能應付場景中的不確定性,并將場景中的多個局部視圖組合起來,形成一個整體。

這事兒挺難,人都不一定能做好。GQN能力如何?見下圖所示。有一類是第一人稱視角的預測:

 

 

 

 

有一類是自上而下的視角預測:

 

 

 

 

第四,GQN能夠進行穩(wěn)健、數(shù)據(jù)高效的強化學習。與無模型的基線智能體相比,把GQN的緊湊表示賦予最先進的強化學習智能體后,可以更加數(shù)據(jù)高效的方式完成任務。

對這些智能體而言,GQN中的信息可以看做是對環(huán)境的“先天”知識。

 

 

相關(guān)研究

GQN同樣構(gòu)建于諸多前人的探索基礎(chǔ)之上,DeepMind正式列出的相關(guān)研究就達到128篇,而且聲明僅列出了一小部分。

這些相關(guān)的研究從1971年,一直延續(xù)到2018年3月。

 

 

其中排在第一位的,也是曾經(jīng)刊載在Science上的著名研究:心理旋轉(zhuǎn)實驗。這個實驗表明:表象這一心理現(xiàn)象是客觀存在的,外界刺激進入大腦并非進入黑箱,而這個實驗也揭露了信息在大腦中進行加工的過程。

如果你對128篇相關(guān)研究感興趣,傳送門在此:http://t.cn/RB9WmLX

與之前的研究相比,DeepMind展示了一種學習物理場景緊湊、基礎(chǔ)表示的新方法,而且這個方法不需要特定領(lǐng)域工程或耗時的場景內(nèi)容標記。也就是說,這個模型可以應用于各種不同的環(huán)境。

而且這個方法還雪城了一個強大的神經(jīng)渲染器,可以從新的視角生成精確的場景圖像。

當然DeepMind也在博客中表示,與更傳統(tǒng)的計算機視覺技術(shù)相比,新方法仍然有很多限制,目前也只接受過合成場景的訓練。

不過隨著新的數(shù)據(jù)源出現(xiàn),加之硬件能力的進展,DeepMind準備研究GQN在更高分辨率的真實場景中的應用。展望未來,DeepMind表示會探索GQN更多的場景理解能力,例如跨空間和時間學習物理和運動的常識概念,以及在虛擬和增強現(xiàn)實中的應用。

“盡管在實際應用之前還有非常多的研究需要完成,但我們相信這個工作是邁向完全自主場景理解的一大步。”DeepMind說。

多方評價

畢竟也是登上Science的論文了,DeepMind官宣幾個小時后,在Twitter和Reddit收到了大量圍觀和評價。

“話癆”型谷歌大腦的研究人員David Ha稱贊這是來自“夢之隊”DeepMind的炫酷研究。“環(huán)境生成模型可為自動學習理解周圍世界的機器鋪平道路。”他給出了肯定評價。

日本AI獨角獸Preferred Networks(PFN)聯(lián)合創(chuàng)始人岡野原大輔(Daisuke Okanohara)認為,GQN通過幾個視角的觀察就能將3D世界表示成本征向量,又能從新視角重現(xiàn)出場景,“這項研究顯示出神經(jīng)網(wǎng)絡(luò)可以通過無監(jiān)督方式學習這樣的能力,真是個突破。”

?

?

 

?

Twitter機器學習界網(wǎng)紅AlteredQualia認為這是“相當瘋狂的”的一項研究,澳大利亞數(shù)據(jù)科學家、psyoa.org董事會成員Tom Wallis評價GQN“在場景理解上效果驚人”……

?

?

 

雖然很多大牛力挺,但……Reddit上的很多程序員卻認為這項研究沒有所說的那么完美。

ID為court_of _ai的網(wǎng)友認為這項研究有些讓他失望:

視覺效果不錯,但也只是一個典型的過擬合練習。就用一堆玩具似的世界,用大量數(shù)據(jù)提煉出vanilla conditional deconvs。……但這怎么能算一個突破?

網(wǎng)友seann999認為,若想應用這項成果到實際研究中,那恐怕有點難度:

結(jié)果真的很酷,但是在典型的導航任務(比如IRL或3D迷宮游戲)中,你通常不會得到真實的當前相機視角/位置,所以我認為它應用起來非常困難。

僅從圖像和動作序列進行三維表示學習和環(huán)境重構(gòu)可能更具挑戰(zhàn)性,特別是在隨機環(huán)境中。

還有一些網(wǎng)友因此開始懷疑Science是不是給DeepMind放水了:

Deepmind技術(shù)性地“收買”了這些大型期刊,他們近期發(fā)表在《科學》/《自然》上的論文我們很難當真。他們的很多研究都非常棒,但為什么要這樣炒作呢:(

論文傳送門

 

 

Anyway,這篇論文還是非常值得一讀,

傳送門在此:http://science.sciencemag.org/content/360/6394/1204.full

標簽: 谷歌 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:企業(yè)郵箱誰與爭鋒,西部數(shù)碼6折嗨購、京東卡火爆贈送中

下一篇:重磅!Netflix開源大數(shù)據(jù)發(fā)現(xiàn)服務框架Metacat