中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

DeepMind提出關(guān)系性深度強(qiáng)化學(xué)習(xí):在星際爭(zhēng)霸2任務(wù)中獲得最優(yōu)水平

2018-06-13    來(lái)源:

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
自去年 7 月與暴雪共同開(kāi)放人工智能研究環(huán)境 SC2LE 以來(lái),DeepMind 一直沒(méi)有發(fā)表有關(guān)星際爭(zhēng)霸人工智能的進(jìn)一步研究。近日,這家公司提出了一種「關(guān)系性深度強(qiáng)化學(xué)習(xí)」方法,并在星際爭(zhēng)霸 2 中進(jìn)行了測(cè)試。

在星際爭(zhēng)霸 II 學(xué)習(xí)環(huán)境中,DeepMind 的智能體在六個(gè)小游戲中達(dá)到了當(dāng)前最優(yōu)水平,且在四個(gè)游戲中的表現(xiàn)超越了大師級(jí)人類(lèi)玩家。這種新型強(qiáng)化學(xué)習(xí)可以通過(guò)結(jié)構(gòu)化感知和關(guān)系推理提高常規(guī)方法的效率、泛化能力和可解釋性。

學(xué)習(xí)良好的內(nèi)部表征以告知智能體策略的能力在一定程度上驅(qū)動(dòng)了深度強(qiáng)化學(xué)習(xí)(RL)[1, 2, 3] 的最新進(jìn)展。不幸的是,深度學(xué)習(xí)模型仍然具有重大缺陷,如采樣效率低以及往往不能泛化至任務(wù)中看似微小的變化 [4, 5, 6, 7]。這些缺陷表明,具有較強(qiáng)能力的深度強(qiáng)化學(xué)習(xí)模型往往對(duì)其所訓(xùn)練的大量數(shù)據(jù)過(guò)度擬合,因此無(wú)法理解它們?cè)噲D解決的問(wèn)題的抽象性、可解釋性和可概括性。

在這里,我們通過(guò)利用 20 多年前 RL 文獻(xiàn)中的見(jiàn)解在關(guān)系 RL(RRL,[ 8,9 ))下來(lái)改進(jìn)深度 RL 體系結(jié)構(gòu)。RRL 主張使用關(guān)系狀態(tài)(和動(dòng)作)空間和策略表征,將關(guān)系學(xué)習(xí)(或歸納邏輯編程)的泛化能力與強(qiáng)化學(xué)習(xí)相結(jié)合。我們提出了一種將這些優(yōu)勢(shì)和深度學(xué)習(xí)所提供的學(xué)習(xí)能力相結(jié)合的方法。這種方法提倡學(xué)習(xí)和重復(fù)使用的以實(shí)體和關(guān)系為中心的函數(shù) [10、11、12] 來(lái)隱含地推理 [13] 的關(guān)系表征。

我們的成果如下:(1)我們創(chuàng)建并分析了一個(gè)名為「方塊世界」的 RL 任務(wù),該任務(wù)以關(guān)系推理為明確目標(biāo),并證明了具有利用基于注意力的非局部計(jì)算來(lái)生成關(guān)系表征能力的智能體 [14] 與不具備這種能力的智能體相比,表現(xiàn)出有趣的泛化行為;(2)我們將這種智能體應(yīng)用于一個(gè)難題——「星際爭(zhēng)霸 II」小游戲 [15]——并在 6 個(gè)小游戲上達(dá)到了當(dāng)前最優(yōu)水平。

 

 

圖 1:「方塊世界」和「星際爭(zhēng)霸 II」任務(wù)要求對(duì)實(shí)體及其關(guān)系進(jìn)行推理。

關(guān)系性強(qiáng)化學(xué)習(xí)

RRL 背后的核心思想即通過(guò)使用一階(或關(guān)系)語(yǔ)言 [8, 9, 17, 18] 表示狀態(tài)、動(dòng)作和策略,將強(qiáng)化學(xué)習(xí)與關(guān)系學(xué)習(xí)或歸納邏輯編程 [16] 結(jié)合起來(lái)。從命題轉(zhuǎn)向關(guān)系表征有利于目標(biāo)、狀態(tài)和動(dòng)作的泛化,并利用早期學(xué)習(xí)階段中獲得的知識(shí)。此外,關(guān)系語(yǔ)言還有利于使用背景知識(shí),而背景知識(shí)同時(shí)也可以通過(guò)與學(xué)習(xí)問(wèn)題相關(guān)的邏輯事實(shí)和規(guī)則提供。

例如在「方塊世界」的游戲中,當(dāng)指定背景知識(shí)時(shí),參與者可以使用述語(yǔ) above(S, A, B) 表示狀態(tài) S 中方塊 A 在方塊 B 的上面。這種述語(yǔ)可以用于方塊 C 和 D 以及其它目標(biāo)的學(xué)習(xí)中。表征性語(yǔ)言、背景和假設(shè)形成了歸納性偏置,它能引導(dǎo)并限制智能體搜索良好的策略。語(yǔ)言(或聲明性)偏置決定了概念的表現(xiàn)方式。

神經(jīng)網(wǎng)絡(luò)傳統(tǒng)上就與屬性-值、命題性以及強(qiáng)化學(xué)習(xí)方法 [19] 聯(lián)系在一起,F(xiàn)在,研究者們將 RRL 的核心思想轉(zhuǎn)化為深度 RL 智能體中結(jié)構(gòu)化指定的歸納偏置,他們使用神經(jīng)網(wǎng)絡(luò)模型在結(jié)構(gòu)化的情景表征(實(shí)體集合)上執(zhí)行運(yùn)算,并通過(guò)迭代的方式進(jìn)行關(guān)系推理。其中實(shí)體對(duì)應(yīng)著圖像的局部區(qū)域,且智能體將學(xué)習(xí)注意關(guān)鍵對(duì)象并計(jì)算他們成對(duì)和更高階的交互。

架構(gòu)

 

 

圖 2:「方塊世界」智能體架構(gòu)和 Multi-head 點(diǎn)積注意力。E 是一個(gè)矩陣,編譯視覺(jué)前端產(chǎn)生的實(shí)體;f_θ是多層感知器,用于平行 MHDPA 步驟 A 的每行輸出,并且產(chǎn)生更新的實(shí)體 E。

實(shí)驗(yàn)和結(jié)果

方塊世界

「方塊世界」是一個(gè)感知簡(jiǎn)單但組合復(fù)雜的環(huán)境,需要抽象的關(guān)系推理和規(guī)劃。它由一個(gè) 12×12 像素的空間組成,鑰匙和方塊隨意散落。這個(gè)空間還包含一個(gè)智能體,由一個(gè)暗灰色像素表示,它可以在四個(gè)方向上移動(dòng):上、下、左、右(圖 1)。

 

 

圖 3:「方塊世界」:觀察值示例(左),決定實(shí)現(xiàn)目標(biāo)合適路徑的基本圖結(jié)構(gòu)及任意干擾分支(中間)和訓(xùn)練曲線(右)。

 

 

圖 4:注意力權(quán)重可視化。(a)單樣本水平的基本圖;(b)該水平上的分析結(jié)果,使用解決路徑(1-5)中的每個(gè)實(shí)體作為注意力源。箭頭指向源正注意的實(shí)體,箭頭的透明度由相應(yīng)的注意力權(quán)重決定。

 

 

圖 5:「方塊世界」中的泛化。零樣本遷移到需要的水平:(a)打開(kāi)較長(zhǎng)的盒子序列;(b)使用訓(xùn)練期間沒(méi)用過(guò)的鎖-鑰組合。

星際爭(zhēng)霸 II 小游戲

「星際爭(zhēng)霸 II」是一種頗受歡迎的電子游戲,為強(qiáng)化學(xué)習(xí)出了一道棘手的難題。該游戲中有多個(gè)智能體,每個(gè)玩家控制大量(數(shù)百個(gè))需要交互、合作的單位(見(jiàn)圖 1)。

 

 

表 1:「星際爭(zhēng)霸 II」迷你型游戲中使用全動(dòng)作組的平均得分!↑」表示高于大師級(jí)人類(lèi)玩家的分?jǐn)?shù)。小游戲:(1)移動(dòng)到信標(biāo)位置;(2)收集晶礦碎片;( 3 ) 發(fā)現(xiàn)并打敗小狗;(4)打敗蟑螂;(5)打敗小狗和毒爆蟲(chóng);(6)收集晶礦和氣礦;(7)制造機(jī)槍兵。

論文:Relational Deep Reinforcement Learning

 

 

論文鏈接:https://arxiv.org/abs/1806.01830

摘要:在本文中,我們介紹了一種深度強(qiáng)化學(xué)習(xí)方法,它可以通過(guò)結(jié)構(gòu)化感知和關(guān)系推理提高常規(guī)方法的效率、泛化能力和可解釋性。該方法使用自注意力來(lái)迭代地推理場(chǎng)景中實(shí)體之間的關(guān)系并指導(dǎo) model-free 策略。實(shí)驗(yàn)結(jié)果表明,在一項(xiàng)名為「方塊世界」的導(dǎo)航、規(guī)劃新任務(wù)中,智能體找到了可解釋的解決方案,并且在樣本復(fù)雜性、泛化至比訓(xùn)練期間更復(fù)雜場(chǎng)景的能力方面提高了基線水平。在星際爭(zhēng)霸 II 學(xué)習(xí)環(huán)境中,智能體在六個(gè)小游戲中達(dá)到了當(dāng)前最優(yōu)水平——在四個(gè)游戲中的表現(xiàn)超越了大師級(jí)人類(lèi)玩家。通過(guò)考慮架構(gòu)化歸納偏置,我們的研究為解決深度強(qiáng)化學(xué)習(xí)中的重要、棘手的問(wèn)題開(kāi)辟了新的方向。

標(biāo)簽: https 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:人工智能再次參加高考:和作家比寫(xiě)作文,AI能打多少分?

下一篇:計(jì)算語(yǔ)言頂會(huì)ACL 2018最佳論文公布!這些大學(xué)與研究員榜上有名