站長資訊平臺

DeepMind提出關系性深度強化學習：在星際爭霸2任務中獲得最優(yōu)水平

2018-06-13 來源：

自去年 7 月與暴雪共同開放人工智能研究環(huán)境 SC2LE 以來，DeepMind 一直沒有發(fā)表有關星際爭霸人工智能的進一步研究。近日，這家公司提出了一種「關系性深度強化學習」方法，并在星際爭霸 2 中進行了測試。

在星際爭霸 II 學習環(huán)境中，DeepMind 的智能體在六個小游戲中達到了當前最優(yōu)水平，且在四個游戲中的表現(xiàn)超越了大師級人類玩家。這種新型強化學習可以通過結構化感知和關系推理提高常規(guī)方法的效率、泛化能力和可解釋性。

學習良好的內部表征以告知智能體策略的能力在一定程度上驅動了深度強化學習(RL)[1, 2, 3] 的最新進展。不幸的是，深度學習模型仍然具有重大缺陷，如采樣效率低以及往往不能泛化至任務中看似微小的變化 [4, 5, 6, 7]。這些缺陷表明，具有較強能力的深度強化學習模型往往對其所訓練的大量數據過度擬合，因此無法理解它們試圖解決的問題的抽象性、可解釋性和可概括性。

在這里，我們通過利用 20 多年前 RL 文獻中的見解在關系 RL(RRL，[ 8，9 ))下來改進深度 RL 體系結構。RRL 主張使用關系狀態(tài)(和動作)空間和策略表征，將關系學習(或歸納邏輯編程)的泛化能力與強化學習相結合。我們提出了一種將這些優(yōu)勢和深度學習所提供的學習能力相結合的方法。這種方法提倡學習和重復使用的以實體和關系為中心的函數 [10、11、12] 來隱含地推理 [13] 的關系表征。

我們的成果如下：(1)我們創(chuàng)建并分析了一個名為「方塊世界」的 RL 任務，該任務以關系推理為明確目標，并證明了具有利用基于注意力的非局部計算來生成關系表征能力的智能體 [14] 與不具備這種能力的智能體相比，表現(xiàn)出有趣的泛化行為;(2)我們將這種智能體應用于一個難題——「星際爭霸 II」小游戲 [15]——并在 6 個小游戲上達到了當前最優(yōu)水平。

圖 1：「方塊世界」和「星際爭霸 II」任務要求對實體及其關系進行推理。

關系性強化學習

RRL 背后的核心思想即通過使用一階(或關系)語言 [8, 9, 17, 18] 表示狀態(tài)、動作和策略，將強化學習與關系學習或歸納邏輯編程 [16] 結合起來。從命題轉向關系表征有利于目標、狀態(tài)和動作的泛化，并利用早期學習階段中獲得的知識。此外，關系語言還有利于使用背景知識，而背景知識同時也可以通過與學習問題相關的邏輯事實和規(guī)則提供。

例如在「方塊世界」的游戲中，當指定背景知識時，參與者可以使用述語 above(S, A, B) 表示狀態(tài) S 中方塊 A 在方塊 B 的上面。這種述語可以用于方塊 C 和 D 以及其它目標的學習中。表征性語言、背景和假設形成了歸納性偏置，它能引導并限制智能體搜索良好的策略。語言(或聲明性)偏置決定了概念的表現(xiàn)方式。

神經網絡傳統(tǒng)上就與屬性-值、命題性以及強化學習方法 [19] 聯(lián)系在一起�，F(xiàn)在，研究者們將 RRL 的核心思想轉化為深度 RL 智能體中結構化指定的歸納偏置，他們使用神經網絡模型在結構化的情景表征(實體集合)上執(zhí)行運算，并通過迭代的方式進行關系推理。其中實體對應著圖像的局部區(qū)域，且智能體將學習注意關鍵對象并計算他們成對和更高階的交互。

架構

圖 2：「方塊世界」智能體架構和 Multi-head 點積注意力。E 是一個矩陣，編譯視覺前端產生的實體;f_θ是多層感知器，用于平行 MHDPA 步驟 A 的每行輸出，并且產生更新的實體 E。

實驗和結果

方塊世界

「方塊世界」是一個感知簡單但組合復雜的環(huán)境，需要抽象的關系推理和規(guī)劃。它由一個 12×12 像素的空間組成，鑰匙和方塊隨意散落。這個空間還包含一個智能體，由一個暗灰色像素表示，它可以在四個方向上移動：上、下、左、右(圖 1)。

圖 3：「方塊世界」：觀察值示例(左)，決定實現(xiàn)目標合適路徑的基本圖結構及任意干擾分支(中間)和訓練曲線(右)。

圖 4：注意力權重可視化。(a)單樣本水平的基本圖;(b)該水平上的分析結果，使用解決路徑(1-5)中的每個實體作為注意力源。箭頭指向源正注意的實體，箭頭的透明度由相應的注意力權重決定。

圖 5：「方塊世界」中的泛化。零樣本遷移到需要的水平：(a)打開較長的盒子序列;(b)使用訓練期間沒用過的鎖-鑰組合。

星際爭霸 II 小游戲

「星際爭霸 II」是一種頗受歡迎的電子游戲，為強化學習出了一道棘手的難題。該游戲中有多個智能體，每個玩家控制大量(數百個)需要交互、合作的單位(見圖 1)。

表 1：「星際爭霸 II」迷你型游戲中使用全動作組的平均得分�！�↑」表示高于大師級人類玩家的分數。小游戲：(1)移動到信標位置;(2)收集晶礦碎片;( 3 ) 發(fā)現(xiàn)并打敗小狗;(4)打敗蟑螂;(5)打敗小狗和毒爆蟲;(6)收集晶礦和氣礦;(7)制造機槍兵。

論文：Relational Deep Reinforcement Learning

論文鏈接：https://arxiv.org/abs/1806.01830

摘要：在本文中，我們介紹了一種深度強化學習方法，它可以通過結構化感知和關系推理提高常規(guī)方法的效率、泛化能力和可解釋性。該方法使用自注意力來迭代地推理場景中實體之間的關系并指導 model-free 策略。實驗結果表明，在一項名為「方塊世界」的導航、規(guī)劃新任務中，智能體找到了可解釋的解決方案，并且在樣本復雜性、泛化至比訓練期間更復雜場景的能力方面提高了基線水平。在星際爭霸 II 學習環(huán)境中，智能體在六個小游戲中達到了當前最優(yōu)水平——在四個游戲中的表現(xiàn)超越了大師級人類玩家。通過考慮架構化歸納偏置，我們的研究為解決深度強化學習中的重要、棘手的問題開辟了新的方向。

標簽： https 搜索網絡

版權申明：本站文章部分自網絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:人工智能再次參加高考：和作家比寫作文，AI能打多少分？

下一篇:計算語言頂會ACL 2018最佳論文公布！這些大學與研究員榜上有名

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

DeepMind提出關系性深度強化學習：在星際爭霸2任務中獲得最優(yōu)水平