中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

強化學(xué)習(xí)時代正在到來

2019-01-10    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

強化學(xué)習(xí)是近來最熱門也是成果最豐富的人工智能領(lǐng)域之一。之前為我們帶來《深度強化學(xué)習(xí)》手稿的加拿大阿爾伯塔大學(xué)計算機系博士Yuxi Li 近日發(fā)表博文認為我們正迎來強化學(xué)習(xí)的時代,本文為該文章的中文版。

強化學(xué)習(xí)(RL)已經(jīng)取得了斐然的成就,比如 Atari 游戲、AlphaGo、AlphaGo Zero、AlphaZero、DeepStack、Libratus、OpenAI Five、Dactyl、DeepMimic、奪旗,以及學(xué)習(xí)穿著打扮、冷卻數(shù)據(jù)中心、化學(xué)合成、藥物設(shè)計等。更多強化學(xué)習(xí)應(yīng)用請參閱:https://medium.com/@yuxili/rl-applications-73ef685c07eb

其中大多數(shù)都是學(xué)術(shù)研究。但是,我們也正見證著強化學(xué)習(xí)產(chǎn)品和服務(wù)的誕生,比如谷歌的 Cloud AutoML 和 Facebook 的 Horizon,還有 OpenAI Gym、DeepMindLab、DeepMind Control Suite、Google Dopamine、DeepMind TRFL、Facebook ELF、Microsoft TextWorld、Amazon AWS DeepRacer、Intel RL Coach 等開源項目和測試平臺。多臂賭博機方面(尤其是情景賭博機(contextual bandits))已有很多成功的應(yīng)用。

后文將簡要介紹強化學(xué)習(xí),討論強化學(xué)習(xí)近期的成果、問題、研究方向、應(yīng)用和未來?傮w而言想要說明一點:強化學(xué)習(xí)時代正在到來。

 

 

簡要介紹

在自然科學(xué)、社會科學(xué)、工程學(xué)和藝術(shù)等范圍廣泛的領(lǐng)域,針對序列決策問題,強化學(xué)習(xí)智能體(agent)會通過試錯方式與環(huán)境交互,隨著時間學(xué)習(xí)到一個最優(yōu)策略。

在每一個時間步驟,智能體都會接收到一個狀態(tài)并遵循一個策略選擇一個動作,這就是該智能體的行為,即從狀態(tài)到動作的一個映射。智能體會接收一個標量的獎勵,并會根據(jù)環(huán)境動態(tài)轉(zhuǎn)換到下一個狀態(tài)。模型直接關(guān)乎轉(zhuǎn)換概率和獎勵函數(shù)。智能體的目標是最大化一個長期回報的期望,即一個折扣的累積獎勵。

監(jiān)督學(xué)習(xí)通常是一次性的、短視的且考慮即時的獎勵,而強化學(xué)習(xí)則是序列式的、目光長遠且會考慮長期的累積獎勵。

Russell 和 Norvig 的人工智能教科書指出:「也許可以認為強化學(xué)習(xí)包含了一切人工智能:放置在環(huán)境中的智能體必須學(xué)習(xí)以便在其中成功地行事」以及「可將強化學(xué)習(xí)視為整個人工智能問題的一個縮影」。研究也表明計算機科學(xué)領(lǐng)域具有可計算描述的任務(wù)都可以構(gòu)建為強化學(xué)習(xí)問題的形式。這些都支持 David Silver 博士的假設(shè):AI = RL + DL(人工智能=強化學(xué)習(xí)+深度學(xué)習(xí))。

可參考下列資源了解更多有關(guān)強化學(xué)習(xí)的詳細情況:

David Silver 博士的 UCL 強化學(xué)習(xí)課程:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

DeepMind 和 UCL 的深度學(xué)習(xí)和強化學(xué)習(xí)課程:https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs

Sergey Levine 教授的深度強化學(xué)習(xí)課程:http://rail.eecs.berkeley.edu/deeprlcourse/

OpenAI 的 Spinning Up in Deep RL:https://blog.openai.com/spinning-up-in-deep-rl/

Sutton 和 Barto 的強化學(xué)習(xí)著作:http://incompleteideas.net/book/the-book-2nd.html

一本有關(guān)深度強化學(xué)習(xí)的書籍草稿:https://arxiv.org/abs/1810.06339

一份深度強化學(xué)習(xí)資源匯集:https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f

 

 

近期成果

我們已經(jīng)見證了深度強化學(xué)習(xí)取得的一些突破:比如深度 Q 網(wǎng)絡(luò)(DQN)、AlphaGo(以及 AlphaGo Zero 和 AlphaZero)、DeepStack/Libratus。它們每一個都代表了一大類問題和大量應(yīng)用。DQN 可用于單玩家游戲和廣義上的單智能體控制。DQN 為當前的深度強化學(xué)習(xí)普及浪潮掀起了最初的浪花。AlphaGo 可用于雙玩家完美信息零和博弈。AlphaGo 在一個非常艱難的問題上取得了現(xiàn)象級的重大成果,成為了人工智能領(lǐng)域的一大里程碑。DeepStack 針對的是雙玩家不完美信息零和博弈,這一類問題本身是很難解決的。與 AlphaGo 類似,DeepStack/Libratus 也在一個困難問題上取得了重大的進展,成為了人工智能的發(fā)展里程碑。

OpenAI Five 在 Dota 2 游戲上戰(zhàn)勝了優(yōu)秀的人類玩家。OpenAI 還訓(xùn)練了 Dactyl,可讓類人式機器手靈活地操控實際物體。DeepMimic 模擬人形機器人來執(zhí)行高度動態(tài)的、雜技般的技能。智能體也在多玩家游戲 Catch The Flag 中達到了人類水平,這是在掌握戰(zhàn)術(shù)和戰(zhàn)略團隊協(xié)作上的進展。另外還有一個衣著模擬模型完成了穿著任務(wù)。強化學(xué)習(xí)也已經(jīng)被用于數(shù)據(jù)中心冷卻,這是在真實世界物理系統(tǒng)中的應(yīng)用;瘜W(xué)合成領(lǐng)域已經(jīng)在逆合成方面應(yīng)用了強化學(xué)習(xí)。

我們也已經(jīng)看到強化學(xué)習(xí)在產(chǎn)品和服務(wù)中得到了應(yīng)用。AutoML 試圖讓人們更容易獲取 AI。谷歌 Cloud AutoML 提供了神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計自動化等服務(wù)。Facebook Horizon 已經(jīng)開源了一個強化學(xué)習(xí)平臺,可用于通知、視頻傳輸比特流優(yōu)化、改善 Messenger 中的 M 建議等產(chǎn)品和服務(wù)。亞馬遜已經(jīng)推出了一款實體的強化學(xué)習(xí)測試平臺AWSDeepRacer,另外還有英特爾的 RL Coach。

這些成果之下的技術(shù)包括深度學(xué)習(xí)、強化學(xué)習(xí)、蒙特卡洛樹搜索(MCTS)和自學(xué)習(xí);它們還將有更廣泛和更深入的應(yīng)用和影響。

問題

強化學(xué)習(xí)領(lǐng)域存在很多概念、算法和問題。樣本效率、稀疏獎勵、信用分配、探索與利用、表征都是常見問題,也有人在努力試圖解決它們。離策略在學(xué)習(xí)時既會使用在策略數(shù)據(jù),也會使用離策略數(shù)據(jù)。輔助獎勵和自監(jiān)督學(xué)習(xí)是學(xué)習(xí)環(huán)境中的非獎勵信號。獎勵塑造(reward shaping)能提供更密集的獎勵。分層強化學(xué)習(xí)可用于時間抽象。通用價值函數(shù)(GVF,尤其是 Horde)、通用價值函數(shù)近似器(UVF)和事后經(jīng)驗重放(HER)能夠?qū)W習(xí)目標之間共有的表征/知識。探索技術(shù)可從有價值的動作中學(xué)到更多;谀P偷膹娀瘜W(xué)習(xí)可以生成更多可供學(xué)習(xí)的數(shù)據(jù)。學(xué)習(xí)去學(xué)習(xí)(比如 one/zero/few-shot 學(xué)習(xí)、遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí))是通過學(xué)習(xí)相關(guān)任務(wù)以實現(xiàn)高效的學(xué)習(xí)。結(jié)構(gòu)和知識的整合可幫助得到更智能的表征以及實現(xiàn)更智能的問題構(gòu)建。

使用了函數(shù)近似的強化學(xué)習(xí)(尤其是深度強化學(xué)習(xí))面臨著一大問題,即由離策略、函數(shù)近似和 bootstrapping 的組合所導(dǎo)致的不穩(wěn)定性和/或發(fā)散性。解決這一基礎(chǔ)問題的努力有很多,比如梯度時間差分(GTD)、平滑的貝爾曼誤差嵌入(SBEED)和 non-delusional算法。

可再現(xiàn)性是深度強化學(xué)習(xí)的又一問題。實驗結(jié)果會受超參數(shù)的影響,其中包括網(wǎng)絡(luò)架構(gòu)和獎勵規(guī)模、隨機種子和試驗、環(huán)境和代碼庫。

強化學(xué)習(xí)與機器學(xué)習(xí)還有一些共有問題,比如時間/空間效率、準確度、可解釋性、安全性、可擴展性、穩(wěn)健性、簡潔性等。

 

 

研究方向

我們有必要研究基于價值的方法、基于策略的方法、基于模型的方法、獎勵、探索與利用、表征。這 6 個核心元素在這本深度強化學(xué)習(xí)草稿中也有探討:https://arxiv.org/abs/1810.06339 。有 6 大重要機制分別在(深度)強化學(xué)習(xí)的不同方面發(fā)揮著關(guān)鍵性作用,即注意和記憶、無監(jiān)督學(xué)習(xí)、分層強化學(xué)習(xí)、多智能體強化學(xué)習(xí)、關(guān)系強化學(xué)習(xí)、學(xué)習(xí)去學(xué)習(xí)。

深度強化學(xué)習(xí)一書中討論了六個研究方向,包含挑戰(zhàn)和機會。研究方向一是對深度強化學(xué)習(xí)算法進行系統(tǒng)性的比較研究,這涉及到可再現(xiàn)性以及深度強化學(xué)習(xí)算法表面下的穩(wěn)定性和收斂性。研究方向二是「解決」多智能體問題,這涉及到在大規(guī)模、復(fù)雜以及可能存在對抗性的設(shè)定中的樣本效率、稀疏獎勵、穩(wěn)定性、非定態(tài)性(non-stationarity)和收斂性。研究方向三是從實體而不只是原始輸入學(xué)習(xí),這涉及到樣本效率、稀疏獎勵和可解釋性,需要整合更多知識和結(jié)構(gòu)。研究方向四是為強化學(xué)習(xí)設(shè)計最優(yōu)的表征。研究方向五是自動強化學(xué)習(xí)。研究方向六是用于現(xiàn)實生活的(深度)強化學(xué)習(xí)。這些涉及到整個強化學(xué)習(xí)問題,也即強化學(xué)習(xí)領(lǐng)域中涉及到表征、自動化和應(yīng)用的各個角度的所有問題。我們預(yù)計所有這些研究方向都還會繼續(xù)存在,但第一個除外,不過它也是很有挑戰(zhàn)性的。而這些方向的進展將會加深我們對(深度)強化學(xué)習(xí)的理解以及推動人工智能前沿的進一步發(fā)展。

Rich Sutton 教授重點強調(diào)了利用學(xué)習(xí)到的模型進行規(guī)劃的重要性。Yann LeCun 教授討論過世界模型的學(xué)習(xí),尤其是自監(jiān)督學(xué)習(xí)。Yoshua Bengio 教授討論過解離式表征(disentangled representation)。

有越來越多的研究在致力于開發(fā)構(gòu)建能像人類一樣學(xué)習(xí)和思考的機器,并且也在整合經(jīng)典人工智能的組件,比如因果、推理、符號主義等。因果推理和關(guān)系學(xué)習(xí)得到的關(guān)注尤其多。更多內(nèi)容請查閱 https://arxiv.org/abs/1810.06339

應(yīng)用

《深度強化學(xué)習(xí)》中討論了 12 個應(yīng)用領(lǐng)域,包括游戲、機器人、自然語言處理、計算機視覺、金融、業(yè)務(wù)管理、醫(yī)療保健、教育、能源、交通運輸、計算機系統(tǒng)以及科學(xué)、工程和藝術(shù)。最后一項「科學(xué)、工程和藝術(shù)」幾乎涵蓋了一切,這傳遞出了一個信息:強化學(xué)習(xí)和人工智能將無處不在。

強化學(xué)習(xí)是一種用于序列決策問題的解決方案式的方法。但是,某些問題表面上看似不是序列式的,也能被強化學(xué)習(xí)成功解決,比如神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計。一般而言,如果一個問題可以被看成或可以轉(zhuǎn)換成一個序列決策問題,并且可以構(gòu)建出狀態(tài)、動作以及可能的獎勵,那么強化學(xué)習(xí)都可能提供幫助。粗略地講,如果一個任務(wù)涉及到某種人工設(shè)計的「策略」,則就有可能能用強化學(xué)習(xí)幫助自動化和優(yōu)化該策略。

強化學(xué)習(xí)在波束搜索策略、數(shù)據(jù)庫聯(lián)合查詢、主動學(xué)習(xí)、問題合成、模型壓縮和加速、驅(qū)動器管理等方面都有有趣的應(yīng)用。

強化學(xué)習(xí)有一個具體應(yīng)用方向是擴展 AlphaGo 技術(shù)。正如 AlphaGo 的作者在他們的論文中建議的那樣,以下應(yīng)用還值得進一步研究:廣義上的游戲(尤其是視頻游戲)、經(jīng)典規(guī)劃、部分可觀察的規(guī)劃、調(diào)度、約束滿足、機器人、工業(yè)控制、在線推薦系統(tǒng)、蛋白質(zhì)折疊、降低能耗、尋找革命性的新材料;瘜W(xué)合成就是一個很好的例子。

要讓強化學(xué)習(xí)用在現(xiàn)實生活應(yīng)用中,我們需要考慮數(shù)據(jù)和計算的可用性。AlphaGo 的成功就得益于其完美的圍棋模型(可以生成大量訓(xùn)練數(shù)據(jù))和谷歌級的計算能力。對于機器人、醫(yī)療保健和教育等一些應(yīng)用而言,我們通常還沒有優(yōu)良的模型,因此不容易得到大量數(shù)據(jù)。離策略的策略評估是一種解決這一問題的方法。

討論

前文討論了強化學(xué)習(xí)近期的進展、問題、研究方向和應(yīng)用。下面我將介紹幾位研究人員的觀點。

David Silver 教授總結(jié)了深度強化學(xué)習(xí)的原則:評估推動進步,可擴展性決定成功,泛化能力保證算法的未來,對智能體的經(jīng)驗和狀態(tài)的信任是主觀的,控制流,價值函數(shù)建模世界,規(guī)劃,從想象的經(jīng)歷中學(xué)習(xí),為函數(shù)近似器賦能,學(xué)習(xí)去學(xué)習(xí)。

Dimitri Bertsekas 教授對強化學(xué)習(xí)的未來(包括其在現(xiàn)實生活中的應(yīng)用)的態(tài)度是謹慎樂觀。以下內(nèi)容直接引用自他的幻燈片:

♦ 可廣泛應(yīng)用的方法:可以解決范圍廣泛的難題。確實-隨機-動態(tài),離散-連續(xù),等。

♦ 沒有任何方法能確保對所有甚至大部分問題都有效。

♦ 對于大多數(shù)類型的優(yōu)化問題,都有足夠多的可嘗試的方法且它們都有相當好的成功可能性。

♦ 理論的作用:引導(dǎo)前沿發(fā)展,描繪可行的想法。

♦ 所有方法都有困難的實現(xiàn)問題,而且沒有防誤操作的方法。

♦ 問題近似和特征選擇需要領(lǐng)域特定的知識。

♦ 不同于你通過閱讀文獻可能形成的看法,訓(xùn)練算法可能并沒有那樣有效。

♦ 近似策略迭代涉及到振蕩。

♦ 很難認定成功或失敗!

♦ 強化學(xué)習(xí)在游戲領(lǐng)域的成功很驚人,但這得益于完美已知的和穩(wěn)定的模型以及(每個狀態(tài))少量的控制。

♦ 具有部分可觀察狀態(tài)的問題依然是一大難題。

♦ 大規(guī)模計算能力與分布式計算很有希望。

♦ 一線曙光:我們可以開始解決一些難度超乎想象的實際問題!

♦ 前路激動人心!

Sutton 和 Barto 的強化學(xué)習(xí)著作《Reinforcement Learning: An Introduction》很直觀。Bertsekas 和 Tsitsiklis 的《Neuro-Dynamic Programming》(神經(jīng)動態(tài)規(guī)劃,接近(深度)強化學(xué)習(xí))是理論方面的。Bertsekas 教授有一本新的強化學(xué)習(xí)和最優(yōu)控制著作《Reinforcement Learning and Optimal Control》。如果我們稱 Sutton 教授是強化學(xué)習(xí)之父,那么 Bertsekas 教授就是強化學(xué)習(xí)的叔叔。

我們看到,不僅重視基礎(chǔ)研究的研究者對強化學(xué)習(xí)有積極的態(tài)度,而且 Google Cloud AutoML 和 Facebook Horizon 等產(chǎn)品和服務(wù)也在部署強化學(xué)習(xí)。

預(yù)測是很困難的,尤其是預(yù)測未來。很多博客探討過強化學(xué)習(xí)的重要性,尤其是在 2019 年。強化學(xué)習(xí)是 MIT Technology Review 2017 年的 10 大突破性技術(shù)之一,深度學(xué)習(xí)入選了 2013 年的榜單。對于廣義上的人工智能,Geoffrey Hinton 教授說過:「不,不會再有一個人工智能冬天了,因為它驅(qū)動著你的手機。在之前的人工智能冬天,人工智能還沒有真正成為你的日常生活的一部分。而現(xiàn)在已經(jīng)是了!箙嵌鬟_博士提供了一份人工智能轉(zhuǎn)換手冊:https://landing.ai/ai-transformation-playbook/

在基礎(chǔ)研究和現(xiàn)實生活應(yīng)用方面,強化學(xué)習(xí)一直在積累量的變化,這將會導(dǎo)致質(zhì)的變化。要記得,挑戰(zhàn)與機遇并存,有證據(jù)表明強化學(xué)習(xí)時代正要來臨。

原博文:https://medium.com/@yuxili/e3-cb5325d60381

《深度強化學(xué)習(xí)》:https://arxiv.org/abs/1810.06339

標簽: Google 安全 代碼 谷歌 金融 數(shù)據(jù)庫 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:用 Python 做機器學(xué)習(xí)不得不收藏的重要庫

下一篇:專家解讀:2019年大數(shù)據(jù)行業(yè)預(yù)測