強(qiáng)化學(xué)習(xí)時(shí)代正在到來

2019-01-10 來源：raincent

強(qiáng)化學(xué)習(xí)是近來最熱門也是成果最豐富的人工智能領(lǐng)域之一。之前為我們帶來《深度強(qiáng)化學(xué)習(xí)》手稿的加拿大阿爾伯塔大學(xué)計(jì)算機(jī)系博士Yuxi Li 近日發(fā)表博文認(rèn)為我們正迎來強(qiáng)化學(xué)習(xí)的時(shí)代，本文為該文章的中文版。

強(qiáng)化學(xué)習(xí)(RL)已經(jīng)取得了斐然的成就，比如 Atari 游戲、AlphaGo、AlphaGo Zero、AlphaZero、DeepStack、Libratus、OpenAI Five、Dactyl、DeepMimic、奪旗，以及學(xué)習(xí)穿著打扮、冷卻數(shù)據(jù)中心、化學(xué)合成、藥物設(shè)計(jì)等。更多強(qiáng)化學(xué)習(xí)應(yīng)用請參閱：https://medium.com/@yuxili/rl-applications-73ef685c07eb

其中大多數(shù)都是學(xué)術(shù)研究。但是，我們也正見證著強(qiáng)化學(xué)習(xí)產(chǎn)品和服務(wù)的誕生，比如谷歌的 Cloud AutoML 和 Facebook 的 Horizon，還有 OpenAI Gym、DeepMindLab、DeepMind Control Suite、Google Dopamine、DeepMind TRFL、Facebook ELF、Microsoft TextWorld、Amazon AWS DeepRacer、Intel RL Coach 等開源項(xiàng)目和測試平臺(tái)。多臂賭博機(jī)方面(尤其是情景賭博機(jī)(contextual bandits))已有很多成功的應(yīng)用。

后文將簡要介紹強(qiáng)化學(xué)習(xí)，討論強(qiáng)化學(xué)習(xí)近期的成果、問題、研究方向、應(yīng)用和未來�？傮w而言想要說明一點(diǎn)：強(qiáng)化學(xué)習(xí)時(shí)代正在到來。

簡要介紹

在自然科學(xué)、社會(huì)科學(xué)、工程學(xué)和藝術(shù)等范圍廣泛的領(lǐng)域，針對序列決策問題，強(qiáng)化學(xué)習(xí)智能體(agent)會(huì)通過試錯(cuò)方式與環(huán)境交互，隨著時(shí)間學(xué)習(xí)到一個(gè)最優(yōu)策略。

在每一個(gè)時(shí)間步驟，智能體都會(huì)接收到一個(gè)狀態(tài)并遵循一個(gè)策略選擇一個(gè)動(dòng)作，這就是該智能體的行為，即從狀態(tài)到動(dòng)作的一個(gè)映射。智能體會(huì)接收一個(gè)標(biāo)量的獎(jiǎng)勵(lì)，并會(huì)根據(jù)環(huán)境動(dòng)態(tài)轉(zhuǎn)換到下一個(gè)狀態(tài)。模型直接關(guān)乎轉(zhuǎn)換概率和獎(jiǎng)勵(lì)函數(shù)。智能體的目標(biāo)是最大化一個(gè)長期回報(bào)的期望，即一個(gè)折扣的累積獎(jiǎng)勵(lì)。

監(jiān)督學(xué)習(xí)通常是一次性的、短視的且考慮即時(shí)的獎(jiǎng)勵(lì)，而強(qiáng)化學(xué)習(xí)則是序列式的、目光長遠(yuǎn)且會(huì)考慮長期的累積獎(jiǎng)勵(lì)。

Russell 和 Norvig 的人工智能教科書指出：「也許可以認(rèn)為強(qiáng)化學(xué)習(xí)包含了一切人工智能：放置在環(huán)境中的智能體必須學(xué)習(xí)以便在其中成功地行事」以及「可將強(qiáng)化學(xué)習(xí)視為整個(gè)人工智能問題的一個(gè)縮影」。研究也表明計(jì)算機(jī)科學(xué)領(lǐng)域具有可計(jì)算描述的任務(wù)都可以構(gòu)建為強(qiáng)化學(xué)習(xí)問題的形式。這些都支持 David Silver 博士的假設(shè)：AI = RL + DL(人工智能=強(qiáng)化學(xué)習(xí)+深度學(xué)習(xí))。

可參考下列資源了解更多有關(guān)強(qiáng)化學(xué)習(xí)的詳細(xì)情況：

David Silver 博士的 UCL 強(qiáng)化學(xué)習(xí)課程：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

DeepMind 和 UCL 的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)課程：https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs

Sergey Levine 教授的深度強(qiáng)化學(xué)習(xí)課程：http://rail.eecs.berkeley.edu/deeprlcourse/

OpenAI 的 Spinning Up in Deep RL：https://blog.openai.com/spinning-up-in-deep-rl/

Sutton 和 Barto 的強(qiáng)化學(xué)習(xí)著作：http://incompleteideas.net/book/the-book-2nd.html

一本有關(guān)深度強(qiáng)化學(xué)習(xí)的書籍草稿：https://arxiv.org/abs/1810.06339

一份深度強(qiáng)化學(xué)習(xí)資源匯集：https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f

近期成果

我們已經(jīng)見證了深度強(qiáng)化學(xué)習(xí)取得的一些突破：比如深度 Q 網(wǎng)絡(luò)(DQN)、AlphaGo(以及 AlphaGo Zero 和 AlphaZero)、DeepStack/Libratus。它們每一個(gè)都代表了一大類問題和大量應(yīng)用。DQN 可用于單玩家游戲和廣義上的單智能體控制。DQN 為當(dāng)前的深度強(qiáng)化學(xué)習(xí)普及浪潮掀起了最初的浪花。AlphaGo 可用于雙玩家完美信息零和博弈。AlphaGo 在一個(gè)非常艱難的問題上取得了現(xiàn)象級(jí)的重大成果，成為了人工智能領(lǐng)域的一大里程碑。DeepStack 針對的是雙玩家不完美信息零和博弈，這一類問題本身是很難解決的。與 AlphaGo 類似，DeepStack/Libratus 也在一個(gè)困難問題上取得了重大的進(jìn)展，成為了人工智能的發(fā)展里程碑。

OpenAI Five 在 Dota 2 游戲上戰(zhàn)勝了優(yōu)秀的人類玩家。OpenAI 還訓(xùn)練了 Dactyl，可讓類人式機(jī)器手靈活地操控實(shí)際物體。DeepMimic 模擬人形機(jī)器人來執(zhí)行高度動(dòng)態(tài)的、雜技般的技能。智能體也在多玩家游戲 Catch The Flag 中達(dá)到了人類水平，這是在掌握戰(zhàn)術(shù)和戰(zhàn)略團(tuán)隊(duì)協(xié)作上的進(jìn)展。另外還有一個(gè)衣著模擬模型完成了穿著任務(wù)。強(qiáng)化學(xué)習(xí)也已經(jīng)被用于數(shù)據(jù)中心冷卻，這是在真實(shí)世界物理系統(tǒng)中的應(yīng)用�；瘜W(xué)合成領(lǐng)域已經(jīng)在逆合成方面應(yīng)用了強(qiáng)化學(xué)習(xí)。

我們也已經(jīng)看到強(qiáng)化學(xué)習(xí)在產(chǎn)品和服務(wù)中得到了應(yīng)用。AutoML 試圖讓人們更容易獲取 AI。谷歌 Cloud AutoML 提供了神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)自動(dòng)化等服務(wù)。Facebook Horizon 已經(jīng)開源了一個(gè)強(qiáng)化學(xué)習(xí)平臺(tái)，可用于通知、視頻傳輸比特流優(yōu)化、改善 Messenger 中的 M 建議等產(chǎn)品和服務(wù)。亞馬遜已經(jīng)推出了一款實(shí)體的強(qiáng)化學(xué)習(xí)測試平臺(tái)AWSDeepRacer，另外還有英特爾的 RL Coach。

這些成果之下的技術(shù)包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、蒙特卡洛樹搜索(MCTS)和自學(xué)習(xí);它們還將有更廣泛和更深入的應(yīng)用和影響。

問題

強(qiáng)化學(xué)習(xí)領(lǐng)域存在很多概念、算法和問題。樣本效率、稀疏獎(jiǎng)勵(lì)、信用分配、探索與利用、表征都是常見問題，也有人在努力試圖解決它們。離策略在學(xué)習(xí)時(shí)既會(huì)使用在策略數(shù)據(jù)，也會(huì)使用離策略數(shù)據(jù)。輔助獎(jiǎng)勵(lì)和自監(jiān)督學(xué)習(xí)是學(xué)習(xí)環(huán)境中的非獎(jiǎng)勵(lì)信號(hào)。獎(jiǎng)勵(lì)塑造(reward shaping)能提供更密集的獎(jiǎng)勵(lì)。分層強(qiáng)化學(xué)習(xí)可用于時(shí)間抽象。通用價(jià)值函數(shù)(GVF，尤其是 Horde)、通用價(jià)值函數(shù)近似器(UVF)和事后經(jīng)驗(yàn)重放(HER)能夠?qū)W習(xí)目標(biāo)之間共有的表征/知識(shí)。探索技術(shù)可從有價(jià)值的動(dòng)作中學(xué)到更多�；谀Ｐ偷膹�(qiáng)化學(xué)習(xí)可以生成更多可供學(xué)習(xí)的數(shù)據(jù)。學(xué)習(xí)去學(xué)習(xí)(比如 one/zero/few-shot 學(xué)習(xí)、遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí))是通過學(xué)習(xí)相關(guān)任務(wù)以實(shí)現(xiàn)高效的學(xué)習(xí)。結(jié)構(gòu)和知識(shí)的整合可幫助得到更智能的表征以及實(shí)現(xiàn)更智能的問題構(gòu)建。

使用了函數(shù)近似的強(qiáng)化學(xué)習(xí)(尤其是深度強(qiáng)化學(xué)習(xí))面臨著一大問題，即由離策略、函數(shù)近似和 bootstrapping 的組合所導(dǎo)致的不穩(wěn)定性和/或發(fā)散性。解決這一基礎(chǔ)問題的努力有很多，比如梯度時(shí)間差分(GTD)、平滑的貝爾曼誤差嵌入(SBEED)和 non-delusional算法。

可再現(xiàn)性是深度強(qiáng)化學(xué)習(xí)的又一問題。實(shí)驗(yàn)結(jié)果會(huì)受超參數(shù)的影響，其中包括網(wǎng)絡(luò)架構(gòu)和獎(jiǎng)勵(lì)規(guī)模、隨機(jī)種子和試驗(yàn)、環(huán)境和代碼庫。

強(qiáng)化學(xué)習(xí)與機(jī)器學(xué)習(xí)還有一些共有問題，比如時(shí)間/空間效率、準(zhǔn)確度、可解釋性、安全性、可擴(kuò)展性、穩(wěn)健性、簡潔性等。

研究方向

我們有必要研究基于價(jià)值的方法、基于策略的方法、基于模型的方法、獎(jiǎng)勵(lì)、探索與利用、表征。這 6 個(gè)核心元素在這本深度強(qiáng)化學(xué)習(xí)草稿中也有探討：https://arxiv.org/abs/1810.06339 。有 6 大重要機(jī)制分別在(深度)強(qiáng)化學(xué)習(xí)的不同方面發(fā)揮著關(guān)鍵性作用，即注意和記憶、無監(jiān)督學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)、關(guān)系強(qiáng)化學(xué)習(xí)、學(xué)習(xí)去學(xué)習(xí)。

深度強(qiáng)化學(xué)習(xí)一書中討論了六個(gè)研究方向，包含挑戰(zhàn)和機(jī)會(huì)。研究方向一是對深度強(qiáng)化學(xué)習(xí)算法進(jìn)行系統(tǒng)性的比較研究，這涉及到可再現(xiàn)性以及深度強(qiáng)化學(xué)習(xí)算法表面下的穩(wěn)定性和收斂性。研究方向二是「解決」多智能體問題，這涉及到在大規(guī)模、復(fù)雜以及可能存在對抗性的設(shè)定中的樣本效率、稀疏獎(jiǎng)勵(lì)、穩(wěn)定性、非定態(tài)性(non-stationarity)和收斂性。研究方向三是從實(shí)體而不只是原始輸入學(xué)習(xí)，這涉及到樣本效率、稀疏獎(jiǎng)勵(lì)和可解釋性，需要整合更多知識(shí)和結(jié)構(gòu)。研究方向四是為強(qiáng)化學(xué)習(xí)設(shè)計(jì)最優(yōu)的表征。研究方向五是自動(dòng)強(qiáng)化學(xué)習(xí)。研究方向六是用于現(xiàn)實(shí)生活的(深度)強(qiáng)化學(xué)習(xí)。這些涉及到整個(gè)強(qiáng)化學(xué)習(xí)問題，也即強(qiáng)化學(xué)習(xí)領(lǐng)域中涉及到表征、自動(dòng)化和應(yīng)用的各個(gè)角度的所有問題。我們預(yù)計(jì)所有這些研究方向都還會(huì)繼續(xù)存在，但第一個(gè)除外，不過它也是很有挑戰(zhàn)性的。而這些方向的進(jìn)展將會(huì)加深我們對(深度)強(qiáng)化學(xué)習(xí)的理解以及推動(dòng)人工智能前沿的進(jìn)一步發(fā)展。

Rich Sutton 教授重點(diǎn)強(qiáng)調(diào)了利用學(xué)習(xí)到的模型進(jìn)行規(guī)劃的重要性。Yann LeCun 教授討論過世界模型的學(xué)習(xí)，尤其是自監(jiān)督學(xué)習(xí)。Yoshua Bengio 教授討論過解離式表征(disentangled representation)。

有越來越多的研究在致力于開發(fā)構(gòu)建能像人類一樣學(xué)習(xí)和思考的機(jī)器，并且也在整合經(jīng)典人工智能的組件，比如因果、推理、符號(hào)主義等。因果推理和關(guān)系學(xué)習(xí)得到的關(guān)注尤其多。更多內(nèi)容請查閱 https://arxiv.org/abs/1810.06339

應(yīng)用

《深度強(qiáng)化學(xué)習(xí)》中討論了 12 個(gè)應(yīng)用領(lǐng)域，包括游戲、機(jī)器人、自然語言處理、計(jì)算機(jī)視覺、金融、業(yè)務(wù)管理、醫(yī)療保健、教育、能源、交通運(yùn)輸、計(jì)算機(jī)系統(tǒng)以及科學(xué)、工程和藝術(shù)。最后一項(xiàng)「科學(xué)、工程和藝術(shù)」幾乎涵蓋了一切，這傳遞出了一個(gè)信息：強(qiáng)化學(xué)習(xí)和人工智能將無處不在。

強(qiáng)化學(xué)習(xí)是一種用于序列決策問題的解決方案式的方法。但是，某些問題表面上看似不是序列式的，也能被強(qiáng)化學(xué)習(xí)成功解決，比如神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。一般而言，如果一個(gè)問題可以被看成或可以轉(zhuǎn)換成一個(gè)序列決策問題，并且可以構(gòu)建出狀態(tài)、動(dòng)作以及可能的獎(jiǎng)勵(lì)，那么強(qiáng)化學(xué)習(xí)都可能提供幫助。粗略地講，如果一個(gè)任務(wù)涉及到某種人工設(shè)計(jì)的「策略」，則就有可能能用強(qiáng)化學(xué)習(xí)幫助自動(dòng)化和優(yōu)化該策略。

強(qiáng)化學(xué)習(xí)在波束搜索策略、數(shù)據(jù)庫聯(lián)合查詢、主動(dòng)學(xué)習(xí)、問題合成、模型壓縮和加速、驅(qū)動(dòng)器管理等方面都有有趣的應(yīng)用。

強(qiáng)化學(xué)習(xí)有一個(gè)具體應(yīng)用方向是擴(kuò)展 AlphaGo 技術(shù)。正如 AlphaGo 的作者在他們的論文中建議的那樣，以下應(yīng)用還值得進(jìn)一步研究：廣義上的游戲(尤其是視頻游戲)、經(jīng)典規(guī)劃、部分可觀察的規(guī)劃、調(diào)度、約束滿足、機(jī)器人、工業(yè)控制、在線推薦系統(tǒng)、蛋白質(zhì)折疊、降低能耗、尋找革命性的新材料。化學(xué)合成就是一個(gè)很好的例子。

要讓強(qiáng)化學(xué)習(xí)用在現(xiàn)實(shí)生活應(yīng)用中，我們需要考慮數(shù)據(jù)和計(jì)算的可用性。AlphaGo 的成功就得益于其完美的圍棋模型(可以生成大量訓(xùn)練數(shù)據(jù))和谷歌級(jí)的計(jì)算能力。對于機(jī)器人、醫(yī)療保健和教育等一些應(yīng)用而言，我們通常還沒有優(yōu)良的模型，因此不容易得到大量數(shù)據(jù)。離策略的策略評估是一種解決這一問題的方法。

討論

前文討論了強(qiáng)化學(xué)習(xí)近期的進(jìn)展、問題、研究方向和應(yīng)用。下面我將介紹幾位研究人員的觀點(diǎn)。

David Silver 教授總結(jié)了深度強(qiáng)化學(xué)習(xí)的原則：評估推動(dòng)進(jìn)步，可擴(kuò)展性決定成功，泛化能力保證算法的未來，對智能體的經(jīng)驗(yàn)和狀態(tài)的信任是主觀的，控制流，價(jià)值函數(shù)建模世界，規(guī)劃，從想象的經(jīng)歷中學(xué)習(xí)，為函數(shù)近似器賦能，學(xué)習(xí)去學(xué)習(xí)。

Dimitri Bertsekas 教授對強(qiáng)化學(xué)習(xí)的未來(包括其在現(xiàn)實(shí)生活中的應(yīng)用)的態(tài)度是謹(jǐn)慎樂觀。以下內(nèi)容直接引用自他的幻燈片：

♦ 可廣泛應(yīng)用的方法：可以解決范圍廣泛的難題。確實(shí)-隨機(jī)-動(dòng)態(tài)，離散-連續(xù)，等。

♦ 沒有任何方法能確保對所有甚至大部分問題都有效。

♦ 對于大多數(shù)類型的優(yōu)化問題，都有足夠多的可嘗試的方法且它們都有相當(dāng)好的成功可能性。

♦ 理論的作用：引導(dǎo)前沿發(fā)展，描繪可行的想法。

♦ 所有方法都有困難的實(shí)現(xiàn)問題，而且沒有防誤操作的方法。

♦ 問題近似和特征選擇需要領(lǐng)域特定的知識(shí)。

♦ 不同于你通過閱讀文獻(xiàn)可能形成的看法，訓(xùn)練算法可能并沒有那樣有效。

♦ 近似策略迭代涉及到振蕩。

♦ 很難認(rèn)定成功或失敗!

♦ 強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域的成功很驚人，但這得益于完美已知的和穩(wěn)定的模型以及(每個(gè)狀態(tài))少量的控制。

♦ 具有部分可觀察狀態(tài)的問題依然是一大難題。

♦ 大規(guī)模計(jì)算能力與分布式計(jì)算很有希望。

♦ 一線曙光：我們可以開始解決一些難度超乎想象的實(shí)際問題!

♦ 前路激動(dòng)人心!

Sutton 和 Barto 的強(qiáng)化學(xué)習(xí)著作《Reinforcement Learning: An Introduction》很直觀。Bertsekas 和 Tsitsiklis 的《Neuro-Dynamic Programming》(神經(jīng)動(dòng)態(tài)規(guī)劃，接近(深度)強(qiáng)化學(xué)習(xí))是理論方面的。Bertsekas 教授有一本新的強(qiáng)化學(xué)習(xí)和最優(yōu)控制著作《Reinforcement Learning and Optimal Control》。如果我們稱 Sutton 教授是強(qiáng)化學(xué)習(xí)之父，那么 Bertsekas 教授就是強(qiáng)化學(xué)習(xí)的叔叔。

我們看到，不僅重視基礎(chǔ)研究的研究者對強(qiáng)化學(xué)習(xí)有積極的態(tài)度，而且 Google Cloud AutoML 和 Facebook Horizon 等產(chǎn)品和服務(wù)也在部署強(qiáng)化學(xué)習(xí)。

預(yù)測是很困難的，尤其是預(yù)測未來。很多博客探討過強(qiáng)化學(xué)習(xí)的重要性，尤其是在 2019 年。強(qiáng)化學(xué)習(xí)是 MIT Technology Review 2017 年的 10 大突破性技術(shù)之一，深度學(xué)習(xí)入選了 2013 年的榜單。對于廣義上的人工智能，Geoffrey Hinton 教授說過：「不，不會(huì)再有一個(gè)人工智能冬天了，因?yàn)樗?qū)動(dòng)著你的手機(jī)。在之前的人工智能冬天，人工智能還沒有真正成為你的日常生活的一部分。而現(xiàn)在已經(jīng)是了�！箙嵌鬟_(dá)博士提供了一份人工智能轉(zhuǎn)換手冊：https://landing.ai/ai-transformation-playbook/

在基礎(chǔ)研究和現(xiàn)實(shí)生活應(yīng)用方面，強(qiáng)化學(xué)習(xí)一直在積累量的變化，這將會(huì)導(dǎo)致質(zhì)的變化。要記得，挑戰(zhàn)與機(jī)遇并存，有證據(jù)表明強(qiáng)化學(xué)習(xí)時(shí)代正要來臨。

原博文：https://medium.com/@yuxili/e3-cb5325d60381

《深度強(qiáng)化學(xué)習(xí)》：https://arxiv.org/abs/1810.06339

標(biāo)簽： Google 安全代碼谷歌金融數(shù)據(jù)庫搜索網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:用 Python 做機(jī)器學(xué)習(xí)不得不收藏的重要庫

下一篇:專家解讀：2019年大數(shù)據(jù)行業(yè)預(yù)測

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

強(qiáng)化學(xué)習(xí)時(shí)代正在到來