中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

DeepMind讓AI組隊(duì)踢足球?qū)W會(huì)“合作”,并開源訓(xùn)練環(huán)境

2019-02-26    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

從足球競(jìng)技到戰(zhàn)爭(zhēng),團(tuán)隊(duì)合作一直被認(rèn)為是人類社會(huì)進(jìn)步的基石;陂L(zhǎng)遠(yuǎn)的共同目標(biāo),弱化甚至犧牲個(gè)人利益,促成了人類作為共同體的最大利益。

DeepMind也正嘗試讓人工智能學(xué)會(huì)這一點(diǎn),并且選擇了最有可能顯示團(tuán)隊(duì)合作的考核方式——足球比賽。

今天凌晨,DeepMind發(fā)布了最新研究:證明了在足球環(huán)境下,一種基于分布式代理的連續(xù)控制培訓(xùn)框架,結(jié)合獎(jiǎng)勵(lì)渠道的自動(dòng)優(yōu)化,可以實(shí)現(xiàn)多智能體端到端的學(xué)習(xí)。

 

 

簡(jiǎn)單來說就是,DeepMind設(shè)置了環(huán)境,讓多個(gè)AI一起踢足球賽。并且提前設(shè)置了規(guī)則,獎(jiǎng)勵(lì)整只“足球隊(duì)”而不去鼓勵(lì)某個(gè)"AI球員”的個(gè)人成績(jī),以促成整個(gè)球隊(duì)的進(jìn)步。用這種方式證明了,AI也是可以相互合作的!

 

 

先附上論文鏈接:https://arxiv.org/pdf/1902.07151.pdf

這篇論文被ICLP 2019收錄。

通過競(jìng)爭(zhēng),實(shí)現(xiàn)緊急協(xié)調(diào)的多方協(xié)作

多智能體通過協(xié)作,完成團(tuán)隊(duì)最優(yōu)目標(biāo)并不是一個(gè)陌生的話題,去年,OpenAI就曾發(fā)布了由五個(gè)神經(jīng)網(wǎng)絡(luò)組成的DOTA團(tuán)戰(zhàn)AI團(tuán)隊(duì)——OpenAI Five ,并在5v5中擊敗了頂級(jí)人類玩家團(tuán)隊(duì)。比賽中,OpenAI Five也展示了,在勝利是以摧毀防御塔為前提的游戲中,犧牲“小兵”利益是可以被接受的,也就是說,AI是可以朝著長(zhǎng)期目標(biāo)進(jìn)行優(yōu)化的。

DeepMind的最新研究進(jìn)一步專注于多智能體(multi-agent)這一領(lǐng)域。

他們組織了無數(shù)場(chǎng)2v2的AI足球比賽,并設(shè)定了規(guī)則,一旦有一方得分或者比賽超過45秒,比賽就結(jié)束。

 

 

DeepMind稱,通過去中心化的、基于群體的訓(xùn)練可以使得代理人的行為不斷發(fā)展:從隨機(jī),簡(jiǎn)單的追球,到最后的簡(jiǎn)單“合作”。他們的研究還強(qiáng)調(diào)了在連續(xù)控制的大規(guī)模多智能體訓(xùn)練中遇到的幾個(gè)挑戰(zhàn)。

值得一提的是,DeepMind通過設(shè)置自動(dòng)優(yōu)化的簡(jiǎn)單獎(jiǎng)勵(lì),不鼓勵(lì)個(gè)體,而去鼓勵(lì)合作行為和團(tuán)隊(duì)整體的成績(jī),可以促成長(zhǎng)期的團(tuán)隊(duì)行為。

在研究中通過引入一種“基于單獨(dú)折扣因子來形成自動(dòng)優(yōu)化獎(jiǎng)勵(lì)的思想”,可以幫助他們的代理從一種短視的訓(xùn)練方式,過渡到一種長(zhǎng)時(shí)間但更傾向于團(tuán)隊(duì)合作的訓(xùn)練模式當(dāng)中。

DeepMind也進(jìn)一步提出了一個(gè)以博弈論原理為基礎(chǔ)的評(píng)估方案,可以在沒有預(yù)定義的評(píng)估任務(wù)或人類基線的情況下評(píng)估代理的表現(xiàn)。

具體思想

將足球比賽看做一個(gè)多智能體強(qiáng)化學(xué)習(xí)(MARL)的過程,模擬一個(gè)可交互的環(huán)境,智能主體通過學(xué)習(xí)與環(huán)境互動(dòng),然后優(yōu)化自己累計(jì)獎(jiǎng)勵(lì)。MARL的主題思想是協(xié)作或競(jìng)爭(zhēng),亦或兩者皆有。選擇什么樣的行為,完全取決于“報(bào)酬獎(jiǎng)勵(lì)”的設(shè)置。MARL的目標(biāo)是典型的馬爾科夫完美均衡。大致意思是尋找隨機(jī)博弈中達(dá)到均衡條件的混合策略集合。

具體意思是:博弈參與者的行動(dòng)策略有馬爾科夫特點(diǎn),這意味著每個(gè)玩家的下一個(gè)動(dòng)作是根據(jù)另一個(gè)玩家的最后一個(gè)動(dòng)作來預(yù)測(cè)的,而不是根據(jù)先前的行動(dòng)歷史來預(yù)測(cè)的。馬爾科夫完美均衡是:基于這些玩家的動(dòng)作尋找動(dòng)態(tài)均衡。

DeepMind在github上發(fā)布了他們使用的MuJoCo Soccer環(huán)境,這是一個(gè)競(jìng)爭(zhēng)協(xié)作多智能體交互的開源研究平臺(tái),在機(jī)器學(xué)習(xí)社區(qū)已經(jīng)得到了相當(dāng)廣泛的使用。

 

 

github地址:https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion/soccer

評(píng)估

 

 

相關(guān)比賽視頻鏈接:https://youtu.be/wPtF_ygW2ss

為了有效地評(píng)估學(xué)習(xí)團(tuán)隊(duì),DeepMind選擇優(yōu)化評(píng)估方法,所選團(tuán)隊(duì)都是以前由不同評(píng)估方法產(chǎn)生的10個(gè)團(tuán)隊(duì),每個(gè)團(tuán)隊(duì)擁有250億次的學(xué)習(xí)經(jīng)驗(yàn)。他們?cè)?0個(gè)團(tuán)隊(duì)中收集了一百萬種比賽情況。

 

 

上圖顯示了支持團(tuán)隊(duì)的3個(gè)智能體顯示的成對(duì)預(yù)期目標(biāo)差異。納什均衡要求3個(gè)團(tuán)隊(duì)的權(quán)重都是非零的,這些團(tuán)隊(duì)協(xié)作展示了具有非傳遞性能的不同策略,這是評(píng)估方案中并不存在的:團(tuán)隊(duì)A在59.7%的比賽中贏得或打平團(tuán)隊(duì)B; 團(tuán)隊(duì)B在71.1%的比賽中贏得或打平團(tuán)隊(duì)C,團(tuán)隊(duì)C在65.3%的比賽中贏得或打平團(tuán)隊(duì)A.,他們展示了團(tuán)隊(duì)A,B和C之間的示例比賽的記錄,可以定性地量化其策略的多樣性。

 

 

在上圖中,DeepMind展示了代理行為的典型軌跡:在5B步驟中,當(dāng)代理更個(gè)性化地行動(dòng)時(shí),我們觀察到無論blue1的位置如何,blue0總是試圖自己運(yùn)球。但在訓(xùn)練的后期,blue0則積極尋求團(tuán)隊(duì)合作,其行為呈現(xiàn)出由其隊(duì)友驅(qū)動(dòng)的特點(diǎn),顯示出高水平的協(xié)調(diào)精神。特別是在“8e10_left”這一場(chǎng)比賽中中,DeepMind稱他們觀察到了兩次連續(xù)傳球(blue0到blue1和后衛(wèi)),這是在人類足球比賽中經(jīng)常出現(xiàn)的2對(duì)1撞墻式配合。

未來研究

DeepMind此項(xiàng)研究意義重大,將2v2足球領(lǐng)域引入多智能體協(xié)作是以前沒有過的研究,通過強(qiáng)化學(xué)習(xí)研究,利用競(jìng)爭(zhēng)與合作來訓(xùn)練獨(dú)立智能個(gè)體,展示了團(tuán)隊(duì)的協(xié)調(diào)行為。

這篇論文也證明了一種基于連續(xù)控制的分布式集群訓(xùn)練框架,可以結(jié)合獎(jiǎng)勵(lì)路徑自動(dòng)優(yōu)化,因此,在這種環(huán)境下可以進(jìn)行進(jìn)行端到端的學(xué)習(xí)。

其引入了一種思想,將獎(jiǎng)勵(lì)方向從單策略行為轉(zhuǎn)變?yōu)殚L(zhǎng)期團(tuán)隊(duì)合作。引入了一種新的反事實(shí)政策評(píng)估來分析主題策略行為。評(píng)估強(qiáng)調(diào)了匹配結(jié)果中的非傳遞性和對(duì)穩(wěn)健性的實(shí)際需求。

DeepMind開源的訓(xùn)練環(huán)境可以作為多智能體研究的平臺(tái),也可以根據(jù)需要擴(kuò)展到更復(fù)雜的智能體行為研究,這為未來的研究打下堅(jiān)實(shí)的基礎(chǔ)。

標(biāo)簽: 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:解析業(yè)務(wù)數(shù)據(jù)的特征——《企業(yè)大數(shù)據(jù)實(shí)踐路線》

下一篇:不要再用Python了!Yann LeCun : 深度學(xué)習(xí)需要一種新的編程語言