中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

AI攻陷多人德?lián)湓俚荢cience,訓(xùn)練成本150美元,每小時贏1000刀

2019-07-23    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在無限制德州撲克六人對決的比賽中,德?lián)?AI Pluribus 成功戰(zhàn)勝了五名專家級人類玩家。Pluribus 由 Facebook 與卡耐基梅隆大學(xué)(CMU)共同開發(fā),實現(xiàn)了前輩 Libratus(冷撲大師)未能完成的任務(wù),該研究已經(jīng)登上了最新一期《科學(xué)》雜志。

六人無限制玩法是德州撲克最受歡迎的游戲方式,F(xiàn)acebook 與 CMU 的成果是第一個在擁有兩個(或以上)人類玩家的比賽中擊敗人類專業(yè)選手的 AI。

2017 年 1 月,由 CMU 學(xué)者 Noam Brown、Tuomas Sandholm 開發(fā)的人工智能程序 Libratus 在賓夕法尼亞州匹茲堡的 Rivers 賭場持續(xù) 20 天的 1 對 1 無限制德?lián)浔荣愔谐晒?zhàn)勝了 4 名全球頂級職業(yè)玩家。這也成為了繼圍棋之后,又一個高難度游戲被 AI 攻陷的里程碑事件。2017 年底,Libratus 的論文也被《科學(xué)》雜志收錄。

「冷撲大師」使用大量算力和博弈論等方法來攻克信息不完整的紙牌游戲。該研究的另一篇論文《Safe and Nested Subgame Solving for Imperfect-Information Games》也在當(dāng)年成為了人工智能頂會 NIPS 2017 的最佳論文。

 

 

卡耐基梅隆大學(xué)計算機(jī)科學(xué)教授 Tuomas Sandholm(左)與他的門生,現(xiàn)任 Facebook 科學(xué)家 Noam Brown。

從 1 對 1 到玩轉(zhuǎn) 6 人對決,人工智能經(jīng)歷了怎樣的進(jìn)步?「雖然從二到六看起來是一個漸進(jìn)的過程,但這實際上是一個巨大的挑戰(zhàn),」研究游戲與人工智能的紐約大學(xué)助理教授 Julian Togelius 表示。「多人游戲方面的研究,此前在所有游戲中都未有出現(xiàn)!

在「冷撲大師」的基礎(chǔ)之上,Noam Brown 與 Tuomas Sandholm 提出的新算法 Pluribus 需要的算力更小。在為期 12 天,超過 10000 手牌的比賽中,Pluribus 擊敗了 15 名人類頂級玩家!负芏 AI 研究者此前都認(rèn)為實現(xiàn)這樣的目標(biāo)是不可能的,」Noam Brown 表示。

幾十年來,撲克一直是人工智能領(lǐng)域一個困難而又重要的挑戰(zhàn)。原因在于,撲克中含有隱藏信息,也就是說,你無法知道對方的牌。要想在撲克中獲勝,你需要 bluff(嚇唬)或者使用其他策略,這在棋類比賽中一般是不需要的。這一點使得在撲克中應(yīng)用人工智能變得非常困難。

現(xiàn)在的人工智能已經(jīng)學(xué)會了 bluff,而且還可以看穿人類選手的 bluff。不過在 Noam Brown 看來,這些技巧也是由數(shù)學(xué)過程決定的策略。

據(jù)介紹,F(xiàn)acebook 和卡內(nèi)基梅隆大學(xué)設(shè)計的比賽分為兩種模式:1 個 AI+5 個人類玩家和 5 個 AI+1 個人類玩家,Pluribus 在這兩種模式中都取得了勝利。如果一個籌碼值 1 美元,Pluribus 平均每局能贏 5 美元,與 5 個人類玩家對戰(zhàn)一小時就能贏 1000 美元。職業(yè)撲克玩家認(rèn)為這些結(jié)果是決定性的勝利優(yōu)勢。

這是 AI 首次在玩家人數(shù)(或隊伍)大于 2 的大型基準(zhǔn)游戲中擊敗頂級職業(yè)玩家。以下是關(guān)于 Pluribus 的細(xì)節(jié)。

論文:Superhuman AI for multiplayer poker

論文鏈接:https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

Pluribus 以 Libratus 和其他一些算法、代碼為基礎(chǔ)進(jìn)行了幾項改進(jìn)。Libratus 曾于 2017 年在雙人無限注德?lián)渲袚魯∪祟愴敿夁x手(參見:《學(xué)界 | Science 論文揭秘:Libratus 如何在雙人無限注德?lián)渲袚魯∪祟愴敿夁x手》)。這些算法和代碼都是由 Tuomas Sandholm 帶領(lǐng)的卡內(nèi)基梅隆大學(xué)研究實驗室開發(fā)的。

值得一提的是,Pluribus 整合了一種新的在線搜索算法,可以通過搜索前面的幾步而不是只搜索到游戲結(jié)束來有效地評估其決策。此外,Pluribus 還利用了速度更快的新型 self-play 非完美信息游戲算法。綜上所述,這些改進(jìn)使得使用極少的處理能力和內(nèi)存來訓(xùn)練 Pluribus 成為可能。訓(xùn)練所用的云計算資源總價值還不到 150 美元。這種高效與最近其他人工智能里程碑項目形成了鮮明對比,后者的訓(xùn)練往往要花費數(shù)百萬美元的計算資源。

這些創(chuàng)新的意義遠(yuǎn)不止在撲克游戲中,因為雙玩家零和交互(一輸一贏)在娛樂游戲中非常常見,但在實際生活中卻非常罕見,F(xiàn)實世界的——對有害內(nèi)容采取行動、應(yīng)對網(wǎng)絡(luò)安全挑戰(zhàn)以及管理在線拍賣或?qū)Ш搅髁?mdash;—通常涉及多個參與者和/或隱藏信息。多玩家交互對過去的 AI 技術(shù)提出了嚴(yán)峻的理論和實踐挑戰(zhàn)。Facebook 的結(jié)果表明,一個精心構(gòu)造的人工智能算法可以在兩人以上的零和游戲中超越人類的表現(xiàn)

在 6 人撲克中獲勝

相比于過去典型的游戲中,6 人撲克有兩個主要挑戰(zhàn)。

不只是簡單的雙人零和游戲

過去所有游戲中的突破限制于 2 人或者 2 隊的零和競賽(例如象棋、西洋棋、星際爭霸 2 或者 Dota2)。在這些比賽中,AI 之所以成功,是因為它們試圖評估使用 Nash 均衡策略。在雙人和雙隊的零和游戲中,無論對手做什么,作出精確的納什均衡就可能無法輸?shù)舯荣悺?例如,石頭剪刀布的納什均衡策略是以相同的概率隨機(jī)選擇石頭、布或剪刀。)

盡管在任何有限制游戲中都存在納什均衡,但通常在具有三個或更多玩家的游戲中,難以有效地計算納什均衡。(對于兩人一般和游戲也是如此。)此外,在兩個以上玩家的游戲中,即使作出精確的納什均衡策略,也有可能輸?shù)舯荣悺@缭谟螒?Lemonade Stand game 中,每個玩家同時在一個圓環(huán)上選擇一個點,并且想盡可能遠(yuǎn)離任何其他玩家。納什均衡是所有參與者沿著環(huán)間隔相等的距離,但是有很多方法可以實現(xiàn)。如果每個玩家獨立計算其中一個平衡點,則聯(lián)合策略不太可能導(dǎo)致所有玩家沿著該環(huán)間隔開同等距離。如下圖所示:

 

 

除了雙人零和游戲,納什均衡的缺點引發(fā)研究人員思考:這種游戲的正確目標(biāo)應(yīng)該是什么?

在六人撲克中,研究者認(rèn)為其目標(biāo)不應(yīng)該是特定的游戲理論解決概念,而是創(chuàng)建一個長期都能憑經(jīng)驗擊敗人類對手的 AI,包括精英人類專業(yè)人士。(對于 AI 機(jī)器人來說,這通常被認(rèn)為是「超人」的表現(xiàn)。)

研究者表示,他們用來構(gòu)建 Pluribus 的算法并不能保證在雙人零和游戲之外收斂到納什均衡。盡管如此,它們觀察到 Pluribus 在六人撲克中的策略始終能擊敗職業(yè)玩家,因此這些算法,能夠在雙人零和游戲之外的更廣泛的場景中,產(chǎn)生超人類的策略。

更復(fù)雜環(huán)境中的隱藏信息

沒有其他游戲像撲克一樣有這么大隱藏信息的挑戰(zhàn),每個玩家都擁有其他玩家沒有的信息(自己的牌面)。一個成功的撲克 AI 必須推理這個隱藏的信息,并慎重平衡自己策略(以保持不可預(yù)測),同時采取良好的行動。

例如,bluff 偶爾會有效,但總是 bluff 就容易被抓,從而導(dǎo)致?lián)p失大量資金。因此,有必要仔細(xì)平衡 bluff 概率和強牌下注的概率。換句話說,不完美信息游戲中動作的值取決于其被選擇的概率以及選擇其他動作的概率。

相反,在完美信息游戲中,玩家不必?fù)?dān)心平衡動作的概率。國際象棋中的好動作,無論選擇的概率如何都是好的。

像先前 Libratus 這樣的撲克 AI,在兩個玩家無限制德州撲克游戲這樣的游戲中,通過基于 Counterfactual Regret Minimization(CFR)理論上合理的自我游戲算法與精心構(gòu)造的搜索程序相結(jié)合,解決游戲中的隱藏信息問題。

然而,在撲克中添加額外的玩家會以指數(shù)方式增加游戲的復(fù)雜性。即使計算量高達(dá) 10,000 倍,那些以前的技術(shù)無法擴(kuò)展到六人撲克。

Pluribus 使用的新技術(shù)可以比以前的任何東西都更好地應(yīng)對這一挑戰(zhàn)。

理解 Pluribus 的藍(lán)圖策略

Pluribus 的核心策略是通過自我博弈的方式學(xué)習(xí)。在這一過程中,AI 和自己進(jìn)行對戰(zhàn),不使用任何人類游戲數(shù)據(jù)作為輸入。AI 首先隨機(jī)地選擇玩法,接著,隨著決定每一步的行動后,逐漸提升性能,并對這些行動擬合概率分布。最終,AI 的表現(xiàn)比之前的策略版本會更好。Pluribus 中的自我博弈策略是一種改進(jìn)版本的蒙特卡洛 CFR(MCCFR)。

每一次迭代中,MCCFR 指定其中一方為「traverser」對象,在迭代中更新這一方的當(dāng)前策略。在迭代開始時,基于所有玩家的當(dāng)前策略(最開始是完全隨機(jī)的),MCCFR 模擬出一幅撲克。當(dāng)模擬完成時,算法回顧「traverser」對象的每個策略,并計算如果選擇其他的行動,它的勝率多大程度上能夠提升或下降。之后,AI 再評價根據(jù)這一決策實施之后,接下來的每個假設(shè)決策的優(yōu)勢,以此類推。

 

 

該圖顯示蒙特卡羅 Counterfactual Regret Minimization 算法如何通過評估真實和假設(shè)的動作來更新遍歷器的策略。Pluribus 中的遍歷器以深度優(yōu)先的方式進(jìn)行遍歷,以達(dá)到優(yōu)化的目的。

探究其他假設(shè)的結(jié)果是可能的,這是因為 AI 是自我對弈的。如果 AI 想要了解其他選擇之后會發(fā)生什么,它只需要問自己如何去回應(yīng)這些行為。

「traverser」對象實際做了什么選擇和可能做什么選擇的差異被加入到反事實后悔(counterfactural regret)行為中。在迭代結(jié)束的時候,「traverser」對象的策略得到更新。因此,有著更高反事實后悔概率的選擇被選中。保持德州撲克這樣沒有限制的游戲中每一個行動中的策略需要的字節(jié)數(shù)超過了整個宇宙的原子數(shù)。為了減少游戲的復(fù)雜度,研究人員要求 AI 忽略一些行動,并使用一種抽象方法將類似的決策點聚合在一起。在抽象之后,聚合的決策點被認(rèn)為是獨一無二的。

Pluribus 的自我博弈結(jié)果被稱為藍(lán)圖策略。在實際游戲中,Pluribus 使用搜索算法提升這一藍(lán)圖策略。但是 Pluribus 不會根據(jù)從對手身上觀察到的傾向調(diào)整其策略。

 

 

這幅圖顯示了 Pluribus 的藍(lán)圖策略是如何在訓(xùn)練過程中逐漸改進(jìn)的。其性能通過訓(xùn)練的最終快照來評估。研究者在這些比較中沒有使用搜索,他們基于與人類專業(yè)玩家的討論對普通人類玩家和頂級人類玩家的表現(xiàn)進(jìn)行評估。該圖還顯示出了 Pluribus 何時停止 limping,這是高級人類玩家通常會去避免的一種打法。

 

 

研究人員訓(xùn)練藍(lán)圖策略用了 8 天,使用了一個 64 核的服務(wù)器,需要的內(nèi)存數(shù)量小于 512G。他們沒有使用 GPU。在典型的云計算中,這只需要 150 美元。和其他 AI 研究相比,包括其他自我對弈的 AI,這種消耗很小。由于算法上的提升,研究人員可以在低成本的計算環(huán)境實現(xiàn)極大的性能提升。

更高效的搜索策略

由于無限制德州撲克的規(guī)模與復(fù)雜性,藍(lán)圖策略必須是粗粒度的。在實際過程中,Pluribus 通過實時搜索改進(jìn)藍(lán)圖策略,以針對特定情況確定更好、更細(xì)粒度的策略。

AI bot 經(jīng)常在很多完美信息博弈中使用實時搜索,包括西洋雙陸棋(two-ply search)、國際象棋(alpha-beta pruning search)、圍棋(Monte Carlo tree search)。例如,當(dāng)模型在決定下一步該走哪時,國際象棋 AI 通常會考慮以后的一些移動步驟,直到算法的前瞻到達(dá)葉節(jié)點或深度的上限。

然而,這些搜索方法并不適合不完美信息博弈,因為它們并不考慮對手轉(zhuǎn)移到葉節(jié)點之外策略的能力。這個弱點令搜索算法產(chǎn)生了脆弱的、不平衡的策略,從而使對手快速發(fā)現(xiàn)這個錯誤。AI bot 在以前也就不能將博弈擴(kuò)展到 6 個參與者。

相反,Pluribus 使用一種新方法,其中搜索器明確地考慮了不完美信息博弈的實際情況,即任何參與者都可以轉(zhuǎn)移到子博弈外的葉節(jié)點策略上。具體而言,研究者并不假設(shè)所有參與者都需要根據(jù)葉節(jié)點之外的單個固定策略進(jìn)行博弈,這會導(dǎo)致葉節(jié)點只有單個固定值。在搜索已經(jīng)到葉節(jié)點時,研究者假設(shè)每一個參與者會從四個不同的策略中選擇,進(jìn)行剩余的博弈。

研究者在 Pluribus 中使用的四個延續(xù)策略分別是預(yù)計算的藍(lán)圖策略;在藍(lán)圖策略的基礎(chǔ)上進(jìn)行修改,以令策略偏置到棄牌;修改藍(lán)圖策略以令其偏置到叫牌;修改藍(lán)圖策略以令其偏置到加注。

這種技術(shù)可以令搜索器找都一種更均衡的策略,從而在整體性能表現(xiàn)得更好。因為選擇不平衡的策略會使對手轉(zhuǎn)向其它延續(xù)策略,從而產(chǎn)生懲罰。例如玩石頭剪刀布,我只出石頭,那么對手肯定能學(xué)習(xí)到只出布的策略。

正如研究者所指出的,搜索不完全信息博弈的另一個挑戰(zhàn)是,參與者針對特定情況的最佳策略取決于對手對其玩法的看法。例如打德州撲克,如果一個參與者永遠(yuǎn)不會 bluff,那么它的對手總會知道應(yīng)該在加大注的情況下棄牌。

為了應(yīng)對這種情況,Pluribus 根據(jù)自身策略,在每一手時追蹤當(dāng)前狀況的出現(xiàn)概率。不管它實際上在哪一手,Pluribus 首先都會預(yù)測每一手時將要采取的行動——從而小心翼翼地在所有手時平衡自身策略,令人類玩家無法預(yù)測其下一步行動。一旦計算這一涵蓋所有手的平衡策略,Pluribus 隨后就會為它實際所在的手執(zhí)行一個操作。

比賽時,Pluribus 在兩個 CPU 上運行。相比而言,在 2016 年和李世石的圍棋比賽中,AlphaGo 使用了 1920 塊 CPU 和 280 塊 GPU。同時,Pluribus 使用了不多于 128GB 的內(nèi)存。在對每一個子分支進(jìn)行搜索的時候,根據(jù)現(xiàn)場的情況,它所用的時間介于 1 秒和 33 秒之間。Pluribus 的游戲時間比人類專業(yè)玩家快兩倍:在六人游戲場景,和自身對弈的時候,它平均每手只需要 20 秒。

Pluribus 與人類玩家的對抗效果如何?

研究者令 Pluribus 與一組人類頂級撲克玩家對抗,從而評估它的實戰(zhàn)效果。這些玩家包括「耶穌」Chris Ferguson(2000 年世界撲克系列賽主賽事冠軍)、Greg Merson(2012 年世界撲克系列賽主賽事冠軍)和 Darren Elias(四屆世界撲克巡回賽冠軍)。人類玩家的完整名單如下:Jimmy Chou、Seth Davies、Michael Gagliano、Anthony Gregg、Dong Kim、Jason Les、Linus Loeliger、Daniel McAulay、Nick Petrangelo、Sean Ruane、Trevor Savage 和 Jake Toole。

當(dāng) AI 系統(tǒng)在其他基準(zhǔn)游戲中與人類對戰(zhàn)時,機(jī)器有時在剛開始的時候表現(xiàn)非常好,但隨著人類玩家發(fā)現(xiàn)它們的弱點,最終就會擊敗它們。如果 AI 想要徹底掌控一場游戲,它必須展示出這樣一種能力,即使人類玩家能夠逐漸適應(yīng)它們的節(jié)奏,但它們也能取得勝利。過去幾天,職業(yè)撲克玩家與 Pluribus 進(jìn)行了數(shù)千場比賽,因而有足夠的時間來找出它的弱點,并逐漸適應(yīng)它。

Elias 說道:「Pluribus 是在與世界上最好的撲克玩家進(jìn)行對抗啊!

以下是實驗中 Pluribus 與人類玩家對抗時的界面:

 

 

實驗分為兩種模式:其一,5 名人類玩家與 1 個 AI 進(jìn)行對抗;其二,1 名人類玩家與 5 個 AI 副本進(jìn)行對抗。因此,在每一種對抗模式下,共有 6 名玩家參與其中,并且每局開始的時候有 10000 籌碼。小盲(small blind)50 籌碼,大盲(big blind)100 籌碼。

盡管撲克是一款技巧游戲,但其中也會有非常大的運氣成分。如果運氣不佳的話,頂級職業(yè)玩家也會在 10000 手的撲克比賽中輸錢。為了弱化運氣成分在撲克比賽中的作用,研究者使用了一種 AIVAT 方差縮減算法,該算法對各種狀況的值進(jìn)行基線估計,從而在保持樣本無偏的同時縮減方差。舉例而言,如果 Pluribus 得到一副強手牌,AIVAT 將從它贏得中減去基準(zhǔn)值,從而對抗好運氣。

5 名人類玩家+1 個 AI

在實驗中,人類玩家和 AI 之間展開的 10000 手撲克比賽持續(xù)了 12 天,每天挑選 5 名人類玩家與 AI 進(jìn)行比賽。這些玩家將根據(jù)自身表現(xiàn)瓜分 50000 美元的獎勵,以激勵他們發(fā)揮最佳水平。在采用 AIVAT 后,Pluribus 的勝率預(yù)計約為每 100 手 5 個大盲注(標(biāo)準(zhǔn)誤差為 5 bb/100),這對頂級人類撲克玩家而言是巨大勝利(盈利 P 值為 0.021)。所以,如果每個籌碼價值 1 美元,Pluribus 每手平均能贏 5 美元,每小時能贏 1000 美元。這一結(jié)果超過了純職業(yè)玩家在與職業(yè)和業(yè)余混合玩家對抗時的勝率。

Ferguson 在比賽實驗結(jié)束后說道:「Pluribus 真是太難對付了!我們很難在任何一手中盯死它。它不僅非常擅長進(jìn)行薄的價值下注,而且擅長從好手牌中贏得最大價值!

但值得注意的是,Pluribus 本意是成為 AI 研究的工具,研究者僅將撲克比賽作為一種方式,以衡量 AI 在不完全信息多智能體交互(與人類頂級能力相關(guān))中的進(jìn)展。

5 個 AI+1 個人類玩家

參與實驗的有 Ferguson、Elias 和 Linus Loeliger。Loeliger 是很多人公認(rèn)的六人無限德?lián)漤敿壨婕。每個人與五個 Pluribus AI 玩 5000 手撲克。Pluribus 并沒有根據(jù)對手的情況調(diào)整策略,因此機(jī)器人之間的故意勾結(jié)不是問題。總的來說,人類每 100 手損失 2.3 bb。Elias 每 100 手損失 4.0 bb(標(biāo)準(zhǔn)誤差為 2.2 bb/100),F(xiàn)erguson 每 100 手損失 2.5bb(標(biāo)準(zhǔn)誤差為 2.2 bb/100),Loeliger 每 100 手損失 0.5 bb(標(biāo)準(zhǔn)誤差為 1.0 bb/100)。

 

 

這張圖顯示了 Pluribus 在 10000 手實驗中對職業(yè)撲克玩家的平均勝率。直線表示實際結(jié)果,虛線表示一個標(biāo)準(zhǔn)差。

「這個 AI 最大的優(yōu)勢就是它使用混合策略的能力,」Elias 表示!溉祟愐蚕脒@么做。對人來說,這是一個執(zhí)行的問題——以一種完全隨機(jī)的方式持續(xù)去做。多數(shù)人類做不到這一點!

由于 Pluribus 的策略完全是在沒有任何人類數(shù)據(jù)的情況下通過 self-play 自己學(xué)到的,因此它也提供了一個外部視角,即在多人無限制德州撲克游戲中最好的玩法應(yīng)該是什么樣子。

Pluribus 證實了人類傳統(tǒng)的聰明玩法——limping(叫大盲而不是加注或棄牌)對于任何除小盲之外的任何玩家來說都不是最佳策略,因為根據(jù)規(guī)則,小盲已經(jīng)下了大盲的一半,因此小盲跟注只需再下一半。

盡管 Pluribus 最初在通過 self-play 離線計算藍(lán)圖策略時嘗試 limping,但隨著 self-play 的繼續(xù),它逐漸放棄了這一策略。

此外,Pluribus 并不認(rèn)同 donk 是一種錯誤的觀念(在前一輪投注結(jié)束時,開始新一輪加注);與專業(yè)人士相比,Pluribus 更喜歡這么做。

「和撲克 AI 比賽,看到它選的一些策略,真的非常過癮,」Gagliano 表示!赣袔讏鋈祟惛揪蜎]有發(fā)揮什么作用,尤其是它下注比較狠的那幾場!

 

 

這張圖顯示了在與頂尖玩家對戰(zhàn)時 Pluribus 的籌碼數(shù)量變化。直線表示實際結(jié)果,虛線表示一個標(biāo)準(zhǔn)差。

從撲克到其它不完美信息博弈的挑戰(zhàn)

AI 以前曾經(jīng)在完美信息零和博弈(兩個參與者)中取得了多次引人注目的成功。但大多數(shù)真實世界策略交互都涉及隱信息,且并非兩個參與者的零和博弈。Pluribus 的成功表明,目前還有更大規(guī)模的、極其復(fù)雜的多參與者場景,仔細(xì)構(gòu)建的自我博弈和搜索算法能夠在這些場景下獲得很好的效果,盡管當(dāng)前并沒有很強的理論支持來保證這個效果。

Pluribus 也非同一般,因為與其它近期的 AI 系統(tǒng)相比,在基準(zhǔn)博弈中,它的訓(xùn)練和推斷成本都要低得多。盡管該領(lǐng)域的一些研究者擔(dān)心未來的 AI 研究會被擁有大量計算資源的大型團(tuán)隊主導(dǎo)。但研究者相信 Pluribus 是一個強有力的證據(jù),說明新方法只需要適當(dāng)?shù)挠嬎阗Y源,就能驅(qū)動頂尖的 AI 研究。

盡管 Pluribus 是為了玩撲克開發(fā)的,但其使用的技術(shù)并不是撲克所獨有的,它也不需要任何專家領(lǐng)域的知識進(jìn)行開發(fā)。該研究給我們提供了一個更好的基本理解,即如何構(gòu)建一般的 AI 以應(yīng)對多智能體環(huán)境,這種環(huán)境既包括其它 AI 智能體,也包括人類。同時,搭建一般的多智能體 AI,也能使研究人員將研究過程中取得的 AI 基準(zhǔn)成績與人類能力的尖峰做對比。

當(dāng)然,在 Pluribus 中采取的方法可能并不會在所有多智能體設(shè)定上取得成功。在撲克中,參與方很難有機(jī)會與其它智能體溝通,這有可能構(gòu)建非常簡單的調(diào)和博弈(coordination game),因此 self-play 算法找不到一個好策略。

然而對于很多現(xiàn)實世界的交互,包括反欺詐、網(wǎng)絡(luò)安全和內(nèi)容審核等潛在都能通過 Pluribus 的方法建模。即建模為涉及隱藏信息的場景,并(或)通過多個智能體的有限交流來構(gòu)建不同參與方間的聯(lián)系。這項打德州撲克的技術(shù)甚至允許 Pluribus 幫助 AI 社區(qū)在不同領(lǐng)域中構(gòu)建更高效的策略。

最后,在過去的 16 年中,Tuomas Sandholm 和 CMU 團(tuán)隊都在研究策略推理技術(shù)。Pluribus 構(gòu)建并融合了策略推理的大部分技術(shù)與代碼,但它同樣也包含了撲克的專門代碼,這些代碼 CMU 和 Facebook 合作完成,且并不會用于國防應(yīng)用。

參考內(nèi)容:

https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker

https://www.nature.com/articles/d41586-019-02156-9

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

標(biāo)簽: AI 人工智能

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:成為機(jī)器學(xué)習(xí)工程師第一年,我學(xué)到的 12 件事

下一篇:京東城市鄭宇:AI與大數(shù)據(jù)將“重塑城市”