中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

AI攻陷多人德?lián)湓俚荢cience,訓(xùn)練成本150美元,每小時(shí)贏1000刀

2019-07-23    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

在無(wú)限制德州撲克六人對(duì)決的比賽中,德?lián)?AI Pluribus 成功戰(zhàn)勝了五名專家級(jí)人類玩家。Pluribus 由 Facebook 與卡耐基梅隆大學(xué)(CMU)共同開(kāi)發(fā),實(shí)現(xiàn)了前輩 Libratus(冷撲大師)未能完成的任務(wù),該研究已經(jīng)登上了最新一期《科學(xué)》雜志。

六人無(wú)限制玩法是德州撲克最受歡迎的游戲方式,F(xiàn)acebook 與 CMU 的成果是第一個(gè)在擁有兩個(gè)(或以上)人類玩家的比賽中擊敗人類專業(yè)選手的 AI。

2017 年 1 月,由 CMU 學(xué)者 Noam Brown、Tuomas Sandholm 開(kāi)發(fā)的人工智能程序 Libratus 在賓夕法尼亞州匹茲堡的 Rivers 賭場(chǎng)持續(xù) 20 天的 1 對(duì) 1 無(wú)限制德?lián)浔荣愔谐晒?zhàn)勝了 4 名全球頂級(jí)職業(yè)玩家。這也成為了繼圍棋之后,又一個(gè)高難度游戲被 AI 攻陷的里程碑事件。2017 年底,Libratus 的論文也被《科學(xué)》雜志收錄。

「冷撲大師」使用大量算力和博弈論等方法來(lái)攻克信息不完整的紙牌游戲。該研究的另一篇論文《Safe and Nested Subgame Solving for Imperfect-Information Games》也在當(dāng)年成為了人工智能頂會(huì) NIPS 2017 的最佳論文。

 

 

卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)教授 Tuomas Sandholm(左)與他的門生,現(xiàn)任 Facebook 科學(xué)家 Noam Brown。

從 1 對(duì) 1 到玩轉(zhuǎn) 6 人對(duì)決,人工智能經(jīng)歷了怎樣的進(jìn)步?「雖然從二到六看起來(lái)是一個(gè)漸進(jìn)的過(guò)程,但這實(shí)際上是一個(gè)巨大的挑戰(zhàn),」研究游戲與人工智能的紐約大學(xué)助理教授 Julian Togelius 表示。「多人游戲方面的研究,此前在所有游戲中都未有出現(xiàn)。」

在「冷撲大師」的基礎(chǔ)之上,Noam Brown 與 Tuomas Sandholm 提出的新算法 Pluribus 需要的算力更小。在為期 12 天,超過(guò) 10000 手牌的比賽中,Pluribus 擊敗了 15 名人類頂級(jí)玩家!负芏 AI 研究者此前都認(rèn)為實(shí)現(xiàn)這樣的目標(biāo)是不可能的,」Noam Brown 表示。

幾十年來(lái),撲克一直是人工智能領(lǐng)域一個(gè)困難而又重要的挑戰(zhàn)。原因在于,撲克中含有隱藏信息,也就是說(shuō),你無(wú)法知道對(duì)方的牌。要想在撲克中獲勝,你需要 bluff(嚇唬)或者使用其他策略,這在棋類比賽中一般是不需要的。這一點(diǎn)使得在撲克中應(yīng)用人工智能變得非常困難。

現(xiàn)在的人工智能已經(jīng)學(xué)會(huì)了 bluff,而且還可以看穿人類選手的 bluff。不過(guò)在 Noam Brown 看來(lái),這些技巧也是由數(shù)學(xué)過(guò)程決定的策略。

據(jù)介紹,F(xiàn)acebook 和卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的比賽分為兩種模式:1 個(gè) AI+5 個(gè)人類玩家和 5 個(gè) AI+1 個(gè)人類玩家,Pluribus 在這兩種模式中都取得了勝利。如果一個(gè)籌碼值 1 美元,Pluribus 平均每局能贏 5 美元,與 5 個(gè)人類玩家對(duì)戰(zhàn)一小時(shí)就能贏 1000 美元。職業(yè)撲克玩家認(rèn)為這些結(jié)果是決定性的勝利優(yōu)勢(shì)。

這是 AI 首次在玩家人數(shù)(或隊(duì)伍)大于 2 的大型基準(zhǔn)游戲中擊敗頂級(jí)職業(yè)玩家。以下是關(guān)于 Pluribus 的細(xì)節(jié)。

論文:Superhuman AI for multiplayer poker

論文鏈接:https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

Pluribus 以 Libratus 和其他一些算法、代碼為基礎(chǔ)進(jìn)行了幾項(xiàng)改進(jìn)。Libratus 曾于 2017 年在雙人無(wú)限注德?lián)渲袚魯∪祟愴敿?jí)選手(參見(jiàn):《學(xué)界 | Science 論文揭秘:Libratus 如何在雙人無(wú)限注德?lián)渲袚魯∪祟愴敿?jí)選手》)。這些算法和代碼都是由 Tuomas Sandholm 帶領(lǐng)的卡內(nèi)基梅隆大學(xué)研究實(shí)驗(yàn)室開(kāi)發(fā)的。

值得一提的是,Pluribus 整合了一種新的在線搜索算法,可以通過(guò)搜索前面的幾步而不是只搜索到游戲結(jié)束來(lái)有效地評(píng)估其決策。此外,Pluribus 還利用了速度更快的新型 self-play 非完美信息游戲算法。綜上所述,這些改進(jìn)使得使用極少的處理能力和內(nèi)存來(lái)訓(xùn)練 Pluribus 成為可能。訓(xùn)練所用的云計(jì)算資源總價(jià)值還不到 150 美元。這種高效與最近其他人工智能里程碑項(xiàng)目形成了鮮明對(duì)比,后者的訓(xùn)練往往要花費(fèi)數(shù)百萬(wàn)美元的計(jì)算資源。

這些創(chuàng)新的意義遠(yuǎn)不止在撲克游戲中,因?yàn)殡p玩家零和交互(一輸一贏)在娛樂(lè)游戲中非常常見(jiàn),但在實(shí)際生活中卻非常罕見(jiàn),F(xiàn)實(shí)世界的——對(duì)有害內(nèi)容采取行動(dòng)、應(yīng)對(duì)網(wǎng)絡(luò)安全挑戰(zhàn)以及管理在線拍賣或?qū)Ш搅髁?mdash;—通常涉及多個(gè)參與者和/或隱藏信息。多玩家交互對(duì)過(guò)去的 AI 技術(shù)提出了嚴(yán)峻的理論和實(shí)踐挑戰(zhàn)。Facebook 的結(jié)果表明,一個(gè)精心構(gòu)造的人工智能算法可以在兩人以上的零和游戲中超越人類的表現(xiàn)

在 6 人撲克中獲勝

相比于過(guò)去典型的游戲中,6 人撲克有兩個(gè)主要挑戰(zhàn)。

不只是簡(jiǎn)單的雙人零和游戲

過(guò)去所有游戲中的突破限制于 2 人或者 2 隊(duì)的零和競(jìng)賽(例如象棋、西洋棋、星際爭(zhēng)霸 2 或者 Dota2)。在這些比賽中,AI 之所以成功,是因?yàn)樗鼈冊(cè)噲D評(píng)估使用 Nash 均衡策略。在雙人和雙隊(duì)的零和游戲中,無(wú)論對(duì)手做什么,作出精確的納什均衡就可能無(wú)法輸?shù)舯荣悺?例如,石頭剪刀布的納什均衡策略是以相同的概率隨機(jī)選擇石頭、布或剪刀。)

盡管在任何有限制游戲中都存在納什均衡,但通常在具有三個(gè)或更多玩家的游戲中,難以有效地計(jì)算納什均衡。(對(duì)于兩人一般和游戲也是如此。)此外,在兩個(gè)以上玩家的游戲中,即使作出精確的納什均衡策略,也有可能輸?shù)舯荣。例如在游?Lemonade Stand game 中,每個(gè)玩家同時(shí)在一個(gè)圓環(huán)上選擇一個(gè)點(diǎn),并且想盡可能遠(yuǎn)離任何其他玩家。納什均衡是所有參與者沿著環(huán)間隔相等的距離,但是有很多方法可以實(shí)現(xiàn)。如果每個(gè)玩家獨(dú)立計(jì)算其中一個(gè)平衡點(diǎn),則聯(lián)合策略不太可能導(dǎo)致所有玩家沿著該環(huán)間隔開(kāi)同等距離。如下圖所示:

 

 

除了雙人零和游戲,納什均衡的缺點(diǎn)引發(fā)研究人員思考:這種游戲的正確目標(biāo)應(yīng)該是什么?

在六人撲克中,研究者認(rèn)為其目標(biāo)不應(yīng)該是特定的游戲理論解決概念,而是創(chuàng)建一個(gè)長(zhǎng)期都能憑經(jīng)驗(yàn)擊敗人類對(duì)手的 AI,包括精英人類專業(yè)人士。(對(duì)于 AI 機(jī)器人來(lái)說(shuō),這通常被認(rèn)為是「超人」的表現(xiàn)。)

研究者表示,他們用來(lái)構(gòu)建 Pluribus 的算法并不能保證在雙人零和游戲之外收斂到納什均衡。盡管如此,它們觀察到 Pluribus 在六人撲克中的策略始終能擊敗職業(yè)玩家,因此這些算法,能夠在雙人零和游戲之外的更廣泛的場(chǎng)景中,產(chǎn)生超人類的策略。

更復(fù)雜環(huán)境中的隱藏信息

沒(méi)有其他游戲像撲克一樣有這么大隱藏信息的挑戰(zhàn),每個(gè)玩家都擁有其他玩家沒(méi)有的信息(自己的牌面)。一個(gè)成功的撲克 AI 必須推理這個(gè)隱藏的信息,并慎重平衡自己策略(以保持不可預(yù)測(cè)),同時(shí)采取良好的行動(dòng)。

例如,bluff 偶爾會(huì)有效,但總是 bluff 就容易被抓,從而導(dǎo)致?lián)p失大量資金。因此,有必要仔細(xì)平衡 bluff 概率和強(qiáng)牌下注的概率。換句話說(shuō),不完美信息游戲中動(dòng)作的值取決于其被選擇的概率以及選擇其他動(dòng)作的概率。

相反,在完美信息游戲中,玩家不必?fù)?dān)心平衡動(dòng)作的概率。國(guó)際象棋中的好動(dòng)作,無(wú)論選擇的概率如何都是好的。

像先前 Libratus 這樣的撲克 AI,在兩個(gè)玩家無(wú)限制德州撲克游戲這樣的游戲中,通過(guò)基于 Counterfactual Regret Minimization(CFR)理論上合理的自我游戲算法與精心構(gòu)造的搜索程序相結(jié)合,解決游戲中的隱藏信息問(wèn)題。

然而,在撲克中添加額外的玩家會(huì)以指數(shù)方式增加游戲的復(fù)雜性。即使計(jì)算量高達(dá) 10,000 倍,那些以前的技術(shù)無(wú)法擴(kuò)展到六人撲克。

Pluribus 使用的新技術(shù)可以比以前的任何東西都更好地應(yīng)對(duì)這一挑戰(zhàn)。

理解 Pluribus 的藍(lán)圖策略

Pluribus 的核心策略是通過(guò)自我博弈的方式學(xué)習(xí)。在這一過(guò)程中,AI 和自己進(jìn)行對(duì)戰(zhàn),不使用任何人類游戲數(shù)據(jù)作為輸入。AI 首先隨機(jī)地選擇玩法,接著,隨著決定每一步的行動(dòng)后,逐漸提升性能,并對(duì)這些行動(dòng)擬合概率分布。最終,AI 的表現(xiàn)比之前的策略版本會(huì)更好。Pluribus 中的自我博弈策略是一種改進(jìn)版本的蒙特卡洛 CFR(MCCFR)。

每一次迭代中,MCCFR 指定其中一方為「traverser」對(duì)象,在迭代中更新這一方的當(dāng)前策略。在迭代開(kāi)始時(shí),基于所有玩家的當(dāng)前策略(最開(kāi)始是完全隨機(jī)的),MCCFR 模擬出一幅撲克。當(dāng)模擬完成時(shí),算法回顧「traverser」對(duì)象的每個(gè)策略,并計(jì)算如果選擇其他的行動(dòng),它的勝率多大程度上能夠提升或下降。之后,AI 再評(píng)價(jià)根據(jù)這一決策實(shí)施之后,接下來(lái)的每個(gè)假設(shè)決策的優(yōu)勢(shì),以此類推。

 

 

該圖顯示蒙特卡羅 Counterfactual Regret Minimization 算法如何通過(guò)評(píng)估真實(shí)和假設(shè)的動(dòng)作來(lái)更新遍歷器的策略。Pluribus 中的遍歷器以深度優(yōu)先的方式進(jìn)行遍歷,以達(dá)到優(yōu)化的目的。

探究其他假設(shè)的結(jié)果是可能的,這是因?yàn)?AI 是自我對(duì)弈的。如果 AI 想要了解其他選擇之后會(huì)發(fā)生什么,它只需要問(wèn)自己如何去回應(yīng)這些行為。

「traverser」對(duì)象實(shí)際做了什么選擇和可能做什么選擇的差異被加入到反事實(shí)后悔(counterfactural regret)行為中。在迭代結(jié)束的時(shí)候,「traverser」對(duì)象的策略得到更新。因此,有著更高反事實(shí)后悔概率的選擇被選中。保持德州撲克這樣沒(méi)有限制的游戲中每一個(gè)行動(dòng)中的策略需要的字節(jié)數(shù)超過(guò)了整個(gè)宇宙的原子數(shù)。為了減少游戲的復(fù)雜度,研究人員要求 AI 忽略一些行動(dòng),并使用一種抽象方法將類似的決策點(diǎn)聚合在一起。在抽象之后,聚合的決策點(diǎn)被認(rèn)為是獨(dú)一無(wú)二的。

Pluribus 的自我博弈結(jié)果被稱為藍(lán)圖策略。在實(shí)際游戲中,Pluribus 使用搜索算法提升這一藍(lán)圖策略。但是 Pluribus 不會(huì)根據(jù)從對(duì)手身上觀察到的傾向調(diào)整其策略。

 

 

這幅圖顯示了 Pluribus 的藍(lán)圖策略是如何在訓(xùn)練過(guò)程中逐漸改進(jìn)的。其性能通過(guò)訓(xùn)練的最終快照來(lái)評(píng)估。研究者在這些比較中沒(méi)有使用搜索,他們基于與人類專業(yè)玩家的討論對(duì)普通人類玩家和頂級(jí)人類玩家的表現(xiàn)進(jìn)行評(píng)估。該圖還顯示出了 Pluribus 何時(shí)停止 limping,這是高級(jí)人類玩家通常會(huì)去避免的一種打法。

 

 

研究人員訓(xùn)練藍(lán)圖策略用了 8 天,使用了一個(gè) 64 核的服務(wù)器,需要的內(nèi)存數(shù)量小于 512G。他們沒(méi)有使用 GPU。在典型的云計(jì)算中,這只需要 150 美元。和其他 AI 研究相比,包括其他自我對(duì)弈的 AI,這種消耗很小。由于算法上的提升,研究人員可以在低成本的計(jì)算環(huán)境實(shí)現(xiàn)極大的性能提升。

更高效的搜索策略

由于無(wú)限制德州撲克的規(guī)模與復(fù)雜性,藍(lán)圖策略必須是粗粒度的。在實(shí)際過(guò)程中,Pluribus 通過(guò)實(shí)時(shí)搜索改進(jìn)藍(lán)圖策略,以針對(duì)特定情況確定更好、更細(xì)粒度的策略。

AI bot 經(jīng)常在很多完美信息博弈中使用實(shí)時(shí)搜索,包括西洋雙陸棋(two-ply search)、國(guó)際象棋(alpha-beta pruning search)、圍棋(Monte Carlo tree search)。例如,當(dāng)模型在決定下一步該走哪時(shí),國(guó)際象棋 AI 通常會(huì)考慮以后的一些移動(dòng)步驟,直到算法的前瞻到達(dá)葉節(jié)點(diǎn)或深度的上限。

然而,這些搜索方法并不適合不完美信息博弈,因?yàn)樗鼈儾⒉豢紤]對(duì)手轉(zhuǎn)移到葉節(jié)點(diǎn)之外策略的能力。這個(gè)弱點(diǎn)令搜索算法產(chǎn)生了脆弱的、不平衡的策略,從而使對(duì)手快速發(fā)現(xiàn)這個(gè)錯(cuò)誤。AI bot 在以前也就不能將博弈擴(kuò)展到 6 個(gè)參與者。

相反,Pluribus 使用一種新方法,其中搜索器明確地考慮了不完美信息博弈的實(shí)際情況,即任何參與者都可以轉(zhuǎn)移到子博弈外的葉節(jié)點(diǎn)策略上。具體而言,研究者并不假設(shè)所有參與者都需要根據(jù)葉節(jié)點(diǎn)之外的單個(gè)固定策略進(jìn)行博弈,這會(huì)導(dǎo)致葉節(jié)點(diǎn)只有單個(gè)固定值。在搜索已經(jīng)到葉節(jié)點(diǎn)時(shí),研究者假設(shè)每一個(gè)參與者會(huì)從四個(gè)不同的策略中選擇,進(jìn)行剩余的博弈。

研究者在 Pluribus 中使用的四個(gè)延續(xù)策略分別是預(yù)計(jì)算的藍(lán)圖策略;在藍(lán)圖策略的基礎(chǔ)上進(jìn)行修改,以令策略偏置到棄牌;修改藍(lán)圖策略以令其偏置到叫牌;修改藍(lán)圖策略以令其偏置到加注。

這種技術(shù)可以令搜索器找都一種更均衡的策略,從而在整體性能表現(xiàn)得更好。因?yàn)檫x擇不平衡的策略會(huì)使對(duì)手轉(zhuǎn)向其它延續(xù)策略,從而產(chǎn)生懲罰。例如玩石頭剪刀布,我只出石頭,那么對(duì)手肯定能學(xué)習(xí)到只出布的策略。

正如研究者所指出的,搜索不完全信息博弈的另一個(gè)挑戰(zhàn)是,參與者針對(duì)特定情況的最佳策略取決于對(duì)手對(duì)其玩法的看法。例如打德州撲克,如果一個(gè)參與者永遠(yuǎn)不會(huì) bluff,那么它的對(duì)手總會(huì)知道應(yīng)該在加大注的情況下棄牌。

為了應(yīng)對(duì)這種情況,Pluribus 根據(jù)自身策略,在每一手時(shí)追蹤當(dāng)前狀況的出現(xiàn)概率。不管它實(shí)際上在哪一手,Pluribus 首先都會(huì)預(yù)測(cè)每一手時(shí)將要采取的行動(dòng)——從而小心翼翼地在所有手時(shí)平衡自身策略,令人類玩家無(wú)法預(yù)測(cè)其下一步行動(dòng)。一旦計(jì)算這一涵蓋所有手的平衡策略,Pluribus 隨后就會(huì)為它實(shí)際所在的手執(zhí)行一個(gè)操作。

比賽時(shí),Pluribus 在兩個(gè) CPU 上運(yùn)行。相比而言,在 2016 年和李世石的圍棋比賽中,AlphaGo 使用了 1920 塊 CPU 和 280 塊 GPU。同時(shí),Pluribus 使用了不多于 128GB 的內(nèi)存。在對(duì)每一個(gè)子分支進(jìn)行搜索的時(shí)候,根據(jù)現(xiàn)場(chǎng)的情況,它所用的時(shí)間介于 1 秒和 33 秒之間。Pluribus 的游戲時(shí)間比人類專業(yè)玩家快兩倍:在六人游戲場(chǎng)景,和自身對(duì)弈的時(shí)候,它平均每手只需要 20 秒。

Pluribus 與人類玩家的對(duì)抗效果如何?

研究者令 Pluribus 與一組人類頂級(jí)撲克玩家對(duì)抗,從而評(píng)估它的實(shí)戰(zhàn)效果。這些玩家包括「耶穌」Chris Ferguson(2000 年世界撲克系列賽主賽事冠軍)、Greg Merson(2012 年世界撲克系列賽主賽事冠軍)和 Darren Elias(四屆世界撲克巡回賽冠軍)。人類玩家的完整名單如下:Jimmy Chou、Seth Davies、Michael Gagliano、Anthony Gregg、Dong Kim、Jason Les、Linus Loeliger、Daniel McAulay、Nick Petrangelo、Sean Ruane、Trevor Savage 和 Jake Toole。

當(dāng) AI 系統(tǒng)在其他基準(zhǔn)游戲中與人類對(duì)戰(zhàn)時(shí),機(jī)器有時(shí)在剛開(kāi)始的時(shí)候表現(xiàn)非常好,但隨著人類玩家發(fā)現(xiàn)它們的弱點(diǎn),最終就會(huì)擊敗它們。如果 AI 想要徹底掌控一場(chǎng)游戲,它必須展示出這樣一種能力,即使人類玩家能夠逐漸適應(yīng)它們的節(jié)奏,但它們也能取得勝利。過(guò)去幾天,職業(yè)撲克玩家與 Pluribus 進(jìn)行了數(shù)千場(chǎng)比賽,因而有足夠的時(shí)間來(lái)找出它的弱點(diǎn),并逐漸適應(yīng)它。

Elias 說(shuō)道:「Pluribus 是在與世界上最好的撲克玩家進(jìn)行對(duì)抗啊!

以下是實(shí)驗(yàn)中 Pluribus 與人類玩家對(duì)抗時(shí)的界面:

 

 

實(shí)驗(yàn)分為兩種模式:其一,5 名人類玩家與 1 個(gè) AI 進(jìn)行對(duì)抗;其二,1 名人類玩家與 5 個(gè) AI 副本進(jìn)行對(duì)抗。因此,在每一種對(duì)抗模式下,共有 6 名玩家參與其中,并且每局開(kāi)始的時(shí)候有 10000 籌碼。小盲(small blind)50 籌碼,大盲(big blind)100 籌碼。

盡管撲克是一款技巧游戲,但其中也會(huì)有非常大的運(yùn)氣成分。如果運(yùn)氣不佳的話,頂級(jí)職業(yè)玩家也會(huì)在 10000 手的撲克比賽中輸錢。為了弱化運(yùn)氣成分在撲克比賽中的作用,研究者使用了一種 AIVAT 方差縮減算法,該算法對(duì)各種狀況的值進(jìn)行基線估計(jì),從而在保持樣本無(wú)偏的同時(shí)縮減方差。舉例而言,如果 Pluribus 得到一副強(qiáng)手牌,AIVAT 將從它贏得中減去基準(zhǔn)值,從而對(duì)抗好運(yùn)氣。

5 名人類玩家+1 個(gè) AI

在實(shí)驗(yàn)中,人類玩家和 AI 之間展開(kāi)的 10000 手撲克比賽持續(xù)了 12 天,每天挑選 5 名人類玩家與 AI 進(jìn)行比賽。這些玩家將根據(jù)自身表現(xiàn)瓜分 50000 美元的獎(jiǎng)勵(lì),以激勵(lì)他們發(fā)揮最佳水平。在采用 AIVAT 后,Pluribus 的勝率預(yù)計(jì)約為每 100 手 5 個(gè)大盲注(標(biāo)準(zhǔn)誤差為 5 bb/100),這對(duì)頂級(jí)人類撲克玩家而言是巨大勝利(盈利 P 值為 0.021)。所以,如果每個(gè)籌碼價(jià)值 1 美元,Pluribus 每手平均能贏 5 美元,每小時(shí)能贏 1000 美元。這一結(jié)果超過(guò)了純職業(yè)玩家在與職業(yè)和業(yè)余混合玩家對(duì)抗時(shí)的勝率。

Ferguson 在比賽實(shí)驗(yàn)結(jié)束后說(shuō)道:「Pluribus 真是太難對(duì)付了!我們很難在任何一手中盯死它。它不僅非常擅長(zhǎng)進(jìn)行薄的價(jià)值下注,而且擅長(zhǎng)從好手牌中贏得最大價(jià)值!

但值得注意的是,Pluribus 本意是成為 AI 研究的工具,研究者僅將撲克比賽作為一種方式,以衡量 AI 在不完全信息多智能體交互(與人類頂級(jí)能力相關(guān))中的進(jìn)展。

5 個(gè) AI+1 個(gè)人類玩家

參與實(shí)驗(yàn)的有 Ferguson、Elias 和 Linus Loeliger。Loeliger 是很多人公認(rèn)的六人無(wú)限德?lián)漤敿?jí)玩家。每個(gè)人與五個(gè) Pluribus AI 玩 5000 手撲克。Pluribus 并沒(méi)有根據(jù)對(duì)手的情況調(diào)整策略,因此機(jī)器人之間的故意勾結(jié)不是問(wèn)題?偟膩(lái)說(shuō),人類每 100 手損失 2.3 bb。Elias 每 100 手損失 4.0 bb(標(biāo)準(zhǔn)誤差為 2.2 bb/100),F(xiàn)erguson 每 100 手損失 2.5bb(標(biāo)準(zhǔn)誤差為 2.2 bb/100),Loeliger 每 100 手損失 0.5 bb(標(biāo)準(zhǔn)誤差為 1.0 bb/100)。

 

 

這張圖顯示了 Pluribus 在 10000 手實(shí)驗(yàn)中對(duì)職業(yè)撲克玩家的平均勝率。直線表示實(shí)際結(jié)果,虛線表示一個(gè)標(biāo)準(zhǔn)差。

「這個(gè) AI 最大的優(yōu)勢(shì)就是它使用混合策略的能力,」Elias 表示!溉祟愐蚕脒@么做。對(duì)人來(lái)說(shuō),這是一個(gè)執(zhí)行的問(wèn)題——以一種完全隨機(jī)的方式持續(xù)去做。多數(shù)人類做不到這一點(diǎn)!

由于 Pluribus 的策略完全是在沒(méi)有任何人類數(shù)據(jù)的情況下通過(guò) self-play 自己學(xué)到的,因此它也提供了一個(gè)外部視角,即在多人無(wú)限制德州撲克游戲中最好的玩法應(yīng)該是什么樣子。

Pluribus 證實(shí)了人類傳統(tǒng)的聰明玩法——limping(叫大盲而不是加注或棄牌)對(duì)于任何除小盲之外的任何玩家來(lái)說(shuō)都不是最佳策略,因?yàn)楦鶕?jù)規(guī)則,小盲已經(jīng)下了大盲的一半,因此小盲跟注只需再下一半。

盡管 Pluribus 最初在通過(guò) self-play 離線計(jì)算藍(lán)圖策略時(shí)嘗試 limping,但隨著 self-play 的繼續(xù),它逐漸放棄了這一策略。

此外,Pluribus 并不認(rèn)同 donk 是一種錯(cuò)誤的觀念(在前一輪投注結(jié)束時(shí),開(kāi)始新一輪加注);與專業(yè)人士相比,Pluribus 更喜歡這么做。

「和撲克 AI 比賽,看到它選的一些策略,真的非常過(guò)癮,」Gagliano 表示!赣袔讏(chǎng)人類根本就沒(méi)有發(fā)揮什么作用,尤其是它下注比較狠的那幾場(chǎng)!

 

 

這張圖顯示了在與頂尖玩家對(duì)戰(zhàn)時(shí) Pluribus 的籌碼數(shù)量變化。直線表示實(shí)際結(jié)果,虛線表示一個(gè)標(biāo)準(zhǔn)差。

從撲克到其它不完美信息博弈的挑戰(zhàn)

AI 以前曾經(jīng)在完美信息零和博弈(兩個(gè)參與者)中取得了多次引人注目的成功。但大多數(shù)真實(shí)世界策略交互都涉及隱信息,且并非兩個(gè)參與者的零和博弈。Pluribus 的成功表明,目前還有更大規(guī)模的、極其復(fù)雜的多參與者場(chǎng)景,仔細(xì)構(gòu)建的自我博弈和搜索算法能夠在這些場(chǎng)景下獲得很好的效果,盡管當(dāng)前并沒(méi)有很強(qiáng)的理論支持來(lái)保證這個(gè)效果。

Pluribus 也非同一般,因?yàn)榕c其它近期的 AI 系統(tǒng)相比,在基準(zhǔn)博弈中,它的訓(xùn)練和推斷成本都要低得多。盡管該領(lǐng)域的一些研究者擔(dān)心未來(lái)的 AI 研究會(huì)被擁有大量計(jì)算資源的大型團(tuán)隊(duì)主導(dǎo)。但研究者相信 Pluribus 是一個(gè)強(qiáng)有力的證據(jù),說(shuō)明新方法只需要適當(dāng)?shù)挠?jì)算資源,就能驅(qū)動(dòng)頂尖的 AI 研究。

盡管 Pluribus 是為了玩撲克開(kāi)發(fā)的,但其使用的技術(shù)并不是撲克所獨(dú)有的,它也不需要任何專家領(lǐng)域的知識(shí)進(jìn)行開(kāi)發(fā)。該研究給我們提供了一個(gè)更好的基本理解,即如何構(gòu)建一般的 AI 以應(yīng)對(duì)多智能體環(huán)境,這種環(huán)境既包括其它 AI 智能體,也包括人類。同時(shí),搭建一般的多智能體 AI,也能使研究人員將研究過(guò)程中取得的 AI 基準(zhǔn)成績(jī)與人類能力的尖峰做對(duì)比。

當(dāng)然,在 Pluribus 中采取的方法可能并不會(huì)在所有多智能體設(shè)定上取得成功。在撲克中,參與方很難有機(jī)會(huì)與其它智能體溝通,這有可能構(gòu)建非常簡(jiǎn)單的調(diào)和博弈(coordination game),因此 self-play 算法找不到一個(gè)好策略。

然而對(duì)于很多現(xiàn)實(shí)世界的交互,包括反欺詐、網(wǎng)絡(luò)安全和內(nèi)容審核等潛在都能通過(guò) Pluribus 的方法建模。即建模為涉及隱藏信息的場(chǎng)景,并(或)通過(guò)多個(gè)智能體的有限交流來(lái)構(gòu)建不同參與方間的聯(lián)系。這項(xiàng)打德州撲克的技術(shù)甚至允許 Pluribus 幫助 AI 社區(qū)在不同領(lǐng)域中構(gòu)建更高效的策略。

最后,在過(guò)去的 16 年中,Tuomas Sandholm 和 CMU 團(tuán)隊(duì)都在研究策略推理技術(shù)。Pluribus 構(gòu)建并融合了策略推理的大部分技術(shù)與代碼,但它同樣也包含了撲克的專門代碼,這些代碼 CMU 和 Facebook 合作完成,且并不會(huì)用于國(guó)防應(yīng)用。

參考內(nèi)容:

https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker

https://www.nature.com/articles/d41586-019-02156-9

https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

標(biāo)簽: AI 人工智能

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:成為機(jī)器學(xué)習(xí)工程師第一年,我學(xué)到的 12 件事

下一篇:京東城市鄭宇:AI與大數(shù)據(jù)將“重塑城市”