中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

人工智能安全的近期進(jìn)展和待解決問(wèn)題

2018-06-13    來(lái)源:

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
本文簡(jiǎn)要概述了人工智能安全中的三個(gè)新領(lǐng)域的一些最新成果和未解決的問(wèn)題:安全性和魯棒性、可理解性和可解釋性、獎(jiǎng)勵(lì)學(xué)習(xí);旨在概述每個(gè)領(lǐng)域的一些相關(guān)研究,而不是提供全面的文獻(xiàn)綜述。

隨著機(jī)器學(xué)習(xí)研究的不斷發(fā)展,機(jī)器學(xué)習(xí)模型將被用于越來(lái)越重要的環(huán)境中,而且模型的應(yīng)用范圍不斷擴(kuò)展。今天我們?cè)诠S僅看到個(gè)別機(jī)器人,將來(lái)我們可能會(huì)發(fā)現(xiàn)工廠乃至整個(gè)公司的自動(dòng)化管理; 今天,自動(dòng)駕駛汽車開(kāi)始走上街頭,未來(lái)的「智能城市」可能會(huì)使用基于機(jī)器學(xué)習(xí)的系統(tǒng)來(lái)監(jiān)督整個(gè)地區(qū)的能源、交通、水資源和其他基礎(chǔ)設(shè)施。

除了顯而易見(jiàn)的好處之外,自動(dòng)化在這些關(guān)鍵環(huán)境中迅速蔓延也將帶來(lái)新的挑戰(zhàn)。不是對(duì)「終結(jié)者」機(jī)器人的過(guò)度恐懼,而是更基本的問(wèn)題:我們?nèi)绾文軌虿蹲阶詣?dòng)化系統(tǒng)在更廣泛范圍內(nèi)承擔(dān)更復(fù)雜任務(wù)的好處,同時(shí)確保這些系統(tǒng)可靠地按照我們的意圖行事?

人工智能的安全性和可靠性研究歷史悠久,包括人機(jī)交互、以人為中心的 AI 設(shè)計(jì)、機(jī)器人倫理、隱私和公平等方面的研究。最近,研究員開(kāi)始創(chuàng)建新的子領(lǐng)域,專門針對(duì)未來(lái)幾十年中可能會(huì)出現(xiàn)的高功能和高度自主系統(tǒng)。

本文簡(jiǎn)要概述了其中三個(gè)新領(lǐng)域的一些最新成果和未解決的問(wèn)題:(1)安全性和魯棒性 (security and robustness);(2)可理解性和可解釋性 (interpretability and explainability);以及(3)獎(jiǎng)勵(lì)學(xué)習(xí) (reward learning)。以下內(nèi)容旨在概述每個(gè)領(lǐng)域的一些相關(guān)研究,而不是提供全面的文獻(xiàn)綜述。

安全性和魯棒性 (security and robustness):在不同環(huán)境下可靠的性能

在現(xiàn)實(shí)環(huán)境中使用的機(jī)器學(xué)習(xí)模型的安全性和魯棒性顯然非常重要。安全性和魯棒性的模型是必要的,以防止故意攻擊,并且新環(huán)境或其他意外更改不會(huì)導(dǎo)致不良行為。

目前的模型既不安全也不魯棒的一個(gè)有趣的原因是它們對(duì)「對(duì)抗樣本」的敏感性。最常見(jiàn)的對(duì)抗樣本類型是圖像像素?zé)o法檢測(cè)到的擾動(dòng)導(dǎo)致模型進(jìn)行錯(cuò)誤的判斷。

即使對(duì)熊貓形象的微小改變也能欺騙學(xué)習(xí)模型,讓模型認(rèn)為有 99.3% 的可能是長(zhǎng)臂猿。來(lái)源: Goodfellow et al. 2014,「Explaining and Harnessing Adversarial Examples」

但對(duì)抗樣本不限于這種圖像處理詭計(jì)。一些研究人員提出了更廣泛的定義:「對(duì)抗樣本是攻擊者故意引入機(jī)器學(xué)習(xí)模型,旨在導(dǎo)致模型出錯(cuò)!拱凑者@個(gè)定義,對(duì)抗樣本不僅可以用來(lái)攻擊視覺(jué)系統(tǒng),而且可以用來(lái)攻擊任何類型的模型。

Fetured paper:「Adversarial Attacks and Defences Competition」

Kurakin et al. 2018: https://arxiv.org/abs/1804.00097

這篇論文來(lái)自于 NIPS 2017 大會(huì)上由 Google Brain 團(tuán)隊(duì)舉辦的 NIPS 2017 對(duì)抗攻擊防御比賽。比賽包括非目標(biāo)攻擊 (non-targeted attack)、有針對(duì)性的攻擊 (targeted attack) 和防御 (defense)。每個(gè)類別都使用黑盒圖像分類器和類似 ImageNet 的圖像數(shù)據(jù)集作為基礎(chǔ),這里的「黑盒」表示攻擊者無(wú)法知道目標(biāo)模型的權(quán)重!阜悄繕(biāo)攻擊」的方法需要對(duì)給定的圖片進(jìn)行處理,使得某個(gè)機(jī)器學(xué)習(xí)分類器識(shí)別其為任意類別,而「有針對(duì)性的攻擊」的方法需要讓某個(gè)機(jī)器學(xué)習(xí)分類器能成功將圖像識(shí)別為屬于特定的錯(cuò)誤類別。

清華大學(xué)的研究人員贏得了比賽的所有三條賽道。他們具體的方法如下:

對(duì)于非目標(biāo) (non-targeted) 和有針對(duì)性 (targeted) 的攻擊類型,清華團(tuán)隊(duì)采用已經(jīng)建立的基于迭代的技術(shù)來(lái)生成對(duì)抗性攻擊(「iterative fast gradient sign method」,I-FGSM)并增加了動(dòng)量項(xiàng),從而減少這種算法經(jīng)常遇到的過(guò)擬合問(wèn)題。為了增加這些對(duì)抗性攻擊在不同模型之間可以遷移的程度,他們針對(duì)使用分類器的集成來(lái)實(shí)現(xiàn)他們的方法。

為了防御,清華團(tuán)隊(duì)提出了「高階表征引導(dǎo)去噪器」(HGD)方法。為了消除對(duì)抗擾動(dòng),該方法改進(jìn)了現(xiàn)有的與去噪有關(guān)的防御機(jī)制。HGD 基于這樣的見(jiàn)解:在防御對(duì)抗樣本的過(guò)程中,專注于像素級(jí)的準(zhǔn)確性實(shí)際上可能增加而不是減少失真。HGD 使用高級(jí)特征指導(dǎo)去噪器防御對(duì)抗性攻擊。

其他研究:

在過(guò)去的幾年里,有關(guān)對(duì)抗樣本的研究蓬勃發(fā)展,新的攻擊和防御技術(shù)得到了迅速的反復(fù)發(fā)展。上面介紹的論文很好地概述了最近的成果。

當(dāng)然,對(duì)安全性和魯棒性的研究指的不僅僅是對(duì)抗樣本的例子。其他相關(guān)的研究方向包括如何正式驗(yàn)證模型的可靠性(例如 Selsam et al. 2017, Katz et al. 2017);如何使模型對(duì)其樣本分布的變化具有魯棒性(如 Platanios et al. 2017);并且研究更一般形式的機(jī)器學(xué)習(xí)安全概念,即如何防御對(duì)抗樣本以外的攻擊類型(例如,Papernot et al. 2016, Steinhardt et al. 2017)。

除了在關(guān)鍵環(huán)境中使用的模型必須安全可靠以避免事故的明顯原因之外,這些領(lǐng)域的研究還有另一個(gè)有趣的應(yīng)用:它還讓我們深入了解模型對(duì)正在執(zhí)行的任務(wù)的理解程度,并讓我們檢查最壞情況的性能(而不是大多數(shù)機(jī)器學(xué)習(xí)論文中描述的平均情況性能)。更好地理解我們的模型的脆弱性將有助于我們建立模型,對(duì)周圍的世界有更準(zhǔn)確和細(xì)致的表征。

可理解性和可解釋性:打開(kāi)黑盒

深度學(xué)習(xí)模型經(jīng)常被描述為「黑盒」,確實(shí)很難分析一個(gè)訓(xùn)練好的模型的參數(shù)分布,并理解為什么它正在做它正在做的事情。

但也許這可以改變。在可理解性和可解釋性方面有越來(lái)越多的領(lǐng)域在研究如何將深度學(xué)習(xí)模型的參數(shù)轉(zhuǎn)換為人類可以理解的概念和視覺(jué)效果。

Featured paper:「The Building Blocks of Interpretability」

Olah et al. 2018: https://distill.pub/2018/building-blocks/

這份交互式論文是 Chris Olah 及其合作者發(fā)表的最新出版物,發(fā)表在 Distill 在線期刊上。該論文將幾種」可理解性「有關(guān)的現(xiàn)有工作((包括特征可視化和歸因模型)與人機(jī)交互研究相結(jié)合,引入一個(gè)創(chuàng)建界面以理解視覺(jué)模型的系統(tǒng)框架。與大多數(shù)關(guān)于可解釋性的研究一樣,它將重點(diǎn)放在卷積神經(jīng)網(wǎng)絡(luò)(CNN)上,使用 GoogLeNet 作為示例模型。

標(biāo)題中提到的「building blocks (構(gòu)件)」指的是不同的可理解性技術(shù)和概念,可以用新的方式組合在一起,創(chuàng)造出豐富的人性化界面。

該文章介紹了「語(yǔ)義詞典」,提供了一個(gè)給定神經(jīng)元已經(jīng)學(xué)習(xí)的抽象的典型視覺(jué)例子,并將它們與「顯著圖」(這在早期的工作中已經(jīng)很成熟,作為顯示圖像的哪些區(qū)域在其分類方式中最具影響力的方式)和矩陣分解 (這提供了將模型的部分分組以提供更有意義和可理解的視覺(jué)效果的新方法) 等概念結(jié)合起來(lái)。

這些結(jié)果最好通過(guò)直接閱讀文章來(lái)查看,因?yàn)樗S多高質(zhì)量的交互式可視化工具。

該文章也提供了一種結(jié)構(gòu)化的方式來(lái)思考可理解性界面的設(shè)計(jì)。取決于界面的目標(biāo)(例如,最重要的是顯示神經(jīng)網(wǎng)絡(luò)檢測(cè)到的內(nèi)容,還是以人類易于理解的方式顯示信息?),界面可以通過(guò)各個(gè)方式結(jié)合不同的元素(例如特征可視化與信息可視化;歸因與激活)。

其他研究:

最近可解釋性研究的其他一些例子包括關(guān)于使深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征可視化的工作(例如 Olah et al. 2017);理解某一個(gè)神經(jīng)網(wǎng)絡(luò)為什么做出某一個(gè)決定(例如 Sundararajan et al. 2017, Koh and Liang 2017);量化不同神經(jīng)網(wǎng)絡(luò)的可理解性(例如 Bau et al. 2017);并建立更多可理解的模型(例如 Wu et al,2017)。

到目前為止,大部分關(guān)于可理解性的研究都集中在視覺(jué)模型上,在其他領(lǐng)域留下的探索空間范圍較大。例如,一些學(xué)者開(kāi)始進(jìn)行解釋深度神經(jīng)網(wǎng)絡(luò)行為的理論研究 (Saxe et al. 2018 )。

了解模型的內(nèi)部運(yùn)作方式,讓我們更有信心何時(shí)相信它們,它們?cè)谑裁辞闆r下會(huì)失敗,以及如何使它們更魯棒。這對(duì)于今天部署深度學(xué)習(xí)模型的有限環(huán)境已經(jīng)很有價(jià)值, 但隨著這些系統(tǒng)在更高風(fēng)險(xiǎn)的環(huán)境中負(fù)責(zé)更復(fù)雜的決策,它將變得更加重要。

獎(jiǎng)勵(lì)學(xué)習(xí):按我的意思做,不是按我說(shuō)的做

當(dāng)前的機(jī)器學(xué)習(xí)系統(tǒng)通常使用簡(jiǎn)單的固定成本函數(shù)或獎(jiǎng)勵(lì)信號(hào)作為其優(yōu)化目標(biāo)。當(dāng)我們確切地知道我們想要優(yōu)化的目標(biāo)(比如 ImageNet 誤差率、視頻游戲排行或在幾輪 Go 比賽獲勝),這種方法非常有效。但它有一個(gè)明顯的缺點(diǎn):為我們想要優(yōu)化的內(nèi)容寫下清晰的數(shù)學(xué)公式通常很困難。

關(guān)于這個(gè)問(wèn)題,Lehman et al. 2018 有一些很好的例子,我們可以把進(jìn)化看作是一個(gè)「算法過(guò)程」。數(shù)字進(jìn)化領(lǐng)域的許多研究人員觀察到他們的演化算法和有機(jī)體有時(shí)候會(huì)顛覆他們的意圖,在他們的代碼中產(chǎn)生意料之外的適應(yīng),或者展示出與自然界中的某些結(jié)果一致的結(jié)果。

「獎(jiǎng)勵(lì)學(xué)習(xí)」是指開(kāi)始用于解決這類問(wèn)題的一系列研究方法。這些方法旨在使用更能反映人類意圖的更微妙、復(fù)雜和靈活的獎(jiǎng)勵(lì)來(lái)訓(xùn)練模型。

Featured paper:「Deep Reinforcement Learning from Human Preferences」

Christiano et al. 2017: https://arxiv.org/abs/1706.03741

該論文來(lái)自 OpenAI 和 DeepMind 的 AI 安全團(tuán)隊(duì)之間的合作。它描述了幾個(gè)實(shí)驗(yàn)的結(jié)果,使用人類控制員的反饋代替預(yù)先指定的獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練深度強(qiáng)化學(xué)習(xí)智能體。

具體來(lái)說(shuō),這是通過(guò)向智能體添加「獎(jiǎng)勵(lì)預(yù)測(cè)器」來(lái)實(shí)現(xiàn)的。這個(gè)獎(jiǎng)勵(lì)預(yù)測(cè)器通過(guò)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練,以預(yù)測(cè)人類控制員認(rèn)為哪兩個(gè)「方向」(例如,機(jī)器人執(zhí)行不同動(dòng)作的兩個(gè)剪輯片段)更好。然后,當(dāng)強(qiáng)化學(xué)習(xí)(RL)系統(tǒng)在訓(xùn)練時(shí),它使用獎(jiǎng)勵(lì)預(yù)測(cè)器的輸出作為替代獎(jiǎng)勵(lì)信號(hào)。隨著獎(jiǎng)勵(lì)預(yù)測(cè)器接收到更多關(guān)于人類控制員喜歡的方向的信息,智能體正在訓(xùn)練的獎(jiǎng)勵(lì)信號(hào)更接近人類控制員的意圖。

參見(jiàn):OpenAI聯(lián)合DeepMind發(fā)布全新研究:根據(jù)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)

這個(gè)結(jié)果很好地證明了這篇論文的重點(diǎn):對(duì)于某些目標(biāo),讓人類控制員給強(qiáng)化學(xué)習(xí)系統(tǒng)提供反饋,從而比事先為系統(tǒng)指定目標(biāo)的步驟更容易。

其他研究:

上述文章使用人的偏好作為獎(jiǎng)勵(lì)學(xué)習(xí)機(jī)制; 另一篇最近使用這種方法的論文是 Sadigh et al. 2017。獎(jiǎng)勵(lì)學(xué)習(xí)也可以使用一系列其他方法來(lái)實(shí)現(xiàn),其中幾種方法如下所述。

逆向強(qiáng)化學(xué)習(xí)(觀察行為來(lái)推斷獎(jiǎng)勵(lì)函數(shù))和模仿學(xué)習(xí)(模仿他人的行?)是研究人員長(zhǎng)期以來(lái)感興趣的兩種技術(shù),尤其是在機(jī)器人領(lǐng)域。最近關(guān)于這些主題的工作包括 Hadfield-Menell et al. 2016, Hadfield-Menell et al. 2017, Ho and Ermon 2016, 和 Stadie et al. 2017.

獎(jiǎng)勵(lì)學(xué)習(xí)中的其他研究方向包括讓強(qiáng)化學(xué)習(xí)(RL)系統(tǒng)假定其獎(jiǎng)勵(lì)函數(shù)已被破壞并學(xué)習(xí)如何解決(例如 Everitt et al. 2017); 以「半監(jiān)督」的方式訓(xùn)練 RL 系統(tǒng),使其能夠?qū)⑸倭康莫?jiǎng)勵(lì)信號(hào)推廣到新的情況(例如 Finn et al. 2016); 或者在「辯論」環(huán)境中設(shè)立成對(duì)的智能體,爭(zhēng)奪人類監(jiān)督者的批準(zhǔn)(Irving et al. 2018)。

對(duì)于在范圍有限的狹窄環(huán)境中使用的 AI 系統(tǒng),使用不完善的優(yōu)化函數(shù)不太可能導(dǎo)致嚴(yán)重問(wèn)題。何時(shí)獲得正確的獎(jiǎng)勵(lì)信號(hào)變得至關(guān)重要,以及獎(jiǎng)勵(lì)學(xué)習(xí)能夠提供巨大的價(jià)值,那就是自動(dòng)化系統(tǒng)在具有復(fù)雜的自由度環(huán)境中運(yùn)行,這在未來(lái)可能會(huì)越來(lái)越普遍。

結(jié)論

上面提到的研究方向和論文只是一個(gè)新興的研究領(lǐng)域的一小部分,旨在建立我們可以信賴的在復(fù)雜環(huán)境中運(yùn)行的高度自動(dòng)化的系統(tǒng)。

但是,盡管這些研究領(lǐng)域正在不斷增長(zhǎng),但仍有大量工作要做。實(shí)現(xiàn)這一目標(biāo)所涉及的系統(tǒng)必須是魯棒的,可理解的,并且朝著正確的目標(biāo)進(jìn)行優(yōu)化。

即使超出這些目標(biāo),尋找解決這些問(wèn)題的好方法也會(huì)解開(kāi)我們可以使用人工智能的全新方法。這將需要更多的研究人員來(lái)研究這些問(wèn)題。

補(bǔ)充信息:Amodei et al. 2016,「Concrete Problems in AI Safety」https://arxiv.org/abs/1606.06565

作者簡(jiǎn)介:

Helen Toner,2014年畢業(yè)于墨爾本大學(xué),獲得化學(xué)工程學(xué)士學(xué)位,學(xué)習(xí)期間曾在合作金融創(chuàng)業(yè)公司Vesparum Capital工作。她于2015年3月加入Open Philanthropy Project(一個(gè)由Facebook創(chuàng)始人之一Dustin Moskovitz支持的位于舊金山的慈善組織),擔(dān)任高級(jí)研究分析師。該項(xiàng)目在多個(gè)領(lǐng)域中提供資助金,包括支持機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)在AI安全相關(guān)的工作。在2018年,Helen在清華大學(xué)學(xué)習(xí)中文,同時(shí)繼續(xù)作為Fellow和Open Philanthropy Project合作。她也是牛津大學(xué)的人工智能程序管理(Governance of AI Program)的助理研究員。

標(biāo)簽: Google https 安全 代碼 金融 推廣 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:機(jī)器學(xué)習(xí)經(jīng)典開(kāi)源數(shù)據(jù)集

下一篇:數(shù)據(jù)共享證明Facebook不是美國(guó)冠軍企業(yè)