中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

斯坦福AI Lab主任Chris Manning:人工智能研究的最新趨勢和挑戰(zhàn)

2019-07-23    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Robin.ly 來源:InfoQ

本期 Robin.ly CVPR 2019 專題訪談特邀斯坦福大學(xué) AI 實(shí)驗(yàn)室主任、人工智能和計(jì)算語言學(xué)領(lǐng)域的權(quán)威專家 Christopher Manning 教授,在美國長灘 CVPR 大會(huì)現(xiàn)場分享人工智能研究的最新趨勢和挑戰(zhàn),以及他參加本次大會(huì)的思考。

Christopher Manning 是斯坦福大學(xué)計(jì)算機(jī)與語言學(xué)教授,也是將深度學(xué)習(xí)應(yīng)用于自然語言處理領(lǐng)域的領(lǐng)軍者。他在斯坦福大學(xué)獲得博士學(xué)位之后,曾先后執(zhí)教于卡耐基梅隆大學(xué)和悉尼大學(xué)。Manning 教授的研究專注于利用機(jī)器學(xué)習(xí)方法處理計(jì)算語言學(xué)問題,以使計(jì)算機(jī)能夠智能處理、理解并生成人類語言。Manning 教授是 ACM Fellow,AAAI Fellow 和 ACL Fellow,他的多部著作,如《統(tǒng)計(jì)自然語言處理基礎(chǔ)》、《信息檢索導(dǎo)論》等成為經(jīng)典教材。

今年是 Manning 教授第一次參加 CVPR 大會(huì)。他受邀作為主講嘉賓參加了“視覺問題問答”研討會(huì)。他指導(dǎo)的論文“GQA, a new dataset for compositional question answering over real-world images”也在大會(huì)發(fā)表。

深度學(xué)習(xí)

主持人:Chris,很高興能在 CVPR 邀請到你參加我們的訪談!今天你參加了哪些討論?

Chris Manning:

謝謝!我今天參加了視覺問答研討會(huì),聽到了一些非常有意思的報(bào)告,還參與了很多互動(dòng)環(huán)節(jié)。參加問答研討會(huì)的都是這個(gè)領(lǐng)域中非常優(yōu)秀研究人員,我很高興成為這個(gè)群體中的一員,也讓我受益匪淺。

主持人:你最開始是一名計(jì)算語言學(xué)研究員,后來在自然語言處理和機(jī)器學(xué)習(xí)方面獲得了非常多的成就。能簡要介紹一下您在深度學(xué)習(xí)領(lǐng)域的一些經(jīng)歷嗎?

Chris Manning:

好的。我的年紀(jì)比較大了,見證了神經(jīng)網(wǎng)絡(luò)的第二次浪潮,即 80 年代末到 90 年代初的并行分布式處理或連接主義時(shí)代。那個(gè)時(shí)候我還是斯坦福大學(xué)的研究生,大衛(wèi)·魯姆哈特(David Rumelhart)還在斯坦福大學(xué)任教,我參加了他的神經(jīng)網(wǎng)絡(luò)課程,對這個(gè)領(lǐng)域有了一點(diǎn)了解,但并沒有把它作為我的研究領(lǐng)域。在過去的十幾年,我漸漸對深度學(xué)習(xí)產(chǎn)生了興趣。當(dāng)時(shí)我的辦公室就在吳恩達(dá)(Andrew Ng)的隔壁,而 Andrew 非常熱衷于利用這方面的技術(shù)來促進(jìn)通用認(rèn)知的發(fā)展。我受到了他的影響,開始關(guān)注深度學(xué)習(xí)領(lǐng)域的研究。

 

 

Manning 教授(圖片來源:Stanford University School of Engineering)

主持人:從學(xué)術(shù)界的角度來看,你覺得當(dāng)時(shí)面臨的最大的挑戰(zhàn)是什么?

Chris Manning:

我不確定我跟學(xué)術(shù)界的想法是否一致。但對我來說,這個(gè)問題可以追溯到上世紀(jì) 80 年代,關(guān)于將神經(jīng)網(wǎng)絡(luò)作為人類語言模型的是否有效存在很多爭議。我們一直沒有搞清楚人類語言的成分結(jié)構(gòu),單詞如何組成短語,短語如何組成從句,從句又如何組成完整的句子。因?yàn)槿藗兯坪鯖]有任何方法可以很好地模擬這種人類語言的層次遞歸結(jié)構(gòu),80 年代包含全連接層的扁平神經(jīng)網(wǎng)絡(luò)架構(gòu)在本世紀(jì)頭十年再次引起了人們的關(guān)注,所以我最初非常熱衷于這方面的研究。我于 2009 年至 2013 年間在斯坦福大學(xué)所完成的工作,很多都是跟 Richard Socher 合作的,主要目的就是了解如何構(gòu)建樹形結(jié)構(gòu)和遞歸神經(jīng)網(wǎng)絡(luò),并深入探索這些概念。

從研究到產(chǎn)品

主持人:與此同時(shí),我們也看到了行業(yè)技術(shù)的發(fā)展,誕生了 Alexa 之類的語音助手產(chǎn)品。你如何看待從學(xué)術(shù)研究到產(chǎn)品開發(fā)的轉(zhuǎn)化趨勢?

Chris Manning:

像 Alexa 和 Siri 那樣的對話助手對自然語言處理產(chǎn)生了巨大的影響。最開始這些變化跟深度學(xué)習(xí)和自然語言處理關(guān)系不大,因?yàn)榛旧嫌玫亩际侨斯ぞ庉嫷哪_本。所以這些積極的影響是得益于基于規(guī)則的自然語言處理的再度出現(xiàn),跟機(jī)器學(xué)習(xí)和我從 1995 年到 2010 年主要研究的那種概率自然語言處理關(guān)系都不是很大。隨著時(shí)間推移,人們對這個(gè)領(lǐng)域的興趣日漸濃厚,我自己也開始研究如何構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的對話助手。我認(rèn)為這是一個(gè)值得進(jìn)一步推進(jìn)的領(lǐng)域,不過難度很高。

上周末,在長灘舉行了 ICML 機(jī)器學(xué)習(xí)會(huì)議,來自微軟的幾位研究人員演示了如何打造對話助手。他們的觀點(diǎn)是,人們?nèi)匀粺o法訓(xùn)練端到端的完善的神經(jīng)網(wǎng)絡(luò)對話助手,也不應(yīng)該指望它們能夠正常工作。事實(shí)上,所有已經(jīng)部署在商業(yè)領(lǐng)域的系統(tǒng)都是機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)部件相結(jié)合的產(chǎn)物,許多功能仍然需要手工編碼。

斯坦福 AI 實(shí)驗(yàn)室

主持人:

你現(xiàn)在負(fù)責(zé)管理斯坦福大學(xué)人工智能實(shí)驗(yàn)室?紤]到人工智能的廣度和深度,能否介紹一下該實(shí)驗(yàn)室當(dāng)前的研究重點(diǎn)?

Chris Manning:

斯坦福 AI 實(shí)驗(yàn)室實(shí)際上是一個(gè)結(jié)構(gòu)相當(dāng)松散的部門,并不需要一個(gè)負(fù)責(zé)人來告訴各個(gè)實(shí)驗(yàn)室要做什么樣的研究。各個(gè)下屬實(shí)驗(yàn)室的負(fù)責(zé)人可以自行決定研究課題。

但是你仍然可以看到明顯的趨勢。雖然有少數(shù)幾個(gè)方向仍然在使用手動(dòng)搭建的控制系統(tǒng)進(jìn)行機(jī)器人操作,但是深度學(xué)習(xí)的影響,甚至整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的影響是普遍存在的,幾乎覆蓋了所有領(lǐng)域。自然語言處理和視覺領(lǐng)域更是備受關(guān)注,幾乎成為了斯坦福人工智能實(shí)驗(yàn)室的主要研究領(lǐng)域,這種情況跟十年前相比已經(jīng)大不相同。

在過去幾年中發(fā)生的另一個(gè)積極的變化是,我們聘請了幾位頂尖的機(jī)器人專家,開展了一些機(jī)器人相關(guān)的研究項(xiàng)目。機(jī)器學(xué)習(xí)依然是實(shí)驗(yàn)室的重中之重,其中一些應(yīng)用包括可持續(xù)計(jì)算之類特定的問題,以及強(qiáng)化學(xué)習(xí)在教育領(lǐng)域的應(yīng)用等等?偟膩碚f研究方向涉獵很廣,五花八門。

 

 

斯坦福大學(xué)計(jì)算機(jī)系

計(jì)算機(jī)視覺的趨勢和挑戰(zhàn)

主持人:我們來聊一聊計(jì)算機(jī)視覺。這個(gè)領(lǐng)域一直在不斷發(fā)展、進(jìn)步和成熟,那么你認(rèn)為計(jì)算機(jī)視覺未來的趨勢和挑戰(zhàn)是什么?

Chris Manning:

沒錯(cuò),計(jì)算機(jī)視覺在近些年取得了巨大的進(jìn)步。這個(gè)領(lǐng)域在十年前只能簡單的識(shí)別人臉,功能遠(yuǎn)遠(yuǎn)沒有現(xiàn)在這么強(qiáng)大;然而現(xiàn)在,計(jì)算機(jī)視覺已經(jīng)可以在很多領(lǐng)域發(fā)揮重要作用,盡管很多應(yīng)用還比較初級(jí),F(xiàn)在這個(gè)領(lǐng)域已經(jīng)出現(xiàn)了巨大的商業(yè)機(jī)會(huì),在醫(yī)療領(lǐng)域有著大規(guī)模的應(yīng)用。比如我們現(xiàn)在可以收集很多醫(yī)學(xué)影像數(shù)據(jù),建立深度學(xué)習(xí)系統(tǒng),可以達(dá)到甚至超過人類醫(yī)生的水準(zhǔn)。從這個(gè)角度來說是一個(gè)很大進(jìn)步。

但從某種意義上說,計(jì)算機(jī)視覺領(lǐng)域的大多數(shù)應(yīng)用仍然相對比較初級(jí)。我們還需要完成更多的解釋性任務(wù),可以稱之為更高級(jí)別的計(jì)算機(jī)視覺,也就是看到一個(gè)場景,可以理解其中所發(fā)生的事情。比如如果有人經(jīng)過這里,就會(huì)知道有人在接受采訪。但是如果你把這個(gè)相同的場景展示給計(jì)算機(jī)視覺系統(tǒng),它會(huì)識(shí)別出有兩個(gè)人、有泛光燈、有攝像機(jī),可能會(huì)知道這兩個(gè)人正在互相看著對方,但卻無法理解這個(gè)場景代表了一個(gè)什么樣的事件。因此,我認(rèn)為推動(dòng)更高語義層面的理解是視覺領(lǐng)域一個(gè)重要前沿課題。在這個(gè)層面,自然語言處理和視覺的關(guān)系更加緊密,無論是從文本還是圖像入手,要解決的問題都變得更加相似。我認(rèn)為另一個(gè)重要領(lǐng)域是對世界上正在發(fā)生的事情有一個(gè)更全面的理解,將我們看到的二維場景以及三維模型聯(lián)系起來,可以幫助我們預(yù)測未來會(huì)發(fā)生什么。

 

 

Manning 教授在 CVPR2019 接受 Robin.ly 專訪

主持人:我最近在意大利的一家博物館看到,他們可以讓訪客跟史前時(shí)代的立體景象進(jìn)行互動(dòng),這樣的進(jìn)步讓我覺得非常不可思議。自動(dòng)駕駛領(lǐng)域在過去的幾年中取得的進(jìn)展也非常驚人,你對此有什么看法?

Chris Manning:

這顯然是一個(gè)巨大的進(jìn)步,讓人們看到了大范圍的商業(yè)應(yīng)用。但我們?nèi)孕枰3忠欢ǖ闹?jǐn)慎態(tài)度。一方面,要認(rèn)可所取得的巨大進(jìn)步,事情正在往好的方向發(fā)展,像 Waymo 那樣的自動(dòng)駕駛汽已經(jīng)可以在灣區(qū)的道路上進(jìn)行測試。另一方面,它也讓我們認(rèn)識(shí)到現(xiàn)實(shí)世界存在很多特殊情況。人類對處理特殊的情況經(jīng)驗(yàn)很豐富,因?yàn)槲覀儗χ車沫h(huán)境非常熟悉,了解很多常識(shí)。但是自動(dòng)駕駛系統(tǒng)還遠(yuǎn)沒有達(dá)到這樣的程度,它們非常善于在一切正常的情況下沿著車道行駛,對一些特殊情況卻無法做出判斷。比如路中央有一個(gè)人在揮舞旗子,車輛就很難判斷這個(gè)人到底是在干什么。

自然語言處理的技術(shù)挑戰(zhàn)

主持人:我接下來有一些技術(shù)性的問題。如您所知,許多基于特征的方法中會(huì)使用句法解析。現(xiàn)在的趨勢是,句法解析在特征工程中的使用得越來越少了,更多時(shí)候是用在端到端系統(tǒng)中。那么你如何看待句法解析研究的未來?

Chris Manning:

這個(gè)問題問得很好,這種說法也是正確的?v觀自然語言處理的歷史,句法解析被視為基礎(chǔ)性的工作,有助于后續(xù)的研發(fā),比如打造機(jī)器翻譯工具。包括我在內(nèi)的許多自然語言處理領(lǐng)域的研究人員花了很多時(shí)間,想要找到更好的句法解析方法。實(shí)際上,針對當(dāng)前的很多任務(wù),句法解析的效果不一定是最好的。目前,人們已經(jīng)用最新的深度學(xué)習(xí)系統(tǒng)完成了一些任務(wù),無論是問答系統(tǒng),還是機(jī)器翻譯。如果你正在訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)模型,其中并不包括明確的句法結(jié)構(gòu)訓(xùn)練,但是這樣的模型所呈現(xiàn)的數(shù)據(jù)仍然比我們之前獲得的任何結(jié)果都要好。這樣一來,你可能會(huì)覺得所有關(guān)于句法解析的研究可能都是有誤導(dǎo)性的。

我對此有幾點(diǎn)想法。一個(gè)是,如果你有一個(gè)包含大量數(shù)據(jù)的任務(wù),你已經(jīng)可以在沒有明確句法結(jié)構(gòu)信息的情況下端到端的訓(xùn)練模型了,還能得到比較好的結(jié)果。為什么這種方法能夠獲得比較好的結(jié)果?事實(shí)上,我最近與一名學(xué)生 John Hewitt 一起研究了一些深層語境語言模型,如 ELMo(“嵌入語言模型”)和 BERT,它們都是基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練的,其中不涉及任何句法結(jié)構(gòu)。而事實(shí)上,我們已經(jīng)能夠確定,像 ELMo 和 BERT 這樣的模型正在學(xué)習(xí)句法結(jié)構(gòu),它們接受了數(shù)十億字的文本訓(xùn)練,已經(jīng)開始識(shí)別模式并理解其功能,并自動(dòng)進(jìn)行歸納。因此從某種意義上說,這些模型證明了語言學(xué)家對句法的看法基本上是正確的:識(shí)別結(jié)構(gòu)信號(hào)的類型并理解什么是關(guān)系從句對于能夠用語言進(jìn)行預(yù)測和讓這些模型學(xué)習(xí)句法結(jié)構(gòu)是非常重要的。從某種意義上說,這是一種進(jìn)步,因?yàn)槲覀兪褂脵C(jī)器學(xué)習(xí)能夠獲得更好的結(jié)果,并且最終可能會(huì)得到比人類的手動(dòng)添加符號(hào)結(jié)構(gòu)更豐富的表現(xiàn)方式。

但另一方面,這一切的前提是擁有大量文本。我認(rèn)為在很多情況下,你擁有的數(shù)據(jù)事實(shí)上很有限,無法進(jìn)行端到端訓(xùn)練,而具有句法結(jié)構(gòu)是一個(gè)非常好的先決條件。例如今天我聽了一個(gè)視覺問答報(bào)告,他們將視覺場景圖與句子結(jié)構(gòu)中的非獨(dú)立部分進(jìn)行了匹配,展示了如何為視覺問答任務(wù)提供輔助信息。幾乎在任何訓(xùn)練數(shù)據(jù)量有限的地方,你都可以利用句子結(jié)構(gòu)以及單詞相互關(guān)聯(lián)的額外信息來得到重要的結(jié)論。所以我認(rèn)為在很多情況下,明確的規(guī)則和句法結(jié)構(gòu)仍然適用。

主持人:能不能談一談我們應(yīng)該如何將知識(shí)庫整合到基于神經(jīng)網(wǎng)絡(luò)的自然語言系統(tǒng)中?

Chris Manning:

這也是一個(gè)很好的問題。我認(rèn)為這個(gè)問題還沒有完全解決。在我看來一個(gè)比較簡單的答案,也是目前最好的答案就是:就像我們在做其他任務(wù)時(shí)可以學(xué)習(xí)和參考一些文本數(shù)據(jù)一樣,我們也可以在做其他任務(wù)時(shí)試圖構(gòu)建一個(gè)知識(shí)庫。目前,實(shí)現(xiàn)這一目標(biāo)的最簡單的方法是將注意力機(jī)制引入到知識(shí)庫元素中?梢哉f注意力機(jī)制模式是自然語言處理中非常成功的技術(shù),已經(jīng)被用在在新一代的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)中。對于諸如推理和獲取知識(shí)之類的工作,使用注意力機(jī)制就是比較好的方法。很多人在試圖打造類似鍵值神經(jīng)網(wǎng)絡(luò),用一個(gè)鍵值信息來查看知識(shí)庫中的內(nèi)容,并將該內(nèi)容傳遞回神經(jīng)網(wǎng)絡(luò)。雖然我們始終感覺應(yīng)該有其他方法可以更直接的獲取知識(shí),但目前這是獲得神經(jīng)網(wǎng)絡(luò)所能學(xué)習(xí)或參考的外部知識(shí)最成功的方法了。

自然語言處理的商業(yè)化進(jìn)程

主持人:下一個(gè)問題是,你認(rèn)為自然語言處理中哪些成果比較容易商業(yè)化?

Chris Manning:

我認(rèn)為這很大程度上取決于你所處的領(lǐng)域和你的目標(biāo)。比如,最近神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯已經(jīng)取得了巨大的成功,但只有一小部分公司對這一成果感興趣。我認(rèn)為對于更一般的應(yīng)用實(shí)例,最受歡迎的應(yīng)該是對話助手。因?yàn)閷τ谠S多公司來說,吸引新客戶,或者與已有的客戶進(jìn)行互動(dòng)交流蘊(yùn)含著巨大的機(jī)會(huì),但是從事這些工作的人力還比較有限。如果這些工作可以通過對話助手完成,那么從吸引潛在客戶到客服工作就能實(shí)現(xiàn)一個(gè)巨大的進(jìn)步。這樣的工作很有意義,但跟人類相比,打造成功的、具備豐富的專業(yè)知識(shí)的對話助手難度很大。從另一個(gè)角度來看,其中涉及到的有很多問題都比較簡單,或者會(huì)重復(fù)性很高。因此,只要讓一個(gè)對話助手能處理 80%的簡單問題,或者吸引一些新的客戶,就能夠滿足大部分要求,并且適用于各個(gè)領(lǐng)域的公司。

 

 

主持人:現(xiàn)實(shí)中有沒有結(jié)合了計(jì)算機(jī)視覺和自然語言處理的應(yīng)用場景讓您覺得比較有意思的?

Chris Manning:

坦率的說,目前能夠?qū)崿F(xiàn)商業(yè)化的技術(shù)并不多,能夠?qū)⒍呓Y(jié)合產(chǎn)生商業(yè)效益的就更少了。但是實(shí)際上這樣的機(jī)會(huì)還是有的,比如描述用手機(jī)攝像頭拍攝到的場景能夠幫助盲人和游客了解身處的環(huán)境。不過目前我還沒看到充分結(jié)合了兩種技術(shù)的比較成功的應(yīng)用場景。

查看原文:

https://www.robinly.info/post/cvpr-2019-ai-talk-christopher-manning-professor-director-stanford-ai-lab

標(biāo)簽: 人工智能 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:站在風(fēng)口上的大數(shù)據(jù),究竟被什么拖了后腿?

下一篇:什么是數(shù)據(jù)科學(xué)?數(shù)據(jù)科學(xué)相關(guān)的名詞解釋