中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從技術(shù)到人才,清華-中國(guó)工程院知識(shí)智能聯(lián)合實(shí)驗(yàn)室發(fā)布「2018自然語(yǔ)言處理研究報(bào)告」

2018-07-31    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
自然語(yǔ)言處理是現(xiàn)代技術(shù)最重要的組成部分之一,而最近清華大學(xué)和中國(guó)工程院知識(shí)智能聯(lián)合實(shí)驗(yàn)室發(fā)布一份非常全面的 NLP 報(bào)告。該報(bào)告從 NLP 的概念介紹、研究與應(yīng)用情況、專家學(xué)者概要以及發(fā)展趨勢(shì)這 5 個(gè)方向縱覽了這一領(lǐng)域的當(dāng)下與未來(lái),本文簡(jiǎn)要介紹了該報(bào)的概要信息,但讀者可以從這些方面縱覽 NLP 的發(fā)展面貌,完整內(nèi)容請(qǐng)下載查看原報(bào)告。

報(bào)告下載地址:https://www.aminer.cn/research_report/nlp?h=5200&download=true

根據(jù) AMiner 研究報(bào)告的摘要所述,分析師們主要從以下五個(gè)方向六大章節(jié)梳理自然語(yǔ)言處理的發(fā)展?fàn)顩r:

自然語(yǔ)言處理概念。首先對(duì)自然語(yǔ)言處理進(jìn)行定義,接著對(duì)自然語(yǔ)言的發(fā)展歷程進(jìn)行了梳理,對(duì)我國(guó)自然語(yǔ)言處理現(xiàn)狀進(jìn)行了簡(jiǎn)單介紹,對(duì)自然語(yǔ)言處理業(yè)界情況進(jìn)行介紹。

自然語(yǔ)言處理研究情況。依據(jù) 2016 年中文信息學(xué)會(huì)發(fā)布的中文信息處理發(fā)展報(bào)告對(duì)自然語(yǔ)言處理研究中的重要技術(shù)進(jìn)行介紹。

自然語(yǔ)言處理領(lǐng)域?qū)<医榻B。利用 AMiner 大數(shù)據(jù)對(duì)自然語(yǔ)言處理領(lǐng)域?qū)<疫M(jìn)行深入挖掘,對(duì)國(guó)內(nèi)外自然語(yǔ)言處理知名實(shí)驗(yàn)室及其主要負(fù)責(zé)人進(jìn)行介紹。

自然語(yǔ)言處理的應(yīng)用及趨勢(shì)預(yù)測(cè)。自然語(yǔ)言處理在現(xiàn)實(shí)生活中應(yīng)用廣泛,目前的應(yīng)用集中在語(yǔ)言學(xué)、數(shù)據(jù)處理、認(rèn)知科學(xué)以及語(yǔ)言工程等領(lǐng)域,在介紹相關(guān)應(yīng)用的基礎(chǔ)上,對(duì)機(jī)器翻譯未來(lái)的發(fā)展趨勢(shì)做出了相應(yīng)的預(yù)測(cè)。

1 概述篇

在概述篇中,該報(bào)告重點(diǎn)介紹了自然語(yǔ)言處理的概念、發(fā)展歷程、我國(guó) NLP 目前的發(fā)展?fàn)顩r和業(yè)界的研究與應(yīng)用。

1.1 自然語(yǔ)言處理概念

自然語(yǔ)言是指漢語(yǔ)、英語(yǔ)、法語(yǔ)等人們?nèi)粘J褂玫恼Z(yǔ)言,是自然而然的隨著人類社會(huì)發(fā) 展演變而來(lái)的語(yǔ)言,而不是人造的語(yǔ)言,它是人類學(xué)習(xí)生活的重要工具。概括說(shuō)來(lái),自然語(yǔ) 言是指人類社會(huì)約定俗成的,區(qū)別于人工語(yǔ)言,如程序設(shè)計(jì)的語(yǔ)言。

自然語(yǔ)言處理,是指用計(jì)算機(jī)對(duì)自然語(yǔ)言的形、音、 義等信息進(jìn)行處理,即對(duì)字、詞、句、篇章的輸入、輸出、識(shí)別、分析、理解、生成等的操作和加工。實(shí)現(xiàn)人機(jī)間的信息交流,是人工智能界、計(jì)算機(jī)科學(xué)和語(yǔ)言學(xué)界所共同關(guān)注的重要問(wèn)題。自然語(yǔ)言處理的具體表現(xiàn)形式包括機(jī)器翻譯、文本摘要、文本分類、文本校對(duì)、信息抽取、語(yǔ)音合成、語(yǔ)音識(shí)別等?梢哉f(shuō),自然語(yǔ)言處理就是要計(jì)算機(jī)理解自然語(yǔ)言,自然語(yǔ)言處理機(jī)制涉及兩個(gè)流程,包括自然語(yǔ)言理解和自然語(yǔ)言生成。

 

 

1.2 自然語(yǔ)言處理發(fā)展歷程

自然語(yǔ)言處理是包括了計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)心理認(rèn)知學(xué)等一系列學(xué)科的一門交叉學(xué)科,這些學(xué)科性質(zhì)不同但又彼此相互交叉。因此,梳理自然語(yǔ)言處理的發(fā)展歷程對(duì)于我們更好地了解自然語(yǔ)言處理這一學(xué)科有著重要的意義。

 

 

從 2008 年到現(xiàn)在,在圖像識(shí)別和語(yǔ)音識(shí)別領(lǐng)域的成果激勵(lì)下,人們也逐漸開始引入深度學(xué)習(xí)來(lái)做自然語(yǔ)言處理研究,由最初的詞向量到 2013 年 word2vec,將深度學(xué)習(xí)與自然語(yǔ)言處理的結(jié)合推向了高潮,并在機(jī)器翻譯、問(wèn)答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功。深 度學(xué)習(xí)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),從輸入層開始經(jīng)過(guò)逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓(xùn)練。把輸入到輸出對(duì)的數(shù)據(jù)準(zhǔn)備好,設(shè)計(jì)并訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),即可執(zhí)行預(yù)想的任務(wù)。RNN 已經(jīng)是自然語(yǔ)言護(hù)理最常用的方法之一,GRU、LSTM 等模型相繼引發(fā)了一輪又一輪的熱潮。

1.3 我國(guó)自然語(yǔ)言處理現(xiàn)狀

目前自然語(yǔ)言處理的研究可以分為基礎(chǔ)性研究和應(yīng)用性研究?jī)刹糠郑Z(yǔ)音和文本是兩類 研究的重點(diǎn);A(chǔ)性研究主要涉及語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)學(xué)科等領(lǐng)域,相對(duì)應(yīng)的技術(shù)有消除歧義、語(yǔ)法形式化等。應(yīng)用性研究則主要集中在一些應(yīng)用自然語(yǔ)言處理的領(lǐng)域,例如信息檢索、文本分類、機(jī)器翻譯等。由于我國(guó)基礎(chǔ)理論即機(jī)器翻譯的研究起步較早,且基礎(chǔ)理論研究是任何應(yīng)用的理論基礎(chǔ),所以語(yǔ)法、句法、語(yǔ)義分析等基礎(chǔ)性研究歷來(lái)是研究的重點(diǎn),而且隨著互聯(lián)網(wǎng)網(wǎng)絡(luò)技術(shù)的發(fā)展,智能檢索類研究近年來(lái)也逐漸升溫。

1.4 自然語(yǔ)言處理業(yè)界發(fā)展

 

 

1. Google

Google 是最早開始研究自然語(yǔ)言處理技術(shù)的團(tuán)隊(duì)之一,作為一個(gè)以搜索為核心的公司,Google 對(duì)自然語(yǔ)言處理更為重視。Google 擁有著海量數(shù)據(jù),可以搭建豐富龐大的數(shù)據(jù)庫(kù),可以為其研究提供強(qiáng)大的數(shù)據(jù)支撐。Google 對(duì)自然語(yǔ)言處理的研究側(cè)重于應(yīng)用規(guī)模、跨語(yǔ)言和跨領(lǐng)域的算法,其成果在 Google 的許多方面都被使用,提升了用戶在搜索、移動(dòng)、應(yīng)用、廣告、翻譯等方面的體驗(yàn)。

2. 百度

百度自然語(yǔ)言處理部是百度最早成立的部門之一,研究涉及深度問(wèn)答、閱讀理解、智能 寫作、對(duì)話系統(tǒng)、機(jī)器翻譯、語(yǔ)義計(jì)算、語(yǔ)言分析、知識(shí)挖掘、個(gè)性化、反饋學(xué)習(xí)等。其中,百度自然語(yǔ)言處理在深度問(wèn)答方向經(jīng)過(guò)多年打磨,積累了問(wèn)句理解、答案抽取、觀點(diǎn)分析與 聚合等方面的一整套技術(shù)方案,目前已經(jīng)在搜索、度秘等多個(gè)產(chǎn)品中實(shí)現(xiàn)應(yīng)用。篇章理解通過(guò)篇章結(jié)構(gòu)分析、主體分析、內(nèi)容標(biāo)簽、情感分析等關(guān)鍵技術(shù)實(shí)現(xiàn)對(duì)文本內(nèi)容的理解,目前,篇章理解的關(guān)鍵技術(shù)已經(jīng)在搜索、資訊流、糯米等產(chǎn)品中實(shí)現(xiàn)應(yīng)用。百度翻譯目前支持全球 28 種語(yǔ)言,覆蓋 756 個(gè)翻譯方向,支持文本、語(yǔ)音、圖像等翻譯功能,并提供精準(zhǔn)人工翻 譯服務(wù),滿足不同場(chǎng)景下的翻譯需求,在多項(xiàng)翻譯技術(shù)取得重大突破,發(fā)布了世界上首個(gè)線 上神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。

3. 阿里巴巴

阿里自然語(yǔ)言處理為其產(chǎn)品服務(wù),在電商平臺(tái)中構(gòu)建知識(shí)圖譜實(shí)現(xiàn)智能導(dǎo)購(gòu),同時(shí)進(jìn)行全網(wǎng)用戶興趣挖掘,在客服場(chǎng)景中也運(yùn)用自然語(yǔ)言處理技術(shù)打造機(jī)器人客服,例如螞蟻金融智能小寶、淘寶賣家的輔助工具千牛插件等,同時(shí)進(jìn)行語(yǔ)音識(shí)別以及后續(xù)分析。阿里的機(jī)器翻譯主要與其國(guó)家化電商的規(guī)劃相聯(lián)系,可以進(jìn)行商品信息翻譯、廣告關(guān)鍵詞翻譯、買家采 購(gòu)需求以及即時(shí)通信翻譯等,語(yǔ)種覆蓋中文、荷蘭語(yǔ)、希伯來(lái)語(yǔ)等語(yǔ)種,2017 年初阿里正式 上線了自主開發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),進(jìn)一步提升了其翻譯質(zhì)量。

4. 騰訊

AI Lab 是騰訊的人工智能實(shí)驗(yàn)室,研究領(lǐng)域包括計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等。其研發(fā)的騰訊文智自然語(yǔ)言處理基于并行計(jì)算、分布式爬蟲系統(tǒng),結(jié)合獨(dú)特的語(yǔ)義分析技術(shù),可滿足自然語(yǔ)言處理、轉(zhuǎn)碼、抽取、數(shù)據(jù)抓取等需求,同時(shí),基于文智 API 還可以實(shí)現(xiàn)搜索、推薦、輿情、挖掘等功能。在機(jī)器翻譯方面,2017 年騰訊宣布翻譯君 上線「同聲傳譯」新功能,用戶邊說(shuō)邊翻的需求得到滿足,語(yǔ)音識(shí)別+NMT 等技術(shù)的應(yīng)用保證了邊說(shuō)邊翻的速度與精準(zhǔn)性。

除此之外,該報(bào)告還介紹了微軟亞洲研究院、Facebook、京東和科大訊飛等在 NLP 方面有非常多研究與應(yīng)用的機(jī)構(gòu)。

2 技術(shù)篇

自然語(yǔ)言處理的研究領(lǐng)域極為廣泛,各種分類方式層出不窮,各有其合理性,我們按照中國(guó)中文信息學(xué)會(huì) 2016 年發(fā)布的《中文信息處理發(fā)展報(bào)告》,將自然語(yǔ)言處理的研究領(lǐng) 域和技術(shù)進(jìn)行以下分類,并選取其中部分進(jìn)行介紹。

基礎(chǔ)技術(shù):詞法與句法分析、語(yǔ)義分析、語(yǔ)篇分析、知識(shí)圖譜、語(yǔ)言認(rèn)知模型、語(yǔ)言知識(shí)表示和深度學(xué)習(xí)

應(yīng)用技術(shù):機(jī)器翻譯、信息檢索、情感分析、自動(dòng)問(wèn)答、自動(dòng)文摘、信息抽取、信息推薦與過(guò)濾、文本分類與聚類、文字識(shí)別

2.1 自然語(yǔ)言處理基礎(chǔ)技術(shù)

自然語(yǔ)言的基礎(chǔ)技術(shù)包括詞匯、短語(yǔ)、 句子和篇章級(jí)別的表示,以及分詞、句法分析和語(yǔ)義分析以及語(yǔ)言認(rèn)知模型和知識(shí)圖譜等。

2.1.1 詞法、句法及語(yǔ)義分析

詞法分析的主要任務(wù)是詞性標(biāo)注和詞義標(biāo)注。詞性是詞匯的基本屬性,詞性標(biāo)注就是在 給定句子中判斷每個(gè)詞的語(yǔ)法范疇,確定其詞性并進(jìn)行標(biāo)注。解決兼類詞和確定未登錄詞的 詞性問(wèn)題是標(biāo)注的重點(diǎn)。進(jìn)行詞性標(biāo)注通常有基于規(guī)則和基于統(tǒng)計(jì)的兩種方法。一個(gè)多義詞往往可以表達(dá)多個(gè)意義,但其意義在具體的語(yǔ)境中又是確定的,詞義標(biāo)注的重點(diǎn)就是解決如何確定多義詞在具體語(yǔ)境中的義項(xiàng)問(wèn)題。標(biāo)注過(guò)程中,通常是先確定語(yǔ)境,再明確詞義,方 法和詞性標(biāo)注類似,有基于規(guī)則和基于統(tǒng)計(jì)的做法。

判斷句子的句法結(jié)構(gòu)和組成句子的各成分,明確它們之間的相互關(guān)系是句法分析的主要任務(wù)。句法分析通常有完全句法分析和淺層句法分析兩種,完全句法分析是通過(guò)一系列的句法分析過(guò)程最終得到一個(gè)句子的完整的句法樹。句法分析方法也分為基于規(guī)則和基于統(tǒng)計(jì)的

方法,基于統(tǒng)計(jì)的方法是目前的主流方法,概率上下文無(wú)關(guān)文法用的較多。完全句法分析存 在兩個(gè)難點(diǎn),一是詞性歧義;二是搜索空間太大,通常是句子中詞的個(gè)數(shù) n 的指數(shù)級(jí)。淺層句法分析又叫部分句法分析或語(yǔ)塊分析,它只要求識(shí)別出句子中某些結(jié)構(gòu)相對(duì)簡(jiǎn)單的成分如 動(dòng)詞短語(yǔ)、非遞歸的名詞短語(yǔ)等,這些結(jié)構(gòu)被稱為語(yǔ)塊。一般來(lái)說(shuō),淺層語(yǔ)法分析會(huì)完成語(yǔ)塊的識(shí)別和分析、語(yǔ)塊之間依存關(guān)系的分析兩個(gè)任務(wù),其中語(yǔ)塊的識(shí)別和分析是淺層語(yǔ)法分析的主要任務(wù)。

語(yǔ)義分析是指根據(jù)句子的句法結(jié)構(gòu)和句子中每個(gè)實(shí)詞的詞義推導(dǎo)出來(lái)能夠反映這個(gè)句 子意義的某種形式化表示,將人類能夠理解的自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)能夠理解的形式語(yǔ)言。句子的分析與處理過(guò)程,有的采用「先句法后語(yǔ)義」的方法,但「句法語(yǔ)義一體化」的策略 還是占據(jù)主流位置。語(yǔ)義分析技術(shù)目前還不是十分成熟,運(yùn)用統(tǒng)計(jì)方法獲取語(yǔ)義信息的研究頗受關(guān)注,常見(jiàn)的有詞義消歧和淺層語(yǔ)義分析。

自然語(yǔ)言處理的基礎(chǔ)研究還包括語(yǔ)用語(yǔ)境和篇章分析。語(yǔ)用是指人對(duì)語(yǔ)言的具體運(yùn)用,研究和分析語(yǔ)言使用者的真正用意,它與語(yǔ)境、語(yǔ)言使用者的知識(shí)涵養(yǎng)、言語(yǔ)行為、想法和 意圖是分不開的,是對(duì)自然語(yǔ)言的深層理解。情景語(yǔ)境和文化語(yǔ)境是語(yǔ)境分析主要涉及的方 面,篇章分析則是將研究擴(kuò)展到句子的界限之外,對(duì)段落和整篇文章進(jìn)行理解和分析。

除此之外,自然語(yǔ)言的基礎(chǔ)研究還涉及詞義消歧、指代消解、命名實(shí)體識(shí)別等方面的研 究。

2.1.2 知識(shí)圖譜

知識(shí)圖譜,是為了表示知識(shí),描述客觀世界的概念、實(shí)體、事件等之間關(guān)系的一種表示 形式。這一概念的起源可以追溯至語(yǔ)義網(wǎng)絡(luò)——提出于 20 世紀(jì)五六十年代的一種知識(shí)表示 形式。語(yǔ)義網(wǎng)絡(luò)由許多個(gè)「節(jié)點(diǎn)」和「邊」組成,這些「節(jié)點(diǎn)」和「邊」相互連接,「節(jié)點(diǎn)」表示的是概念或?qū)ο,「邊」表示各個(gè)節(jié)點(diǎn)之間的關(guān)系。

 

 

知識(shí)圖譜在表現(xiàn)形式上與語(yǔ)義網(wǎng)絡(luò)比較類似,不同的是,語(yǔ)義網(wǎng)絡(luò)側(cè)重于表示概念與概 念之間的關(guān)系,而知識(shí)圖譜更側(cè)重于表述實(shí)體之間的關(guān)系。現(xiàn)在的知識(shí)網(wǎng)絡(luò)被用來(lái)泛指大規(guī) 模的知識(shí)庫(kù),知識(shí)圖譜中包含的節(jié)點(diǎn)有以下幾種:

實(shí)體:指獨(dú)立存在且具有某種區(qū)別性的事物。如一個(gè)人、一種動(dòng)物、一個(gè)國(guó)家、一種植物等。

語(yǔ)義類:具有同種特性的實(shí)體構(gòu)成的集合,如人類、動(dòng)物、國(guó)家、植物等。

內(nèi)容:通常是實(shí)體和語(yǔ)義類的名字、描述、解釋等,變現(xiàn)形式一般有文本、圖像、音視 頻等。

屬性(值):主要指對(duì)象指定屬性的值,不同的屬性類型對(duì)應(yīng)于不同類型屬性的邊。

關(guān)系:在知識(shí)圖譜上,表現(xiàn)形式是一個(gè)將節(jié)點(diǎn)(實(shí)體、語(yǔ)義類、屬性值)映射到布爾值 的函數(shù)。

知識(shí)圖譜表示、構(gòu)建和應(yīng)用涉及很多學(xué)科,是一項(xiàng)綜合的復(fù)雜技術(shù)。知識(shí)圖譜技術(shù)既涉 及自然語(yǔ)言處理中的各項(xiàng)技術(shù),從淺層的文本向量表示、到句法和語(yǔ)義結(jié)構(gòu)表示被適用于資源內(nèi)容的表示中,分詞和詞性標(biāo)注、命名實(shí)體識(shí)別、句法語(yǔ)義結(jié)構(gòu)分析、指代分析等技術(shù)被 應(yīng)用于自然語(yǔ)言處理中。同時(shí),知識(shí)圖譜的研究也促進(jìn)了自然語(yǔ)言處理技術(shù)的研究,基于知 識(shí)圖譜的詞義排岐和語(yǔ)義依存關(guān)系分析等知識(shí)驅(qū)動(dòng)的自然語(yǔ)言處理技術(shù)得以建立。

2.2 自然語(yǔ)言處理應(yīng)用技術(shù)

2.2.1 機(jī)器翻譯

機(jī)器翻譯(Machine Translation)是指運(yùn)用機(jī)器,通過(guò)特定的計(jì)算機(jī)程序?qū)⒁环N書寫形式 或聲音形式的自然語(yǔ)言,翻譯成另一種書寫形式或聲音形式的自然語(yǔ)言。機(jī)器翻譯是一門交 叉學(xué)科(邊緣學(xué)科),組成它的三門子學(xué)科分別是計(jì)算機(jī)語(yǔ)言學(xué)、人工智能和數(shù)理邏輯,各 自建立在語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)的基礎(chǔ)之上。

目前,文本翻譯最為主流的工作方式依然是以傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)翻譯為主。Google、Microsoft 與國(guó)內(nèi)的百度、有道等公司都為用戶提供了免費(fèi)的在線多語(yǔ)言翻譯系統(tǒng)。速度快、成本低是文本翻譯的主要特點(diǎn),而且應(yīng)用廣泛,不同行業(yè)都可以采用相應(yīng)的專業(yè)翻譯。但是,這一翻譯過(guò)程是機(jī)械的和僵硬的,在翻譯過(guò)程中會(huì)出現(xiàn)很多語(yǔ)義語(yǔ)境上的問(wèn)題,仍然需要人工翻譯來(lái)進(jìn)行補(bǔ)充。

語(yǔ)音翻譯可能是目前機(jī)器翻譯中比較富有創(chuàng)新意思的領(lǐng)域,搜狗推出的機(jī)器同傳 技術(shù)主要在會(huì)議場(chǎng)景出現(xiàn),演講者的語(yǔ)音實(shí)時(shí)轉(zhuǎn)換成文本,并且進(jìn)行同步翻譯,低延遲顯示 翻譯結(jié)果,希望能夠取代人工同傳,實(shí)現(xiàn)不同語(yǔ)言人們低成本的有效交流。

圖像翻譯也有不小的進(jìn)展。谷歌、微軟、Facebook 和百度均擁有能夠讓用戶搜索或者自動(dòng)整理沒(méi)有識(shí)別標(biāo)簽照片的技術(shù)。除此之外還有視頻翻譯和 VR 翻譯也在逐漸應(yīng)用中,但是目前的應(yīng)用還不太成熟。

2.2.2 信息檢索

信息檢索是從相關(guān)文檔集合中查找用戶所需信息的過(guò)程。信息檢索的基本原理是將用戶輸入的檢索關(guān)鍵詞與數(shù)據(jù)庫(kù) 中的標(biāo)引詞進(jìn)行對(duì)比,當(dāng)二者匹配成功時(shí),檢索成功。

以谷歌為代表的「關(guān)鍵詞查詢+選擇性瀏覽」交互方式,用戶用簡(jiǎn)單的關(guān)鍵詞作為查詢提交給搜索引擎,搜索引擎并非直接把檢索目標(biāo)頁(yè)面反饋給用戶,而是提供給用戶一個(gè)可能 的檢索目標(biāo)頁(yè)面列表,用戶瀏覽該列表并從中選擇出能夠滿足其信息需求的頁(yè)面加以瀏覽。

2.2.4 自動(dòng)問(wèn)答

自動(dòng)問(wèn)答是指利用計(jì)算機(jī)自動(dòng)回答用戶所提出的問(wèn)題以滿足用戶知識(shí)需求的任務(wù)。自動(dòng)問(wèn)答系統(tǒng)在回答用戶問(wèn)題時(shí),首先要正確理解用戶所提出的問(wèn)題,抽取其中關(guān)鍵的信息,在已有的語(yǔ)料庫(kù)或者知識(shí)庫(kù)中進(jìn)行檢索、匹配,將獲取的答案反饋給用戶。這一過(guò)程 涉及了包括詞法句法語(yǔ)義分析的基礎(chǔ)技術(shù),以及信息檢索、知識(shí)工程、文本生成等多項(xiàng)技術(shù)。

根據(jù)目標(biāo)數(shù)據(jù)源的不同,問(wèn)答技術(shù)大致可以分為檢索式問(wèn)答、社區(qū)問(wèn)答以及知識(shí)庫(kù)問(wèn)答 三種。檢索式問(wèn)答和社區(qū)問(wèn)答的核心是淺層語(yǔ)義分析和關(guān)鍵詞匹配,而知識(shí)庫(kù)問(wèn)答則正在逐步實(shí)現(xiàn)知識(shí)的深層邏輯推理。

除了這幾種 NLP 應(yīng)用,其它如情感分析、自動(dòng)文本摘要、社會(huì)計(jì)算和信息抽取也都有廣泛的應(yīng)用,讀者可查閱原報(bào)告了解詳細(xì)內(nèi)容。

3 人才篇

3.1 國(guó)外實(shí)驗(yàn)室及人才介紹

 

 

AMiner 基于發(fā)表于國(guó)際期刊會(huì)議的學(xué)術(shù)論文,對(duì)自然語(yǔ)言處理領(lǐng)域全球 h-index 排序 top1000 的學(xué)者進(jìn)行計(jì)算分析,繪制了該領(lǐng)域頂尖學(xué)者全球分布地圖。

這部分內(nèi)容中,AMiner 還選取在 ACL、EMNLP、NAACL、COLING 等 4 個(gè)會(huì)議在近 5 年累計(jì)發(fā)表 10 次以上論文的國(guó)外學(xué)者及其所在實(shí)驗(yàn)室做簡(jiǎn)要介紹。包括:

Chris Dyer,卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所

Christopher D. Manning,斯坦福大學(xué)自然語(yǔ)言處理小組

Dan Klein,伯克利大學(xué)自然語(yǔ)言處理小組

除了以上提到的,國(guó)外還有一些知名自然語(yǔ)言處理實(shí)驗(yàn)室 :

圣母大學(xué)自然語(yǔ)言處理小組,負(fù)責(zé)人是 David Chiang

哈佛自然語(yǔ)言處理小組,負(fù)責(zé)人是 Stuart Shieber

哥倫比亞大學(xué)自然語(yǔ)言處理研究室,負(fù)責(zé)人為 Michael Collins

3.2 國(guó)內(nèi)實(shí)驗(yàn)室及人才介紹

這部分,AMiner 基于論文數(shù)據(jù)整理了自然語(yǔ)言處理華人專家?guī),其中包括了?lái)自 NUS、HKUS、 THU、PKU、FDU 等知名高校以及百度、科大訊飛、微軟等公司的 367 位專家學(xué)者。

而后,AMiner 選取在 ACL、EMNLP、NAACL、COLING 等 4 個(gè)會(huì)議在近 5 年累計(jì)發(fā)表 10 次以 上論文的國(guó)內(nèi)學(xué)者包括劉群、劉挺、周明、常寶寶、黃萱菁、劉洋、孫茂松、李素建、萬(wàn)小 軍、邱錫鵬、穗志方等。

 

 

圖:國(guó)內(nèi)學(xué)者介紹示例

3.3 ACL2018 獎(jiǎng)項(xiàng)介紹

2018 年 7 月 15 在墨爾本開幕的 ACL 公布了其最佳論文名單,包括 3 篇最佳長(zhǎng)論文和 2 篇最佳短論文以及 1 篇最佳 demo 論文,值得一提的是 Amazon Door Prize 中北京大學(xué)和哈爾濱大學(xué)上榜,ACL2018 終身成就獎(jiǎng)為愛(ài)丁堡大學(xué) Mark Steedman 獲得。

接下來(lái),該報(bào)告對(duì)獲獎(jiǎng)?wù)撐倪M(jìn)行了摘要介紹。讀者們也可以參考機(jī)器之心文章《計(jì)算語(yǔ)言頂會(huì) ACL 2018 最佳論文公布!這些大學(xué)與研究員榜上有名》

4. 應(yīng)用篇

從知識(shí)產(chǎn)業(yè)角度來(lái)看,自然語(yǔ)言處理軟件占有重要的地位,專家系統(tǒng)、數(shù)據(jù)庫(kù)、知識(shí)庫(kù),計(jì)算機(jī)輔助設(shè)計(jì)系統(tǒng) (CAD)、計(jì)算機(jī)輔助教學(xué)系統(tǒng) (Cal)、計(jì)算機(jī)輔助決策系統(tǒng)、辦公室 自動(dòng)化管理系統(tǒng)、智能機(jī)器人等,全都需要自然語(yǔ)言做人機(jī)界面。長(zhǎng)遠(yuǎn)看來(lái),具有篇章理解 能力的自然語(yǔ)言理解系統(tǒng)可用于機(jī)器自動(dòng)翻譯、情報(bào)檢索、自動(dòng)標(biāo)引及自動(dòng)文摘等領(lǐng)域,有著廣闊的應(yīng)用前景。

隨著自然語(yǔ)言處理研究的不斷深入和發(fā)展,應(yīng)用領(lǐng)域越來(lái)越廣。

文本方面的應(yīng)用主要有:基于自然語(yǔ)言理解的智能搜索引擎和智能檢索、智能機(jī)器翻譯、 自動(dòng)摘要與文本綜合、文本分類與文件整理、智能自動(dòng)作文系統(tǒng)、自動(dòng)判卷系統(tǒng)、信息過(guò)濾 與垃圾郵件處理、文學(xué)研究與古文研究、語(yǔ)法校對(duì)、文本數(shù)據(jù)挖掘與智能決策以及基于自然 語(yǔ)言的計(jì)算機(jī)程序設(shè)計(jì)等。

語(yǔ)音方面的應(yīng)用主要有:機(jī)器同聲傳譯、智能遠(yuǎn)程教學(xué)與答疑、語(yǔ)音控制、智能客戶服 務(wù)、機(jī)器聊天與智能參謀、智能交通信息服務(wù) (ATIS)、智能解說(shuō)與體育新聞實(shí)時(shí)解說(shuō)、語(yǔ) 音挖掘與多媒體挖掘、多媒體信息提取與文本轉(zhuǎn)化以及對(duì)殘疾人智能幫助系統(tǒng)等。

此外,建立在自然語(yǔ)言處理技術(shù)基礎(chǔ)之上的心理學(xué)、認(rèn)知學(xué)、哲學(xué)、混沌學(xué)說(shuō)的共同發(fā)展,將使人們對(duì)智能的起源問(wèn)題有新的認(rèn)識(shí)。如果把計(jì)算機(jī)網(wǎng)絡(luò)和未來(lái)的網(wǎng)格看作是由機(jī)器 組成的機(jī)器社會(huì),那么一種屬于機(jī)器的智能可能會(huì)因?yàn)槿祟惖膮⑴c以及機(jī)器社會(huì)中各元素的相互作用而自然誕生。這樣,機(jī)器必將能夠通過(guò)「圖靈測(cè)試」,達(dá)到「會(huì)思考」的層次。而 有關(guān)智能機(jī)器的研究也會(huì)誕生一系列新的領(lǐng)域,比如,機(jī)器心理學(xué)和機(jī)器認(rèn)知學(xué)等。

其中,機(jī)器心理學(xué)主要研究機(jī)器的心理反應(yīng)和意圖。美國(guó)圣迭戈神經(jīng)科學(xué)研究所研制的 機(jī)器人 DarwinV II,能夠根據(jù)其感知對(duì)外部事物進(jìn)行分類,并根據(jù)經(jīng)驗(yàn)和知識(shí)采取相應(yīng)的對(duì)策。然而,機(jī)器心理學(xué)的研究不能局限于此,人們還需要對(duì)機(jī)器的意識(shí)、知覺(jué)、思想、情感、 情緒、創(chuàng)造力、機(jī)器社會(huì)、機(jī)器交流等方面進(jìn)行研究,而這一切還需要計(jì)算機(jī)科學(xué)、心理學(xué)、 神經(jīng)科學(xué)的同步發(fā)展。

而后,AMiner 選取了一些自然語(yǔ)言處理應(yīng)用較為頻繁的場(chǎng)景進(jìn)行介紹,如知識(shí)圖譜、機(jī)器翻譯、推薦系統(tǒng)等。

5 趨勢(shì)篇

隨著深度學(xué)習(xí)時(shí)代的來(lái)臨,神經(jīng)網(wǎng)絡(luò)成為一種強(qiáng)大的機(jī)器學(xué)習(xí)工具,自然語(yǔ)言處理取得了許多突破性發(fā)展,情緒分析、自動(dòng)問(wèn)答、機(jī)器翻譯等領(lǐng)域都飛速發(fā)展。

下圖分別是 AMiner 計(jì)算出的自然語(yǔ)言處理近期熱點(diǎn)和全球熱點(diǎn)。通過(guò)對(duì) 1994-2017 年間自然語(yǔ)言處理領(lǐng)域有關(guān)論文的挖掘,總結(jié)出二十多年來(lái),自然語(yǔ)言處理的領(lǐng)域關(guān)鍵詞主要集中在計(jì)算機(jī)語(yǔ)言、神經(jīng)網(wǎng)絡(luò)、情感分析、機(jī)器翻譯、詞義消歧、信息提取、知識(shí)庫(kù)和文本 分析等領(lǐng)域。旨在基于歷史的科研成果數(shù)據(jù)的基礎(chǔ)上,對(duì)自然語(yǔ)言處理熱度甚至發(fā)展趨勢(shì)進(jìn)行研究。圖中,每個(gè)彩色分支表示一個(gè)關(guān)鍵詞領(lǐng)域,其寬度表示該關(guān)鍵詞的研究熱度,各關(guān)鍵詞在每一年份(縱軸)的位置是按照這一時(shí)間點(diǎn)上所有關(guān)鍵詞的熱度高低進(jìn)行排序。

 

 

 

 

圖 16 顯示,情緒分析、詞義消歧、知識(shí)庫(kù)和計(jì)算機(jī)語(yǔ)言學(xué)將是最近的熱點(diǎn)發(fā)展趨勢(shì),圖 17 顯示詞義消歧、詞義理解、計(jì)算機(jī)語(yǔ)言學(xué)、信息檢索和信息提取將是自然語(yǔ)言處理全 球熱點(diǎn)。

AMiner 同時(shí)在微博 @ArnetMiner 中發(fā)起了關(guān)于自然語(yǔ)言處理未來(lái)發(fā)展趨勢(shì)的投票,得到了如下結(jié)果。

 

 

 

標(biāo)簽: Google 大數(shù)據(jù) 電商 電商平臺(tái) 谷歌 互聯(lián)網(wǎng) 金融 媒體 數(shù)據(jù)庫(kù) 搜索 搜索引擎 通信 網(wǎng)絡(luò) 智能搜索引擎

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:PyTorch經(jīng)驗(yàn)指南:技巧與陷阱

下一篇:Python 之父透露退位隱情,與核心開發(fā)團(tuán)隊(duì)產(chǎn)生隔閡