中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

中科院宗成慶談文本數(shù)據(jù)挖掘

2019-07-23    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

近年來(lái),隨著移動(dòng)通信和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與普及應(yīng)用,數(shù)據(jù)挖掘技術(shù)得到了越來(lái)越多的關(guān)注。文本數(shù)據(jù)挖掘作為自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等多種技術(shù)的交叉研究領(lǐng)域,其研究熱度也逐年提升。在學(xué)術(shù)界,每年都有大量相關(guān)論文發(fā)表;在工業(yè)界,文本數(shù)據(jù)挖掘被廣泛地應(yīng)用于醫(yī)療、金融風(fēng)控、司法和情報(bào)分析等各個(gè)領(lǐng)域,極大地幫助了人們提高工作效率和分析挖掘相關(guān)信息。

如何更好地入門這項(xiàng)技術(shù)呢?相信相關(guān)專業(yè)的學(xué)生和該領(lǐng)域的初學(xué)者都非常關(guān)心這個(gè)問(wèn)題。近日,由中國(guó)科學(xué)院自動(dòng)化所研究員、博士生導(dǎo)師宗成慶、南京理工大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師夏睿和中科院自動(dòng)化所副研究員張家俊三位老師歷時(shí)兩年多撰寫的《文本數(shù)據(jù)挖掘》問(wèn)世,為這項(xiàng)技術(shù)的推廣和應(yīng)用提供了一部?jī)?yōu)秀的教學(xué)輔導(dǎo)書。該書全面梳理了文本數(shù)據(jù)挖掘技術(shù)各個(gè)方向的基本概念和經(jīng)典方法,并給出了具體的應(yīng)用案例,對(duì)于初學(xué)者來(lái)說(shuō)這是一本不可多得的好書,對(duì)研究人員也不失一本值得參閱的手邊書。

對(duì)于宗成慶老師,相信國(guó)內(nèi)任何一位學(xué)習(xí)和從事 NLP 技術(shù)研發(fā)的人應(yīng)該都不會(huì)陌生,他撰寫的《統(tǒng)計(jì)自然語(yǔ)言處理》多年來(lái)都是國(guó)內(nèi) NLP 學(xué)習(xí)和研究必備的參考書。時(shí)隔數(shù)年,宗成慶老師再次發(fā)表新著,其初衷和意義為何?帶著這些問(wèn)題,雷鋒網(wǎng) AI 科技評(píng)論宗和成慶老師進(jìn)行了深入交流。

 

 

文本數(shù)據(jù)挖掘研究

問(wèn):文本數(shù)據(jù)挖掘作為一個(gè)研究方向,它的意義何在?

答:文本數(shù)據(jù)挖掘具有極其廣闊的應(yīng)用前景,包括金融、醫(yī)療、生物醫(yī)藥、司法和情報(bào)分析等各個(gè)領(lǐng)域。我們所說(shuō)的自然語(yǔ)言處理技術(shù),其應(yīng)用目標(biāo)除了機(jī)器翻譯和對(duì)話系統(tǒng)以外,主要任務(wù)就是利用這本書中所介紹的這些文本數(shù)據(jù)挖掘技術(shù)進(jìn)行文本的分析和處理。

問(wèn):您能否簡(jiǎn)單介紹下這個(gè)領(lǐng)域的發(fā)展歷史?

答:其實(shí),某些技術(shù)最早可以追溯到上個(gè)世紀(jì)的 50 年代,例如,自動(dòng)文摘。那時(shí)候人們就已經(jīng)在關(guān)注如何為圖書文獻(xiàn)自動(dòng)生成摘要。之后,應(yīng)用需求范圍不斷擴(kuò)大,尤其是隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及應(yīng)用,相關(guān)技術(shù)需求逐漸被提出,如情感分析、主題發(fā)現(xiàn)和追蹤等。我個(gè)人認(rèn)為,這并不是一個(gè)新的領(lǐng)域,而是以自然語(yǔ)言處理為主,結(jié)合機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等多種技術(shù)的具體應(yīng)用。

問(wèn):文本數(shù)據(jù)挖掘的主要難點(diǎn)在哪里?

答:不同的任務(wù)面臨的難點(diǎn)是不一樣的。但如果籠統(tǒng)一點(diǎn)來(lái)說(shuō)的話,主要在于如何弄清楚文本作者的意圖和觀點(diǎn),這是最根本的問(wèn)題。不同于從數(shù)據(jù)庫(kù)中挖掘和發(fā)現(xiàn)知識(shí),文本數(shù)據(jù)挖掘的處理的都是非結(jié)構(gòu)化的文本數(shù)據(jù),因此自然語(yǔ)言處理中面臨的問(wèn)題都是文本數(shù)據(jù)挖掘中的難點(diǎn)。

計(jì)算機(jī)和人不一樣,對(duì)于一段文字,人掃一眼就可以明白了。而計(jì)算機(jī)理解語(yǔ)言會(huì)涉及到太多東西,包括語(yǔ)言學(xué)的問(wèn)題、人的背景知識(shí)和常識(shí)等。目前我們還無(wú)法清楚地知道人腦是如何理解語(yǔ)言的。所以從長(zhǎng)遠(yuǎn)的深層次研究角度,我們要和腦科學(xué)研究結(jié)合起來(lái)。目前我們正在與中科院上海神經(jīng)所、心理所等從事腦科學(xué)和語(yǔ)言認(rèn)知研究的專家進(jìn)行合作。當(dāng)然,這是一個(gè)遙遠(yuǎn)的目標(biāo)。從應(yīng)用的角度,我們希望盡快利用機(jī)器學(xué)習(xí)等技術(shù),結(jié)合語(yǔ)言學(xué)和具體應(yīng)用需求,建立實(shí)用的文本挖掘方法。

問(wèn):目前這一研究進(jìn)展如何?

答:對(duì)人腦從事語(yǔ)言認(rèn)知機(jī)理的研究是一個(gè)長(zhǎng)遠(yuǎn)的目標(biāo),屬于基礎(chǔ)性的探索研究,很難指望在短時(shí)期內(nèi)看到直接的應(yīng)用效果。但是,相關(guān)研究會(huì)給我們很多啟發(fā),讓我們改進(jìn)或者解釋現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型,或者建立更加有效的新方法?偲饋(lái)說(shuō),這需要持續(xù)地研究,甚至需要幾代人一點(diǎn)一點(diǎn)地努力,去攻克這個(gè)堡壘。

《文本數(shù)據(jù)挖掘》

問(wèn):您寫作《文本數(shù)據(jù)挖掘》這本書的初衷是什么?

答:主要有幾方面考慮。一方面,我前一本書《統(tǒng)計(jì)自然語(yǔ)言處理》的主要內(nèi)容是自然語(yǔ)言處理的基礎(chǔ)理論和關(guān)鍵技術(shù),而《文本數(shù)據(jù)挖掘》介紹的目前自然語(yǔ)言處理應(yīng)用領(lǐng)域中熱點(diǎn)的研究方向,如情感分析、主題發(fā)現(xiàn)和信息抽取等。另一方面,我在國(guó)科大為研究生開設(shè)的一門課程名稱就是「文本數(shù)據(jù)挖掘」,需要這樣一本教學(xué)輔導(dǎo)書。另外,近年來(lái)自然語(yǔ)言處理技術(shù)的應(yīng)用需求很大,技術(shù)發(fā)展非常之快,很多新技術(shù)和新方法不斷推出,對(duì)于我個(gè)人而言,撰寫這本書的過(guò)程也是學(xué)習(xí)和熟悉最新技術(shù)和方法,梳理學(xué)科知識(shí)的過(guò)程。

問(wèn):既然《文本數(shù)據(jù)挖掘》梳理的是最新的技術(shù)方法,那么,您此前撰寫的《統(tǒng)計(jì)自然語(yǔ)言處理》,其內(nèi)容需要更新嗎?

答:當(dāng)然需要,因?yàn)楝F(xiàn)在的技術(shù)發(fā)展太快了,很多技術(shù)都已經(jīng)更新。但是,我需要在清楚地掌握這些新技術(shù)以后,才能判斷哪些新方法需要寫進(jìn)書中,很多技術(shù)都需要經(jīng)過(guò)時(shí)間的驗(yàn)證。其實(shí),有些新技術(shù)已經(jīng)被寫入《文本數(shù)據(jù)挖掘》這本書里了,如詞的分布式表示,深度神經(jīng)網(wǎng)絡(luò)方法等。我認(rèn)為文本數(shù)據(jù)挖掘?qū)嶋H上就是自然語(yǔ)言處理方向的一個(gè)延伸和擴(kuò)展。

問(wèn):文本數(shù)據(jù)挖掘現(xiàn)在在企業(yè)里面有哪些具體的應(yīng)用案例?

答:文本數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛。在醫(yī)學(xué)上,它可以用來(lái)幫助醫(yī)生進(jìn)行診斷,或者為醫(yī)學(xué)研究者提供技術(shù)手段或知識(shí)支撐,也可以為患者提供幫助,如問(wèn)診或查詢等;在金融領(lǐng)域,根據(jù)財(cái)務(wù)報(bào)告、大眾評(píng)價(jià)等一些公開的信息,可以幫助投資人分析某家公司的信譽(yù)如何;它還可以幫助法官根據(jù)以往的案例如何量刑和斷案等。

問(wèn):因?yàn)橹袊?guó)人主要使用中文,那么,漢語(yǔ)的文本挖掘和其他語(yǔ)言有區(qū)別嗎?

答:區(qū)別是存在的。首先,中文文本挖掘面臨著分詞的問(wèn)題,這是一個(gè)基本問(wèn)題。

雖然其他語(yǔ)言也存在這類問(wèn)題,如韓國(guó)語(yǔ)和日語(yǔ)等,但是中文的分詞更麻煩,尤其對(duì)于非規(guī)范化的文本而言。其次,中文在表達(dá)方式上比較復(fù)雜,或者說(shuō)比較靈活,語(yǔ)義表達(dá)更復(fù)雜,有時(shí)候不同的人對(duì)同一句話的理解可能也不一樣。例如,在中文文本中很多時(shí)候作者在表達(dá)觀點(diǎn)時(shí)都比較委婉,甚至在描述一件事情的時(shí)候喜歡繞圈子,而不會(huì)直接表達(dá)自己的意思,而在英文文本中較為直截了當(dāng)。所以,在進(jìn)行中文文本挖掘時(shí)需要考慮漢語(yǔ)篇章的特殊性。

問(wèn):文本數(shù)據(jù)挖掘這本書里面如何處理機(jī)器學(xué)習(xí)方法和傳統(tǒng)方法?

答:從性能和最終結(jié)果來(lái)看,對(duì)于很多任務(wù)來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)或者深度學(xué)習(xí)方法的結(jié)果要優(yōu)于傳統(tǒng)方法,但是傳統(tǒng)方法也有它自己的優(yōu)點(diǎn),如便于結(jié)合先驗(yàn)知識(shí)、可解釋等。在方法改進(jìn)和創(chuàng)新研究中,我們不應(yīng)該完全拋棄原來(lái)的方法。如何把這些方法結(jié)合起來(lái),讓它們?cè)诓煌姆矫姘l(fā)揮作用,最終取得更好的性能,這是我們的目標(biāo)。創(chuàng)新就是這樣,始終在前人工作的基礎(chǔ)上一步一步地提升和前進(jìn)。

在《文本數(shù)據(jù)挖掘》這本書里面,我們并沒有過(guò)多地強(qiáng)調(diào)深度學(xué)習(xí)方法,比較有代表性的方法都介紹了。我們希望讀者能夠完整地了解某個(gè)方向的發(fā)展歷程。在此基礎(chǔ)上,讀者自己會(huì)去進(jìn)行判斷或者研究應(yīng)該如何建立更加有效的新方法。

問(wèn):您剛才提到,傳統(tǒng)的方法也很重要。那么,如果您現(xiàn)在修訂《統(tǒng)計(jì)自然語(yǔ)言處理》,會(huì)如何進(jìn)行內(nèi)容取舍?

答:一方面,有些內(nèi)容需要壓縮!督y(tǒng)計(jì)自然語(yǔ)言處理》中的有些方法在性能表現(xiàn)上有點(diǎn)跟不上時(shí)代了。有些方法,如統(tǒng)計(jì)機(jī)器翻譯,只需要介紹起主要思想,而不過(guò)多地介紹模型細(xì)節(jié)。另一方面,需要增加一些深度學(xué)習(xí)的新方。

進(jìn)一步學(xué)習(xí)

問(wèn):如果學(xué)完了這本書以后,還想要進(jìn)一步學(xué)習(xí),您覺得應(yīng)該從哪一些方向入手?

答:《文本數(shù)據(jù)挖掘》這本書講的主要是一些比較基礎(chǔ)的方法,主要目的是帶領(lǐng)讀者進(jìn)入這個(gè)領(lǐng)域。正如前面所說(shuō),這個(gè)方向發(fā)展得非?欤枰粩嗟馗M(jìn)和更新。每年 ACL、COLING 和 EMNLP 等本領(lǐng)域的會(huì)議上都會(huì)不斷推出一些新的方法,需要不斷地跟蹤。讀者在了解和掌握本書的基本知識(shí)之后可以通過(guò)閱讀論文、聽學(xué)術(shù)報(bào)告或其他交流形式,跟蹤和關(guān)注這一領(lǐng)域的最新進(jìn)展。

問(wèn):在國(guó)內(nèi),很多學(xué)生過(guò)度依賴開源工具,缺乏自己的思考,您怎么看待這一現(xiàn)象?應(yīng)該如何改善這一狀況?您認(rèn)為優(yōu)秀的學(xué)生一般應(yīng)該具有哪些重要的品質(zhì)?

答:及時(shí)學(xué)習(xí)、跟蹤和使用開源工具,了解國(guó)際最新的前沿技術(shù),是對(duì)學(xué)生,包括對(duì)碩士研究生和博士研究生最基本的要求。對(duì)于初學(xué)者來(lái)說(shuō),使用開源工具是一條捷徑,已有的很多創(chuàng)新也都是從模仿開始的。但是,跟蹤到一定階段,學(xué)生必須學(xué)會(huì)獨(dú)立地思考,提出創(chuàng)新思路。

目前各種誘惑和不合理的評(píng)價(jià)體系,是導(dǎo)致學(xué)生過(guò)度依賴開源工具、急功近利的主要原因之一。大家都希望在短時(shí)間內(nèi)盡快出論文、出系統(tǒng),而不愿靜下心來(lái)深入思考。

要改變這一狀況,每一位從事科研工作的人,尤其老師和學(xué)生都有責(zé)任和義務(wù),從我做起,從現(xiàn)在做起,不受一時(shí)利益和榮譽(yù)的誘惑,靜下心來(lái),打牢理論基礎(chǔ),扎扎實(shí)實(shí)地開展工作,堅(jiān)守「一輩子做好一件事情」的目標(biāo)和理想,才是改變這一現(xiàn)象的根本出路。

我認(rèn)為優(yōu)秀學(xué)生應(yīng)該具備如下重要的品質(zhì):能夠坐得住,甘于寂寞,持之以恒地用心鉆研,不受前人思路的限制和制約,勇于創(chuàng)新和實(shí)踐。從長(zhǎng)遠(yuǎn)來(lái)看,社會(huì)最終認(rèn)可的一定是扎扎實(shí)實(shí)的有用的技術(shù),而不是故弄玄虛、華而不實(shí)的墻上畫餅。

標(biāo)簽: 文本數(shù)據(jù)挖掘 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:p 值是什么?數(shù)據(jù)科學(xué)家用最簡(jiǎn)單的方式告訴你

下一篇:無(wú)監(jiān)督學(xué)習(xí)是深度學(xué)習(xí)的未來(lái)!Facebook首席科學(xué)家呼吁加強(qiáng)對(duì)無(wú)監(jiān)督學(xué)習(xí)的研究