中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

讓搜索跨越語(yǔ)言的鴻溝 談跨語(yǔ)言信息檢索技術(shù)

2019-03-21    來(lái)源:百度搜索研發(fā)部官方博客

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

跨語(yǔ)言信息檢索,是信息檢索領(lǐng)域中的一個(gè)研究課題。近10幾年來(lái),由于互聯(lián)網(wǎng)的飛速發(fā)展,這方面的研究受到了學(xué)術(shù)界的廣泛重視。將這項(xiàng)技術(shù)應(yīng)用于搜索,可以幫助我們查找到更多的有用信息,例如外語(yǔ)相關(guān)頁(yè)面、多語(yǔ)言頁(yè)面以及語(yǔ)言無(wú)關(guān)的資源(如圖片)等等。這些信息可以大大豐富搜索的結(jié)果,滿足用戶多樣的需求。在跨語(yǔ)言信息檢索的研究中,有一些研究成果已經(jīng)趨于成熟,達(dá)到可以應(yīng)用的狀態(tài)。事實(shí)上,Yahoo和Google在5,6年前就已經(jīng)開(kāi)始提供多語(yǔ)言的搜索服務(wù)。毫無(wú)疑問(wèn),在這方面他們已經(jīng)走在了世界的前列。目前,百度的各項(xiàng)國(guó)際化業(yè)務(wù)正在如火如荼的開(kāi)展,對(duì)跨語(yǔ)言技術(shù)來(lái)說(shuō),正是用武之地。相信不久的將來(lái),它將會(huì)在搜索國(guó)際化進(jìn)程中扮演舉足輕重的角色。來(lái),就讓我們一探究竟吧。

假如你搜索“中菲黃巖島對(duì)峙”,如果你是一個(gè)普通用戶,你想知道的可能是這個(gè)事件的歷史淵源和發(fā)展動(dòng)態(tài);如果你是一個(gè)文藝用戶,你想知道的可能是中國(guó)憤青們的愛(ài)國(guó)言論。沒(méi)問(wèn)題,現(xiàn)有的中文搜索完全可以滿足你的需求。

但是,如果你是一個(gè)XX用戶,你對(duì)中國(guó)網(wǎng)站的內(nèi)容不滿足,很想知道外國(guó)的媒體是怎么報(bào)道的,外國(guó)民眾是怎么談?wù)撨@個(gè)事件的。那么不好意思,中文搜索引擎就無(wú)能為力了。這是因?yàn),中文搜索引擎都是中文作為基礎(chǔ)來(lái)構(gòu)建的,它往往只收錄了中文數(shù)據(jù),只考慮了中文的特性,只考慮了該中國(guó)網(wǎng)民的需求。但是,當(dāng)我們想要做跨語(yǔ)言搜索時(shí),搜索就變得困難了。且不說(shuō)我們沒(méi)有抓取那么多外文數(shù)據(jù)。即使我們有數(shù)據(jù)了,由于不同語(yǔ)言之間的巨大差異,以及各個(gè)國(guó)家各種各樣的網(wǎng)絡(luò)習(xí)慣,我們也很難精準(zhǔn)地搜索到相關(guān)的外文信息。也就是說(shuō),語(yǔ)言的不同給搜索帶來(lái)了一道鴻溝。

那么,這道鴻溝就不能跨越了么?當(dāng)然不是。事實(shí)上很多年前人們就已經(jīng)開(kāi)始考慮這個(gè)問(wèn)題了。在學(xué)術(shù)界,對(duì)這個(gè)問(wèn)題有個(gè)專有名詞,叫跨語(yǔ)言信息檢索(Cross-Language Information Retrieval)。早在上個(gè)世紀(jì)60年代,現(xiàn)代信息檢索的奠基人,美國(guó)康奈爾大學(xué)的Salton教授發(fā)表了一篇《Automatic processing of foreign language documents》,首先打開(kāi)了跨語(yǔ)言信息檢索的大門(mén)。但是由于那個(gè)時(shí)代還沒(méi)有互聯(lián)網(wǎng),研究也只能停留在簡(jiǎn)單實(shí)驗(yàn)階段,甚至跨語(yǔ)言信息檢索的概念還沒(méi)有正式提出。到了上世紀(jì)90年代,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(National Institute of Standards and Technology)和美國(guó)情報(bào)局前沿研發(fā)活動(dòng)中心(Advanced Research and Development Activity center of the U.S. Department of Defense)聯(lián)合舉辦了信息檢索領(lǐng)域最重要的會(huì)議——“TREC”會(huì)議(The Text REtrieval Conference)。到了1996年,在瑞士所舉辦的SIGIR-96會(huì)議中,首次出現(xiàn)了以跨語(yǔ)檢索為研究主題的研討會(huì)。而到了2000年,歐盟成立了“跨語(yǔ)言評(píng)估論壇”(Cross Language Evaluation Forum),每年定期舉辦跨語(yǔ)檢索研討會(huì),并且推動(dòng)跨語(yǔ)檢索技術(shù)評(píng)比。從此,跨語(yǔ)言信息檢索變成了信息檢索領(lǐng)域的一個(gè)炙手可熱的研究課題,無(wú)數(shù)英雄豪杰參與其中。

閑話少說(shuō),我們?cè)撨M(jìn)入正題了:對(duì)于跨語(yǔ)言信息檢索問(wèn)題該如何解決呢?接下來(lái)讓我們揭開(kāi)它的面紗。

在說(shuō)跨語(yǔ)言信息檢索之前,我們先回顧一下經(jīng)典信息檢索是怎樣做的,如圖1所示:首先,對(duì)于用戶的query,我們要對(duì)它進(jìn)行特征提取,使之變成一個(gè)特征向量,用于匹配文檔。其次,對(duì)于已經(jīng)抓取的文檔,我們也對(duì)它進(jìn)行特征提取,并給予這些特征一些權(quán)重,來(lái)表示它們的重要程度。再次,我們對(duì)query的特征和文檔的特征進(jìn)行相似度計(jì)算,來(lái)判斷哪些文檔跟query相關(guān),哪些不相關(guān)。信息檢索最常用的相似度計(jì)算方法是求cosine,其它還可以從語(yǔ)義主題的角度去描述相似性,這個(gè)就不詳細(xì)介紹了。有了相似度,我們可以根據(jù)相似度對(duì)文檔進(jìn)行排序,并將最相關(guān)的一些作為檢索結(jié)果。對(duì)于檢索結(jié)果,用戶可能會(huì)提供一些反饋,比如用戶的點(diǎn)擊。這些反饋可以告訴我們,在搜索結(jié)果里面哪些是用戶需要的。這些信息可以用來(lái)衡量檢索的效果,來(lái)對(duì)檢索模型進(jìn)一步提升。

在信息檢索的流程中,我們可以看出跨語(yǔ)言檢索的難點(diǎn):當(dāng)query的語(yǔ)言和文檔的語(yǔ)言不同時(shí),query和文檔的特征空間是不同的。中文的特征集合(某個(gè)中文詞語(yǔ)出現(xiàn)與否)與英文的特征集合(某個(gè)英文詞語(yǔ)出現(xiàn)與否)的交集極少,這導(dǎo)致原有的相似度計(jì)算方式在跨語(yǔ)言時(shí)失效了。

那么這個(gè)問(wèn)題怎么解決呢?

對(duì)于跨語(yǔ)言,我們自然而然想到的一種方式就是:翻譯。我們可以通過(guò)翻譯的方式把一個(gè)語(yǔ)言的詞語(yǔ)映射到另一語(yǔ)言上,從而讓query和文檔處于同一個(gè)特征空間中,然后再利用單語(yǔ)下的檢索模型進(jìn)行檢索和排序,這樣就可以實(shí)現(xiàn)跨語(yǔ)言檢索了。

Query翻譯——把query翻譯到文檔的語(yǔ)言下,然后用這些翻譯后的query在文檔中進(jìn)行檢索。對(duì)于query中的詞語(yǔ),我們可以選擇若干可能的翻譯,用于擴(kuò)大召回。這可以看作是一種query擴(kuò)展。

文檔翻譯——把文檔翻譯到query的語(yǔ)言下,然后用原有query對(duì)翻譯的文檔進(jìn)行檢索。文檔的翻譯一般是在線下進(jìn)行的。一篇源語(yǔ)言的文檔通過(guò)自動(dòng)的翻譯(如機(jī)器翻譯)變換成一篇目標(biāo)語(yǔ)言下的文檔。

這兩種方式都是可以達(dá)到跨語(yǔ)言檢索目的的,我們?cè)趯?shí)踐中應(yīng)該采用哪種方式呢?下面我們分析一下這兩種方式的優(yōu)劣:

從上述優(yōu)劣比較中我們可以看出,文檔翻譯雖然可能提供更準(zhǔn)確的翻譯,但它需要更多的線下處理時(shí)間,需要更多的存儲(chǔ)空間,實(shí)用性較差。鑒于此,無(wú)論是學(xué)術(shù)界還是工業(yè)界,一般采用的都是Query翻譯的方式。

標(biāo)簽:  纈镅孕畔⒓燜

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:寫(xiě)出流量:談?wù)剬氊悩?biāo)題到底怎樣寫(xiě)

下一篇:優(yōu)秀的SEO應(yīng)像面試一樣