中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

分享搜索引擎預處理和中文分詞的秘密

2019-03-15    來源:落楓seo網(wǎng)易博客

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

前面我們講個搜索引擎如何搜集網(wǎng)頁,今天說下第二個過程網(wǎng)頁預處理,其中中文分詞就顯得尤其重要,下面就詳細講解一下搜索引擎是怎么進行網(wǎng)頁預處理的:

網(wǎng)頁預處理的第一步就是為原始網(wǎng)頁建立索引,有了索引就可以為搜索引擎提供網(wǎng)頁快照功能;接下來針對索引網(wǎng)頁庫進行網(wǎng)頁切分,將每一篇網(wǎng)頁轉化為一組詞的集合;最后將網(wǎng)頁到索引詞的映射轉化為索引詞到網(wǎng)頁的映射,形成倒排文件(包括倒排表和索引詞表),同時將網(wǎng)頁中包含的不重復的索引詞匯聚成索引詞表。如下圖所示:

 

一個原始網(wǎng)頁庫由若干個記錄組成,每個記錄包括記錄頭部信息(HEAD)和數(shù)據(jù)(DATA),每個數(shù)據(jù)由網(wǎng)頁頭信息(header),網(wǎng)頁內(nèi)容信息(content)組成。索引網(wǎng)頁庫的任務就是完成給定一個URL,在原始網(wǎng)頁庫中定位到該URL所指向的記錄。

如下圖所示:

 

對索引網(wǎng)頁庫信息進行預處理包括網(wǎng)頁分析和建立倒排文件索引兩個部分。中文自動分詞是網(wǎng)頁分析的前提。文檔由被稱作特征項的索引詞(詞或者字)組成,網(wǎng)頁分析是將一個文檔表示為特征項的過程。在對中文文本進行自動分析前,先將整句切割成小的詞匯單元,即中文分詞(或中文切詞)。切詞軟件中使用的基本詞典包括詞條及其對應詞頻。

自動分詞的基本方法有兩種:基于字符串匹配的分詞方法和基于統(tǒng)計的分詞方法。

1) 基于字符串匹配的分詞方法

這種方法又稱為機械分詞方法,它是按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。

按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大或最長匹配,和最小或最短匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:

1. 正向最大匹配;

2. 逆向最大匹配;

3. 最少切分(使每一句中切出的詞數(shù)最。

還可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。

對于機械分詞方法,可模型化表示為ASM(d,a,m),即 Automatic Segmentation Model。其中,

d:匹配方向,+表示正向,-表示逆向;

a:每次匹配失敗后增加或減少字串長度(字符數(shù)),+為增字,-為減字;

m:最大或最小匹配標志,+為最大匹配,-為最小匹配。

例如,ASM(+, -, +)就是正向減字最大匹配法(Maximum Match based approach,MM),ASM(-, -, +)就是逆向減字最大匹配法(簡記為RMM方法)。

2)基于統(tǒng)計的分詞方法

從形式上看,詞是穩(wěn)定的字的組合,因此上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。

可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。

互現(xiàn)信息體現(xiàn)類漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。

實際應用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優(yōu)點。

標簽: 網(wǎng)站優(yōu)化 中文分詞 搜索引擎預處理 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:網(wǎng)站推廣法寶重點是貴在堅持

下一篇:李皓:SEO讓我懂得的道理