中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

蕭涵:略談百度中文分詞技術(shù)

2019-03-18    來源:xiaohan86.com

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

了解搜索引擎分詞技術(shù)對于我們的SEO工作有著重大的意義,不管是我們的關(guān)鍵詞布局還是鏈接架構(gòu),都跟分詞有莫大的關(guān)聯(lián)。這里蕭涵給大家談下一百度的中文分詞(當(dāng)然也不局限于百度,其他搜索引擎也是差不多的)。本文分兩個部分,首先是摘取已有的關(guān)于分詞的解釋,另外再加入我自己對分詞的擴展思路。

什么是中文分詞?

我們都知道,英文句子都是由一個一個單詞按空格分開組成,所以在分詞方面就方便多了,但我們中文是一個一個漢字連接而成,所以相對來說是比較復(fù)雜的。中文分詞指的是將一個漢語句子切分成一個一個單獨的詞,按照一定的規(guī)則重新組合成詞序列的過程。這個也稱做“中文切詞”。

分詞對于搜索引擎有著很大的作用,是文本挖掘的基礎(chǔ),可以幫助程序自動識別語句的含義,以達到搜索結(jié)果的高度匹配,分詞的質(zhì)量直接影響了搜索結(jié)果的精確度。目前搜索引擎分詞的方法主要通過字典匹配和統(tǒng)計學(xué)兩種方法。

一、基于字典匹配的分詞方法

這種方法首先得有一個超大的字典,也就是分詞索引庫,然后按照一定的規(guī)則將待分詞的字符串與分詞庫中的詞進行匹配,若找到某個詞語,則匹配成功,這種匹配有分以下四種方式:

1、正向最大匹配法(由左到右的方向);

2、逆向最大匹配法(由右到左的方向);

3、最少切分(使每一句中切出的詞數(shù)最。

4、雙向最大匹配法(進行由左到右、由右到左兩次掃描)

通常,搜索引擎會采用多種方式組合使用。但這種方式也同樣給搜索引擎帶來了難道,比如對于歧義的處理(關(guān)鍵是我們漢語的博大精深。,為了提高匹配的準(zhǔn)確率,搜索引擎還會模擬人對句子的理解,達到識別詞語的效果。基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息,當(dāng)然我們的搜索引擎也在不斷進步。

二、基于統(tǒng)計的分詞方法

雖然分詞字典解決了很多問題,但還是遠遠不夠的,搜索引擎還要具備不斷的發(fā)現(xiàn)新的詞語的能力,通過計算詞語相鄰出現(xiàn)的概率來確定是否是一個單獨的詞語。所以,掌握的上下文越多,對句子的理解就越準(zhǔn)確,分詞也越精確。舉個例子說,“搜索引擎優(yōu)化”,在字典中匹配出來可能是:搜索/引擎/優(yōu)化、搜/索引/擎/優(yōu)化,但經(jīng)過后期的概率計算,發(fā)現(xiàn)“搜索引擎優(yōu)化”在上下文相鄰出現(xiàn)的次數(shù)非常多,那么基于統(tǒng)計就會將這個詞語也加入進分詞索引庫。

中文分詞的應(yīng)用

分詞準(zhǔn)確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數(shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內(nèi)容更新的速度。因此對于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達到很高的要求。

對于我們SEO從業(yè)者來說,分詞的原理和方法是必須要掌握的,這樣才能夠?qū)⑽覀兊木W(wǎng)站設(shè)計得讓搜索引擎容易確定它的主題相關(guān)性。比如我們的網(wǎng)站是關(guān)于SEO培訓(xùn)的,當(dāng)用戶在搜索這個詞語的時候,搜索引擎首先會對其進行分詞,比如分為“SEO”和“培訓(xùn)”,然后在索引庫中進行分別匹配。這里還涉及到一點,也是我自己的總結(jié),每個詞語分詞后有一個主詞和副詞,通常是優(yōu)先匹配主詞,然后再匹配副詞,比如這里顯然SEO是主詞,所以優(yōu)先去匹配這個詞語,然后是培訓(xùn)這個副詞。那么, 我們的網(wǎng)站應(yīng)該如何去布局和架構(gòu),留給大家去思考。

作者:蕭涵 首發(fā)蕭涵SEO博客,

原文地址:http://www.xiaohan86.com/2011061149.html  轉(zhuǎn)載請注明出處。

標(biāo)簽: 百度分詞技術(shù) 百度中文分詞 中文分詞技術(shù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:淺談如何挖掘關(guān)鍵詞提升網(wǎng)站流量

下一篇:網(wǎng)站排名因素詳解之網(wǎng)站導(dǎo)航