中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺談搜索引擎預(yù)處理機(jī)制原理

2019-03-15    來源:gdwzjs.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

首先提前祝各同仁們happy new year,在即將迎來2011年的最后一天,利用這今年的最后一天,來給大家分享一個(gè)話題:關(guān)于搜索引擎預(yù)處理機(jī)制,可能一些seo新手對(duì)這個(gè)詞有點(diǎn)陌生,沒什么概念,其實(shí)很簡(jiǎn)單,就是網(wǎng)站有千千萬,頁面達(dá)到億級(jí)別的,而搜索引擎卻能通過一個(gè)簡(jiǎn)短的詞就能把搜索結(jié)果快速的傳遞到用戶面前,為什么這么快呢?難道真是它的電腦或者服務(wù)器很強(qiáng)嗎?其實(shí)它是采用了一種很巧妙的辦法,因?yàn)樗扔蓄A(yù)處理機(jī)制在里面,通過預(yù)處理之后才能快速的把用戶想要找的內(nèi)容呈現(xiàn)在他面前,那預(yù)處理包括哪些內(nèi)容呢,我們來簡(jiǎn)單的跟大家說下:

一、提取文字

預(yù)處理要做的第一件事情就是抓取文字,在提取文字這一部分是非常關(guān)鍵的,意思也很簡(jiǎn)單,因?yàn)槲淖忠话愣际怯幸粋(gè)相關(guān)性的,就是把關(guān)鍵文字提取出來,提取的文字內(nèi)容有文本、meta標(biāo)簽,這兩個(gè)是我們通過表面現(xiàn)象可以看得到的,另外還有關(guān)鍵和描述(這兩個(gè)需要通過頁面源代碼查看),還有alt屬性(alt屬性原本是看不到的,鼠標(biāo)移上去會(huì)顯示)。還有文本,比如像做過flash站優(yōu)化的人知道,你可以將它的內(nèi)容提取出來,作為替代內(nèi)容,這些都是可以被搜索引擎識(shí)別的。

二、中文分詞

抓取好文字之后我們要進(jìn)行中文分詞,也就是我們經(jīng)常提到的中文分詞技術(shù),為了方便大家更好的理解,我們舉例來說,大家先打開baidu和goole,然后分別在里面搜索“夸張大千獎(jiǎng)”,我們先看百度頁面的搜索情況:

通過上圖我們可以看到整個(gè)頁面的標(biāo)紅的字體,我們可以明顯的看到“張大千”這三個(gè)字被擰出來了,總共五個(gè)字,因?yàn)閺埓笄莻(gè)人名,所以它優(yōu)先被擰了出來,然后這個(gè)詞就變成三個(gè)詞組,分別是“夸”。“張大千”。“獎(jiǎng)”。這是百度的分詞手法,我們?cè)賮砜垂雀枋窃趺捶值模?/p>

我們看第一條搜索結(jié)果,“夸張的圖,大千世界無奇不有啊”,為什么會(huì)這樣呢?其實(shí)谷歌和百度相比,它少了一個(gè)專有詞典,匹配方式不一樣,不同的搜索引擎,它的分詞規(guī)律不一樣,所以說針對(duì)不同搜索引擎關(guān)鍵詞優(yōu)化,我們應(yīng)該要注意關(guān)鍵詞應(yīng)該怎么寫會(huì)比較穩(wěn)妥?梢愿鶕(jù)自身情況,做谷歌要怎么寫,做百度又要怎么寫,而且我們要知道,我們?nèi)绾卫梅衷~技術(shù)來做到不管是關(guān)鍵詞還是內(nèi)容等等都可盡量匹配。如果連內(nèi)容都匹配不了,那關(guān)鍵詞又怎么能上去呢?

2、匹配方法

關(guān)于匹配方法我們簡(jiǎn)單概括下:

A.正向匹配:因?yàn)槲覀円话愕拈喿x方式是從左往右,從左到右叫正向匹配,比如說“中華人民共和國(guó)成立于1949年”因?yàn)樗且粋(gè)完整詞,如果是正向匹配,那么就應(yīng)該這樣分:“中華”“人民”“共和”等。

B.逆向匹配:顧名思義,就是從后面往前匹配。

c.最大匹配:比如說“中華人民共和國(guó)成立于1949年”,如果是最大匹配的話,可以劃分成“中華人民共和國(guó)”為一個(gè)詞組,這就是最大匹配。

D.最小匹配:它就可是把“中華人民共和國(guó)”劃分成“中華”“人民”“”共和”“國(guó)”。這樣算起來總共有四種匹配方式:正向匹配、逆向匹配、最大匹配、最小匹配?梢詢蓛山Y(jié)合結(jié)合成“正向最大匹配”“正向最小匹配”“逆向最大匹配”“逆向最小匹配”,這是百度和谷歌通用的匹配方法。那說到這里,可能有人會(huì)問了:那我怎么知道它是給我正向匹配還是反向匹配等,其實(shí)我想說的是,這個(gè)沒有一個(gè)定死的規(guī)律的,我們只要記住一點(diǎn):一個(gè)好的搜索引擎,在分詞系統(tǒng)關(guān)鍵就看兩點(diǎn):

A:消除歧義能力,也就是說你搜了一個(gè)詞,搜索出來的結(jié)果更加精準(zhǔn)、完整;

B:它是否能識(shí)別人名、地名和機(jī)構(gòu)名,也就是一些未登陸的詞,比如比較流行的口頭語,搜索次數(shù)多了,它會(huì)進(jìn)行一個(gè)統(tǒng)計(jì),統(tǒng)計(jì)的結(jié)果和用戶想了解的內(nèi)容匹配度高,具備這兩點(diǎn),就是好的分詞系統(tǒng)。

搜索引擎的分詞能讓我們的標(biāo)題以及內(nèi)容相關(guān)性更高,和需要優(yōu)化的詞匹配度更高,這是分詞它所能承載的作用,不用的搜索引擎的分詞原理不一樣,所以需要我們更加系統(tǒng)的來學(xué)習(xí),僅僅靠這篇文章是解釋不完的,關(guān)鍵是要有這個(gè)思路,結(jié)合這個(gè)思路去仔細(xì)觀察從而得出結(jié)論。

通過以上講解,大家是不是對(duì)索引引擎機(jī)制度和中文分詞是不是有了初步的了解了呢,今天就跟大家說到這里,再次祝你們新年快樂,想學(xué)更過seo知識(shí)請(qǐng)到(杭州seo www.gdwzjs.com)

標(biāo)簽: 搜索優(yōu)化 關(guān)鍵詞優(yōu)化 搜索引擎分詞技術(shù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:淺談如何利用SEO來提升網(wǎng)站的排名

下一篇:淺談百度轉(zhuǎn)帖之輕松提高網(wǎng)站流量與外鏈