中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

SEOer值得了解的搜索引擎索引和分詞技術(shù)

2019-11-20    來(lái)源:51zmkm.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

在網(wǎng)絡(luò)公司做過(guò)程序開(kāi)發(fā)的朋友都知道,我們通常用的數(shù)據(jù)庫(kù)搜索技術(shù)就是把用戶輸入的詞匯,跟數(shù)據(jù)庫(kù)中的某個(gè)或多個(gè)字段里的內(nèi)容進(jìn)行比較,同樣,搜索引擎的運(yùn)行原理簡(jiǎn)單來(lái)講也就是這樣:

用戶輸入一個(gè)詞匯,搜索引擎從他的數(shù)據(jù)庫(kù)中找到匹配的內(nèi)容,再以有序的排列展現(xiàn)給用戶,搜索引擎每天就是不厭其煩地不斷重復(fù)這些操作?此埔磺泻苷,我們用數(shù)據(jù)來(lái)分析問(wèn)題——

全球網(wǎng)民按20億計(jì)算,全球所有網(wǎng)站的網(wǎng)頁(yè)先假設(shè)是50億個(gè)。

按每人每天搜索1次(也就是1個(gè)關(guān)鍵詞,假設(shè)都是不重復(fù)的)

那么搜索引擎每天要從50億個(gè)網(wǎng)頁(yè)中搜索比對(duì)20億個(gè)關(guān)鍵詞。

呃。這個(gè)聽(tīng)起來(lái)很恐怖,你能想象嗎?想象這個(gè)數(shù)據(jù)如此龐大,但搜索引擎每次的正常搜索時(shí)間都是不到一秒。的確,在這個(gè)過(guò)程中,按照我們傳統(tǒng)的全文搜索方式,是不現(xiàn)實(shí)的。仔細(xì)看下下圖,并注意“索引庫(kù)查詢”這幾個(gè)字。

在解釋什么是索引庫(kù)和索引庫(kù)在搜索引擎中起到什么作用前,我們同樣舉個(gè)形象的例子加以參考下:

我們?cè)谧x書時(shí),老師在講課過(guò)程中,經(jīng)常會(huì)說(shuō),請(qǐng)同學(xué)們翻到第幾頁(yè),看下第幾段,想起來(lái)了嗎?快樂(lè)并無(wú)奈的校園生活是否歷歷在目了~_~,言歸正傳。在老師發(fā)出讓你翻到第幾頁(yè)看第幾段這個(gè)指令時(shí),就是一種索引在運(yùn)行了,這里的索引是第幾頁(yè)和第幾段,有了這兩個(gè)索引,即使你的書本厚達(dá)1000頁(yè),也可以在短時(shí)間里定位到具體的那一段話。

而搜索引擎自己的索引庫(kù)的構(gòu)成元素就是很多個(gè)詞匯,漢字約有12W個(gè),由這些漢字所組成的詞語(yǔ)將近10W個(gè),再說(shuō)說(shuō)英文,英文26個(gè)字母,組成的詞匯暫且算作100W個(gè)吧,在講索引庫(kù)元素的排序方式之前,我們?cè)龠M(jìn)行這段數(shù)據(jù)的分析:

中文:50億÷10W=5W

英文:50億÷100W=5000

搜索引擎處理5W或5000個(gè)記錄,是非常容易的一件事了。

明白了索引庫(kù)的重要性,再剖析下索引庫(kù)的構(gòu)成形式:

在搜索引擎看來(lái),再華麗的網(wǎng)站,也是一堆代碼堆砌而成的,拿下文的代碼來(lái)看:

經(jīng)過(guò)搜索引擎的分析后,去除HTML代碼,留下的是這些詞匯,

那么其中的這些詞匯就會(huì)進(jìn)入到搜索引擎的索引庫(kù)當(dāng)中,而這些進(jìn)入索引庫(kù)的每個(gè)詞匯后面又有很多個(gè)網(wǎng)站,就好比新華字典的目錄索引頁(yè)一樣,筆畫數(shù)是10的,通過(guò)索引快速查到,筆畫數(shù)是20的,也可以通過(guò)索引快速查到。

搜索引擎就是通過(guò)建立這樣的索引庫(kù),才能在用戶搜索某個(gè)關(guān)鍵詞時(shí),快速做出返回頁(yè)面的查詢。(而至于排名的前后,我們不在本文中多說(shuō)了)

再來(lái)簡(jiǎn)單講下分詞,上面提到的多少多少個(gè)詞匯,這個(gè)就是分詞了,但這些是通過(guò)我們?nèi)搜叟袛嗟,搜索引擎是如何進(jìn)行分詞的呢?搜索引擎再厲害,也只是程序,谷歌的中文分詞技術(shù)是購(gòu)買第三方公司得來(lái)的,而百度的分詞技術(shù)是自創(chuàng)的,我們可以理解為百度事先把幾W個(gè)詞錄進(jìn)去,也可能是通過(guò)漢字的一定排列方式自由組合而成,這個(gè)不是我們關(guān)心和所能研究的,我們要了解的僅僅是分詞這個(gè)概念。

了解了分詞這個(gè)概念后,在我們做SEO時(shí),也一定要通過(guò)搜索引擎的角度,讓自己從網(wǎng)頁(yè)的表面看到底層的收錄抓取原理。

【尊重原創(chuàng),分享觀點(diǎn)。來(lái)自芝麻開(kāi)門網(wǎng)絡(luò)科技原創(chuàng)文章,轉(zhuǎn)載請(qǐng)標(biāo)明文章來(lái)源 — http://www.51zmkm.com/news/27.html】

標(biāo)簽: 搜索引擎索引 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:如何選擇利于seo優(yōu)化的網(wǎng)站空間

下一篇:面對(duì)百度快照切忌步步驚心 而需步步為營(yíng)