中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

網(wǎng)站優(yōu)化:搜索引擎的網(wǎng)頁去重算法大解析

2019-03-25    來源:楊營(yíng)專欄

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

天之道,其猶張弓歟?高者抑之,下者舉之en馀者損之,不足者補(bǔ)之,天之道損有馀而補(bǔ)不足。人之道則不然,損不足以奉有馀。孰能有馀以奉天下,唯有道者。(道法自然)自然規(guī)律,就猶如射箭一樣,弓位高了就往下壓一壓(高者抑之),弓位低了就往上抬一抬(下者舉之)。用多余去補(bǔ)不足。人之道(規(guī)律),則不是這樣。它是損不足去奉多余。什么樣的人才能用有余去奉天下呢?唯有有道者。因此圣人為而恃,功成而不處,不會(huì)去想在眾人面前立賢名,以均天下。搜索所遵循就是這樣的一個(gè)規(guī)律。

據(jù)統(tǒng)計(jì)表明,近似重復(fù)網(wǎng)頁的數(shù)量占總網(wǎng)頁數(shù)量的比例高達(dá)全部頁面的29%,而完全相同的頁面大約占全部頁面的22%,即互聯(lián)網(wǎng)頁面中有相當(dāng)大的比例的內(nèi)容是完全相同或者大體相近的重復(fù)網(wǎng)頁有多種類型,這些重復(fù)網(wǎng)頁有的是沒有一點(diǎn)兒改動(dòng)的副本,有的在內(nèi)容上稍做修改,比如同一文章的不同版本,一個(gè)新一點(diǎn),一個(gè)老一點(diǎn),有的則僅僅是網(wǎng)頁的格式不同(如HTML、Postscript)。內(nèi)容重復(fù)可以歸結(jié)為以下4種類型。

·  類型一:如果兩篇文檔內(nèi)容和布局格式上毫無差別,則這種重復(fù)可以叫做完全重復(fù)頁面。

·  類型二:如果兩篇文檔內(nèi)容相同,但是布局格式不同,則叫做內(nèi)容重復(fù)頁面。

·  類型三:如果兩篇文檔有部分重要的內(nèi)容相同,并且布局格式相同,則稱為布局重復(fù)頁面。   

·  類型四:如果兩篇文檔有部分重要的內(nèi)容相同,但是布局格式不同,則稱為部分重復(fù)頁面。

所謂近似重復(fù)網(wǎng)頁發(fā)現(xiàn),就是通過技術(shù)手段快速全面發(fā)現(xiàn)這些重復(fù)信息的手段,如何快速準(zhǔn)確地發(fā)現(xiàn)這些內(nèi)容上相似的網(wǎng)頁已經(jīng)成為提高搜索引擎服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一。

發(fā)現(xiàn)完全相同或者近似重復(fù)網(wǎng)頁對(duì)于搜索引擎有很多好處。

1.  首先,如果我們能夠找出這些重復(fù)網(wǎng)頁并從數(shù)據(jù)庫中去掉,就能夠節(jié)省一部分存儲(chǔ)空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁內(nèi)容,同時(shí)也提高了搜索    引擎的搜索質(zhì)量和用戶體驗(yàn)。

2.  其次,如果我們能夠通過對(duì)以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,在今后的 網(wǎng)頁收集過程中就可以避開這些網(wǎng)頁,從而提高網(wǎng)頁的收集速度。有研究表明重    復(fù)網(wǎng)頁隨著時(shí)間不發(fā)生太大變化,所以這種從重復(fù)頁面集合中選擇部分頁面進(jìn)行    索引是有效的。

3.  另外,如果某個(gè)網(wǎng)頁的鏡像度較高,往往是其內(nèi)容比較受歡迎的一種間接體現(xiàn)也就預(yù)示著該網(wǎng)頁相對(duì)重要,在收集網(wǎng)頁時(shí)應(yīng)賦予它較高的優(yōu)先級(jí),而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請(qǐng)求并對(duì)輸出結(jié)果排序時(shí),應(yīng)該賦予它較高的權(quán)值。

4.  從另外一個(gè)角度看,如果用戶點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶引導(dǎo)到一個(gè)內(nèi)容相同頁面,這樣可以有效地增加用戶的檢索體驗(yàn)。因而近似重復(fù)網(wǎng)頁的及時(shí)發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。

實(shí)際工作的搜索引擎往往是在爬蟲階段進(jìn)行近似重復(fù)檢測(cè)的,下圖給出了近似重復(fù)檢測(cè)任務(wù)在搜索引擎中所處流程的說明。當(dāng)爬蟲新抓取到網(wǎng)頁時(shí),需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁,則直接將其拋棄,如果發(fā)現(xiàn)是全新的內(nèi)容,則將其加入網(wǎng)頁索引中。

  原文地址:http://www.y26.cn/seo/2013/0802/598.html

標(biāo)簽: 搜索引擎 網(wǎng)站優(yōu)化 重復(fù)頁面 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:四招打造論壇熱貼

下一篇:SEOer在網(wǎng)站優(yōu)化過程中最常犯的一些錯(cuò)誤