中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺析搜索引擎對頁面的收錄(二)

2019-03-08    來源:http://songel.com/

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

如何避免重復性收錄

在互聯(lián)網(wǎng)中,信息的重復是在所難免的。然而,搜索引擎怎么樣才能識別重復的信息呢?怎樣判斷哪些網(wǎng)頁的信息是原創(chuàng),哪些是“復制”的?哪些重復的信 息室有價值的,哪些又是可以舍棄的?下面大敏給各位分享下自學后得出的答案。

一個網(wǎng)站里,重復信息主要包括轉(zhuǎn)載內(nèi)容及鏡像內(nèi)容這兩種,搜索引擎在對頁面進行分析時,必須具備識別重復信息的能力。因為,存儲大量的重復的信息, 不僅給服務器增加負擔,而且還會給用戶體驗造成影響。但這不意味著所有重復信息都是沒價值的,搜索引擎認為轉(zhuǎn)載內(nèi)容不如原創(chuàng)內(nèi)容重要,賦予原創(chuàng)性的內(nèi)容頁 面有著更高的權(quán)重,而鏡像內(nèi)容則幾乎被忽略

轉(zhuǎn)載頁面

轉(zhuǎn)載頁面是指那些與原創(chuàng)頁面的正文內(nèi)容(搜索引擎通過算法,清楚文章頁面多余的信息,例如:廣告,圖片,側(cè)邊欄,然后,就得到正文內(nèi)容)相近或相同 的頁面。然后,搜索引擎如何識別轉(zhuǎn)載頁面呢?首先,把正文內(nèi)容分為N個區(qū)域,如果有M個區(qū)域(M是搜索引擎指定的一個閾值)是相同或者相似的,則搜索引擎 認為這些頁面互為轉(zhuǎn)載內(nèi)容,

如下圖,頁面一與頁面二是不同網(wǎng)站上的兩個頁面,其中頁面1中的A和頁面2上的B分別是這兩個頁面上的正文內(nèi)容。為了識別這兩個頁面是否互為轉(zhuǎn)載頁 面,搜索引擎先把這兩個頁面的正文內(nèi)容分成四個區(qū)域進行比較。假設這四個區(qū)域中有3個是完全相同或者相似的,則認為這兩個頁面時互為轉(zhuǎn)載的。

在確定頁面是否為轉(zhuǎn)載頁面后,接下來,搜索引擎再結(jié)合頁面的最后修改時間(搜索引擎在抓取頁面時已經(jīng)存儲的附加信息,下在一節(jié)《搜索引擎工作原理- 搜索引擎對頁面的收錄(三)》)、頁面權(quán)重等因素判斷是原創(chuàng)頁面還是轉(zhuǎn)載頁面。

鏡像頁面

內(nèi)容完全相同的頁面互為鏡像頁面。要想判斷頁面是否互為鏡像頁面,搜索引擎首先把這些頁面分成N個區(qū)域進行比較,如果這N個區(qū)域的內(nèi)容完全一樣,則 認為這些也頁面互為鏡像頁面。然后再綜合頁面權(quán)重值,頁面最后修改時間,判斷哪個才是源頁面,哪個是鏡像頁面。

如下圖,頁面一及頁面二,是不同的網(wǎng)站上的兩個頁面。把這兩個頁面分成三個區(qū)域進行比較(即A-1、A-2、A-3和B-1、B-2、B-3),如 果這三個區(qū)域的頁面內(nèi)容完全一致,則認為這兩個也米娜互為鏡像頁面

鏡像網(wǎng)站

鏡像網(wǎng)站是指內(nèi)容完全相同的網(wǎng)站,形成鏡像網(wǎng)站主要有兩種情況:第一種是多個域名或IP指向同一服務器的同一目錄:另外一種是整個網(wǎng)站內(nèi)容被復制到 時用不同域名或者IP的服務器上。

為了識別站點是否互為鏡像網(wǎng)站,搜索引擎首先判斷這些網(wǎng)站的首頁以及與首頁直接連接的頁面是否互為鏡像也米娜。如果是,則互為鏡像網(wǎng)站。然后綜合網(wǎng) 站權(quán)重值、建立時間等)識別哪個是源網(wǎng)站,哪個是鏡像網(wǎng)站。這樣,以后抓取頁面就集中在源網(wǎng)站進行,這就是為什么一些鏡像網(wǎng)站被搜索引擎舍棄,或者收錄少 的原因。

原創(chuàng)文章如轉(zhuǎn)載,請注明:轉(zhuǎn)載自大敏博客 [ http://songel.com ]

本文鏈接地址: http://songel.com/archives/73.html

標簽: 搜索引擎 網(wǎng)站收錄 頁面收錄 

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:國平:怎樣形成一套非常科學系統(tǒng)的SEO方法

下一篇:網(wǎng)站優(yōu)化最終目的是什么?