中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎的Robots規(guī)則

2019-03-22    來源:月光博客

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

robots.txt是一種存放于網(wǎng)站根目錄下的文本文件,用于告訴搜索引擎的爬蟲(spider),此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的索引,哪些是可以被索引。通常認(rèn)為,robots.txt文件用來搜索引擎對目標(biāo)網(wǎng)頁的抓取。

robots.txt協(xié)議并不是一個(gè)規(guī)范,而只是約定俗成的,通常搜索引擎會識別這個(gè)文件,但也有一些特殊情況。

對于Google來說,使用robots也未必能阻止Google將網(wǎng)址編入索引,如果有其他網(wǎng)站鏈接到該網(wǎng)頁的話,Google依然有可能會對其進(jìn)行索引。按照Google的說法,要想徹底阻止網(wǎng)頁的內(nèi)容在Google網(wǎng)頁索引中(即使有其他網(wǎng)站鏈接到該網(wǎng)頁)出現(xiàn),需要使用noindex元標(biāo)記或x-robots-tag。例如將下面的一行加入到網(wǎng)頁的header部分。

<meta name="googlebot" content="noindex">

如果Google看到某一頁上有noindex的元標(biāo)記,就會將此頁從Google的搜索結(jié)果中完全丟棄,而不管是否還有其他頁鏈接到此頁。

對于百度來說,情況和Google類似,如果有其他網(wǎng)站鏈接目標(biāo)網(wǎng)頁,也有可能會被百度收錄,從百度的說明頁面上看,百度并不支持像Google那樣通過noindex完全將網(wǎng)頁從索引上刪除,只支持使用noarchive元標(biāo)記來禁止百度顯示網(wǎng)頁快照。具體的語句如下。

<meta name="Baiduspider" content="noarchive">

上面這個(gè)標(biāo)記只是禁止百度顯示該網(wǎng)頁的快照,百度會繼續(xù)為網(wǎng)頁建索引,并在搜索結(jié)果中顯示網(wǎng)頁摘要。

例如,淘寶網(wǎng)目前就通過robots.txt來屏蔽百度爬蟲,但百度依舊收錄了淘寶網(wǎng)的內(nèi)容,百度搜索“淘寶網(wǎng)”,第一個(gè)結(jié)果也是淘寶網(wǎng)首頁地址,只是該頁面沒有網(wǎng)頁快照,因此看來,網(wǎng)站只能禁止百度的快照,而無法禁止百度為網(wǎng)頁建索引。

注:本文由站長之家專欄作者月光博客供稿,如需轉(zhuǎn)載,請注明出處。

標(biāo)簽: 搜索引擎 Robots規(guī)則 百度爬蟲 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:UEO時(shí)代:我們應(yīng)該圍繞用戶需求做優(yōu)化

下一篇:如何構(gòu)建完美的鏈接誘餌策略