站長資訊平臺

淺析搜索引擎禁止收錄法則

2019-03-18 來源：百度空間

有時候，站長并不希望某些頁面被抓去和收錄，如付費內(nèi)容，還在測試階段的頁面，復(fù)制頁面等。網(wǎng)站上不出線連接，或者使用Javesript，F(xiàn)LASH鏈接使用nofollow等方法都不能保證頁面一定不被收錄。站長自己雖然沒有連接到不想被收錄的頁面，其他網(wǎng)站可能由于某種原因出現(xiàn)導(dǎo)入鏈接，導(dǎo)致頁面被收錄。

要確保頁面不被收錄，需要使用robots或meta robots標(biāo)簽。

robots文件

搜索引擎蜘蛛訪問網(wǎng)站時，會先查看網(wǎng)站根目錄下有沒有一個命名為robots的純文本文件，robots用于指令搜索引擎禁止抓取網(wǎng)站某些內(nèi)容或制定允許抓取某些內(nèi)容，如百度的robots文件位于：

http://www.baidu.com/robots.txt

只有在需要禁止抓取某些內(nèi)容時，寫robots才有意義。robots文件不存在或者空文件都意味著允許搜索引擎抓取所有內(nèi)容。有的服務(wù)器設(shè)置有問題，robots文件不存在時會返回200狀態(tài)碼及一些錯誤信息，而不是404狀態(tài)碼，這有可能是搜索引擎錯誤解讀robots文件信息，所以建議就算允許抓取所有內(nèi)容，也要建一個空的robots.txt文件，放在根目錄下。

robots文件由記錄組成，記錄之間以空行分開。記錄格式為：

<域>:<可選空格><域值><可選空格>:

user-agent:*

disallow:/

上面這個robots文件禁止所有搜索引擎抓去任何內(nèi)容。

user-agent：制定下面的規(guī)則適合用于哪個蜘蛛。通配符*代表所有搜索引擎，只適用于百度蜘蛛則用：

user-agent:baiduspider。

只適用google蜘蛛則用：

user-agent:googlebot。

disallow：告訴蜘蛛不要抓取某些文件或目錄。列如下面的代碼將阻止所有蜘蛛抓取/cgi-bin和/tmp/兩個目錄下的內(nèi)容及文件/aa/index.html：

user-agent:*

disallow:/cgi-bin/

disallow:/tmp/

disallow:/aa/index.html

disallow：禁止的目錄或文件必須分開寫，每個一行，不能寫成：

disallow:/cgi-bin/tmp/aa/index.html

下面的指令相當(dāng)于允許所有搜索引擎抓取任何內(nèi)容：

user-agent:*

disallow:

下面的代碼禁止除百度外的手游搜索引擎抓去任何內(nèi)容：

user-agent:baiduspider

disallow:

user-agent:*

disallow:/

allow：告訴蜘蛛應(yīng)該抓取某些文件。猶豫不指定就是允許抓取，allow：單獨寫沒有意義，allow和disallow配合使用，可以告訴蜘蛛某個目錄下大部分不允許抓取，只允許抓取一部分。例如下面的代碼將使蜘蛛不抓取/ab/目錄下其他目錄和文件，但允許抓取其中/cd/目錄下的內(nèi)容：

user-agent:*

disallow:/ab/

allow:/cd/

$通配符：匹配URL結(jié)尾的字符。例如下面的代碼將允許蜘蛛抓取以.html為后綴的URL：

user-agent:*

allow：.html$

下面的代碼將禁止百度抓去所有的.jpg文件。

user-agent:baiduspider

disallow:.jpg$

*通配符：告訴蜘蛛匹配任意一段字符。例如下面一段代碼將禁止蜘蛛抓取.html文件。

user-agent:*

disallow:html$

sitemaps位置:告訴蜘蛛xml網(wǎng)站地圖在哪里，格式為：

site:《網(wǎng)站地圖位置》

主流搜索引擎都遵守robots文件之靈，robots禁止抓取的文件搜索引擎將不訪問不抓取，但要注意的是，被robots文件禁止的URL還是有可能出現(xiàn)在搜索結(jié)果中。只要有導(dǎo)入鏈接指向這個URL，搜索引擎就知道這個URL存在，雖然不會抓取頁面內(nèi)容，但是有可能以以下幾種形式顯示在搜索結(jié)果中：

只顯示URL，沒有標(biāo)題，描述。GG常這樣處理。

顯示開放目錄或雅虎重要目錄收錄的標(biāo)題和描述。

導(dǎo)入鏈接的錨文字顯示為標(biāo)題和描述，百度常這樣處理。

要想使URL完全不出現(xiàn)在搜索結(jié)果中，需要使用頁面上的meta robots標(biāo)簽。

文章轉(zhuǎn)自：http://hi.baidu.com/bjjztyy/blog/item/a09e4ddbc7d1f8096227986b.html

標(biāo)簽：搜索引擎收錄法則 seo優(yōu)化 robots文件

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:學(xué)SEO要會搭配：理論、觀察和實踐一樣不能少

下一篇:扭曲的內(nèi)容為王不可信勿讓內(nèi)容成為優(yōu)化的累贅

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺析搜索引擎禁止收錄法則