中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺析搜索引擎禁止收錄法則

2019-03-18    來(lái)源:百度空間

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

有時(shí)候,站長(zhǎng)并不希望某些頁(yè)面被抓去和收錄,如付費(fèi)內(nèi)容,還在測(cè)試階段的頁(yè)面,復(fù)制頁(yè)面等。網(wǎng)站上不出線連接,或者使用Javesript,F(xiàn)LASH鏈接使用nofollow等方法都不能保證頁(yè)面一定不被收錄。站長(zhǎng)自己雖然沒(méi)有連接到不想被收錄的頁(yè)面,其他網(wǎng)站可能由于某種原因出現(xiàn)導(dǎo)入鏈接,導(dǎo)致頁(yè)面被收錄。

要確保頁(yè)面不被收錄,需要使用robots或meta robots標(biāo)簽。

robots文件

搜索引擎蜘蛛訪問(wèn)網(wǎng)站時(shí),會(huì)先查看網(wǎng)站根目錄下有沒(méi)有一個(gè)命名為robots的純文本文件,robots用于指令搜索引擎禁止抓取網(wǎng)站某些內(nèi)容或制定允許抓取某些內(nèi)容,如百度的robots文件位于:

http://www.baidu.com/robots.txt

只有在需要禁止抓取某些內(nèi)容時(shí),寫(xiě)robots才有意義。robots文件不存在或者空文件都意味著允許搜索引擎抓取所有內(nèi)容。有的服務(wù)器設(shè)置有問(wèn)題,robots文件不存在時(shí)會(huì)返回200狀態(tài)碼及一些錯(cuò)誤信息,而不是404狀態(tài)碼,這有可能是搜索引擎錯(cuò)誤解讀robots文件信息,所以建議就算允許抓取所有內(nèi)容,也要建一個(gè)空的robots.txt文件,放在根目錄下。

robots文件由記錄組成,記錄之間以空行分開(kāi)。記錄格式為:

<域>:<可選空格><域值><可選空格>:

user-agent:*

disallow:/

上面這個(gè)robots文件禁止所有搜索引擎抓去任何內(nèi)容。

user-agent:制定下面的規(guī)則適合用于哪個(gè)蜘蛛。通配符*代表所有搜索引擎,只適用于百度蜘蛛則用:

user-agent:baiduspider。

只適用google蜘蛛則用:

user-agent:googlebot。

disallow:告訴蜘蛛不要抓取某些文件或目錄。列如下面的代碼將阻止所有蜘蛛抓取/cgi-bin和/tmp/兩個(gè)目錄下的內(nèi)容及文件/aa/index.html:

user-agent:*

disallow:/cgi-bin/

disallow:/tmp/

disallow:/aa/index.html

disallow:禁止的目錄或文件必須分開(kāi)寫(xiě),每個(gè)一行,不能寫(xiě)成:

disallow:/cgi-bin/tmp/aa/index.html

下面的指令相當(dāng)于允許所有搜索引擎抓取任何內(nèi)容:

user-agent:*

disallow:

下面的代碼禁止除百度外的手游搜索引擎抓去任何內(nèi)容:

user-agent:baiduspider

disallow:

user-agent:*

disallow:/

allow:告訴蜘蛛應(yīng)該抓取某些文件。猶豫不指定就是允許抓取,allow:?jiǎn)为?dú)寫(xiě)沒(méi)有意義,allow和disallow配合使用,可以告訴蜘蛛某個(gè)目錄下大部分不允許抓取,只允許抓取一部分。例如下面的代碼將使蜘蛛不抓取/ab/目錄下其他目錄和文件,但允許抓取其中/cd/目錄下的內(nèi)容:

user-agent:*

disallow:/ab/

allow:/cd/

$通配符:匹配URL結(jié)尾的字符。例如下面的代碼將允許蜘蛛抓取以.html為后綴的URL:

user-agent:*

allow:.html$

下面的代碼將禁止百度抓去所有的.jpg文件。

user-agent:baiduspider

disallow:.jpg$

*通配符:告訴蜘蛛匹配任意一段字符。例如下面一段代碼將禁止蜘蛛抓取.html文件。

user-agent:*

disallow:html$

sitemaps位置:告訴蜘蛛xml網(wǎng)站地圖在哪里,格式為:

site:《網(wǎng)站地圖位置》

主流搜索引擎都遵守robots文件之靈,robots禁止抓取的文件搜索引擎將不訪問(wèn)不抓取,但要注意的是,被robots文件禁止的URL還是有可能出現(xiàn)在搜索結(jié)果中。只要有導(dǎo)入鏈接指向這個(gè)URL,搜索引擎就知道這個(gè)URL存在,雖然不會(huì)抓取頁(yè)面內(nèi)容,但是有可能以以下幾種形式顯示在搜索結(jié)果中:

只顯示URL,沒(méi)有標(biāo)題,描述。GG常這樣處理。

顯示開(kāi)放目錄或雅虎重要目錄收錄的標(biāo)題和描述。

導(dǎo)入鏈接的錨文字顯示為標(biāo)題和描述,百度常這樣處理。

要想使URL完全不出現(xiàn)在搜索結(jié)果中,需要使用頁(yè)面上的meta robots標(biāo)簽。

文章轉(zhuǎn)自:http://hi.baidu.com/bjjztyy/blog/item/a09e4ddbc7d1f8096227986b.html

標(biāo)簽: 搜索引擎收錄法則 seo優(yōu)化 robots文件 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:學(xué)SEO要會(huì)搭配:理論、觀察和實(shí)踐一樣不能少

下一篇:扭曲的內(nèi)容為王不可信 勿讓內(nèi)容成為優(yōu)化的累贅