中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

robots是能否徹底屏蔽搜索蜘蛛爬行與索引呢?

2019-03-22    來(lái)源:huizhouseo.cn

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

說(shuō)到屏蔽搜索蜘蛛的抓取,自然而然的就會(huì)想到robots.txt文檔。robots.txt是什么?其實(shí)在此前筆者也已經(jīng)對(duì)此進(jìn)行了基礎(chǔ)的說(shuō)明。robots.txt是一種存放在網(wǎng)站空間根目錄下的文本文件,是一種協(xié)議,用來(lái)告訴搜索蜘蛛網(wǎng)站中哪些可被爬行抓取,哪些不可被爬行抓取。然而,在這里,筆者有著這么一個(gè)疑問(wèn),robots.txt是否能徹底屏蔽蜘蛛的爬行抓取呢?

robots.txt能屏蔽蜘蛛的爬行抓取

近日,好友遇到了這么一個(gè)問(wèn)題:“我明明用robots.txt屏蔽了wordpress中的目錄文件呀,為什么蜘蛛每日仍然照常爬行呢?”而后,筆者自然便查網(wǎng)站robots.txt文檔,以下便是對(duì)wordpress目錄屏蔽設(shè)置:

Disallow: /wp-admin

Disallow: /wp-content

Disallow: /wp-includes

在查看過(guò)后,發(fā)現(xiàn)了這么一個(gè)問(wèn)題,這是目錄文件屏蔽,然而,這屏蔽設(shè)置后邊卻似乎缺少了,而進(jìn)行咨詢時(shí),好友卻是這么認(rèn)為:“目錄文件前邊加上了/就可以了,后邊加不加都一樣的呀”。對(duì)此,筆者卻是另一種看法,在后邊加上與未加上/,對(duì)于蜘蛛而言是兩種概念,加上了是告訴蜘蛛,這是一個(gè)文件夾,而未加上即告訴蜘蛛這是一個(gè)文件,也因此導(dǎo)致明明在robots.txt上做好了設(shè)置,卻沒(méi)能有效的屏蔽。當(dāng)然這僅僅是筆者的個(gè)人看法。

繼而,好友聽(tīng)從建議將robots.txt修改為:

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

成功修改后便在百度站長(zhǎng)平臺(tái)進(jìn)行提交重新生成操作(需要注意的是,若不主動(dòng)提交生成,靠蜘蛛自行生產(chǎn)的話,耗時(shí)較長(zhǎng)的喔),在當(dāng)天也就生效了。隔日后再對(duì)日志進(jìn)行查看,發(fā)現(xiàn)蜘蛛對(duì)這三個(gè)wordpress下的目錄真的不再爬行抓取了。

從這么一點(diǎn)上看,在我們進(jìn)行網(wǎng)站SEO優(yōu)化之時(shí),著實(shí)不能忽略任何細(xì)節(jié),僅僅一個(gè),可帶來(lái)的卻是不一樣的效果。

robots.txt不能徹底屏蔽蜘蛛的爬行抓取

而在這一問(wèn)題解決后,好友在這文件屏蔽上卻又有了另一問(wèn)題:“明明把某個(gè)目錄屏蔽了呀,為什么蜘蛛還是能夠抓取收錄該目錄下的某個(gè)文件呢?”

那么,在這里就需要做一個(gè)說(shuō)明,robots.txt協(xié)議并非是一個(gè)標(biāo)準(zhǔn),一個(gè)規(guī)范,只是約定俗成而已罷了,通常搜索引擎會(huì)識(shí)別這個(gè)文件,但也有一些特殊情況。(如之前的360事件就不作為此次討論內(nèi)容)

無(wú)論是百度亦或是谷歌,某個(gè)頁(yè)面只要有其他網(wǎng)站鏈接到該頁(yè)面的話,同樣有可能會(huì)被索引和收錄。要想徹底屏蔽頁(yè)面文件被谷歌索引的話(即使有其他網(wǎng)站鏈接到該頁(yè)面文件),則需要在頁(yè)面head中插入noindex元標(biāo)記或x-robots-tag。如下:

<meta name=“googlebot” content=“noindex”>

當(dāng)谷歌蜘蛛看到頁(yè)面上著noindex的元標(biāo)記,就會(huì)將此頁(yè)從谷歌搜索結(jié)果中完全丟棄,無(wú)視是否還有其他頁(yè)鏈接到此頁(yè)。

而百度呢?對(duì)于百度而言,并不支持如谷歌那般通過(guò)noindex完全將網(wǎng)頁(yè)從索引上刪除,僅支持noarchive元標(biāo)記來(lái)禁止百度顯示網(wǎng)頁(yè)快照。具體語(yǔ)句如下:

<meta name=“Baiduspider” content=“noarchive”>

上面這個(gè)標(biāo)記只是禁止百度顯示該頁(yè)面快照,但百度仍會(huì)為其建索引,并在搜索結(jié)果中顯示網(wǎng)頁(yè)摘要。

眾所周知,淘寶網(wǎng)通過(guò)robots.txt全站屏蔽百度蜘蛛,可為什么我們?cè)诎俣人阉魈詫毦W(wǎng)時(shí)第一個(gè)結(jié)果也是淘寶網(wǎng)首頁(yè)地址呢?而在我們查看該頁(yè)面快照時(shí)卻是顯示空白?因此看來(lái),網(wǎng)站只能禁止百度快照的顯示,卻無(wú)法做到禁止百度為網(wǎng)頁(yè)建索引。

結(jié)束語(yǔ):

回到筆者在文章首段所說(shuō)到的疑問(wèn),robots.txt是否能徹底屏蔽蜘蛛的爬行抓取呢?相信在看到這么一個(gè)問(wèn)題,會(huì)有這么一部分朋友的回答是肯定的。而這只能說(shuō),我們都缺少了善于去發(fā)現(xiàn)的心,而對(duì)于沒(méi)能有效屏蔽蜘蛛抓取,只能說(shuō)明咱們的優(yōu)化工作做得不夠精細(xì)。

由這么兩個(gè)robots.txt的小問(wèn)題上,筆者認(rèn)為,阻止我們進(jìn)階為SEO高手的或許便是那善于發(fā)現(xiàn)問(wèn)題的心和精細(xì)化的執(zhí)行力。

文章來(lái)源:http://www.huizhouseo.cn/seo/823.html

標(biāo)簽: 蜘蛛抓取網(wǎng)站 網(wǎng)站收錄 網(wǎng)站優(yōu)化排名 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:百度外鏈工具全面開(kāi)放,影響了誰(shuí)?

下一篇:分類(lèi)信息租車(chē)頻道關(guān)鍵選擇分析案例