中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺談屏蔽搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網(wǎng)頁(yè)的幾種思路

2019-03-21    來源:wuzhisong.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

網(wǎng)站建設(shè)好了,當(dāng)然是希望網(wǎng)頁(yè)被搜索引擎收錄的越多越好,但有時(shí)候我們也會(huì)碰到網(wǎng)站不需要被搜索引擎收錄的情況。

比如,你要啟用一個(gè)新的域名做鏡像網(wǎng)站,主要用于PPC 的推廣,這個(gè)時(shí)候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網(wǎng)站的所有網(wǎng)頁(yè)。因?yàn)槿绻R像網(wǎng)站也被搜索引擎收錄的話,很有可能會(huì)影響官網(wǎng)在搜索引擎的權(quán)重,這肯定是我們不想看到的結(jié)果。

以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網(wǎng)頁(yè)的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。

1、通過 robots.txt 文件屏蔽

可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對(duì)話)。我通過分析我自己博客的服務(wù)器日志文件,給出以下建議(同時(shí)歡迎網(wǎng)友補(bǔ)充):

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通過 meta tag 屏蔽

在所有的網(wǎng)頁(yè)頭部文件添加,添加如下語(yǔ)句:

<meta name="robots" content="noindex, nofollow">

3、通過服務(wù)器(如:Linux/nginx )配置文件設(shè)置

直接過濾 spider/robots 的IP 段。

小注:第1招和第2招只對(duì)“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分別泛指指遵守與不遵守 robots.txt 協(xié)議的 spider/robots),所以網(wǎng)站上線之后要不斷跟蹤分析日志,篩選出這些 badbot 的ip,然后屏蔽之。

這里有一個(gè)badbot ip 數(shù)據(jù)庫(kù):http://www.spam-whackers.com/bad.bots.htm

4、通過搜索引擎提供的站長(zhǎng)工具,刪除網(wǎng)頁(yè)快照

比如,有的時(shí)候百度不嚴(yán)格遵守 robots.txt 協(xié)議,可以通過百度提供的“網(wǎng)頁(yè)投訴”入口刪除網(wǎng)頁(yè)快照。百度網(wǎng)頁(yè)投訴中心:http://tousu.baidu.com/webmaster/add

如下圖是我的一個(gè)網(wǎng)頁(yè)投訴:

大概3天左右的時(shí)間過去,這個(gè)網(wǎng)頁(yè)的百度快照也被刪除,說明此種方法也能起效,當(dāng)然這是不得而為之,屬于亡羊補(bǔ)牢。

5、補(bǔ)充更新

可以通過檢測(cè) HTTP_USER_AGENT 是否為爬蟲/蜘蛛訪問,然后直接返回403 狀態(tài)碼屏蔽之。比如:由于api 權(quán)限與微博信息隱私保護(hù)原因,Xweibo 2.0 版本后禁止搜索引擎收錄。

關(guān)于如何屏蔽搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網(wǎng)頁(yè),您有其他什么更好的建議或者方法,也歡迎發(fā)表評(píng)論!期待與您交流。

本文作者:Bruce

原文地址:http://www.wuzhisong.com/blog/67/

版權(quán)聲明:歡迎轉(zhuǎn)載,但必須以超鏈接方式注明本文原始出處!

標(biāo)簽: 屏蔽搜索引擎蜘蛛 索引 網(wǎng)頁(yè)被收錄 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:從新手seo到漸漸推進(jìn)蓄勢(shì)待發(fā)之年

下一篇:二級(jí)目錄如何處理對(duì)SEO優(yōu)化效果最好