中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

優(yōu)化WordPress的robots.txt讓博客更健康

2019-03-15    來源:yihuiblog.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

WordPress目前全球有數(shù)千萬(wàn)用戶,包括獨(dú)立博客和博客平臺(tái),且很多人把Wordpress開發(fā)成CMS來使用。Wordpress程序的優(yōu)越性就不用多說了。

講Wordpress的robots.txt優(yōu)化之前,先對(duì)robots.txt的相關(guān)知識(shí)普及一下。

robots.txt是一個(gè)存放在網(wǎng)站根目錄下的純文本文件(ASCII編碼),這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍,一定程度上保護(hù)站點(diǎn)的安全和隱私。同時(shí)也是網(wǎng)站優(yōu)化利器,例如屏蔽捉取站點(diǎn)的重復(fù)內(nèi)容頁(yè)面。

robots.txt目前并不是一種標(biāo)準(zhǔn),只是一種協(xié)議!所以現(xiàn)在很多搜索引擎對(duì)robots.txt里的指令參數(shù)都有不同的看待。

使用robots.txt需要注意的幾點(diǎn)地方:

1、指令區(qū)分大小寫,忽略未知指令,下圖是本博客的robots.txt文件在Google管理員工具里的測(cè)試結(jié)果;

好像還是不支持中文等非英文字符,如需添加中文地址指令,請(qǐng)先轉(zhuǎn)碼(UTF-8和GBK會(huì)有不同的轉(zhuǎn)碼結(jié)果)。

如果想第一時(shí)間知道自己寫的robots.txt是否規(guī)范,可以用Google管理員工具的“像 Googlebot 一樣抓取”功能。捉取后,點(diǎn)擊“成功”那個(gè)鏈接進(jìn)去,就可以看到Google眼中的robots.txt了。

2、每一行代表一個(gè)指令,空白和隔行會(huì)被忽略;

3、“#”號(hào)后的字符參數(shù)會(huì)被忽略;

4、有獨(dú)立User-agent的規(guī)則,會(huì)排除在通配“*”User agent的規(guī)則之外;

5、可以寫入sitemap文件的鏈接,方便搜索引擎蜘蛛爬行整站內(nèi)容。

6、盡量少用Allow指令,因?yàn)椴煌乃阉饕鎸?duì)不同位置的Allow指令會(huì)有不同看待。

想了解更多關(guān)于robots.txt的“標(biāo)準(zhǔn)化”說明,可以查看robots.txt官網(wǎng)和Google關(guān)于robots.txt的說明頁(yè)。

轉(zhuǎn)入正題。因?yàn)閃ordpress建站設(shè)置不同的固定鏈接(或者安裝不同的插件),在寫指令的時(shí)候,相應(yīng)的地址會(huì)不同。本博客固定鏈接設(shè)置為:/a/%post_id%.html,供參考。

下面開始Wordpress的robots.txt優(yōu)化之旅,同時(shí)請(qǐng)下載本博客的robots.txt邊看邊學(xué)優(yōu)化。

User-agent: *

一般博客的robots.txt指令設(shè)置都是面對(duì)所有spider程序,用通配符“*”即可。如果有獨(dú)立User-agent的指令規(guī)則,盡量放在通配“*”User agent規(guī)則的上方。

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

屏蔽spider捉取程序文件,同時(shí)也節(jié)約了搜索引擎蜘蛛資源。

Disallow: /*/trackback

每個(gè)默認(rèn)的文章頁(yè)面代碼里,都有一段trackback的鏈接,如果不屏蔽讓蜘蛛去捉取,網(wǎng)站會(huì)出現(xiàn)重復(fù)頁(yè)面內(nèi)容問題。

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

頭部代碼里的feed鏈接主要是提示瀏覽器用戶可以訂閱本站,而一般的站點(diǎn)都有RSS輸出和網(wǎng)站地圖,故屏蔽搜索引擎捉取這些鏈接,節(jié)約蜘蛛資源。

Disallow: /?s=*

Disallow: /*/?s=*

這個(gè)就不用解釋了,屏蔽捉取站內(nèi)搜索結(jié)果。站內(nèi)沒出現(xiàn)這些鏈接不代表站外沒有,如果收錄了會(huì)造成和TAG等頁(yè)面的內(nèi)容相近。

Disallow: /?r=*

屏蔽留言鏈接插件留下的變形留言鏈接。(沒安裝相關(guān)插件當(dāng)然不用這條指令)

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

屏蔽捉取任何圖片文件,在這里主要是想節(jié)約點(diǎn)寬帶,不同的網(wǎng)站管理員可以按照喜好和需要設(shè)置這幾條指令。

Disallow: /?p=*

屏蔽捉取短鏈接。默認(rèn)頭部里的短鏈接,百度等搜索引擎蜘蛛會(huì)試圖捉取,雖然最終短鏈接會(huì)301重定向到固定鏈接,但這樣依然造成蜘蛛資源的浪費(fèi)。

Disallow: /*/comment-page-*

Disallow: /*?replytocom*

屏蔽捉取留言信息鏈接。一般不會(huì)收錄到這樣的鏈接,但為了節(jié)約蜘蛛資源,也屏蔽之。

Disallow: /a/date/

Disallow: /a/author/

Disallow: /a/category/

Disallow: /?p=*&preview=true

Disallow: /?page_id=*&preview=true

Disallow: /wp-login.php

屏蔽其他的一些形形色色的鏈接,避免造成重復(fù)內(nèi)容和隱私問題。

Sitemap:http://***.com/sitemap.txt

網(wǎng)站地圖地址指令,主流是txt和xml格式。告訴搜索引擎網(wǎng)站地圖地址,方便搜索引擎捉取全站內(nèi)容,當(dāng)然你可以設(shè)置多個(gè)地圖地址。要注意的就是Sitemap的S要用大寫,地圖地址也要用絕對(duì)地址。

上面的這些Disallow指令都不是強(qiáng)制要求的,可以按需寫入。也建議站點(diǎn)開通谷歌管理員工具,檢查站點(diǎn)的robots.txt是否規(guī)范。

本站robots.txt里的指令解釋會(huì)永久保留,http://yihuiblog.com/robots.txt。大家可以收藏,方便修改的時(shí)候用作參考。

標(biāo)簽: sitemap robots.txt 搜索引擎蜘蛛 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:如何做網(wǎng)站優(yōu)化方案四:網(wǎng)站主頁(yè)設(shè)計(jì)

下一篇:實(shí)例分享百度百科添加外鏈的詳解步驟