中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

石頭誋:神奇的robots見證網(wǎng)站的興衰

2019-03-18    來源:移動(dòng)小鬼

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

很早就答應(yīng)給啊彬?qū)懸黄恼碌,感謝他對(duì)我的一個(gè)幫助,但是一直到現(xiàn)在也沒有寫出來,前幾天看到卓少問了一個(gè)問題關(guān)于robots的問題,給大家整理了一下robots的一些情況。robots.txt文件放在網(wǎng)站根目錄下,是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。每個(gè)網(wǎng)站都應(yīng)該有一個(gè)robots,它告訴搜索引擎我的網(wǎng)站里有哪些東西是不允許抓取的,有哪些頁面是歡迎爬行與抓取。

robots的幾種作用:

1.屏蔽所有的搜索引擎抓取信息,如果你的網(wǎng)站只是你的私密性的網(wǎng)站,不想太多的人知道的話,可以利用robots屏蔽掉所有的搜索引擎,例如你寫的私人博客。你就可以把搜索引擎全都屏蔽掉

User-agent:*

Disallow: /

2.如果你只想某一個(gè)搜索引擎抓取你的信息,這個(gè)時(shí)候就可以用robots進(jìn)行設(shè)置,例如:我只想我的網(wǎng)站被百度這個(gè)收錄,而不想被別的搜索引擎收錄。就可以利用robots進(jìn)行設(shè)置

User-agent: Baiduspider

Allow:

User-agent: *

Disallow: /

3.可以利用各種通配符對(duì)網(wǎng)站進(jìn)行相對(duì)應(yīng)的調(diào)配,例如我不想網(wǎng)站抓取我的所有圖片,這個(gè)時(shí)候就可以運(yùn)用$來進(jìn)行設(shè)置。一般我們常見的圖片的格式是BMP、JPG、GIF、JPEG等格式。這個(gè)時(shí)候設(shè)置就是:

User-agent: *

Disallow: /.bmp$

Disallow: /.jpg$

Disallow: /.gif$

Disallow: /.jpeg$

4.還可以利用*來屏蔽掉相關(guān)的URL,有些網(wǎng)站不允許搜索引擎抓取動(dòng)態(tài)地址的時(shí)候可以利用這個(gè)*通配符來進(jìn)行匹配設(shè)置。一般情況下動(dòng)態(tài)URL的有一個(gè)特點(diǎn)就是有“?”這個(gè)時(shí)候我們就可以利用這個(gè)特性來進(jìn)行匹配的屏蔽:

User-agent: *

Disallow: /*?*

5.如果網(wǎng)站改版了,整個(gè)文件夾都沒有了的時(shí)候,這個(gè)情況下就要考慮屏蔽掉整個(gè)文件夾。我們可以運(yùn)用robots來對(duì)這整個(gè)的文件夾進(jìn)行屏蔽,例如網(wǎng)站里的ab文件夾因改版全都給刪掉了,這個(gè)時(shí)候就可以這樣子設(shè)置:

User-agent: *

Disallow: /ab/

6.如果網(wǎng)站里有一個(gè)文件夾不想被收錄,但是在這個(gè)文件夾里面有一個(gè)信息是允許被收錄。那可以運(yùn)用robots的allow進(jìn)行設(shè)置。例如我網(wǎng)站里ab文件夾不允許搜索引擎抓取,但是在ab文件夾里面又有一個(gè)信息cd是允許被抓取的,這個(gè)時(shí)候就可以運(yùn)用robots進(jìn)行設(shè)置:

User-agent: *

Disallow: /ab/

Allow:/ab/cd

7.可以在robots里定義出網(wǎng)站地圖的位置,有利于網(wǎng)站的收錄。

sitemap:<網(wǎng)站地圖的位置>

8.有的時(shí)候你會(huì)發(fā)現(xiàn)我的網(wǎng)站里設(shè)置了robots但是還發(fā)現(xiàn)其收錄了這個(gè)URL地址,這個(gè)的原因是因?yàn)檫@個(gè)搜索引擎的蜘蛛是通過URL爬行到網(wǎng)頁的一般 google抓取這樣子的URL的時(shí)候是不帶title與描述的,但是百度抓取這個(gè)URL會(huì)帶上title與描述,所以有很多有人會(huì)說我設(shè)置了 robots但是沒有效果。實(shí)際情況是抓取了這個(gè)鏈接而沒有收錄這個(gè)頁面內(nèi)容。

網(wǎng)站的首頁權(quán)重是最高的,權(quán)重是靠鏈接傳遞的,我們?cè)O(shè)置robots是為了更好的把權(quán)重傳遞給那些需要有很高權(quán)重的頁面,而有一些頁面則是不需要搜索引擎抓取和爬行的。

本文版權(quán)歸石頭誋所以,轉(zhuǎn)載請(qǐng)保留http://www.mobkid.com/鏈接

標(biāo)簽: robots文件 搜索引擎蜘蛛 網(wǎng)站頁面優(yōu)化 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:淺析企業(yè)站內(nèi)部權(quán)重分配問題

下一篇:網(wǎng)站優(yōu)化案例策劃分享