robots.txt的寫法和利用百度站長平臺工具自動生成
2019-03-22 來源:445400.com

百度站長平臺提供了一個很好的robots.txt自動生成工具,利用它我們可以很方便的寫出robots.txt,通過robots.txt阻止搜索引擎收錄你不想要被收錄的頁面及目錄,還可以阻止及引導(dǎo)蜘蛛爬行更多的頁面,減少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的頁面被收錄。
前面我們介紹了通過IIS日志分析讓你更好的了解網(wǎng)站運行情況,可以通過IIS日志查詢到蜘蛛爬行中返回404狀態(tài)的頁面,這里我們可以用robots.txt禁止蜘蛛爬行。
百度站長平臺注冊及網(wǎng)站驗證方法這里就不說了,下面講講Robots工具的使用方法:
通過上圖可以看到,蜘蛛返回404狀態(tài)的頁面都是網(wǎng)站改版前使用的網(wǎng)址,現(xiàn)在都不存在了,但是搜索引擎數(shù)據(jù)庫還保存有記錄,所以每天蜘蛛還是會來抓取這個頁面的數(shù)據(jù)的,還有的時候是蜘蛛順著別的網(wǎng)站上面留下的外鏈爬過來的。
下面我們演示怎樣將通過光年SEO日志分析軟件生成的日志報告中顯示的404狀態(tài)不存在的頁面都屏蔽掉,不讓蜘蛛抓取。
首先登陸百度站長平臺,點擊左邊菜單的“Robots工具”進(jìn)入Robots自動生成界面。
然后將上圖中404狀態(tài)的頁面路徑整理后復(fù)制到Robots工具輸入框中。
User-agent底下選擇“所有”,狀態(tài)選擇“不允許抓取”,輸入路徑后點擊后面的“創(chuàng)建”,上圖我們測試了兩個路徑,分別是目錄和一個文件,可以一下子輸入多個路徑,建議先在記事本里面將網(wǎng)址整理好再提交,一行一個路徑。
點擊“創(chuàng)建”以后,可以看到,底下的robots.txt內(nèi)容中出現(xiàn)的代碼,而且百度站長平臺Robots工具有一個好處就是,不論你是多層目錄還是網(wǎng)站單文件頁面,它都自動識別后排序生成,不會造成單頁面和目錄順序錯亂造成蜘蛛抓取robots.txt的時候出現(xiàn)錯誤,所以我們大不必?fù)?dān)心格式問題了。
將所有需要屏蔽的頁面或路徑都生成以后,點擊底下的“下載”,然后將robots.txt上傳到網(wǎng)站根目錄就可以了。
小提示:robots.txt上傳以后,我們可以通過robots檢測工具來實驗一下robots.txt是否有效或者有什么錯誤,CHINAZ、SEOWHY、愛站等網(wǎng)站都有相關(guān)工具的。
建議用一個記事本收集404狀態(tài)頁面,然后整理存檔,每次發(fā)現(xiàn)IIS日志中有新的404頁面出現(xiàn),就在以前的存檔里面查找一下是否有重復(fù),沒有重復(fù)就可以直接添加到robots.txt文件中了。
本文由利川在線http://www.445400.com原創(chuàng),轉(zhuǎn)載請注明出處。
標(biāo)簽: robots.txt 提高蜘蛛爬行
版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。