中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Google通過提交表單抓取新頁面

2019-03-05    來源:點石互動

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

Google雖然已經是抓取頁面最多的搜索引擎,但還是不滿足,因為有很多網(wǎng)頁和信息是很難被發(fā)現(xiàn)和抓取的。這也就是為什么做網(wǎng)站時一定要注意搜索引擎友好。

現(xiàn)在Google開始提供提交表單(form)發(fā)現(xiàn)其后的網(wǎng)頁。本想寫個詳細說明,剛好看到幻滅已經寫了,就直接引用主要內容如下。

之前我們已經知道Googlebot除了能抓取文本、視頻、音頻、Flash等類型的內容外,它還可以通過JS代碼抓取鏈接。并且在未來,Googlebot還有望直接識別圖片及視頻里的文字。為了進一步抓取互聯(lián)網(wǎng)的內容,Google宣布Googlebot已可通過提交表格抓取更多內容。

據(jù)Google所述,當前Googlebot正對一小部分高質量網(wǎng)站進行表格提交的試驗。當Googlebot發(fā)現(xiàn)這些網(wǎng)站上有HTML表格時(即檢測到時),它就會自動從網(wǎng)站上選擇一些詞語輸入表格的文本框里,然后再選擇不同的按鈕、勾選項及驗證項,再提交表格。提交表格后一旦 Googlebot認為出現(xiàn)的新內容是合法并且是有趣及獨特的,它就可能會把內容抓取進Google的搜索結果索引數(shù)據(jù)庫里。這意味著Googlebot 現(xiàn)在已經懂得通過提交表格而獲得新內容。

同時Google也強調,如果網(wǎng)站的robots.txt文件里禁止了對表格進行了隱藏,不希望表格提交后所產生的鏈接被抓取,那Googlebot 是不會抓取的。此外,當前Googlebot只提交GET類型的表格。比如當表格需要輸入用戶個人信息比如密碼、用戶名、聯(lián)系人等,Googlebot是 會自動略過這些表格的。

這種表格抓取當前只是一個小范圍的試驗,Google表示不會對網(wǎng)站造成影響。既不會對網(wǎng)站的PR值造成影響,也不會對網(wǎng)站的正常抓取、排名等造成影響。

Matt Cutts也寫了個帖子舉例說明這么做的好處。有很多網(wǎng)站首頁只是以表單方式列出公司下屬的各地區(qū)分站,沒有以鏈接形式列出各分站。這種網(wǎng)站以前是不能被深度收錄的,因為Google不提交表單,就發(fā)現(xiàn)不了隱藏在表單后面的URL。

這當然給一些網(wǎng)站的收錄創(chuàng)造了機會,是否也會對某些公司網(wǎng)站帶來一定的安全風險?網(wǎng)站某部分不想被收錄的話,趕緊用robots.txt文件禁止吧。

標簽: Google 提交表單 抓取新頁面 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Google對選擇搜索引擎優(yōu)化排名公司的建議

下一篇:Google、Baidu搜索結果頁面點擊分配