中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Google爬蟲:不僅索引鏈接 還可以運(yùn)行js代碼

2019-03-08    來源:cnbeta

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

一直以來Google的搜索爬蟲就具有閱讀JavaScript代碼的功能,但是多年以來我們一直都不清楚Google的爬蟲是否真正理解了其正在抓取的東西或者說它僅僅只是在易于理解的數(shù)據(jù)結(jié)構(gòu)中對(duì)各種鏈接進(jìn)行呆板的檢索。本周五,一位Google的發(fā)言人向《福布斯》確認(rèn)Google所作的遠(yuǎn)遠(yuǎn)超過對(duì)js代碼的簡單分析。這位發(fā)言人表示:“Google能夠分析并理解某些JavaScript”。

Google的表述讓我們意識(shí)到其爬蟲所作的工作也許不僅僅只是獲得對(duì)頁面的相關(guān)鏈接,還能夠像人一樣與各類程序發(fā)生互動(dòng)——發(fā)現(xiàn)Bing這類搜索引擎所不能發(fā)現(xiàn)的網(wǎng)絡(luò)世界。而這意味著,Google重新定義了搜索引擎。在Google的搜索結(jié)果里面只有很少的js代碼,而且Google也將這種js代碼的解釋功能做了很多保留。比如在Google站點(diǎn)搜索(Google‘s Site Search)的文檔顯示其不能夠索引帶有js代碼的內(nèi)容。一本關(guān)于索引的入門教材這樣寫道:它(Google爬蟲)“不能夠處理帶有富媒體的內(nèi)容或者是動(dòng)態(tài)網(wǎng)頁”。仔細(xì)檢查服務(wù)器日志中的記錄我們便可以發(fā)現(xiàn)Google現(xiàn)在索引那些并不是直接包含在js代碼里面的鏈接,Google的爬蟲只有確定自己能夠運(yùn)行部分代碼的時(shí)候才能明白整段代碼到底是什么意思。

Mark Drummond,一家獨(dú)立搜索引擎公司W(wǎng)owd的首席執(zhí)行官(我們?cè)诮衲曛暗碾s志中采訪過他)在一封郵件中告訴我們理解js代碼“是一個(gè)非常深刻、難度極大和一場(chǎng)經(jīng)典的計(jì)算科學(xué)難題。”他解釋道Google的努力在于它能夠發(fā)現(xiàn)js代碼在網(wǎng)頁中是否存在停止運(yùn)行的情況。他表示“停止運(yùn)行的問題是無法判定的”,他說迄今為止還沒有已知的算法能夠在任何程序的任何時(shí)間點(diǎn)告訴我們?cè)摮绦蚴欠裣萑肓怂姥h(huán),而且數(shù)學(xué)上已經(jīng)證明了這一點(diǎn)。Drummond自己的公司通過人工的方式檢索其索引并標(biāo)明是否有可能簡化這個(gè)復(fù)雜的問題,同時(shí)判斷一個(gè)網(wǎng)絡(luò)程序是否向另外的程序發(fā)起了數(shù)據(jù)請(qǐng)求。也許,這正是Google現(xiàn)在在做的事情。

另一位同Google接近的搜索引擎人士也認(rèn)同Drummond關(guān)于理解js代碼復(fù)雜性的看法。他認(rèn)為用一個(gè)程序去分析另一個(gè)程序是很困難的事情,執(zhí)行js代碼幾乎是現(xiàn)階段能夠做到的極限了。

而Google在六月發(fā)布的改進(jìn)版搜索算法(即Caffeine)似乎開始能夠理解部分js代碼了。如果這是真的,那么Google的工程師已經(jīng)教會(huì)了其爬蟲如何執(zhí)行部分js代碼。這真是一大突破!

標(biāo)簽: 搜索優(yōu)化 JS代碼 Google爬蟲 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:當(dāng)外鏈以成往事 互聯(lián)網(wǎng)需要低碳

下一篇:挖掘網(wǎng)站長尾關(guān)鍵詞的幾個(gè)方法