中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

復雜的1秒 圖解Google搜索技術

2018-06-11    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

谷歌(Google),一個非常成功,但又十分神秘,而且?guī)в袔追掷硐牖实幕ヂ?lián)網(wǎng)搜索巨人,它還是一家相當了不起的廣告公司,谷歌首頁上的那個搜索按鈕是其年贏利200億美元的殺手級應用,也是Internet首屈一指的商業(yè)和技術神話。近日國外一家網(wǎng)站(PPCblog)精心繪制了一張谷歌搜索流程圖,這張流程圖展示了每天擁有3億次點擊量的Google搜索按鈕背后搜索引擎在那不到1秒的響應時間內(nèi)所進行的處理。

在你點擊了Google搜索按鈕之后到看到結(jié)果這不足1秒鐘的時間內(nèi),它做了什么?互聯(lián)網(wǎng)上的內(nèi)容如何被谷歌找到?什么樣的內(nèi)容會被收錄?想必大家一定都想知道谷歌搜索按鈕背后的秘密吧。別急,開始之前我們先來看一下神秘的谷歌數(shù)據(jù)中心。

谷歌自家設計服務器

谷歌的數(shù)據(jù)中心高度機密,我們所能得到的信息十分有限。我們先來看幾個數(shù)據(jù):谷歌在美國本土的數(shù)據(jù)中心有19個以上,另有17個分布在美國以外的世界各地;每個數(shù)據(jù)中心有50萬平方英尺(46450平方米),建造一個數(shù)據(jù)中心要花費約6億美元;谷歌的數(shù)據(jù)中心是世界上最高效的設施之一,非常環(huán)保;數(shù)據(jù)中心使用50-100兆瓦的電力,考慮到冷卻問題,通常建在便于用水的地方;谷歌的服務器被安置在標準的海運集裝箱中,每個集裝箱可容納1160臺服務器。關于谷歌的數(shù)據(jù)中心,我們就只知道這么多了。

神秘的谷歌數(shù)據(jù)中心
圖1 谷歌自家設計的服務器 

神秘的谷歌數(shù)據(jù)中心
圖2服務器自備電池

谷歌擁有的數(shù)十萬臺服務器都是自己設計的,它們認為這是公司的核心技術之一。每臺服務器都配有一顆12伏電池,確保萬一主電源斷電時還可持續(xù)供電。

至于為什么為每臺服務器配備電池,谷歌的回答是成本。一般數(shù)據(jù)中心多依賴UPS(不間斷電源系統(tǒng)),這基本上算是大電池,會在主電力失效而發(fā)電機還來不及啟動時暫時協(xié)助供電。而谷歌認為直接把電力內(nèi)建到服務器更便宜,而且成本能直接跟服務器數(shù)量相符合,如此便不會浪費多余的容量。另一個原因是效率,大型UPS可達92-95%的效率,這意味著許多電力還是被浪費掉了,但谷歌采用的內(nèi)建電池作法效率超過99.9%。
 

神秘的谷歌數(shù)據(jù)中心
圖3 谷歌的服務器被安裝在集裝箱中,每個集裝箱容納1160臺

神秘的谷歌數(shù)據(jù)中心
圖4工作中的谷歌員工

谷歌如何找到并收錄你上傳的內(nèi)容?

谷歌如何找到并收錄你上傳的內(nèi)容?
圖5發(fā)生在用戶搜索之前

谷歌使用它的"爬蟲"工具在一刻不停地周游互聯(lián)網(wǎng)世界的每一個角落。上圖中間的6個步驟依次描繪了從內(nèi)容出現(xiàn)在互聯(lián)網(wǎng)上到內(nèi)容被收錄進谷歌的數(shù)據(jù)庫供用戶檢索這一過程,其中第2、3、5步又有許多分支,所有這些都是為了建立一個信息"集匯池",這是第一個階段的工作,第二個階段才是從這個"池"中為用戶篩選他們所需要的內(nèi)容。接下來我們一步步看谷歌是如何搜集并整合信息的。

1、網(wǎng)友上傳內(nèi)容,比如博客、微博或其它類型的WEB內(nèi)容被更新到網(wǎng)上。

2、Google的"爬蟲"發(fā)現(xiàn)了這一更新。在這一步,谷歌加入了許多判斷機制,主要包括以下幾點:

2.1、Google的"爬蟲"沿著鏈接路徑(URL)周游互聯(lián)網(wǎng),但如果沒有URL指向某一站點,則這一站點將不會被索引。

2.2、如果你在robots.txt中設置了不許索引(部分或全部),Google的"爬蟲"將不會抓取你站點上的相應內(nèi)容。

2.3、如果指向你站點的連接上有nofollow標簽,Google的"爬蟲"將不會從這些URL路徑來到你的站點。如下圖:

谷歌如何找到并收錄你上傳的內(nèi)容?谷歌如何找到并收錄你上傳的內(nèi)容?
圖6 圖7 網(wǎng)頁原代碼中的nofollow標簽

URL就像是Google"爬蟲"周游互聯(lián)網(wǎng)時的路標,谷歌當然希望收錄有價值的網(wǎng)頁,所以必須采取一種機制分辨哪些URL是垃圾信息,nofollow標簽正是谷歌所倡導的方法之一。網(wǎng)站的合法更新人員幾乎不會上傳垃圾URL,但它們往往大量出現(xiàn)在評論跟帖和論壇中,就像上圖中的例子,這些URL對于谷歌來講是沒有意義的,為了防止"爬蟲"經(jīng)由這些URL到達某一站點,在源代碼中它們都會自動被加上nofollow標簽。

2.4、Google也能通過blog軟件或xml站點地圖找到你的網(wǎng)站。

2.5、從權威性越高的網(wǎng)站鏈接到你網(wǎng)站的URL越多,你的網(wǎng)站的權威性也就越高,但Google"爬蟲"始終會忽略被加上了nofollow標簽的URL。

上面這幾點大概就是谷歌在收錄信息時對內(nèi)容提出的"準入"要求,看來在一些開放的地方(比如論壇)大量發(fā)布URL以求讓谷歌關注,這一小伎倆是沒有什么效果的。以上是信息被谷歌收錄之前所發(fā)生的事,一旦信息被谷歌收錄了會發(fā)生什么呢?請往下看:

谷歌如何找到并收錄你上傳的內(nèi)容?
圖8信息"素材"的存儲

3、信息被谷歌收錄之后當然也要進行加工處理,主要包括兩個步驟,一是信息"素材"的存儲,二是對收錄的信息按要求進行優(yōu)化,上圖描繪了"素材"的存儲方式,主要包括兩部分:網(wǎng)頁標題和鏈接數(shù)據(jù)被保存在一個索引中,用于廣度優(yōu)先搜索(可見文章標題是多么的重要,做編輯的一定要有駕馭標題黨的覺悟);網(wǎng)頁內(nèi)容保存在另一個索引中,以用于檢索頻率不高的長尾、個性化、深度優(yōu)先搜索。

此時可能你已經(jīng)明白了,當你用谷歌搜索時,你并沒有在檢索時時更新的互聯(lián)網(wǎng),而是在檢索谷歌的緩存,只是谷歌更新的速度非常快,以讓其緩存盡量與互聯(lián)網(wǎng)上的內(nèi)容同步。

谷歌如何找到并收錄你上傳的內(nèi)容?
圖9優(yōu)化已收錄的信息

4、谷歌基于URL評估域名和網(wǎng)頁的總體權威性。

5、檢查網(wǎng)頁以防止作弊行為,包括以下幾點:

5.1、谷歌的搜索質(zhì)量和反垃圾信息審查。

5.2、1萬多遠程測試用戶評價搜索結(jié)果的質(zhì)量。

5.3、谷歌征請用戶對有PageRank訛詐嫌疑的垃圾信息進行舉報。

5.4、谷歌根據(jù)數(shù)字千年版權法(DMCA)去除盜版內(nèi)容。

6、在對頁面進行分析之后,每個頁面都被附加上很多用于輔助用戶搜索的數(shù)據(jù)片。

從信息出現(xiàn)在互聯(lián)網(wǎng)上到被谷歌收錄,然后谷歌對這些數(shù)據(jù)進行分析優(yōu)化,至此,一個實時更新的互聯(lián)網(wǎng)信息"集匯池"就建立起來了,可以說谷歌存儲著整個互聯(lián)網(wǎng)的快照。以上就是我們在按谷歌搜索按鈕之前它所做的事情,接下來我們看一下谷歌如何響應用戶的搜索請求,另外谷歌的廣告是如何來到我們面前的,不要忘記,谷歌可是靠廣告營生的。

只要有人用谷歌的服務它就能從中賺錢,就怕像安卓(Android)手機系統(tǒng)那樣,有些流氓廠家把安卓裝在了自己的智能手機中,但是把其上谷歌的各種服務全部抹掉,改用自己的服務,這樣谷歌當然不干了,所以安卓一更新,這些流氓手機廠家就緊張。

谷歌如何幫助用戶進行搜索?

谷歌如何幫助用戶進行搜索?
圖10從用戶開始檢索到生成初步結(jié)果

從用戶開始檢索到生成初步結(jié)果(這時的結(jié)果并不會直接呈現(xiàn)給用戶),經(jīng)歷了4個步驟:

1、用戶發(fā)出搜索請求。谷歌搜索質(zhì)量工程師PatrickRiley說:在大多數(shù)搜索中,你的搜索處于多個并行的控制過程或谷歌實驗室的創(chuàng)新項目組過程中,可以說每一個查詢請求都會參與一些谷歌的創(chuàng)意實驗。我們都是小白鼠?

2、谷歌會對用戶輸入的關鍵詞提供一些建議。

3、谷歌會用同義詞匹配與你的搜索關鍵詞語義相近的查詢結(jié)果。

4、生成初步的查詢結(jié)果,雖然谷歌宣稱可以找到成千上萬的相關結(jié)果,但一般只顯示不到1000條,同時查詢結(jié)果將被進行本地化處理,本土站點在查詢結(jié)果中優(yōu)先出現(xiàn)。

搜索結(jié)果將如何被優(yōu)化?

1、對查詢結(jié)果按權威性和PageRank進行排序,重復的查詢結(jié)果被剔除。此時的查詢結(jié)果已接近最終形態(tài),在這一基礎上,有兩個進程將分開進行--查詢結(jié)果優(yōu)化和為其匹配相應的廣告。我們先來看查詢結(jié)果優(yōu)化。
 

搜索結(jié)果將如何被優(yōu)化?
圖11對查詢結(jié)果進行過濾處理

2、對查詢結(jié)果進行過濾處理。包括以下幾點:

2.1、對通常的查詢,谷歌會把相關的專題性垂直搜索結(jié)果(比如新聞、購物、視頻、書籍、地圖等)也加到返回的查詢結(jié)果中。

2.2、個性化,用戶訪問過的網(wǎng)站在查詢結(jié)果列表中會更靠上

2.3、大量使用錨點的網(wǎng)站有可能被從查詢結(jié)果中刪除

2.4、如果網(wǎng)頁被其他高PageRank的網(wǎng)站引用,則網(wǎng)頁的重要性會大大提高。

2.5、趨勢分析:對搜索流量爆增或有大量新聞的搜索關鍵詞,谷歌會在新的查詢結(jié)果中增加額外的PageRank權值。

2.6、同一個域名下的多個網(wǎng)頁如果具有相同的PageRank會被歸為一組。

2.7、查詢結(jié)果最終形成(將與廣告一同顯示)

搜索結(jié)果與廣告

搜索結(jié)果如何與廣告相結(jié)合?
圖12 用戶所搜索的內(nèi)容如何與廣告相結(jié)合?

1、Google根據(jù)關鍵詞、廣告類型、用戶所處位置找出相關的被競價拍賣的關鍵詞廣告

1.1、關鍵詞廣告必須遵守當?shù)胤蓷l文。廣告業(yè)主的非法廣告將被取締,如果關鍵詞的搜索流量過低或關鍵詞廣告點擊量偏低,則會被自動禁用,出于商業(yè)策略,像亞馬遜這樣的客戶會給予優(yōu)惠折扣。

1.2、關鍵詞相關廣告按收益潛力排序。

1.3、對廣告業(yè)主來說廣告內(nèi)容一般是固定的,但有時使用動態(tài)關鍵詞使關鍵詞廣告與搜索關鍵詞相關度更高。一些廣告允許增加附屬信息,比如網(wǎng)站鏈接、電話號碼、產(chǎn)品鏈接、地址等。

1.4、如果廣告擁有相當高的點擊率,則會顯示在搜索結(jié)果列表的上方,以使其更顯眼。

1.5、其余的廣告依序顯示在頁面右側(cè)

經(jīng)過上述一系列復雜的信息處理過程,最終返回給用戶的是一個個性化的、具備地理位置特征的、布局簡潔的查詢結(jié)果頁面,當然還精確匹配了廣告,所有這些步驟在總共不到1秒的時間內(nèi)完成,每天3億次的點擊量給Google帶來了超過200億美元的年收入

關于精確廣告匹配的小例子,請看下圖:
 

搜索結(jié)果如何與廣告相結(jié)合?
圖13思科路由器的廣告北京搜索結(jié)果

搜索結(jié)果如何與廣告相結(jié)合?
圖14思科路由器的廣告廣州搜索結(jié)果

海芯博業(yè)的廣告下面標注了北京市三個字,可見這是一個地區(qū)性的廣告推廣,在廣州搜索結(jié)果中不可見。

谷歌官方對其搜索技術的敘述

我們搜索技術的后端軟件會在服務器側(cè)觸發(fā)一系列執(zhí)行時間不到1秒的并行計算,谷歌問世前的傳統(tǒng)搜索引擎的搜索結(jié)果嚴重依賴于關鍵詞在頁面上出現(xiàn)的頻度,我們使用了200多個指標信號(其中包括我們擁有專利的PageRank頁面等級加權算法)用來檢查萬維網(wǎng)的鏈接結(jié)構并決定網(wǎng)頁的重要程度。

我們假定一個網(wǎng)頁的重要程度取決于別的頁面對它的引用,就像學術論文中的引用指數(shù)一樣,重要的論文總是會被很多其他論文引用。然后我們再根據(jù)搜索條件進行超文本匹配分析(對"爬蟲"抓取的頁面內(nèi)容進行關鍵詞倒排索引檢索)確定跟搜索請求最相關的網(wǎng)頁。綜合最重要的網(wǎng)頁和跟搜索請求最相關的網(wǎng)頁兩個方面,我們就能按重要程度和用戶搜索請求相關程度把查詢結(jié)果排序后呈現(xiàn)給我們的用戶。

附:Googlegraphic原圖。

谷歌官方對其搜索技術的敘述
圖15 Googlegraphic原圖

標簽: Google 標準 代碼 服務器 谷歌 互聯(lián)網(wǎng) 美國 數(shù)據(jù)庫 搜索 搜索引擎 推廣 網(wǎng)站 問題 用戶 優(yōu)惠 域名

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:精簡企業(yè)郵件歸檔 優(yōu)化企業(yè)郵件服務

下一篇:IBM約17億$收購數(shù)據(jù)分析技術公司