中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

雅虎:數(shù)據(jù)庫大小比拼唯我獨尊

2018-06-11    來源:

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
雅虎谷歌這兩大搜索引擎的巨頭一直都在為各種頭銜你搶我奪,爭吵不休。例如,若干年前關(guān)于誰擁有全球最大的網(wǎng)頁索引問題,最后谷歌以超過雅虎三倍的索引量最終勝出。之后的爭論主題曾經(jīng)轉(zhuǎn)移到了搜索相關(guān)性問題上。

  現(xiàn)在,雅虎又期待能在另一個領(lǐng)蓋過谷歌的風(fēng)頭,獲得業(yè)界的認可:雅虎宣稱擁有生長環(huán)境下全球容量最大的SQL數(shù)據(jù)庫,同時也是全球最繁忙的數(shù)據(jù)庫,每個月能夠為雅虎分析好幾億網(wǎng)頁瀏覽者的行為。為此雅虎的數(shù)據(jù)業(yè)務(wù)副總裁Waqar Hasan表示,雅虎是全球首個(據(jù)他們所知)將一個PB級數(shù)據(jù)庫投入生產(chǎn)環(huán)境的企業(yè),這個數(shù)據(jù)庫最初的構(gòu)建所要達到的容量可以上升到幾十個PB,到2009年更是要翻倍地增長。

  作為數(shù)據(jù)容量度量單位,PB的出現(xiàn)對于一臺普通的計算機來說簡直是遙不可及,要知道1PB相當于100萬GB,而現(xiàn)在性能較好的普通個人臺式機的容量不超過200GB。Hasan表示,雅虎所擁有的數(shù)據(jù)量遠遠超過傳統(tǒng)產(chǎn)業(yè)企業(yè)的數(shù)據(jù)量,甚至在互聯(lián)網(wǎng)世界里都比其他的同等級競爭對手要多得多。而個中原因,Hasan所給出的解釋是用戶花費在雅虎網(wǎng)站上的時間是花費在谷歌上的兩倍,微軟的三倍。這也是微軟為什么那么熱衷于收購雅虎的原因之一。

  人們對于單純追求計算速度提升的熱情在逐漸減退,從成本極高的超級計算機轉(zhuǎn)移到了大規(guī)模網(wǎng)格構(gòu)成的廉價PC服務(wù)器。同時商業(yè)智能和技術(shù)化的商業(yè)分析浪潮的興起促使人們把視線投入到能夠一次分析百萬計消費者行為從而為企業(yè)提高收益的超大型數(shù)據(jù)倉庫上面。

  雅虎收集的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)(相對于電子郵件那樣的非結(jié)構(gòu)化數(shù)據(jù)而言),是與用戶如何使用其網(wǎng)站相關(guān)的數(shù)據(jù),包括廣告和用戶體驗等。雅虎利用這些數(shù)據(jù)盡可能為用戶提供他們所希望達到的最佳體驗,從個性化服務(wù)的設(shè)計到通過精準的廣告定位實現(xiàn)廣告客戶的商業(yè)利益最大化。這使雅虎能夠在跨越一個較低的技術(shù)門檻而實現(xiàn)所謂的“深度分析”功能。

  雅虎的數(shù)據(jù)庫技術(shù)最初出自于2005年底被雅虎低調(diào)收購的Mahat技術(shù)公司。雅虎的數(shù)據(jù)庫構(gòu)建基于商用的Intel處理器,在大型服務(wù)器集群中連接起來。傳統(tǒng)的方法是使用大型對成多處理器系統(tǒng),而雅虎則將大量小型的處理器系統(tǒng),然后聯(lián)合成大型服務(wù)器集群。雅虎的這個數(shù)據(jù)庫還使用了深度改良的PostgreSQL引擎,用為其商用硬件集群專門設(shè)計的代碼來取代查詢處理層。這樣無論是在硬件還是在軟件上,這個數(shù)據(jù)庫都得到了革新。例如,SQL數(shù)據(jù)庫是以表為單位來組織管理的,這些表由行和列構(gòu)成,傳統(tǒng)的數(shù)據(jù)排列方式是按照行進行的,而雅虎則選擇用分布式列來存儲數(shù)據(jù)。這樣做的好處是你可以只是獲取你感興趣的數(shù)據(jù),減少了特定查詢過程中所要處理的數(shù)據(jù)量,,這樣能夠極大地提高查詢效率,特別是在進行深度分析查詢時。同時雅虎還利用先進的數(shù)據(jù)壓縮技術(shù)和平行向量查詢處理技術(shù),后者在執(zhí)行平行處理方面是非常有效的方法。

  谷歌的BigTable數(shù)據(jù)庫也采用了商用硬件集群,但Hasan認為雅虎的商用硬件集群與之不同之處在于雅虎的集群是專門為SQL界面設(shè)計的,可以讓你在編程上毫不費力。對于谷歌的BigTable數(shù)據(jù)庫,你需要編寫的C++或Java程序,而雅虎的數(shù)據(jù)庫則是用SQL指令來達成相同的任務(wù),從編程的角度來講,大大提高了生長效率。

  雅虎開發(fā)自己的數(shù)據(jù)庫的誘因是商業(yè)數(shù)據(jù)庫供應(yīng)商不能滿足其需求。Hasan表示,現(xiàn)在的商業(yè)數(shù)據(jù)庫能夠很好的處理25TB級別的數(shù)據(jù),勉強一點還可以管理達到100TB級別的數(shù)據(jù),而雅虎需要管理的數(shù)據(jù)量比100TB還要多上100倍,這是商業(yè)數(shù)據(jù)庫所無法企及的。另一方面從性能來講,因為雅虎是專門為自己的需求量身打造的數(shù)據(jù)庫,就算是處理100TB的數(shù)據(jù),雅虎數(shù)據(jù)庫引擎的執(zhí)行效率也是商業(yè)數(shù)據(jù)庫的10倍以上。

標簽: 大型服務(wù)器 代碼 電子郵件 服務(wù)器 谷歌 互聯(lián)網(wǎng) 企業(yè) 數(shù)據(jù)庫 搜索 搜索引擎 網(wǎng)站 問題 選擇 用戶

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:深信服讓中國“郎”更加神采飛揚

下一篇:啟明星辰向汶川地震災(zāi)區(qū)首批捐款120萬元