中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

HAWQ大數(shù)據(jù)技能發(fā)展新趨勢

2019-02-26    來源:多智時代

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

HAWQ:大數(shù)據(jù)技能發(fā)展新趨勢作者:未知   偶數(shù)科技在2016年底成立,主要是由EMC/Pivotal核心團(tuán)隊成員組成,如今做兩個事情,偶數(shù)兩大產(chǎn)品:Apache HAWQ和Oushu HAWQ++。今天我主要介紹大數(shù)據(jù)領(lǐng)域的發(fā)展趨勢中關(guān)于計算引擎的局部。

在數(shù)據(jù)平臺的演進(jìn)路線中,第一代數(shù)據(jù)倉庫相對傳統(tǒng),以小型機(jī)或一體機(jī)的專有的硬件平臺為主,面向傳統(tǒng)的BI分析,系統(tǒng)缺乏彈性,資源固定,不易調(diào)整,很難支持突發(fā)的應(yīng)用需求或密集復(fù)雜的計算需求。第二代數(shù)據(jù)平臺是各位熟悉的MPP,能夠支持密集、復(fù)雜的計算需求,但需要一定時間。到了第三代,其實是近來五六年發(fā)展起來的新型數(shù)據(jù)倉庫,可根據(jù)事務(wù)負(fù)載彈性伸縮,靈活配置,按需分配資源,還能夠快速支持突發(fā)的應(yīng)用計算需求,如:沙盤演練等。

2004年左右,Hadoop出現(xiàn)之后,有2個系統(tǒng)十分知名:分布式文件系統(tǒng)HDFS和面向大數(shù)據(jù)并行處理的計算模型MapReduce。MapReduce由于其自身的復(fù)雜性,如今使用得越來越少。Hadoop社區(qū)也準(zhǔn)時發(fā)現(xiàn)了這個問題,這種情況促進(jìn)了Hive的出現(xiàn),可將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行,Hive定義了大略的類SQL查詢語言,稱為HQL。2011年,我任職EMC時參與了剛剛啟動的HAWQ項目。我們看到SQL-on-Hadoop引擎運行特別慢,但傳統(tǒng)的MPP卻相當(dāng)快,因此我們將這兩種技能聯(lián)合起來變成了HAWQ。在SQL-on-Hadoop引擎的對比中,我們從兩個維度對照,第一個維度是兼容性和本能,第二個維度是可擴(kuò)展性和開放性。新的SQL-on-Hadoop引擎,以HAWQ為代表優(yōu)勢明顯。

作為新型的SQL-on-Hadoop引擎,Apache HAWQ滿足了哪些方面的用戶需求?在應(yīng)用層,比如做政務(wù)大數(shù)據(jù)、公安大數(shù)據(jù)、電力大數(shù)據(jù)等都是從應(yīng)用起程,對底層技能相對缺乏明白。在做應(yīng)用的時候,與數(shù)據(jù)挖掘、報表處理等相關(guān)的方面都是通過引擎來完成的,引擎做了大局部的事情。比如HAWQ能夠根據(jù)提供的數(shù)據(jù)告訴你發(fā)生了什么,數(shù)量、頻率、地點信息都能夠知道,甚至能夠告訴你為什么會發(fā)生這些事情,都能夠在數(shù)據(jù)庫里實現(xiàn)。HAWQ的定位便是世界上最快的全球規(guī)模并行SQL引擎。

2011年,HAWQ啟動;2013年,HAWQ 1.0發(fā)布,本能是Hive的數(shù)百倍;2014年,HAWQ為全球多家大型企業(yè)客戶選取,包括GE;2015年,HAWQ開源成為Apache項目;2016年,致力于HAWQ發(fā)展的偶數(shù)科技宣告成立;2017年,偶數(shù)HAWQ++企業(yè)版本發(fā)布。

在HAWQ架構(gòu)的演進(jìn)過程中,很多人會問,HAWQ和Greenplum database(GPDB)有什么區(qū)別?GPDB其實一個擁有廣泛用戶群的MPP database,在中國的運營商幾近全部都在用GPDB。從GPDB(2003)的精簡架構(gòu)看,在每一個節(jié)點上有多個分段(Segment),每一個原體節(jié)(Primary Segment)上都有一個Mirror Segment(鏡像),非常于數(shù)據(jù)在另外一個節(jié)點上有一個備份,這是一個相當(dāng)經(jīng)典的MPP架構(gòu),而大局部的MPP也基本都是這種架構(gòu),其并行度也是十分固定的。

在2011年,我們做了HAWQ Alpha版本,其實便是Greenplum database on HDFS。我們在起步的時候,將Greenplum database的存儲層換成了HDFS。這是第一個HAWQ Alpha版本。2013年,在HAWQ1.0版本的架構(gòu)上我們做了大量的變動,去掉了Mirror Segment(鏡像),這是一個相當(dāng)大的進(jìn)步,這意味著我們的復(fù)制不再通過上層的數(shù)據(jù)庫而是通過底層的文件系統(tǒng)來做,這對于節(jié)點的管理、備份、還原都有很大改進(jìn)。這里邊解決的最大的問題是恢復(fù),一個節(jié)點“死”了以后,能夠直接放棄,其他節(jié)點依然在事務(wù)。

HAWQ1.0版本出現(xiàn)以后,客戶大量涌現(xiàn),對底層架構(gòu)提出了相當(dāng)多的要求。2016年,HAWQ2.0出現(xiàn),我們希望它可以更多地適應(yīng)云環(huán)境的要求,因此我們對原來版本的架構(gòu)做了更多的改動,即計算和存儲的完全分離,解決了并行度的問題,能夠根據(jù)查詢量大小來動態(tài)決定執(zhí)行查詢使用的節(jié)點及并行度,優(yōu)于傳統(tǒng)MPP的固定并行度執(zhí)行。從HAWQ2.0的架構(gòu)來看,無論是擴(kuò)容也好,升級也好,都變得十分大略,HAWQ2.0已經(jīng)實現(xiàn)了秒級擴(kuò)容,節(jié)點自動進(jìn)入集群,使得整個集群的計算能力和存儲能力大大提升。2017年,我們做HAWQ++3.0的同時對之前的版本做了大量優(yōu)化,本能提升了10到50倍。

我們的研發(fā)部門中一局部團(tuán)隊正在做HAWQ++4.0的事務(wù),其實便是全球規(guī)模的引擎,能夠解決很多實在的問題,比如在金融、公安行業(yè)經(jīng)常會有“兩地三中心”的需求,數(shù)據(jù)能夠很容易地復(fù)制到多個中心里去。這樣對于管理和運維,以及混合負(fù)載的支持會相當(dāng)高效。

在HAWQ的全球用戶體系里,有很多大企業(yè),比如GE、海爾、京東、中國移動等。以某大型制造企業(yè)為例,他們將戰(zhàn)斗機(jī)引擎中的很多數(shù)據(jù)收集起來放在HAWQ里邊,搭建大數(shù)據(jù)平臺,提高處理能力,大概有200多個節(jié)點的平臺集群以及PB級的數(shù)據(jù)存儲,實現(xiàn)實時故障預(yù)測等應(yīng)用。某大型證券交易所,把所有交易數(shù)據(jù)放入Hadoop和HAWQ,把12億條記錄放到HAWQ里面進(jìn)行查詢分析,獲得更好的本能。(根據(jù)演講內(nèi)容整理,未本人審核)

轉(zhuǎn)載請注明來源。原文地址:https://www.7428.cn/page/2018/1127/47644/

在不久的將來,云計算一定會徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計算,及時獲取人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識,讓我們一起攜手,引領(lǐng)人工智能的未來!

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)平臺 金融 數(shù)據(jù)庫 云計算 政務(wù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:棱鏡門讓信息安全與大數(shù)據(jù)遇冰點

下一篇:云計算時代IT服務(wù)已成為主流