中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

被“圍攻”的Hadoop沒有對手

2019-07-23    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:田曉旭 來源:InfoQ

相信很多人對于 Hadoop 領域近期發(fā)生的事件都有所耳聞,先是曾估值 10 億美元的 MapR 向加州就業(yè)發(fā)展局提交文件,稱如果找不到新的投資人,公司將裁員 122 人,并關(guān)閉位于硅谷的總部公司,再是 Cloudera 在 6 月 6 日美股開盤之后,股價暴跌 43%,公司估值從 41 億美元縮水為 14 億美元。

從 2006 年 1 月誕生以來,Hadoop 就以黑馬之姿一路開掛成為了火爆整個技術(shù)圈的“明星”技術(shù),為什么現(xiàn)在 Hadoop 領頭羊商業(yè)公司突然都不同程度的遭遇到了挫折?這是否意味著 Hadoop 發(fā)行版已經(jīng)幾近無路可走?Hadoop 商業(yè)公司的頹勢是否能夠反映 Hadoop 技術(shù)、生態(tài)的發(fā)展情況?Hadoop 的競爭對手到底是誰?…為了回答上述問題,我們和星環(huán)科技研發(fā)總監(jiān)劉汪根進行了長達一小時的對話。

Hadoop 是 ASF 旗下的分布式系統(tǒng)基礎架構(gòu),我們現(xiàn)在看到的 Hadoop 生態(tài)有很多組件,但在劉汪根看來,大部分組件產(chǎn)品化程度不夠,真正有技術(shù)生命力的組件只有兩個 HDFS 和 Zookeeper。并且,這種技術(shù)生命力是長久的,至少在如今的科技類企業(yè)和互聯(lián)網(wǎng)公司中,HDFS 和 Zookeeper 等已經(jīng)成為了標配。

開源 Hadoop 產(chǎn)品化程度不足是 Cloudera、MapR 商業(yè)模式存在的主要問題

Hadoop 是個開源軟件,那么圍繞 Hadoop 的商業(yè)公司都是如何盈利的呢?Cloudera 主要是依靠發(fā)布 Hadoop 商業(yè)版和商用工具、商業(yè)組件,同時提供企業(yè)生產(chǎn)環(huán)境中必需的運維功能;Hortonworks 采用 100% 完全開源的策略,盈利方式是技術(shù)服務支持;MapR 的盈利主要是通過用戶購買軟件許可。

雖然三家公司實現(xiàn)盈利的方式有所出入,但是本質(zhì)上都是靠提供 Hadoop 相關(guān)的服務來盈利。而服務模式本身就存在很多問題,一是它需要依賴人員的擴張,二是其價值一定要高,能夠刺激企業(yè)不斷基于 Hadoop 產(chǎn)品開發(fā)新的應用。

服務帶動產(chǎn)品的銷售模式必然要面臨成本和投入產(chǎn)出的問題,劉汪根認為:“這三家公司存在的最大問題不是單子不夠多,而是單子太多,但每個單子都不掙錢,拖累整個業(yè)績不好。”具體來講,就是它們產(chǎn)品的標準化不足,其提供了各種組件的底層 API 給開發(fā)者,缺少一個統(tǒng)一的開發(fā)標準,導致很難形成標準的開發(fā)體驗。社區(qū)的狀態(tài)很松散,想要達成某個標準化的事情往往需要很長的時間,以大數(shù)據(jù)產(chǎn)品的安全為例,這在標準化產(chǎn)品中應該是標配,而在社區(qū)中可能花費一個月的時間都搞不起來,這就導致了這個產(chǎn)品是不可持續(xù)的,對于用戶來說,持續(xù)產(chǎn)品的價值太少,導致用戶不愿意繼續(xù)追加投資。

產(chǎn)品化程度低又會連鎖反應導致銷售成本的增高,因為缺少成功的項目和持續(xù)的收入來源,所以企業(yè)只能加大銷售力度,招聘非常多的銷售和售前工程師,在有些公司中這些人員甚至會超過總員工數(shù)的一半。

產(chǎn)品化程度低不只是 Hadoop 商業(yè)公司面臨的問題,也是所有基于開源軟件的商業(yè)公司面臨的問題。不過也有一些開源軟件的商業(yè)公司在產(chǎn)品化方面做得不錯,例如 Spark 商業(yè)公司 Databricks 的銷售人員占比沒那么高。這是因為 Databricks 商業(yè)化的思路不同,第一是它做了云化,第二是它很簡單,并且做了兩個件事情讓 Spark 變得更加簡單,一是 SparkSQL,這使得所有會寫 SQL 的人都可以使用,二是通過 DataFrame 接口和 Python 讓數(shù)據(jù)分析人員可以更好的編程。

“成功的商業(yè)模式一定是可復制的!”

Hadoop 發(fā)行版是否還有前景?

眾所周知,Cloudera、Hortonworks 和 MapR 這三家公司都是 Hadoop 發(fā)行版公司,但是大家可能不知道星環(huán)科技最早在國內(nèi)也是做 Hadoop 發(fā)行版,當時的技術(shù)架構(gòu)組成為 HDFS+HBase+YARN+Spark,主要的客戶群體是運營商,但是在做的過程中就發(fā)現(xiàn)項目同質(zhì)化太嚴重了,客戶項目開發(fā)的成本比較高,因此競爭非常激烈。

2014 年,星環(huán)不得不開始思考一個現(xiàn)實的問題:“如何才能活下去?”創(chuàng)始人孫元浩先生最終下定決心,星環(huán)科技的產(chǎn)品必須要解決企業(yè)的痛點問題才能更好的成長。當時數(shù)據(jù)倉庫是個痛點問題,但原來的數(shù)據(jù)庫都是單機的,所以星環(huán)科技就開始琢磨利用分布式、內(nèi)存計算等技術(shù)打造一個分布式數(shù)據(jù)庫來解決數(shù)據(jù)倉庫的問題。這個數(shù)據(jù)庫就是后來我們熟知的國際上首個通過了 TPC-DS 基準測試的 Inceptor 數(shù)據(jù)庫。

后來,劉汪根在演講中回憶這段經(jīng)歷時,也感嘆到:“如果星環(huán)科技只是將技術(shù)打包,推出 Hadoop 發(fā)行版,就失去了創(chuàng)新性和獨特性。”

Cloudera、Hortonworks 和 MapR 面臨窘境,星環(huán)科技從 Hadoop 發(fā)行版公司轉(zhuǎn)型成為了大數(shù)據(jù)與人工智能基礎軟件的公司,這是否意味著 Hadoop 發(fā)行版已經(jīng)失去了價值,沒有發(fā)展前景了?

對此,劉汪根表示:“這個問題現(xiàn)在還很難講,但是我目前看到的情況,數(shù)據(jù)在公有云中的滲透率遠沒有大家想象的那么高,所有人都覺得私有化環(huán)境或私有云里面的數(shù)據(jù)更安全,所以都愿意把數(shù)據(jù)掌握在自己的服務器上。對象存儲之所以在公有云中獲得了比較好的發(fā)展有兩個原因,一是因為其中大部分數(shù)據(jù)都是冷數(shù)據(jù)或者非結(jié)構(gòu)化數(shù)據(jù),真正重要的、結(jié)構(gòu)化的數(shù)據(jù)還是存儲在私有云中。這種情況在中國比例極高,在美國也不會低。第二個原因是成本,HDFS 和對象存儲各有特點,對象存儲天生是 1.4 倍副本,而 HDFS 是 3 倍副本,光是這一項就有至少 2 倍的成本差異,所以公有云上對象存儲相對于 HDFS 有很好的競爭力。但是私有云不一樣,私有云的場景下更加業(yè)務價值導向,追求速度和性能,想向私有云滲透的云產(chǎn)品往往都會需要補充技術(shù)實力,所以 Hadoop 技術(shù)對于私有云來說還是非常有必要的,也是非常有用的。”

Hadoop 商業(yè)公司走了“下坡路”,那社區(qū)呢?

毫無疑問,Hadoop 三大商業(yè)公司與之前相比,已經(jīng)走了“下坡路”,那么 Hadoop 技術(shù)、Hadoop 社區(qū)的發(fā)展如何呢?劉汪根坦言:“原來 Hadoop 社區(qū)的大佬很多都轉(zhuǎn)向其他項目了,整個社區(qū)的創(chuàng)新速度減緩了,對于大數(shù)據(jù)用戶來說,可能 Hadoop 社區(qū)的創(chuàng)新速度已經(jīng)無法滿足需求了。”

 

 

上圖是星環(huán)科技大數(shù)據(jù)技術(shù)架構(gòu)的演變歷程,其完成了從 Hadoop 平臺初期的“純藍”軟件棧到現(xiàn)在基本“全綠”軟件棧的轉(zhuǎn)變,即完成了自研產(chǎn)品和軟件對開源軟件的替代。為什么要做這種轉(zhuǎn)變呢?首先,是因為 HDFS 和 YARN 等核心組件在實際應用中存在痛點,例如 HDFS 天生在海量小文件存儲方面就存在缺陷,YARN 只能用來調(diào)用長生命周期的任務(如批處理任務)。二是因為 Hadoop 社區(qū)的創(chuàng)新能力有點后勁不足,所以星環(huán)科技基于自己的思路進行了重新設計。以 HDFS 為例,星環(huán)科技正在實現(xiàn)自己的存儲系統(tǒng) TDFS,在原有的分布式管理系統(tǒng)基礎上做了一套通用的 HDFS。

在劉汪根看來這一系列改造、替換的操作都是因為需求,“HDFS 在設計之初主要解決了兩個問題,一是相對廉價的分布式解決了存儲可擴展性的問題,二是分析性能比較均衡,支持用戶在此基礎上做很多創(chuàng)新來解決性能問題。這兩件事情保證了 HDFS 技術(shù)能夠維持其生命力,”

從圖中我們可以看到,在整個星環(huán)科技技術(shù)架構(gòu)的演化過程中,其對 Hadoop 核心組件 HDFS、YARN 等都做了一定程度的技術(shù)改造,在我們詢問是否有將這些改變貢獻給 Hadoop 社區(qū)時,劉汪根無奈表示:“早期我們也嘗試過貢獻給社區(qū),但由于當時星環(huán)科技的精力有限,并沒有完成。后續(xù)會根據(jù)公司自身的情況來決定。”

Hadoop 不代表全部的大數(shù)據(jù)技術(shù),那下一代大數(shù)據(jù)技術(shù)該如何發(fā)展?

其實,媒體很早就在接受這樣一個觀念,那就是“Hadoop 不代表大數(shù)據(jù)”。時至今日,Hadoop 在大數(shù)據(jù)領域到底扮演著什么樣的角色呢?劉汪根認為:“Hadoop 不代表大數(shù)據(jù), 它是大數(shù)據(jù)技術(shù)實現(xiàn)的一個分支,且這個分支中有部分技術(shù)變成了通用的技術(shù),成為大數(shù)據(jù)技術(shù)的標配。但是,大數(shù)據(jù)技術(shù)還有很多其它分支,它們最終會演化成為新的大數(shù)據(jù)實現(xiàn)方式。”

早在 2013 年,Gartner 研究總監(jiān) Svetlana Sicular 就曾發(fā)文稱 Hadoop 過時了,在《2017 年數(shù)據(jù)管理技術(shù)成熟度曲線》報告中,Gartner 更是用極其顯眼的紅色標識出 Hadoop 在到達“生產(chǎn)成熟期”之前即被淘汰。當然,其它唱衰 Hadoop 的聲音也不在少數(shù),但是劉汪根認為 Hadoop 技術(shù)是有長久生命力的,很多技術(shù)已經(jīng)成為了大數(shù)據(jù)領域教科書般的存在,例如 2003 年 Google 連續(xù)發(fā)表的三篇論文奠定了大數(shù)據(jù)的框架基礎,并基于此理論形成了 Hadoop 原始的“3+1”式軟件棧:即分布式文件系統(tǒng) HDFS、分布式計算 MapReduce、Hbase NoSQL 數(shù)據(jù)庫,以及 YARN 資源調(diào)度。

 

 

當 Hadoop 不能再成為大數(shù)據(jù)的代名詞,下一代大數(shù)據(jù)技術(shù)將如何發(fā)展呢?通常來講,大數(shù)據(jù)技術(shù)棧總共包含有四層,分別是資源調(diào)度層、統(tǒng)一的分布式塊存儲管理層、統(tǒng)一的計算引擎層和統(tǒng)一的接口層,所以下一代的大數(shù)據(jù)技術(shù)一定是基于這四層進行改造,以適應新的應用場景和需求。

資源調(diào)度層的改造:為了解決上層應用對資源調(diào)度管理的問題,出現(xiàn)了很多新的技術(shù),例如很多企業(yè)開始研究利用容器編排技術(shù)來代替 YARN 進行資源管理;

統(tǒng)一的分布式塊存儲管理層:過去的觀點認為 HDFS 具有較好的通用性并在此之上搭載了各種引擎,實踐證明 HDFS 無法實現(xiàn)高效的數(shù)據(jù)庫,新一代的大數(shù)據(jù)體系需要一個統(tǒng)一的分布式塊存儲管理層,以支持不同的數(shù)據(jù)庫類型。

統(tǒng)一的計算引擎層:過去常見的觀點是數(shù)據(jù)量小的時候可以采用混合架構(gòu),數(shù)據(jù)量大的時候采用 Hadoop,但是這種選擇存在效率低下的問題,所以我們需要一個統(tǒng)一的計算引擎層來應對數(shù)據(jù)倉庫、OLTP 數(shù)據(jù)庫、搜索引擎、實時計算、圖數(shù)據(jù)庫等多種需求。

統(tǒng)一的接口層:多年前,通過統(tǒng)一的 SQL 接口層來降低大數(shù)據(jù)技術(shù)的使用門檻,就已經(jīng)達成了共識。如今,SQL 的支持度在不斷提升。

談談 Hadoop 的兩大“競爭對手”

有關(guān)最近 Hadoop 事件的解讀,國內(nèi)外媒體都已經(jīng)做了不少的報道(我們也基于此做了一個合集,感興趣的小伙伴可以點擊查看)。如果總結(jié)一下大家的觀點,不難發(fā)現(xiàn)大家普遍認為 Hadoop 的“競爭對手”主要有兩個,一是 MongoDB、Elasticsearch 等其它開源大數(shù)據(jù)相關(guān)產(chǎn)品,二是公有云。下面,我們就分別來談談這兩個“Hadoop”的競爭對手。

MongoDB、Elasticsearch 等蠶食了 HDFS 的市場

之所以得出了 MongoDB 、 Elasticsearch 等技術(shù)挑戰(zhàn)了 Hadoop 技術(shù)及相關(guān)產(chǎn)品的結(jié)論,是因為外媒觀察到這樣一個情況:在 Hadoop 三大商業(yè)公司遭遇挫折的時候,MongoDB 數(shù)據(jù)庫產(chǎn)品受歡迎程度一直在增長,現(xiàn)在的受歡迎指數(shù)大約是 Oracle 和 MySQL 的三分之一,而五年前只有十分之一。這種受歡迎程度反過來良性地推動 MongoDB 公司的收入增長,最近收入已經(jīng)躍升了 78%。同樣的,Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年員工數(shù)量翻了一番,最近一個季度的收入增長了 70%。許多公司已經(jīng)轉(zhuǎn)用 Elastic 的產(chǎn)品進行傳統(tǒng)的文本搜索和其他更多的搜索,比如英國倫敦的 Stansted 機場就使用 Elastic 工具來追蹤和可視化機場內(nèi)的人員和行李流量,并提供實時分析。

Hadoop 與 MongoDB、Elasticsearch 是否存在外媒描述的此消彼長的情況呢?劉汪根表示這種情況是存在的,但是比例不會很高。大數(shù)據(jù)應該包括分析數(shù)據(jù)庫、交易數(shù)據(jù)庫以及 NoSQL 四大類數(shù)據(jù),剛剛提到的 MongoDB 屬于文檔數(shù)據(jù)庫,Elasticsearch 屬于檢索數(shù)據(jù)庫,而 HBase 屬于列存數(shù)據(jù)庫,它們是按照業(yè)務場景劃分的,本來是平行的,但是每個東西之間都有一定的邊界,HBase 和 Elasticsearch 之間場景非常明確,但是 HBase 和 MongoDB 是有一定沖突的,HBase 并發(fā)度高,但是很多人也用它來處理 JSON 的數(shù)據(jù),而 MongoDB 也在處理非結(jié)構(gòu)化的 JSON 數(shù)據(jù)。HBase 的優(yōu)勢在于存儲,而 MongoDB 的優(yōu)勢在于可以修改 JSON 中的字段。但是重合的點真的非常少,僅限于處理 JSON 數(shù)據(jù)。

但是 HDFS 就比較尷尬了,HDFS 強調(diào)通用性,沒有比較突出的優(yōu)勢,所有方向都是均衡的,所以市場份額很容易被其它大數(shù)據(jù)產(chǎn)品蠶食。例如,企業(yè)歷史數(shù)據(jù)既可以存在 MongoDB 中,也可以存在 HDFS 中。雖然,HDFS 的存儲成本會比較低,但如果企業(yè)一直是使用 MongoDB,且不太在乎成本差異,那么就會一直使用 MongoDB。不僅限于 MongoDB 和 Elasticsearch,如果企業(yè)有比較明確的數(shù)據(jù)處理需求,其它數(shù)據(jù)庫也會切掉 HDFS 的市場份額。當然,如果出現(xiàn)了一個統(tǒng)一的分布式塊存儲管理層能夠解決各種類型的存儲需求管理,那么它將覆蓋 HDFS 原有的市場,以及 MongoDB 和 Elasticsearch 的市場。

MongoDB 和 Elasticsearch 是否挑戰(zhàn)了 Hadoop 的地位?這個結(jié)論現(xiàn)在還不好確定,但是從營收狀況來看,MongoDB 和 Elastic 兩家公司的營收之和僅相當于合并之前的 Cloudera 單家公司營收,這說明 MongoDB 和 Elasticsearch 還只是大數(shù)據(jù)生態(tài)里的一小部分。

公有云與 Hadoop 不是天生對手

為什么很多人都把公有云看作是 Hadoop 的競爭對手?Hadoop 的主要應用場景是廉價的存儲,而有了云之后,存儲變得更加廉價,AWS、微軟 Azure 和谷歌云打造的一站式云原生服務提供了完全集成的產(chǎn)品系列,獲取成本更低,擴容更便宜。

但其實 Hadoop 與公有云并不是天生對手,只是大家使用 Hadoop 的方式基本只有三種,要么找這三大商業(yè)公司,要么自己搭建,要么找公有云廠商。如果這已經(jīng)是飽和市場,那么大家都是在切同一塊蛋糕,公有云難免會切到 Hadoop 商業(yè)公司原有的部分。不過,從目前的情況來看,類似于 AWS 這樣的公司,其 Hadoop 的收入占比是非常小的。

在劉汪根看來,相比于競爭關(guān)系,公有云廠商和 Hadoop 商業(yè)公司更多的是合作關(guān)系。以 AWS 為例,其 Hadoop 研發(fā)團隊的規(guī)模非常小,當出現(xiàn)搞不定的問題時,就必須要去找 Hadoop 商業(yè)公司來解決。AWS 相當于是個大渠道,擁有更強的溢價能力,但渠道的溢價能力再強,最終還是需要背后公司的支持。而這對于 Hadoop 商業(yè)公司來說,不是壞事,反而是好事,因為公有云上的模式是可復制的,可以幫助 Hadoop 商業(yè)公司觸探到更多用戶,Databricks 就是一個很好的例子。

寫在最后

關(guān)于 Hadoop 及其商業(yè)公司最近的發(fā)展頹勢,我們已經(jīng)進行了多方面、深層次的探索。總體來看,公有云、其它大數(shù)據(jù)產(chǎn)品與 Hadoop 競爭的外因固然存在,但是 Hadoop 自身存在的問題、社區(qū)創(chuàng)新能力不足以及其商業(yè)公司的盈利模式才是更主要的原因。

Hadoop 的技術(shù)偏底層,使用場景需要比較專業(yè)的技術(shù)基礎,因此雖然是很好的技術(shù),但只能定位給有比較強技術(shù)能力的企業(yè)來使用,缺乏我們常說的應用創(chuàng)新或者模式創(chuàng)新。如果將其更好的產(chǎn)品化,譬如通過 SQL on Hadoop 的技術(shù)打造完整的數(shù)據(jù)庫的體驗,那么其開發(fā)者群體和視野將大大拓寬,技術(shù)的盤子就可以做得更大一點,現(xiàn)階段的對手都會變盟友。

標簽: Hadoop 大數(shù)據(jù)時代

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)你需要了解的陰暗面

下一篇:45個數(shù)字助你認清當前AI技術(shù)態(tài)勢