中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

國內(nèi)傳統(tǒng)企業(yè)對Hadoop到底什么態(tài)度?

2018-08-10    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
年初,筆者開始調(diào)研Hadoop在國內(nèi)企業(yè)的應(yīng)用現(xiàn)狀,在前期的互聯(lián)網(wǎng)企業(yè)應(yīng)用現(xiàn)狀調(diào)研中,筆者發(fā)現(xiàn)目前比較知名的互聯(lián)網(wǎng)企業(yè)基本都在使用Hadoop,其生態(tài)組件,比如HDFS、Zookeeper、MapReduce等出現(xiàn)頻率極高。但是,Hadoop在國外卻接連遇冷,前有Gartner報告對Hadoop發(fā)行版的看衰論斷,后有加拿大皇家銀行和美國富國銀行對Hadoop應(yīng)用的不看好,到底國內(nèi)傳統(tǒng)企業(yè)對Hadoop持什么態(tài)度?是否與國內(nèi)的互聯(lián)網(wǎng)企業(yè)一致呢?Hadoop生態(tài)中哪些組件獲一致好評?哪些組件被群嘲?

 

耗時兩個月,國內(nèi)傳統(tǒng)企業(yè)對Hadoop到底什么態(tài)度?

 

本次調(diào)研共耗時兩個月(具體話題詳見文末鏈接),共吸引17865人次點(diǎn)擊(截至發(fā)文時),眾多用戶圍繞Hadoop生存現(xiàn)狀主要討論了以下三大問題:

您對Gartner的報告結(jié)論如何看待?就國內(nèi)現(xiàn)狀而言,Hadoop在傳統(tǒng)企業(yè)的受歡迎程度會和互聯(lián)網(wǎng)企業(yè)相同嗎?

您認(rèn)為Hadoop生態(tài)最大的優(yōu)勢和劣勢分別是什么?Spark生態(tài)也在漸漸完善,其機(jī)器學(xué)習(xí)方面的能力更強(qiáng),未來與Hadoop生態(tài)的關(guān)系會是什么樣的?

您認(rèn)為Hadoop生態(tài)中表現(xiàn)最好、生命力最旺盛的組件有哪些?為什么?最容易被替換、表現(xiàn)欠佳的組件又有哪些呢?為什么?

>

一、國內(nèi)傳統(tǒng)行業(yè)對Hadoop態(tài)度如何?是否與互聯(lián)網(wǎng)企業(yè)一致?

Itpub網(wǎng)友jieforest(制造業(yè)): Gartner的調(diào)查報告一向有比較高的可信度和權(quán)威性,但是Gartner報告未必明確指出Hadoop將在什么時間淘汰。我雖然未讀Gartner報告,但我估計其報告應(yīng)該是講述當(dāng)前大數(shù)據(jù)平臺的技術(shù)發(fā)展趨勢。從趨勢上看,Hadoop在未來可能會被更好的技術(shù)所取代,未來會面臨淘汰的風(fēng)險。

結(jié)合今年福布斯大數(shù)據(jù)市場預(yù)測,到2022年,Hadoop市場預(yù)計將達(dá)到99.31億美元,復(fù)合年增長率為42.1%。從福布斯的數(shù)據(jù)來看,Hadoop還將興旺好些年。Hadoop解決方案這些年在國內(nèi)經(jīng)過了各公司的檢驗,大家逐步認(rèn)識到它是一個成熟靠譜的解決方案,確實(shí)能解決企業(yè)大數(shù)據(jù)過程面臨的問題,但Hadoop也并非包治百病,有些需求很容易搞定,而有些則很難搞定或者需要另謀別的解決方案。

傳統(tǒng)企業(yè)往往喜歡采用比較成熟的解決方案,因此Hadoop還將在國內(nèi)有比較長的生命周期。就像Java語言,現(xiàn)在已經(jīng)是第10版了,但很多傳統(tǒng)企業(yè)仍然堅持使用Java SE 6.0。

Itpub網(wǎng)友ceo_lxy(傳統(tǒng)制造行業(yè)): 在傳統(tǒng)制造行業(yè),Hadoop大數(shù)據(jù)方案感覺實(shí)用不強(qiáng),不是很受歡迎,原因有以下三點(diǎn):一是傳統(tǒng)制造行業(yè)沒有這么大的數(shù)據(jù)量,都是內(nèi)部運(yùn)營數(shù)據(jù)及少量供應(yīng)商和客戶數(shù)據(jù);二是Hadoop技術(shù)更新快且成本較高,制造業(yè)利潤普遍不高的前提下,Hadoop技術(shù)短期帶來不了直接回報;三是傳統(tǒng)制造行業(yè)更青睞成熟的技術(shù)方案,而不僅僅是開源。

Itpub網(wǎng)友luckyrandom: 各自面對和專注的領(lǐng)域不同,開發(fā)設(shè)計也有不同的立場、角度,Hadoop是個更通用的框架和平臺。就好像即使MySQL如此流行,但Oracle和SQL Server還是有自己的市場,真正適合用戶需求的產(chǎn)品才是好產(chǎn)品,這個產(chǎn)品會包括產(chǎn)品本身質(zhì)量、發(fā)展勢頭、生態(tài)鏈等。傳統(tǒng)企業(yè)的量級難以達(dá)到“大數(shù)據(jù)”的級別,除了極少數(shù)之外,互聯(lián)網(wǎng)企業(yè)才是Hadoop應(yīng)用主角。

Itpub網(wǎng)友13572******(金融行業(yè)): 大數(shù)據(jù)殺熟的新聞曝光后,傳統(tǒng)企業(yè)對大數(shù)據(jù)的信任度有所下降,大數(shù)據(jù)的缺點(diǎn)一下子就暴露了出來,只有加強(qiáng)大數(shù)據(jù)在制造業(yè)、農(nóng)業(yè)等領(lǐng)域的應(yīng)用監(jiān)管,才可以避免此類投機(jī)取巧事件的發(fā)生。

Itpub網(wǎng)友a(bǔ)loki(服務(wù)業(yè)): 我認(rèn)為Gartner報告有點(diǎn)危言聳聽,Hadoop即使在使用過程存在問題,但并不是沒辦法解決。就國內(nèi)現(xiàn)狀而言,Hadoop在傳統(tǒng)企業(yè)的受歡迎程度與互聯(lián)網(wǎng)企業(yè)相同,幾乎覆蓋全行業(yè)。

Itpub網(wǎng)友help01(信息服務(wù)): Gartner的報告應(yīng)該還是可信的。在國內(nèi),Hadoop應(yīng)用主要以互聯(lián)網(wǎng)公司為主,由此可以推斷Hadoop在互聯(lián)網(wǎng)企業(yè)比在傳統(tǒng)企業(yè)更受歡迎。

Itpub網(wǎng)友renxiao2003(傳統(tǒng)醫(yī)療制造): 上世紀(jì)70年代發(fā)明的C語言,好多機(jī)構(gòu)和“專家”都曾斷言C語言會死,但直到今天C語言依舊是一個流行和不可或缺的開發(fā)語言。所以我們不能盲目的去相信報告,要客觀的分析和處理。至于Hadoop在傳統(tǒng)企業(yè)的受歡迎程度和互聯(lián)網(wǎng)企業(yè)肯定是不同的。

二、Hadoop生態(tài)目前最大的優(yōu)勢和劣勢是什么?未來與Spark的關(guān)系更傾向于哪一種方式?

Itpub網(wǎng)友a(bǔ)loki(服務(wù)業(yè)): Hadoop的優(yōu)勢是可擴(kuò)展性和容錯性,支持從GB到PB級別多種業(yè)務(wù)需求,支持PB級別海量數(shù)據(jù)批處理需求;劣勢是使用門檻略高,技術(shù)迭代快導(dǎo)致學(xué)習(xí)成本和運(yùn)維成本升高。Spark大部分情況下與Hadoop配合出現(xiàn),Spark作為通用計算引擎,而Hadoop提供存儲和資源管理框架等服務(wù)。

Itpub網(wǎng)友jieforest (制造業(yè)) : Hadoop和Apache Spark都是大數(shù)據(jù)框架,但它們的實(shí)現(xiàn)目標(biāo)有所不同。Hadoop本質(zhì)上是一個分布式數(shù)據(jù)基礎(chǔ)架構(gòu),在大量商品服務(wù)器的多個節(jié)點(diǎn)上分發(fā)海量數(shù)據(jù)集合,這意味著用戶不需要購買和維護(hù)昂貴的定制硬件,它還對這些數(shù)據(jù)進(jìn)行索引和跟蹤,使大數(shù)據(jù)處理和分析能夠比以前更有效。

Spark沒有自己的文件管理系統(tǒng),Spark可以看成是一種數(shù)據(jù)處理工具,可以對這些分布式數(shù)據(jù)集進(jìn)行操作,但其自身不會做分布式存儲。Hadoop不僅包含一個稱為Hadoop分布式文件系統(tǒng)的存儲組件(HDFS),還包含一個名為MapReduce的處理組件,因此不需要Spark即可完成大數(shù)據(jù)處理。

 

耗時兩個月,國內(nèi)傳統(tǒng)企業(yè)對Hadoop到底什么態(tài)度?

 

Itpub網(wǎng)友help01(信息服務(wù)): Hadoop的優(yōu)勢有以下幾方面,高可靠性:按位存儲和處理數(shù)據(jù)的能力值得信賴;高擴(kuò)展性:在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù),這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點(diǎn);高效性:Hadoop能夠在節(jié)點(diǎn)之間動態(tài)移動數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡,因此處理速度非?;高容錯性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。

劣勢:

•  不適合低延遲數(shù)據(jù)訪問;

•  無法高效存儲大量小文件;

•  不支持多用戶寫入及任意修改文件。

Spark目前在國內(nèi)的大型互聯(lián)網(wǎng)公司中也得到了積極推廣,百度、阿里巴巴、奇虎360、騰訊以及中國移動等都有使用,預(yù)計Spark未來會融合到Hadoop生態(tài)當(dāng)中。

Itpub網(wǎng)友renxiao2003 (傳統(tǒng)醫(yī)療制造) : Hadoop 可以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。Hadoop 是可靠的,因為它假設(shè)計算元素和存儲會失敗,因此它維護(hù)多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點(diǎn)重新分布處理。Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數(shù)據(jù)。此外,Hadoop 依賴于社區(qū)服務(wù),因此它的成本比較低,任何人都可以使用。

不足之處:

•  全量場景,任務(wù)內(nèi)串行

•  重吞吐量,響應(yīng)時間完全沒有保證

•  中間結(jié)果不可見,不可分享

•  單輸入單輸出,鏈?zhǔn)嚼速M(fèi)嚴(yán)重

•  鏈?zhǔn)組R不能并行

•  粗粒度容錯,可能會造成陷阱

•  圖計算不友好

•  迭代計算不友好

Hadoop和Spark解決問題的層面不一樣:Hadoop和Apache Spark都是大數(shù)據(jù)框架,但是各自存在的目的不盡相同。Hadoop實(shí)質(zhì)上更多的是一個分布式數(shù)據(jù)基礎(chǔ)設(shè)施,它將巨大的數(shù)據(jù)集分派到由普通計算機(jī)組成的集群中的多個節(jié)點(diǎn)進(jìn)行存儲,意味著用戶不需要購買和維護(hù)昂貴的服務(wù)器硬件。Spark專門用于對分布式存儲數(shù)據(jù)進(jìn)行處理,并不會進(jìn)行分布式數(shù)據(jù)存儲。

Hadoop和Spark可合可分:Hadoop除了提供HDFS之外,還提供了叫做MapReduce的數(shù)據(jù)處理功能,因此可以完全拋開Spark進(jìn)行數(shù)據(jù)處理。相反,Spark也不是非要依附在Hadoop身上才能生存。如上所述,畢竟它沒有提供文件管理系統(tǒng),所以,它必須和其他分布式文件系統(tǒng)集成才能運(yùn)作。

三、Hadoop生態(tài)中哪些組件表現(xiàn)較好?哪些是時候淘汰了?

 

耗時兩個月,國內(nèi)傳統(tǒng)企業(yè)對Hadoop到底什么態(tài)度?

 

總結(jié)

大部分用戶認(rèn)可Hadoop在國內(nèi)傳統(tǒng)企業(yè)的應(yīng)用狀況與互聯(lián)網(wǎng)企業(yè)不同,并更傾向于傳統(tǒng)企業(yè)不如互聯(lián)網(wǎng)企業(yè)應(yīng)用廣泛的觀點(diǎn),主要考慮到傳統(tǒng)企業(yè)的數(shù)據(jù)量不如互聯(lián)網(wǎng)企業(yè)多,且傳統(tǒng)企業(yè)部署Hadoop的成本較高。至于Hadoop與Spark的關(guān)系,大多數(shù)網(wǎng)友傾向于將Spark與Hadoop集成,以彌補(bǔ)Hadoop的劣勢,但是相比較而言,Hadoop略占上風(fēng),Spark需要在HDFS之上運(yùn)行,雖然找到一個替代HDFS的組件并不難,但要想完全還原甚至超越其功能的組件目前還未曾出現(xiàn)在大規(guī)模生產(chǎn)驗證環(huán)境中。

標(biāo)簽: Mysql 大數(shù)據(jù) 大數(shù)據(jù)處理 大數(shù)據(jù)平臺 大型互聯(lián)網(wǎng)公司 服務(wù)器 服務(wù)器硬件 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司 互聯(lián)網(wǎng)企業(yè) 金融 推廣

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)挖掘?qū)崙?zhàn):帶你做客戶價值分析(附代碼)

下一篇:企業(yè)支持?jǐn)?shù)據(jù)中心轉(zhuǎn)型需要確保安全性和性能