中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何使用 Hadoop 構(gòu)建大規(guī)模數(shù)據(jù)產(chǎn)品?

2019-12-26    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

什么是數(shù)據(jù)科學家?Josh Wills 經(jīng)常被引用的推文 給我們提供了以下定義:

數(shù)據(jù)科學家(名詞):指比所有軟件工程師更擅長統(tǒng)計學,并且比所有統(tǒng)計學家更擅長軟件工程的人。

當然,這與數(shù)據(jù)產(chǎn)品僅僅是數(shù)據(jù)與統(tǒng)計算法的結(jié)合這一想法十分吻合。軟件工程和統(tǒng)計學知識都是數(shù)據(jù)科學的基礎(chǔ)。然而,在一個需要產(chǎn)品從數(shù)據(jù)中獲取價值并產(chǎn)生新數(shù)據(jù)的經(jīng)濟體系中,構(gòu)建數(shù)據(jù)產(chǎn)品其實就是數(shù)據(jù)科學家的工作。

Harlan Harris 提供了有關(guān)數(shù)據(jù)產(chǎn)品的更多細節(jié):它們建立在數(shù)據(jù)、領(lǐng)域知識、軟件工程和分析技術(shù)的交叉點上。由于數(shù)據(jù)產(chǎn)品是系統(tǒng),因此構(gòu)建它們需要工程技能,通常是軟件工程方面的技能;由于它們由數(shù)據(jù)驅(qū)動,因此擁有數(shù)據(jù)是必要條件;領(lǐng)域知識和分析技術(shù)是用于構(gòu)建數(shù)據(jù)引擎的工具,通常通過實驗完成,因此是數(shù)據(jù)科學的“科學”部分。

由于需要使用實驗方法學,因此大多數(shù)數(shù)據(jù)科學家會采用典型的分析工作流:采集 → 整理 → 建模 → 報告和可視化。然而,這種所謂的數(shù)據(jù)科學流水線完全由人力驅(qū)動,再輔以腳本語言(如 R 和 Python)的使用。流水線的每一個環(huán)節(jié)都需要人類的知識和分析技能,意在產(chǎn)生獨特且不可泛化的結(jié)果。雖然這個流水線是很好的統(tǒng)計和分析基礎(chǔ)框架,但它不能滿足構(gòu)建數(shù)據(jù)產(chǎn)品的需求,特別是當想從中獲取價值的目標數(shù)據(jù)大到無法在一臺筆記本電腦上處理時。隨著數(shù)據(jù)越來越多、越來越多變、產(chǎn)生的速度越來越快,自動獲取有用信息而無須人工干預的工具也變得越來越重要。

利用大型數(shù)據(jù)集

直覺告訴我們,觀測越多,數(shù)據(jù)就越多——這真讓人喜憂參半。人類擁有發(fā)現(xiàn)大規(guī)模模式的卓越能力(我們以森林和林中空地作為隱喻)。理解數(shù)據(jù)的認知過程涉及概覽數(shù)據(jù),深入研究具體層面的細節(jié),然后再回到概覽角度。這個過程中的細節(jié)并不一定可靠,因為細粒度(隱喻中的葉子、分枝或單棵樹木)會限制我們的理解能力。多數(shù)數(shù)據(jù)既可能是模式和信號,也可能是噪聲和干擾。

通過聚合和索引描述數(shù)據(jù),或者直接對數(shù)據(jù)建模,統(tǒng)計方法使我們能夠處理摻雜著噪聲和信號的數(shù)據(jù)。雖然這些技術(shù)能幫助我們理解數(shù)據(jù),但是它們以犧牲計算粒度為代價,例如有意義的罕見事件可能會被模型排除。兼顧罕見事件的統(tǒng)計技術(shù)能利用計算機同時跟蹤多個數(shù)據(jù)點,但也需要更多的計算資源。因此,傳統(tǒng)的統(tǒng)計方法會對較大的數(shù)據(jù)集采取抽樣方法,用較小的數(shù)據(jù)子集替代總體。樣本越大,模型包括罕見事件且能將其捕獲的可能性就越大。

隨著收集數(shù)據(jù)的能力越來越高,我們對通用性也有了更大的需求。過去十年間,由于數(shù)據(jù)和機器學習算法的緊密結(jié)合,新穎的成果紛紛問世,數(shù)據(jù)科學得到了空前的發(fā)展。智能電網(wǎng)、“量化自我”、移動技術(shù)、傳感器和互聯(lián)家庭要求我們應用個性化的統(tǒng)計推斷。規(guī)模不僅與數(shù)據(jù)量有關(guān),也與需要探索多少方面有關(guān)——就好像森林中的每棵樹一樣。

Google 的兩篇論文描述了一個完整的分布式計算系統(tǒng);Hadoop 是其開源實現(xiàn),它將我們帶入了大數(shù)據(jù)時代。然而,分布式計算和分布式數(shù)據(jù)庫系統(tǒng)并不是新的話題。在那兩篇論文發(fā)表之前,與 Hadoop 的計算能力相當?shù)臄?shù)據(jù)倉庫系統(tǒng)就早已存在于工業(yè)界和學術(shù)界。Hadoop 之所以與眾不同,一方面是因為數(shù)據(jù)處理能帶來經(jīng)濟效益,另一方面是因為 Hadoop 是一個平臺。但是真正使 Hadoop 獨樹一幟的原因其實是它出現(xiàn)的時機——恰恰在一個需要大規(guī)模數(shù)據(jù)分析解決方案的時刻,它問世了。而且它不僅能分析總體的統(tǒng)計數(shù)據(jù),還能獲得個體級別的通用性和洞察力。

數(shù)據(jù)產(chǎn)品中的 Hadoop

一開始,Hadoop 的使用者是那些面臨大數(shù)據(jù)挑戰(zhàn)的大公司,比如 Google、Facebook 和 Yahoo。然而,Hadoop 之所以這么重要,以及促使你拿起本書的原因,恰恰是因為面臨數(shù)據(jù)挑戰(zhàn)的不再只是科技巨擘。大大小小的商業(yè)機構(gòu)和政府機構(gòu)——從企業(yè)到創(chuàng)業(yè)公司,再到聯(lián)邦機構(gòu)和市政府,甚至是每個人,都面臨著數(shù)據(jù)挑戰(zhàn)。計算資源變得廉價且唾手可得——就像 PC 時代的黑客在車庫里使用手邊的電子產(chǎn)品搞創(chuàng)新,現(xiàn)在的創(chuàng)業(yè)公司使用 10 節(jié)點~ 20 節(jié)點的小集群在數(shù)據(jù)探索上搞創(chuàng)新。云計算資源(如 Amazon EC2 和 Google Compute Engine)使數(shù)據(jù)科學家可以及時、按需地訪問大規(guī)模集群,而且成本較低,也無須進行數(shù)據(jù)中心管理。Hadoop 使大數(shù)據(jù)計算更貼近大眾,也更平易近人,下面的例子說明了這一點。

2011 年,Lady Gaga 發(fā)行了她的專輯 Born This Way,這個事件為社交媒體帶來了約 1.3 萬億條信息,包括點贊、推文、圖像和視頻。Lady Gaga 的經(jīng)紀人 Troy Carter 馬上發(fā)現(xiàn)了一個將粉絲聚集起來的機會。經(jīng)過大量的數(shù)據(jù)挖掘工作,他成功將 Twitter 和 Facebook 上的數(shù)百萬粉絲聚集到了 LittleMonsters.com 這個只針對 Lady Gaga 的小社交網(wǎng)絡中。該網(wǎng)站的成功促使 Backplane(現(xiàn)在叫 Place)誕生,這是一個用于生成和管理由小型社區(qū)驅(qū)動的社交網(wǎng)絡的工具。

2015 年,紐約市警察局安裝了一個價值 150 萬美元的聲學傳感器網(wǎng)絡,名叫 ShotSpotter。該系統(tǒng)能夠檢測與爆炸或槍擊相關(guān)的脈沖聲,使應急響應人員能夠快速響應在布朗克斯區(qū)發(fā)生的事件。重要的是,這個系統(tǒng)還很智能,可以預測是否會發(fā)生后續(xù)的槍擊事件及其大致位置。ShotSpotter 系統(tǒng)發(fā)現(xiàn),自 2009 年以來,有超過 75%的槍擊事件沒有報告給警察。

“量化自我”運動越來越受歡迎,各家公司也一直努力在消費者中廣泛普及可穿戴技術(shù)設(shè)備、個人數(shù)據(jù)收集設(shè)備,甚至是基因測序儀器。2012 年,美國的《平價醫(yī)療法案》規(guī)定健康計劃對電子病歷實施標準化、安全、保密的共享方法;ヂ(lián)家庭、移動設(shè)備以及其他個人傳感器每天都在產(chǎn)生大量個人數(shù)據(jù),這引發(fā)了人們對隱私的關(guān)注。2015 年,英國研究人員創(chuàng)建了 Hub of All Things(HAT)。這是一項個性化的數(shù)據(jù)集合技術(shù),用于處理“誰擁有你的數(shù)據(jù)”這一問題,并為個人數(shù)據(jù)的聚合提供技術(shù)解決方案。

傳統(tǒng)上,大規(guī)模的個人數(shù)據(jù)分析一直屬于社交網(wǎng)絡的范疇,如 Facebook 和 Twitter。但幸好有了 Place,大型社交網(wǎng)絡現(xiàn)在成為了個人品牌和藝術(shù)家的誕生之地。每個城市面臨的數(shù)據(jù)挑戰(zhàn)都不一樣,盡管針對典型城市的泛化可以滿足許多分析的需求,但是新的數(shù)據(jù)挑戰(zhàn)仍然不斷出現(xiàn),對每個城市分別進行研究勢在必行。(比如工業(yè)、航運或天氣對聲學傳感器網(wǎng)絡有什么影響?)怎樣使技術(shù)為消費者提供價值,在使用他們的個人醫(yī)療記錄時不侵犯他們的隱私,避免與其他人的記錄聚合?怎樣使個人醫(yī)療診斷數(shù)據(jù)挖掘變得更安全?

數(shù)據(jù)產(chǎn)品的出現(xiàn)正是為了切實回答這些問題。Place、ShotSpotter、“量化自我”產(chǎn)品和 HAT 等通過提供應用程序平臺和決策資源供人們采取行動,從數(shù)據(jù)中獲取價值并產(chǎn)生新數(shù)據(jù)。它們提供的價值是明確的,但要處理數(shù)萬億的點贊數(shù)據(jù)和數(shù)百萬個麥克風生成的大量數(shù)據(jù)集,或者我們每天生成的海量個人數(shù)據(jù),傳統(tǒng)的軟件開發(fā)工作流無法應對這一挑戰(zhàn)。大數(shù)據(jù)工作流和 Hadoop 使這些應用程序成為可能并且可個性化。

作者:Benjamin Bengfort

譯者:王純超

內(nèi)容來自作者圖書作品《Hadoop 數(shù)據(jù)分析》

標簽: Hadoop 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:80本值得一讀的最佳數(shù)據(jù)科學書籍(一)

下一篇:大數(shù)據(jù)分析應用于政府的12個數(shù)據(jù)科學案例