中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何使用 Hadoop 構(gòu)建大規(guī)模數(shù)據(jù)產(chǎn)品?

2020-03-03    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

什么是數(shù)據(jù)科學(xué)家?Josh Wills 經(jīng)常被引用的推文 給我們提供了以下定義:

數(shù)據(jù)科學(xué)家(名詞):指比所有軟件工程師更擅長(zhǎng)統(tǒng)計(jì)學(xué),并且比所有統(tǒng)計(jì)學(xué)家更擅長(zhǎng)軟件工程的人。

當(dāng)然,這與數(shù)據(jù)產(chǎn)品僅僅是數(shù)據(jù)與統(tǒng)計(jì)算法的結(jié)合這一想法十分吻合。軟件工程和統(tǒng)計(jì)學(xué)知識(shí)都是數(shù)據(jù)科學(xué)的基礎(chǔ)。然而,在一個(gè)需要產(chǎn)品從數(shù)據(jù)中獲取價(jià)值并產(chǎn)生新數(shù)據(jù)的經(jīng)濟(jì)體系中,構(gòu)建數(shù)據(jù)產(chǎn)品其實(shí)就是數(shù)據(jù)科學(xué)家的工作。

Harlan Harris 提供了有關(guān)數(shù)據(jù)產(chǎn)品的更多細(xì)節(jié):它們建立在數(shù)據(jù)、領(lǐng)域知識(shí)、軟件工程和分析技術(shù)的交叉點(diǎn)上。由于數(shù)據(jù)產(chǎn)品是系統(tǒng),因此構(gòu)建它們需要工程技能,通常是軟件工程方面的技能;由于它們由數(shù)據(jù)驅(qū)動(dòng),因此擁有數(shù)據(jù)是必要條件;領(lǐng)域知識(shí)和分析技術(shù)是用于構(gòu)建數(shù)據(jù)引擎的工具,通常通過(guò)實(shí)驗(yàn)完成,因此是數(shù)據(jù)科學(xué)的“科學(xué)”部分。

由于需要使用實(shí)驗(yàn)方法學(xué),因此大多數(shù)數(shù)據(jù)科學(xué)家會(huì)采用典型的分析工作流:采集 → 整理 → 建模 → 報(bào)告和可視化。然而,這種所謂的數(shù)據(jù)科學(xué)流水線完全由人力驅(qū)動(dòng),再輔以腳本語(yǔ)言(如 R 和 Python)的使用。流水線的每一個(gè)環(huán)節(jié)都需要人類的知識(shí)和分析技能,意在產(chǎn)生獨(dú)特且不可泛化的結(jié)果。雖然這個(gè)流水線是很好的統(tǒng)計(jì)和分析基礎(chǔ)框架,但它不能滿足構(gòu)建數(shù)據(jù)產(chǎn)品的需求,特別是當(dāng)想從中獲取價(jià)值的目標(biāo)數(shù)據(jù)大到無(wú)法在一臺(tái)筆記本電腦上處理時(shí)。隨著數(shù)據(jù)越來(lái)越多、越來(lái)越多變、產(chǎn)生的速度越來(lái)越快,自動(dòng)獲取有用信息而無(wú)須人工干預(yù)的工具也變得越來(lái)越重要。

利用大型數(shù)據(jù)集

直覺(jué)告訴我們,觀測(cè)越多,數(shù)據(jù)就越多——這真讓人喜憂參半。人類擁有發(fā)現(xiàn)大規(guī)模模式的卓越能力(我們以森林和林中空地作為隱喻)。理解數(shù)據(jù)的認(rèn)知過(guò)程涉及概覽數(shù)據(jù),深入研究具體層面的細(xì)節(jié),然后再回到概覽角度。這個(gè)過(guò)程中的細(xì)節(jié)并不一定可靠,因?yàn)榧?xì)粒度(隱喻中的葉子、分枝或單棵樹木)會(huì)限制我們的理解能力。多數(shù)數(shù)據(jù)既可能是模式和信號(hào),也可能是噪聲和干擾。

通過(guò)聚合和索引描述數(shù)據(jù),或者直接對(duì)數(shù)據(jù)建模,統(tǒng)計(jì)方法使我們能夠處理?yè)诫s著噪聲和信號(hào)的數(shù)據(jù)。雖然這些技術(shù)能幫助我們理解數(shù)據(jù),但是它們以犧牲計(jì)算粒度為代價(jià),例如有意義的罕見事件可能會(huì)被模型排除。兼顧罕見事件的統(tǒng)計(jì)技術(shù)能利用計(jì)算機(jī)同時(shí)跟蹤多個(gè)數(shù)據(jù)點(diǎn),但也需要更多的計(jì)算資源。因此,傳統(tǒng)的統(tǒng)計(jì)方法會(huì)對(duì)較大的數(shù)據(jù)集采取抽樣方法,用較小的數(shù)據(jù)子集替代總體。樣本越大,模型包括罕見事件且能將其捕獲的可能性就越大。

隨著收集數(shù)據(jù)的能力越來(lái)越高,我們對(duì)通用性也有了更大的需求。過(guò)去十年間,由于數(shù)據(jù)和機(jī)器學(xué)習(xí)算法的緊密結(jié)合,新穎的成果紛紛問(wèn)世,數(shù)據(jù)科學(xué)得到了空前的發(fā)展。智能電網(wǎng)、“量化自我”、移動(dòng)技術(shù)、傳感器和互聯(lián)家庭要求我們應(yīng)用個(gè)性化的統(tǒng)計(jì)推斷。規(guī)模不僅與數(shù)據(jù)量有關(guān),也與需要探索多少方面有關(guān)——就好像森林中的每棵樹一樣。

Google 的兩篇論文描述了一個(gè)完整的分布式計(jì)算系統(tǒng);Hadoop 是其開源實(shí)現(xiàn),它將我們帶入了大數(shù)據(jù)時(shí)代。然而,分布式計(jì)算和分布式數(shù)據(jù)庫(kù)系統(tǒng)并不是新的話題。在那兩篇論文發(fā)表之前,與 Hadoop 的計(jì)算能力相當(dāng)?shù)臄?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)就早已存在于工業(yè)界和學(xué)術(shù)界。Hadoop 之所以與眾不同,一方面是因?yàn)閿?shù)據(jù)處理能帶來(lái)經(jīng)濟(jì)效益,另一方面是因?yàn)?Hadoop 是一個(gè)平臺(tái)。但是真正使 Hadoop 獨(dú)樹一幟的原因其實(shí)是它出現(xiàn)的時(shí)機(jī)——恰恰在一個(gè)需要大規(guī)模數(shù)據(jù)分析解決方案的時(shí)刻,它問(wèn)世了。而且它不僅能分析總體的統(tǒng)計(jì)數(shù)據(jù),還能獲得個(gè)體級(jí)別的通用性和洞察力。

數(shù)據(jù)產(chǎn)品中的 Hadoop

一開始,Hadoop 的使用者是那些面臨大數(shù)據(jù)挑戰(zhàn)的大公司,比如 Google、Facebook 和 Yahoo。然而,Hadoop 之所以這么重要,以及促使你拿起本書的原因,恰恰是因?yàn)槊媾R數(shù)據(jù)挑戰(zhàn)的不再只是科技巨擘。大大小小的商業(yè)機(jī)構(gòu)和政府機(jī)構(gòu)——從企業(yè)到創(chuàng)業(yè)公司,再到聯(lián)邦機(jī)構(gòu)和市政府,甚至是每個(gè)人,都面臨著數(shù)據(jù)挑戰(zhàn)。計(jì)算資源變得廉價(jià)且唾手可得——就像 PC 時(shí)代的黑客在車庫(kù)里使用手邊的電子產(chǎn)品搞創(chuàng)新,現(xiàn)在的創(chuàng)業(yè)公司使用 10 節(jié)點(diǎn)~ 20 節(jié)點(diǎn)的小集群在數(shù)據(jù)探索上搞創(chuàng)新。云計(jì)算資源(如 Amazon EC2 和 Google Compute Engine)使數(shù)據(jù)科學(xué)家可以及時(shí)、按需地訪問(wèn)大規(guī)模集群,而且成本較低,也無(wú)須進(jìn)行數(shù)據(jù)中心管理。Hadoop 使大數(shù)據(jù)計(jì)算更貼近大眾,也更平易近人,下面的例子說(shuō)明了這一點(diǎn)。

2011 年,Lady Gaga 發(fā)行了她的專輯 Born This Way,這個(gè)事件為社交媒體帶來(lái)了約 1.3 萬(wàn)億條信息,包括點(diǎn)贊、推文、圖像和視頻。Lady Gaga 的經(jīng)紀(jì)人 Troy Carter 馬上發(fā)現(xiàn)了一個(gè)將粉絲聚集起來(lái)的機(jī)會(huì)。經(jīng)過(guò)大量的數(shù)據(jù)挖掘工作,他成功將 Twitter 和 Facebook 上的數(shù)百萬(wàn)粉絲聚集到了 LittleMonsters.com 這個(gè)只針對(duì) Lady Gaga 的小社交網(wǎng)絡(luò)中。該網(wǎng)站的成功促使 Backplane(現(xiàn)在叫 Place)誕生,這是一個(gè)用于生成和管理由小型社區(qū)驅(qū)動(dòng)的社交網(wǎng)絡(luò)的工具。

2015 年,紐約市警察局安裝了一個(gè)價(jià)值 150 萬(wàn)美元的聲學(xué)傳感器網(wǎng)絡(luò),名叫 ShotSpotter。該系統(tǒng)能夠檢測(cè)與爆炸或槍擊相關(guān)的脈沖聲,使應(yīng)急響應(yīng)人員能夠快速響應(yīng)在布朗克斯區(qū)發(fā)生的事件。重要的是,這個(gè)系統(tǒng)還很智能,可以預(yù)測(cè)是否會(huì)發(fā)生后續(xù)的槍擊事件及其大致位置。ShotSpotter 系統(tǒng)發(fā)現(xiàn),自 2009 年以來(lái),有超過(guò) 75%的槍擊事件沒(méi)有報(bào)告給警察。

“量化自我”運(yùn)動(dòng)越來(lái)越受歡迎,各家公司也一直努力在消費(fèi)者中廣泛普及可穿戴技術(shù)設(shè)備、個(gè)人數(shù)據(jù)收集設(shè)備,甚至是基因測(cè)序儀器。2012 年,美國(guó)的《平價(jià)醫(yī)療法案》規(guī)定健康計(jì)劃對(duì)電子病歷實(shí)施標(biāo)準(zhǔn)化、安全、保密的共享方法。互聯(lián)家庭、移動(dòng)設(shè)備以及其他個(gè)人傳感器每天都在產(chǎn)生大量個(gè)人數(shù)據(jù),這引發(fā)了人們對(duì)隱私的關(guān)注。2015 年,英國(guó)研究人員創(chuàng)建了 Hub of All Things(HAT)。這是一項(xiàng)個(gè)性化的數(shù)據(jù)集合技術(shù),用于處理“誰(shuí)擁有你的數(shù)據(jù)”這一問(wèn)題,并為個(gè)人數(shù)據(jù)的聚合提供技術(shù)解決方案。

傳統(tǒng)上,大規(guī)模的個(gè)人數(shù)據(jù)分析一直屬于社交網(wǎng)絡(luò)的范疇,如 Facebook 和 Twitter。但幸好有了 Place,大型社交網(wǎng)絡(luò)現(xiàn)在成為了個(gè)人品牌和藝術(shù)家的誕生之地。每個(gè)城市面臨的數(shù)據(jù)挑戰(zhàn)都不一樣,盡管針對(duì)典型城市的泛化可以滿足許多分析的需求,但是新的數(shù)據(jù)挑戰(zhàn)仍然不斷出現(xiàn),對(duì)每個(gè)城市分別進(jìn)行研究勢(shì)在必行。(比如工業(yè)、航運(yùn)或天氣對(duì)聲學(xué)傳感器網(wǎng)絡(luò)有什么影響?)怎樣使技術(shù)為消費(fèi)者提供價(jià)值,在使用他們的個(gè)人醫(yī)療記錄時(shí)不侵犯他們的隱私,避免與其他人的記錄聚合?怎樣使個(gè)人醫(yī)療診斷數(shù)據(jù)挖掘變得更安全?

數(shù)據(jù)產(chǎn)品的出現(xiàn)正是為了切實(shí)回答這些問(wèn)題。Place、ShotSpotter、“量化自我”產(chǎn)品和 HAT 等通過(guò)提供應(yīng)用程序平臺(tái)和決策資源供人們采取行動(dòng),從數(shù)據(jù)中獲取價(jià)值并產(chǎn)生新數(shù)據(jù)。它們提供的價(jià)值是明確的,但要處理數(shù)萬(wàn)億的點(diǎn)贊數(shù)據(jù)和數(shù)百萬(wàn)個(gè)麥克風(fēng)生成的大量數(shù)據(jù)集,或者我們每天生成的海量個(gè)人數(shù)據(jù),傳統(tǒng)的軟件開發(fā)工作流無(wú)法應(yīng)對(duì)這一挑戰(zhàn)。大數(shù)據(jù)工作流和 Hadoop 使這些應(yīng)用程序成為可能并且可個(gè)性化。

作者:Benjamin Bengfort

譯者:王純超

內(nèi)容來(lái)自作者圖書作品《Hadoop 數(shù)據(jù)分析》

標(biāo)簽: Hadoop 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:2019年正在改變軟件開發(fā)行業(yè)的十大Web開發(fā)趨勢(shì)

下一篇:80本值得一讀的最佳數(shù)據(jù)科學(xué)書籍(一)