中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度分析數(shù)據(jù)科學(xué)流水線和Hadoop生態(tài)系統(tǒng)

2020-03-27    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:Benjamin Bengfort 譯者:王純超 來(lái)源:InfoQ

數(shù)據(jù)科學(xué)流水線是一種教學(xué)模型,用于教授對(duì)數(shù)據(jù)進(jìn)行全面統(tǒng)計(jì)分析所需的工作流,如圖 1-1 所示。在每個(gè)環(huán)節(jié)中,分析人員要轉(zhuǎn)換初始數(shù)據(jù)集,然后從各種數(shù)據(jù)源增強(qiáng)或采集數(shù)據(jù),再通過(guò)描述性或推斷性的統(tǒng)計(jì)方法將數(shù)據(jù)整理為可以計(jì)算的正常形式,最后通過(guò)可視化或報(bào)告的形式生成結(jié)果。這些分析過(guò)程通常用于回答特定問(wèn)題,或用于調(diào)查數(shù)據(jù)與某些業(yè)務(wù)實(shí)踐間的關(guān)系,以進(jìn)行驗(yàn)證或決策。

 

 

圖 1-1:數(shù)據(jù)科學(xué)流水線

這個(gè)原始的工作流模型引領(lǐng)了大多數(shù)早期的數(shù)據(jù)科學(xué)思想。最初關(guān)于數(shù)據(jù)科學(xué)應(yīng)用程序的討論圍繞著如何創(chuàng)建有意義的信息可視化——這也許令人意外,主要是因?yàn)檫@個(gè)工作流旨在生成幫助人們進(jìn)行決策的依據(jù)。通過(guò)對(duì)大型數(shù)據(jù)集的聚合、描述和建模,人們能夠更好地根據(jù)模式(而不是單個(gè)數(shù)據(jù)點(diǎn))作出判斷。數(shù)據(jù)可視化是新生的數(shù)據(jù)產(chǎn)品,它們從數(shù)據(jù)中產(chǎn)生價(jià)值,幫助人們基于學(xué)習(xí)到的內(nèi)容采取行動(dòng),然后再?gòu)倪@些行動(dòng)中生成新數(shù)據(jù)。

然而,面對(duì)呈指數(shù)增長(zhǎng)的數(shù)據(jù)量和數(shù)據(jù)增長(zhǎng)速度,這種以人力驅(qū)動(dòng)的模型并不是一個(gè)可擴(kuò)展的解決方案,這也正是許多企業(yè)都為之抓狂的原因。根據(jù)預(yù)測(cè),到 2020 年,我們每年生成和復(fù)制的數(shù)據(jù)將達(dá)到 44ZB,即 44 萬(wàn)億 GB 。即使實(shí)際規(guī)模只達(dá)到預(yù)測(cè)規(guī)模的一小部分,手動(dòng)的數(shù)據(jù)準(zhǔn)備和挖掘方法也根本無(wú)法及時(shí)提供有意義的信息。

除了規(guī)模上的局限,這種以人為中心的單向工作流也不能有效地設(shè)計(jì)能夠?qū)W習(xí)的自適應(yīng)系統(tǒng)。機(jī)器學(xué)習(xí)算法已經(jīng)廣泛應(yīng)用于學(xué)術(shù)界之外,非常符合數(shù)據(jù)產(chǎn)品的定義。因?yàn)槟P蜁?huì)擬合現(xiàn)有的數(shù)據(jù)集,所以這些類型的算法可以從數(shù)據(jù)中獲取價(jià)值,然后通過(guò)對(duì)新的觀察值作出預(yù)測(cè)來(lái)產(chǎn)生新的數(shù)據(jù)。

如果要?jiǎng)?chuàng)建一個(gè)框架,支持構(gòu)建可擴(kuò)展和可自動(dòng)化的解決方案,從而能解釋數(shù)據(jù)和生成有用的信息,就必須修改數(shù)據(jù)科學(xué)流水線,使其包含機(jī)器學(xué)習(xí)方法的反饋循環(huán)。

大數(shù)據(jù)工作流

考慮到可擴(kuò)展性和自動(dòng)化的目標(biāo),我們可以將人力驅(qū)動(dòng)的數(shù)據(jù)科學(xué)流水線重構(gòu)為包括采集、分段、計(jì)算和工作流管理這 4 個(gè)主要階段的迭代模型(如圖 1-2 所示)。與數(shù)據(jù)科學(xué)流水線一樣,這種模型其實(shí)就是采集原始數(shù)據(jù)并將其轉(zhuǎn)換為有用的信息。關(guān)鍵的區(qū)別在于,數(shù)據(jù)產(chǎn)品流水線是在操作化和自動(dòng)化工作流的步驟中構(gòu)建起來(lái)的。通過(guò)將采集、分段和計(jì)算這 3 個(gè)步驟轉(zhuǎn)換為自動(dòng)化工作流,最終產(chǎn)生可重用的數(shù)據(jù)產(chǎn)品。工作流管理步驟還引入了反饋流機(jī)制,來(lái)自其中一個(gè)作業(yè)執(zhí)行的輸出可以自動(dòng)作為下一次迭代的數(shù)據(jù)輸入,因此為機(jī)器學(xué)習(xí)應(yīng)用程序提供了必要的自適應(yīng)框架。

 

 

圖 1-2:大數(shù)據(jù)流水線

采集階段既是模型的初始化階段,也是用戶和模型之間的應(yīng)用交互階段。在初始化期間,用戶指定數(shù)據(jù)源的位置或標(biāo)注數(shù)據(jù)(另一種數(shù)據(jù)采集形式);在交互期間,用戶消費(fèi)模型的預(yù)測(cè)結(jié)果并提供用于鞏固模型的反饋。

分段階段是轉(zhuǎn)換數(shù)據(jù)的階段,使其變?yōu)榭上M(fèi)的形式并存儲(chǔ)起來(lái),從而能夠用于處理。本階段還負(fù)責(zé)數(shù)據(jù)的歸一化和標(biāo)準(zhǔn)化,以及一些計(jì)算數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)管理工作。

計(jì)算階段是真正“干活”的階段,主要負(fù)責(zé)挖掘數(shù)據(jù)以獲取有用的信息,執(zhí)行聚合或報(bào)告,構(gòu)建用于推薦、聚類或分類的機(jī)器學(xué)習(xí)模型。

工作流管理階段執(zhí)行抽象、編排和自動(dòng)化任務(wù),使工作流的各步驟可用于生產(chǎn)環(huán)境。此步驟應(yīng)能產(chǎn)生自動(dòng)按需運(yùn)行的應(yīng)用程序、作業(yè)或腳本。

Hadoop 已經(jīng)演變成了包含各種工具的生態(tài)系統(tǒng),可以實(shí)現(xiàn)上述流水線的部分環(huán)節(jié)。例如,Sqoop 和 Kafka 可用于數(shù)據(jù)采集,支持將關(guān)系數(shù)據(jù)庫(kù)導(dǎo)入 Hadoop 或分布式消息隊(duì)列,以進(jìn)行按需處理。在 Hadoop 中,像 Hive 和 HBase 之類的數(shù)據(jù)倉(cāng)庫(kù)提供了大規(guī)模的數(shù)據(jù)管理機(jī)會(huì);Spark 的 GraphX、MLlib 或 Mahout 庫(kù)提供了分析包,供大規(guī)模計(jì)算和驗(yàn)證使用。在本書中,我們將探索 Hadoop 生態(tài)系統(tǒng)的許多組件,并了解它們?nèi)绾稳谌胝麄(gè)大數(shù)據(jù)流水線。

總結(jié)

在過(guò)去十年間,關(guān)于“什么是數(shù)據(jù)科學(xué)”的討論發(fā)生了巨大變化——從純分析到與可視化相關(guān)的方法,再到如今數(shù)據(jù)產(chǎn)品的創(chuàng)建。數(shù)據(jù)產(chǎn)品是使用數(shù)據(jù)訓(xùn)練、自適應(yīng)且廣泛適用的經(jīng)濟(jì)引擎,從數(shù)據(jù)中獲取價(jià)值并產(chǎn)生新的數(shù)據(jù)。數(shù)據(jù)產(chǎn)品引發(fā)了一次信息經(jīng)濟(jì)革命,改變了小企業(yè)、技術(shù)創(chuàng)業(yè)公司、大型組織甚至政府機(jī)構(gòu)看待其數(shù)據(jù)的方式。

本文描述了數(shù)據(jù)科學(xué)流水線原始教學(xué)模型的一個(gè)改良版本,并提出了數(shù)據(jù)產(chǎn)品流水線。數(shù)據(jù)產(chǎn)品流水線是迭代的,包括兩個(gè)階段:構(gòu)建階段和運(yùn)行階段(包括 4 個(gè)階段:交互、數(shù)據(jù)、存儲(chǔ)和計(jì)算)。這種架構(gòu)可以有條不紊地執(zhí)行大規(guī)模的數(shù)據(jù)分析,保留了實(shí)驗(yàn)、人與數(shù)據(jù)產(chǎn)品間的交互。而且當(dāng)圍繞數(shù)據(jù)產(chǎn)品構(gòu)建的應(yīng)用程序很大時(shí),它還能支持部分環(huán)節(jié)的自動(dòng)化。希望這個(gè)流水線可以幫你了解數(shù)據(jù)產(chǎn)品生命周期的大體框架,也能成為探索更多創(chuàng)新項(xiàng)目的基石。

因?yàn)楸緯菑臄?shù)據(jù)科學(xué)家的角度探討分布式計(jì)算和 Hadoop,所以我們認(rèn)為,Hadoop 的作用是從大量不同來(lái)源采集多種形式的數(shù)據(jù)(其中包含大量實(shí)例、事件和類),并將其轉(zhuǎn)換為有價(jià)值的事物——數(shù)據(jù)產(chǎn)品。

本文內(nèi)容來(lái)自作者圖書作品《Hadoop 數(shù)據(jù)分析》

標(biāo)簽: Hadoop 深度分析 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:為什么你的數(shù)據(jù)科學(xué)項(xiàng)目終將失敗?

下一篇:一圖看清美國(guó)最具前景的50家人工智能公司