中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度分析數(shù)據(jù)科學(xué)流水線和Hadoop生態(tài)系統(tǒng)

2020-12-04    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Benjamin Bengfort 譯者:王純超 來源:InfoQ

數(shù)據(jù)科學(xué)流水線是一種教學(xué)模型,用于教授對數(shù)據(jù)進(jìn)行全面統(tǒng)計分析所需的工作流,如圖 1-1 所示。在每個環(huán)節(jié)中,分析人員要轉(zhuǎn)換初始數(shù)據(jù)集,然后從各種數(shù)據(jù)源增強(qiáng)或采集數(shù)據(jù),再通過描述性或推斷性的統(tǒng)計方法將數(shù)據(jù)整理為可以計算的正常形式,最后通過可視化或報告的形式生成結(jié)果。這些分析過程通常用于回答特定問題,或用于調(diào)查數(shù)據(jù)與某些業(yè)務(wù)實踐間的關(guān)系,以進(jìn)行驗證或決策。

 

 

圖 1-1:數(shù)據(jù)科學(xué)流水線

這個原始的工作流模型引領(lǐng)了大多數(shù)早期的數(shù)據(jù)科學(xué)思想。最初關(guān)于數(shù)據(jù)科學(xué)應(yīng)用程序的討論圍繞著如何創(chuàng)建有意義的信息可視化——這也許令人意外,主要是因為這個工作流旨在生成幫助人們進(jìn)行決策的依據(jù)。通過對大型數(shù)據(jù)集的聚合、描述和建模,人們能夠更好地根據(jù)模式(而不是單個數(shù)據(jù)點(diǎn))作出判斷。數(shù)據(jù)可視化是新生的數(shù)據(jù)產(chǎn)品,它們從數(shù)據(jù)中產(chǎn)生價值,幫助人們基于學(xué)習(xí)到的內(nèi)容采取行動,然后再從這些行動中生成新數(shù)據(jù)。

然而,面對呈指數(shù)增長的數(shù)據(jù)量和數(shù)據(jù)增長速度,這種以人力驅(qū)動的模型并不是一個可擴(kuò)展的解決方案,這也正是許多企業(yè)都為之抓狂的原因。根據(jù)預(yù)測,到 2020 年,我們每年生成和復(fù)制的數(shù)據(jù)將達(dá)到 44ZB,即 44 萬億 GB 。即使實際規(guī)模只達(dá)到預(yù)測規(guī)模的一小部分,手動的數(shù)據(jù)準(zhǔn)備和挖掘方法也根本無法及時提供有意義的信息。

除了規(guī)模上的局限,這種以人為中心的單向工作流也不能有效地設(shè)計能夠?qū)W習(xí)的自適應(yīng)系統(tǒng)。機(jī)器學(xué)習(xí)算法已經(jīng)廣泛應(yīng)用于學(xué)術(shù)界之外,非常符合數(shù)據(jù)產(chǎn)品的定義。因為模型會擬合現(xiàn)有的數(shù)據(jù)集,所以這些類型的算法可以從數(shù)據(jù)中獲取價值,然后通過對新的觀察值作出預(yù)測來產(chǎn)生新的數(shù)據(jù)。

如果要創(chuàng)建一個框架,支持構(gòu)建可擴(kuò)展和可自動化的解決方案,從而能解釋數(shù)據(jù)和生成有用的信息,就必須修改數(shù)據(jù)科學(xué)流水線,使其包含機(jī)器學(xué)習(xí)方法的反饋循環(huán)。

大數(shù)據(jù)工作流

考慮到可擴(kuò)展性和自動化的目標(biāo),我們可以將人力驅(qū)動的數(shù)據(jù)科學(xué)流水線重構(gòu)為包括采集、分段、計算和工作流管理這 4 個主要階段的迭代模型(如圖 1-2 所示)。與數(shù)據(jù)科學(xué)流水線一樣,這種模型其實就是采集原始數(shù)據(jù)并將其轉(zhuǎn)換為有用的信息。關(guān)鍵的區(qū)別在于,數(shù)據(jù)產(chǎn)品流水線是在操作化和自動化工作流的步驟中構(gòu)建起來的。通過將采集、分段和計算這 3 個步驟轉(zhuǎn)換為自動化工作流,最終產(chǎn)生可重用的數(shù)據(jù)產(chǎn)品。工作流管理步驟還引入了反饋流機(jī)制,來自其中一個作業(yè)執(zhí)行的輸出可以自動作為下一次迭代的數(shù)據(jù)輸入,因此為機(jī)器學(xué)習(xí)應(yīng)用程序提供了必要的自適應(yīng)框架。

 

 

圖 1-2:大數(shù)據(jù)流水線

采集階段既是模型的初始化階段,也是用戶和模型之間的應(yīng)用交互階段。在初始化期間,用戶指定數(shù)據(jù)源的位置或標(biāo)注數(shù)據(jù)(另一種數(shù)據(jù)采集形式);在交互期間,用戶消費(fèi)模型的預(yù)測結(jié)果并提供用于鞏固模型的反饋。

分段階段是轉(zhuǎn)換數(shù)據(jù)的階段,使其變?yōu)榭上M(fèi)的形式并存儲起來,從而能夠用于處理。本階段還負(fù)責(zé)數(shù)據(jù)的歸一化和標(biāo)準(zhǔn)化,以及一些計算數(shù)據(jù)存儲中的數(shù)據(jù)管理工作。

計算階段是真正“干活”的階段,主要負(fù)責(zé)挖掘數(shù)據(jù)以獲取有用的信息,執(zhí)行聚合或報告,構(gòu)建用于推薦、聚類或分類的機(jī)器學(xué)習(xí)模型。

工作流管理階段執(zhí)行抽象、編排和自動化任務(wù),使工作流的各步驟可用于生產(chǎn)環(huán)境。此步驟應(yīng)能產(chǎn)生自動按需運(yùn)行的應(yīng)用程序、作業(yè)或腳本。

Hadoop 已經(jīng)演變成了包含各種工具的生態(tài)系統(tǒng),可以實現(xiàn)上述流水線的部分環(huán)節(jié)。例如,Sqoop 和 Kafka 可用于數(shù)據(jù)采集,支持將關(guān)系數(shù)據(jù)庫導(dǎo)入 Hadoop 或分布式消息隊列,以進(jìn)行按需處理。在 Hadoop 中,像 Hive 和 HBase 之類的數(shù)據(jù)倉庫提供了大規(guī)模的數(shù)據(jù)管理機(jī)會;Spark 的 GraphX、MLlib 或 Mahout 庫提供了分析包,供大規(guī)模計算和驗證使用。在本書中,我們將探索 Hadoop 生態(tài)系統(tǒng)的許多組件,并了解它們?nèi)绾稳谌胝麄大數(shù)據(jù)流水線。

總結(jié)

在過去十年間,關(guān)于“什么是數(shù)據(jù)科學(xué)”的討論發(fā)生了巨大變化——從純分析到與可視化相關(guān)的方法,再到如今數(shù)據(jù)產(chǎn)品的創(chuàng)建。數(shù)據(jù)產(chǎn)品是使用數(shù)據(jù)訓(xùn)練、自適應(yīng)且廣泛適用的經(jīng)濟(jì)引擎,從數(shù)據(jù)中獲取價值并產(chǎn)生新的數(shù)據(jù)。數(shù)據(jù)產(chǎn)品引發(fā)了一次信息經(jīng)濟(jì)革命,改變了小企業(yè)、技術(shù)創(chuàng)業(yè)公司、大型組織甚至政府機(jī)構(gòu)看待其數(shù)據(jù)的方式。

本文描述了數(shù)據(jù)科學(xué)流水線原始教學(xué)模型的一個改良版本,并提出了數(shù)據(jù)產(chǎn)品流水線。數(shù)據(jù)產(chǎn)品流水線是迭代的,包括兩個階段:構(gòu)建階段和運(yùn)行階段(包括 4 個階段:交互、數(shù)據(jù)、存儲和計算)。這種架構(gòu)可以有條不紊地執(zhí)行大規(guī)模的數(shù)據(jù)分析,保留了實驗、人與數(shù)據(jù)產(chǎn)品間的交互。而且當(dāng)圍繞數(shù)據(jù)產(chǎn)品構(gòu)建的應(yīng)用程序很大時,它還能支持部分環(huán)節(jié)的自動化。希望這個流水線可以幫你了解數(shù)據(jù)產(chǎn)品生命周期的大體框架,也能成為探索更多創(chuàng)新項目的基石。

因為本書是從數(shù)據(jù)科學(xué)家的角度探討分布式計算和 Hadoop,所以我們認(rèn)為,Hadoop 的作用是從大量不同來源采集多種形式的數(shù)據(jù)(其中包含大量實例、事件和類),并將其轉(zhuǎn)換為有價值的事物——數(shù)據(jù)產(chǎn)品。

本文內(nèi)容來自作者圖書作品《Hadoop 數(shù)據(jù)分析》

標(biāo)簽: Hadoop 深度分析 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:一圖看清美國最具前景的50家人工智能公司

下一篇:數(shù)據(jù)可視化常見誤區(qū)