站長資訊平臺

深度分析數(shù)據(jù)科學(xué)流水線和Hadoop生態(tài)系統(tǒng)

2020-03-27 來源：raincent

作者：Benjamin Bengfort 譯者：王純超來源：InfoQ

數(shù)據(jù)科學(xué)流水線是一種教學(xué)模型，用于教授對數(shù)據(jù)進(jìn)行全面統(tǒng)計分析所需的工作流，如圖 1-1 所示。在每個環(huán)節(jié)中，分析人員要轉(zhuǎn)換初始數(shù)據(jù)集，然后從各種數(shù)據(jù)源增強(qiáng)或采集數(shù)據(jù)，再通過描述性或推斷性的統(tǒng)計方法將數(shù)據(jù)整理為可以計算的正常形式，最后通過可視化或報告的形式生成結(jié)果。這些分析過程通常用于回答特定問題，或用于調(diào)查數(shù)據(jù)與某些業(yè)務(wù)實踐間的關(guān)系，以進(jìn)行驗證或決策。

圖 1-1：數(shù)據(jù)科學(xué)流水線

這個原始的工作流模型引領(lǐng)了大多數(shù)早期的數(shù)據(jù)科學(xué)思想。最初關(guān)于數(shù)據(jù)科學(xué)應(yīng)用程序的討論圍繞著如何創(chuàng)建有意義的信息可視化——這也許令人意外，主要是因為這個工作流旨在生成幫助人們進(jìn)行決策的依據(jù)。通過對大型數(shù)據(jù)集的聚合、描述和建模，人們能夠更好地根據(jù)模式(而不是單個數(shù)據(jù)點)作出判斷。數(shù)據(jù)可視化是新生的數(shù)據(jù)產(chǎn)品，它們從數(shù)據(jù)中產(chǎn)生價值，幫助人們基于學(xué)習(xí)到的內(nèi)容采取行動，然后再從這些行動中生成新數(shù)據(jù)。

然而，面對呈指數(shù)增長的數(shù)據(jù)量和數(shù)據(jù)增長速度，這種以人力驅(qū)動的模型并不是一個可擴(kuò)展的解決方案，這也正是許多企業(yè)都為之抓狂的原因。根據(jù)預(yù)測，到 2020 年，我們每年生成和復(fù)制的數(shù)據(jù)將達(dá)到 44ZB，即 44 萬億 GB 。即使實際規(guī)模只達(dá)到預(yù)測規(guī)模的一小部分，手動的數(shù)據(jù)準(zhǔn)備和挖掘方法也根本無法及時提供有意義的信息。

除了規(guī)模上的局限，這種以人為中心的單向工作流也不能有效地設(shè)計能夠?qū)W習(xí)的自適應(yīng)系統(tǒng)。機(jī)器學(xué)習(xí)算法已經(jīng)廣泛應(yīng)用于學(xué)術(shù)界之外，非常符合數(shù)據(jù)產(chǎn)品的定義。因為模型會擬合現(xiàn)有的數(shù)據(jù)集，所以這些類型的算法可以從數(shù)據(jù)中獲取價值，然后通過對新的觀察值作出預(yù)測來產(chǎn)生新的數(shù)據(jù)。

如果要創(chuàng)建一個框架，支持構(gòu)建可擴(kuò)展和可自動化的解決方案，從而能解釋數(shù)據(jù)和生成有用的信息，就必須修改數(shù)據(jù)科學(xué)流水線，使其包含機(jī)器學(xué)習(xí)方法的反饋循環(huán)。

大數(shù)據(jù)工作流

考慮到可擴(kuò)展性和自動化的目標(biāo)，我們可以將人力驅(qū)動的數(shù)據(jù)科學(xué)流水線重構(gòu)為包括采集、分段、計算和工作流管理這 4 個主要階段的迭代模型(如圖 1-2 所示)。與數(shù)據(jù)科學(xué)流水線一樣，這種模型其實就是采集原始數(shù)據(jù)并將其轉(zhuǎn)換為有用的信息。關(guān)鍵的區(qū)別在于，數(shù)據(jù)產(chǎn)品流水線是在操作化和自動化工作流的步驟中構(gòu)建起來的。通過將采集、分段和計算這 3 個步驟轉(zhuǎn)換為自動化工作流，最終產(chǎn)生可重用的數(shù)據(jù)產(chǎn)品。工作流管理步驟還引入了反饋流機(jī)制，來自其中一個作業(yè)執(zhí)行的輸出可以自動作為下一次迭代的數(shù)據(jù)輸入，因此為機(jī)器學(xué)習(xí)應(yīng)用程序提供了必要的自適應(yīng)框架。

圖 1-2：大數(shù)據(jù)流水線

采集階段既是模型的初始化階段，也是用戶和模型之間的應(yīng)用交互階段。在初始化期間，用戶指定數(shù)據(jù)源的位置或標(biāo)注數(shù)據(jù)(另一種數(shù)據(jù)采集形式);在交互期間，用戶消費(fèi)模型的預(yù)測結(jié)果并提供用于鞏固模型的反饋。

分段階段是轉(zhuǎn)換數(shù)據(jù)的階段，使其變?yōu)榭上M(fèi)的形式并存儲起來，從而能夠用于處理。本階段還負(fù)責(zé)數(shù)據(jù)的歸一化和標(biāo)準(zhǔn)化，以及一些計算數(shù)據(jù)存儲中的數(shù)據(jù)管理工作。

計算階段是真正“干活”的階段，主要負(fù)責(zé)挖掘數(shù)據(jù)以獲取有用的信息，執(zhí)行聚合或報告，構(gòu)建用于推薦、聚類或分類的機(jī)器學(xué)習(xí)模型。

工作流管理階段執(zhí)行抽象、編排和自動化任務(wù)，使工作流的各步驟可用于生產(chǎn)環(huán)境。此步驟應(yīng)能產(chǎn)生自動按需運(yùn)行的應(yīng)用程序、作業(yè)或腳本。

Hadoop 已經(jīng)演變成了包含各種工具的生態(tài)系統(tǒng)，可以實現(xiàn)上述流水線的部分環(huán)節(jié)。例如，Sqoop 和 Kafka 可用于數(shù)據(jù)采集，支持將關(guān)系數(shù)據(jù)庫導(dǎo)入 Hadoop 或分布式消息隊列，以進(jìn)行按需處理。在 Hadoop 中，像 Hive 和 HBase 之類的數(shù)據(jù)倉庫提供了大規(guī)模的數(shù)據(jù)管理機(jī)會;Spark 的 GraphX、MLlib 或 Mahout 庫提供了分析包，供大規(guī)模計算和驗證使用。在本書中，我們將探索 Hadoop 生態(tài)系統(tǒng)的許多組件，并了解它們?nèi)绾稳谌胝麄€大數(shù)據(jù)流水線。

總結(jié)

在過去十年間，關(guān)于“什么是數(shù)據(jù)科學(xué)”的討論發(fā)生了巨大變化——從純分析到與可視化相關(guān)的方法，再到如今數(shù)據(jù)產(chǎn)品的創(chuàng)建。數(shù)據(jù)產(chǎn)品是使用數(shù)據(jù)訓(xùn)練、自適應(yīng)且廣泛適用的經(jīng)濟(jì)引擎，從數(shù)據(jù)中獲取價值并產(chǎn)生新的數(shù)據(jù)。數(shù)據(jù)產(chǎn)品引發(fā)了一次信息經(jīng)濟(jì)革命，改變了小企業(yè)、技術(shù)創(chuàng)業(yè)公司、大型組織甚至政府機(jī)構(gòu)看待其數(shù)據(jù)的方式。

本文描述了數(shù)據(jù)科學(xué)流水線原始教學(xué)模型的一個改良版本，并提出了數(shù)據(jù)產(chǎn)品流水線。數(shù)據(jù)產(chǎn)品流水線是迭代的，包括兩個階段：構(gòu)建階段和運(yùn)行階段(包括 4 個階段：交互、數(shù)據(jù)、存儲和計算)。這種架構(gòu)可以有條不紊地執(zhí)行大規(guī)模的數(shù)據(jù)分析，保留了實驗、人與數(shù)據(jù)產(chǎn)品間的交互。而且當(dāng)圍繞數(shù)據(jù)產(chǎn)品構(gòu)建的應(yīng)用程序很大時，它還能支持部分環(huán)節(jié)的自動化。希望這個流水線可以幫你了解數(shù)據(jù)產(chǎn)品生命周期的大體框架，也能成為探索更多創(chuàng)新項目的基石。

因為本書是從數(shù)據(jù)科學(xué)家的角度探討分布式計算和 Hadoop，所以我們認(rèn)為，Hadoop 的作用是從大量不同來源采集多種形式的數(shù)據(jù)(其中包含大量實例、事件和類)，并將其轉(zhuǎn)換為有價值的事物——數(shù)據(jù)產(chǎn)品。

本文內(nèi)容來自作者圖書作品《Hadoop 數(shù)據(jù)分析》

標(biāo)簽： Hadoop 深度分析數(shù)據(jù) 蒲

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:為什么你的數(shù)據(jù)科學(xué)項目終將失��？

下一篇:一圖看清美國最具前景的50家人工智能公司

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗 IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度分析數(shù)據(jù)科學(xué)流水線和Hadoop生態(tài)系統(tǒng)