中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度分析數(shù)據(jù)科學流水線和Hadoop生態(tài)系統(tǒng)

2019-12-30    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Benjamin Bengfort 譯者:王純超 來源:InfoQ

數(shù)據(jù)科學流水線是一種教學模型,用于教授對數(shù)據(jù)進行全面統(tǒng)計分析所需的工作流,如圖 1-1 所示。在每個環(huán)節(jié)中,分析人員要轉換初始數(shù)據(jù)集,然后從各種數(shù)據(jù)源增強或采集數(shù)據(jù),再通過描述性或推斷性的統(tǒng)計方法將數(shù)據(jù)整理為可以計算的正常形式,最后通過可視化或報告的形式生成結果。這些分析過程通常用于回答特定問題,或用于調(diào)查數(shù)據(jù)與某些業(yè)務實踐間的關系,以進行驗證或決策。

 

 

圖 1-1:數(shù)據(jù)科學流水線

這個原始的工作流模型引領了大多數(shù)早期的數(shù)據(jù)科學思想。最初關于數(shù)據(jù)科學應用程序的討論圍繞著如何創(chuàng)建有意義的信息可視化——這也許令人意外,主要是因為這個工作流旨在生成幫助人們進行決策的依據(jù)。通過對大型數(shù)據(jù)集的聚合、描述和建模,人們能夠更好地根據(jù)模式(而不是單個數(shù)據(jù)點)作出判斷。數(shù)據(jù)可視化是新生的數(shù)據(jù)產(chǎn)品,它們從數(shù)據(jù)中產(chǎn)生價值,幫助人們基于學習到的內(nèi)容采取行動,然后再從這些行動中生成新數(shù)據(jù)。

然而,面對呈指數(shù)增長的數(shù)據(jù)量和數(shù)據(jù)增長速度,這種以人力驅動的模型并不是一個可擴展的解決方案,這也正是許多企業(yè)都為之抓狂的原因。根據(jù)預測,到 2020 年,我們每年生成和復制的數(shù)據(jù)將達到 44ZB,即 44 萬億 GB 。即使實際規(guī)模只達到預測規(guī)模的一小部分,手動的數(shù)據(jù)準備和挖掘方法也根本無法及時提供有意義的信息。

除了規(guī)模上的局限,這種以人為中心的單向工作流也不能有效地設計能夠學習的自適應系統(tǒng)。機器學習算法已經(jīng)廣泛應用于學術界之外,非常符合數(shù)據(jù)產(chǎn)品的定義。因為模型會擬合現(xiàn)有的數(shù)據(jù)集,所以這些類型的算法可以從數(shù)據(jù)中獲取價值,然后通過對新的觀察值作出預測來產(chǎn)生新的數(shù)據(jù)。

如果要創(chuàng)建一個框架,支持構建可擴展和可自動化的解決方案,從而能解釋數(shù)據(jù)和生成有用的信息,就必須修改數(shù)據(jù)科學流水線,使其包含機器學習方法的反饋循環(huán)。

大數(shù)據(jù)工作流

考慮到可擴展性和自動化的目標,我們可以將人力驅動的數(shù)據(jù)科學流水線重構為包括采集、分段、計算和工作流管理這 4 個主要階段的迭代模型(如圖 1-2 所示)。與數(shù)據(jù)科學流水線一樣,這種模型其實就是采集原始數(shù)據(jù)并將其轉換為有用的信息。關鍵的區(qū)別在于,數(shù)據(jù)產(chǎn)品流水線是在操作化和自動化工作流的步驟中構建起來的。通過將采集、分段和計算這 3 個步驟轉換為自動化工作流,最終產(chǎn)生可重用的數(shù)據(jù)產(chǎn)品。工作流管理步驟還引入了反饋流機制,來自其中一個作業(yè)執(zhí)行的輸出可以自動作為下一次迭代的數(shù)據(jù)輸入,因此為機器學習應用程序提供了必要的自適應框架。

 

 

圖 1-2:大數(shù)據(jù)流水線

采集階段既是模型的初始化階段,也是用戶和模型之間的應用交互階段。在初始化期間,用戶指定數(shù)據(jù)源的位置或標注數(shù)據(jù)(另一種數(shù)據(jù)采集形式);在交互期間,用戶消費模型的預測結果并提供用于鞏固模型的反饋。

分段階段是轉換數(shù)據(jù)的階段,使其變?yōu)榭上M的形式并存儲起來,從而能夠用于處理。本階段還負責數(shù)據(jù)的歸一化和標準化,以及一些計算數(shù)據(jù)存儲中的數(shù)據(jù)管理工作。

計算階段是真正“干活”的階段,主要負責挖掘數(shù)據(jù)以獲取有用的信息,執(zhí)行聚合或報告,構建用于推薦、聚類或分類的機器學習模型。

工作流管理階段執(zhí)行抽象、編排和自動化任務,使工作流的各步驟可用于生產(chǎn)環(huán)境。此步驟應能產(chǎn)生自動按需運行的應用程序、作業(yè)或腳本。

Hadoop 已經(jīng)演變成了包含各種工具的生態(tài)系統(tǒng),可以實現(xiàn)上述流水線的部分環(huán)節(jié)。例如,Sqoop 和 Kafka 可用于數(shù)據(jù)采集,支持將關系數(shù)據(jù)庫導入 Hadoop 或分布式消息隊列,以進行按需處理。在 Hadoop 中,像 Hive 和 HBase 之類的數(shù)據(jù)倉庫提供了大規(guī)模的數(shù)據(jù)管理機會;Spark 的 GraphX、MLlib 或 Mahout 庫提供了分析包,供大規(guī)模計算和驗證使用。在本書中,我們將探索 Hadoop 生態(tài)系統(tǒng)的許多組件,并了解它們?nèi)绾稳谌胝麄大數(shù)據(jù)流水線。

總結

在過去十年間,關于“什么是數(shù)據(jù)科學”的討論發(fā)生了巨大變化——從純分析到與可視化相關的方法,再到如今數(shù)據(jù)產(chǎn)品的創(chuàng)建。數(shù)據(jù)產(chǎn)品是使用數(shù)據(jù)訓練、自適應且廣泛適用的經(jīng)濟引擎,從數(shù)據(jù)中獲取價值并產(chǎn)生新的數(shù)據(jù)。數(shù)據(jù)產(chǎn)品引發(fā)了一次信息經(jīng)濟革命,改變了小企業(yè)、技術創(chuàng)業(yè)公司、大型組織甚至政府機構看待其數(shù)據(jù)的方式。

本文描述了數(shù)據(jù)科學流水線原始教學模型的一個改良版本,并提出了數(shù)據(jù)產(chǎn)品流水線。數(shù)據(jù)產(chǎn)品流水線是迭代的,包括兩個階段:構建階段和運行階段(包括 4 個階段:交互、數(shù)據(jù)、存儲和計算)。這種架構可以有條不紊地執(zhí)行大規(guī)模的數(shù)據(jù)分析,保留了實驗、人與數(shù)據(jù)產(chǎn)品間的交互。而且當圍繞數(shù)據(jù)產(chǎn)品構建的應用程序很大時,它還能支持部分環(huán)節(jié)的自動化。希望這個流水線可以幫你了解數(shù)據(jù)產(chǎn)品生命周期的大體框架,也能成為探索更多創(chuàng)新項目的基石。

因為本書是從數(shù)據(jù)科學家的角度探討分布式計算和 Hadoop,所以我們認為,Hadoop 的作用是從大量不同來源采集多種形式的數(shù)據(jù)(其中包含大量實例、事件和類),并將其轉換為有價值的事物——數(shù)據(jù)產(chǎn)品。

本文內(nèi)容來自作者圖書作品《Hadoop 數(shù)據(jù)分析》

標簽: Hadoop 深度分析 數(shù)據(jù) 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:辨析BI、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺內(nèi)涵及差異點

下一篇:為數(shù)據(jù)科學初學者提供10個很棒的Python學習資源