中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

DataOps 崛起:數(shù)據(jù)治理需要重建!

2019-06-04    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 

企業(yè)明知道自己需要數(shù)據(jù)治理,但并沒(méi)有為此付諸任何行動(dòng)

如今高管們都對(duì)數(shù)據(jù)治理感興趣,下面這些文章就是證據(jù):

最近 Gartner 的一篇研究發(fā)現(xiàn),組織認(rèn)為糟糕的數(shù)據(jù)質(zhì)量平均每年會(huì)帶來(lái) 1500 萬(wàn)美元的損失。

GDPR 的第一個(gè)罰款大單是法國(guó)數(shù)據(jù)管理局對(duì)谷歌的 5700 萬(wàn)美元罰金。

Equifax 數(shù)據(jù)泄露已使公司損失了 14 億美元(總額還在統(tǒng)計(jì)中),而且泄漏的數(shù)據(jù)都沒(méi)有被找到。

但相對(duì)應(yīng)的是,絕大多數(shù)數(shù)據(jù)治理計(jì)劃都沒(méi)有付諸實(shí)施;Gartner 還將84%的公司歸到數(shù)據(jù)治理成熟度較低的分類(lèi)。盡管幾乎所有組織都認(rèn)識(shí)到自己需要數(shù)據(jù)治理,但許多公司甚至沒(méi)有啟動(dòng)相應(yīng)的計(jì)劃,因?yàn)檫@一術(shù)語(yǔ)在管理領(lǐng)域有著很強(qiáng)的負(fù)面含義。

 

 

現(xiàn)有的數(shù)據(jù)治理“最佳實(shí)踐”已千瘡百孔

在我看來(lái),這一領(lǐng)域缺乏進(jìn)展的原因在于我們一直在以錯(cuò)誤的方式進(jìn)行數(shù)據(jù)治理,結(jié)果方案一見(jiàn)光就死。Stan Christiaens 在他為福布斯撰寫(xiě)的文章中指出了這一事實(shí),雖說(shuō)那篇文章其實(shí)是給他公司做的廣告。我同意他的觀點(diǎn),過(guò)去數(shù)據(jù)治理失敗的主要原因是技術(shù)尚未做好準(zhǔn)備,并且組織沒(méi)法激勵(lì)人們遵循一套流程來(lái)彌補(bǔ)技術(shù)的不足。但我不認(rèn)為現(xiàn)代數(shù)據(jù)目錄工具就是技術(shù)層面的終極答案(盡管它們是朝著正確方向邁出的一步)。

如果答案不是數(shù)據(jù)目錄工具,那又是什么?

最近數(shù)據(jù)湖工具的一系列進(jìn)展(特別是大規(guī)模版本化數(shù)據(jù)的能力)即將引發(fā)一場(chǎng)變革,讓我們可以重新構(gòu)想數(shù)據(jù)管理的方式(例如通過(guò)文化、架構(gòu)和流程來(lái)改進(jìn)治理模式,降低風(fēng)險(xiǎn)和成本) 。變革完成后,數(shù)據(jù)治理將更像 DevOps,其中數(shù)據(jù)管理員、數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師緊密合作,在整個(gè)數(shù)據(jù)分析生命周期中共同制定治理策略。早早擁抱這些變革的公司將獲得巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)。

這個(gè)結(jié)論是怎樣得出來(lái)的呢?我們先來(lái)回顧一下軟件工程的歷史。過(guò)去有兩項(xiàng)核心技術(shù)創(chuàng)新引發(fā)了企業(yè)流程乃至文化的變革,將編程從一種愛(ài)好轉(zhuǎn)變?yōu)橛绊懯澜绲母锩=酉聛?lái)的創(chuàng)新主要是 DevOps 運(yùn)動(dòng),它在云時(shí)代也為 IT 基礎(chǔ)設(shè)施帶來(lái)了類(lèi)似的革新。最后,我們來(lái)看這些創(chuàng)新將如何在數(shù)據(jù)治理領(lǐng)域推動(dòng)類(lèi)似的流程和文化變革。這套內(nèi)容講起來(lái)有點(diǎn)啰嗦,不過(guò)我也沒(méi)有更好的思路,所以請(qǐng)耐心讀下去。

背景:源代碼控制和編譯是怎樣塑造軟件工程產(chǎn)業(yè)的

 

 

形成軟件工程規(guī)范的核心創(chuàng)新包括:

將一組輸入編譯為可執(zhí)行輸出的能力
用于跟蹤輸入的版本控制系統(tǒng)

20 世紀(jì) 60 年代,在這些系統(tǒng)誕生之前的軟件開(kāi)發(fā)就是一種手藝,一名開(kāi)發(fā)工匠必須獨(dú)立建立整個(gè)工作體系。而這些創(chuàng)新使軟件開(kāi)發(fā)產(chǎn)業(yè)迎來(lái)了新的組織結(jié)構(gòu)和流程,讓編程成為一套工程規(guī)范。這并不是說(shuō)編程藝術(shù)沒(méi)那么重要,只不過(guò)它不是本文要談的主題。

 

 

從手藝轉(zhuǎn)向工程的第一步就是引入編譯器,從而能夠以更高級(jí)的語(yǔ)言來(lái)編寫(xiě)程序。這使程序變得更容易理解,還可以分解為多個(gè)文件,更容易由團(tuán)隊(duì)中的多名成員一同編寫(xiě)。此外,隨著編譯器愈加先進(jìn),編譯器也可以通過(guò)中間代碼來(lái)為原始代碼添加許多自動(dòng)優(yōu)化。

 

 

接下來(lái)是為生成最終系統(tǒng)的代碼所做的所有更改添加統(tǒng)一的版本管理系統(tǒng),從而讓編程藝術(shù)逐漸變得“可測(cè)量”(就像 Peter Drucker 的名言所說(shuō)的那樣:“無(wú)法測(cè)量的內(nèi)容也沒(méi)法管理“)。從那之后又有了很多漸進(jìn)式創(chuàng)新,如自動(dòng)化測(cè)試、代碼質(zhì)量的靜態(tài)分析、重構(gòu)、持續(xù)集成等等,這些創(chuàng)新又定義了許多新的指標(biāo)。最重要的是,團(tuán)隊(duì)可以針對(duì)特定版本的代碼提交更改并跟蹤錯(cuò)誤,并對(duì)他們所提供軟件的特定層面作出保證。顯然,還有許多其他創(chuàng)新為軟件開(kāi)發(fā)帶來(lái)了改進(jìn),但那些創(chuàng)新都在某種程度上依賴(lài)編譯器和版本控制兩大源頭。

一切皆代碼:將軟件工程的核心創(chuàng)新應(yīng)用到所有領(lǐng)域

近年來(lái),這些核心創(chuàng)新正在不斷應(yīng)用于新的領(lǐng)域,這種運(yùn)動(dòng)得到了一個(gè)稱(chēng)號(hào):一切皆代碼。雖然我個(gè)人沒(méi)經(jīng)歷過(guò)那段歷史,但我覺(jué)得 70 年代的軟件開(kāi)發(fā)者看到第一個(gè)版本的 SVN 的時(shí)候肯定滿腹狐疑。類(lèi)似的,一切皆代碼運(yùn)動(dòng)波及的許多新領(lǐng)域也對(duì)此報(bào)以懷疑的態(tài)度,有些行業(yè)甚至聲稱(chēng)他們的規(guī)范永遠(yuǎn)不會(huì)被簡(jiǎn)化為幾行代碼。結(jié)果只用了幾年時(shí)間,那些規(guī)范就被完全簡(jiǎn)化成代碼了,并且為“傳統(tǒng)”的行為方式帶來(lái)了一系列改進(jìn)。

 

 

這個(gè)運(yùn)動(dòng)擴(kuò)張的第一個(gè)領(lǐng)域是基礎(chǔ)設(shè)施管理。在這一案例中,代碼指的是一組配置文件和腳本,用于指定跨環(huán)境的基礎(chǔ)架構(gòu)配置;編譯在云平臺(tái)內(nèi)進(jìn)行,通過(guò)云服務(wù) API 讀取并執(zhí)行配置和腳本,從而創(chuàng)建并配置虛擬基礎(chǔ)架構(gòu) 。雖然基礎(chǔ)設(shè)施即代碼運(yùn)動(dòng)似乎在一夜之間就席卷了所有基礎(chǔ)設(shè)施團(tuán)隊(duì),但其實(shí)是先有了大量重大創(chuàng)新(虛擬機(jī)、軟件定義網(wǎng)絡(luò)、資源管理 API 等),才為“編譯”這一步打好了基礎(chǔ)。

一開(kāi)始可能只有 VMWare 和 Chef 等公司的專(zhuān)有解決方案,之后當(dāng)公有云服務(wù)商在他們的平臺(tái)上免費(fèi)提供相應(yīng)的核心功能后,這種方案就得到了廣泛普及。在變革之前基礎(chǔ)架構(gòu)團(tuán)隊(duì)很難重新創(chuàng)建環(huán)境,所以需要管理他們的環(huán)境以確保一致性和質(zhì)量。于是團(tuán)隊(duì)需要一系列治理層級(jí)來(lái)在開(kāi)發(fā)過(guò)程中控制各個(gè)檢查點(diǎn)。如今,DevOps 團(tuán)隊(duì)會(huì)設(shè)計(jì)他們的環(huán)境,控件可以構(gòu)建到“編譯器”中。這使得團(tuán)隊(duì)部署變更的能力提高了幾個(gè)數(shù)量級(jí),從幾個(gè)月或幾周變?yōu)閹仔r(shí)或幾分鐘。

于是人們就能徹底從頭考慮基礎(chǔ)設(shè)施的改進(jìn)思路了。團(tuán)隊(duì)開(kāi)始開(kāi)發(fā)從零開(kāi)始創(chuàng)建系統(tǒng)的各個(gè)階段,使編譯、單元測(cè)試、分析、設(shè)置、部署、功能和負(fù)載測(cè)試成為一個(gè)完全自動(dòng)化的過(guò)程(也就是持續(xù)交付)。此外,團(tuán)隊(duì)開(kāi)始測(cè)試系統(tǒng)在部署前后是否安全可靠(DevSecOps)。每當(dāng)一項(xiàng)新組件進(jìn)入版本控制系統(tǒng)后,該組件的發(fā)展軌跡就可以被一系列指標(biāo)測(cè)量了;這樣自然就帶來(lái)了持續(xù)改進(jìn)的能力,因?yàn)槲覀儸F(xiàn)在可以對(duì)我們提供的環(huán)境的特定層面作出保證了。

切入重點(diǎn):這樣的故事也會(huì)發(fā)生在數(shù)據(jù)治理領(lǐng)域

這一運(yùn)動(dòng)將改造的下一個(gè)領(lǐng)域就是數(shù)據(jù)治理 / 數(shù)據(jù)管理。我不好說(shuō)對(duì)應(yīng)的運(yùn)動(dòng)名稱(chēng)應(yīng)該叫什么(DataOps、數(shù)據(jù)即代碼和 DevDataOps 似乎都有點(diǎn)偏差),但它的影響可能比 DevOps/ 基礎(chǔ)設(shè)施即代碼運(yùn)動(dòng)更為深遠(yuǎn)。

將數(shù)據(jù)管道用作編譯器

“通過(guò)機(jī)器學(xué)習(xí)技術(shù),你的數(shù)據(jù)就能寫(xiě)成代碼。”——AWS 機(jī)器學(xué)習(xí)部門(mén)主管 Kris Skrinak

 

 

機(jī)器學(xué)習(xí)技術(shù)的迅速發(fā)展為復(fù)雜軟件的構(gòu)建提供了一種新的途徑(一般是分類(lèi)或預(yù)測(cè)事物的軟件,但隨著時(shí)間的推移會(huì)擴(kuò)張到更多領(lǐng)域)。這種將數(shù)據(jù)視為代碼的新思路會(huì)是將數(shù)據(jù)治理轉(zhuǎn)換為工程規(guī)范的關(guān)鍵的第一步。換句話說(shuō):

“數(shù)據(jù)管道就是將數(shù)據(jù)作為源代碼的編譯器。”

與軟件或基礎(chǔ)設(shè)施使用的編譯器相比,這些“數(shù)據(jù)編譯器”有三點(diǎn)不同,也更加復(fù)雜:

數(shù)據(jù)團(tuán)隊(duì)既有數(shù)據(jù)處理代碼也有底層數(shù)據(jù)。但是如果數(shù)據(jù)就是源代碼,那樣數(shù)據(jù)團(tuán)隊(duì)都得編寫(xiě)自己的編譯器來(lái)從數(shù)據(jù)中構(gòu)建可執(zhí)行的程序。

對(duì)于數(shù)據(jù)而言,我們一直通過(guò)元數(shù)據(jù)來(lái)手動(dòng)定義數(shù)據(jù)結(jié)構(gòu),因?yàn)檫@有助于編寫(xiě)數(shù)據(jù)編譯器的團(tuán)隊(duì)了解每個(gè)步驟的操作。但軟件和基礎(chǔ)設(shè)施編譯器通常會(huì)通過(guò)輸入形成結(jié)構(gòu)。

 

 

我們還是不太明白數(shù)據(jù)是怎么變成代碼的。所以要讓數(shù)據(jù)科學(xué)家做實(shí)驗(yàn)來(lái)弄清楚編譯器的邏輯,然后數(shù)據(jù)工程師來(lái)構(gòu)建優(yōu)化器。

現(xiàn)有的數(shù)據(jù)管理技術(shù)平臺(tái)(Collibra、Waterline、Tamr 等)就是為了實(shí)現(xiàn)這一工作流程而構(gòu)建的,并且它們做得非常好。但它們支持的工作流程仍然需要一系列審查會(huì)議來(lái)為數(shù)據(jù)治理手動(dòng)制定規(guī)范,這樣就很難出現(xiàn)像 DevOps 和基礎(chǔ)設(shè)施即代碼變革那樣的一系列進(jìn)化了。

缺少的橋梁:數(shù)據(jù)版本控制

 

 

由于數(shù)據(jù)是“在現(xiàn)實(shí)世界中”生成的,而不是由數(shù)據(jù)團(tuán)隊(duì)生成的,因此數(shù)據(jù)團(tuán)隊(duì)專(zhuān)注于控制描述它們的元數(shù)據(jù)。這就是數(shù)據(jù)治理(試圖管理你無(wú)法直接控制的東西)和數(shù)據(jù)工程(實(shí)際上是設(shè)計(jì)數(shù)據(jù)編譯器而非數(shù)據(jù)本身)之間的分界線所在,F(xiàn)在數(shù)據(jù)治理團(tuán)隊(duì)正在嘗試在很多點(diǎn)上應(yīng)用手動(dòng)控制來(lái)控制數(shù)據(jù)的一致性和質(zhì)量。如果對(duì)數(shù)據(jù)引入版本跟蹤功能,數(shù)據(jù)治理和數(shù)據(jù)工程團(tuán)隊(duì)就能共同設(shè)計(jì)數(shù)據(jù)、針對(duì)各個(gè)數(shù)據(jù)版本提交錯(cuò)誤報(bào)告、對(duì)數(shù)據(jù)編譯器實(shí)施質(zhì)量控制檢查等等。這樣數(shù)據(jù)團(tuán)隊(duì)就能對(duì)從數(shù)據(jù)中生成的系統(tǒng)組件作出保證;一旦有了這種保證,歷史證明將隨之而來(lái)的就是數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)的可靠性和效率飛速提升。

數(shù)據(jù)版本控制技術(shù)已經(jīng)來(lái)到了臨界點(diǎn)

像 Palantir Foundry 這樣的平臺(tái)已經(jīng)開(kāi)始像開(kāi)發(fā)者處理代碼版本一樣對(duì)待數(shù)據(jù)管理流程了。在這些平臺(tái)中,數(shù)據(jù)集可以通過(guò)版本化的代碼進(jìn)行版本化、分支和一系列操作,從而創(chuàng)建新的數(shù)據(jù)集。這就為數(shù)據(jù)驅(qū)動(dòng)測(cè)試打下了基礎(chǔ),其中測(cè)試數(shù)據(jù)本身的方法與對(duì)修改數(shù)據(jù)的代碼做單元測(cè)試的方法基本是一樣的。當(dāng)數(shù)據(jù)以這種方式流過(guò)系統(tǒng)時(shí)系統(tǒng)會(huì)自動(dòng)跟蹤數(shù)據(jù)的譜系,每個(gè)數(shù)據(jù)管道在各個(gè)階段產(chǎn)生的數(shù)據(jù)產(chǎn)品也會(huì)被這樣跟蹤。

這些轉(zhuǎn)換步驟都可以被視為編譯步驟,其將輸入的數(shù)據(jù)轉(zhuǎn)換為中間代碼,最后由機(jī)器學(xué)習(xí)算法將最后一步的中間代碼(數(shù)據(jù)團(tuán)隊(duì)通常稱(chēng)之為特征工程數(shù)據(jù)集)轉(zhuǎn)換為可執(zhí)行形式以進(jìn)行預(yù)測(cè)工作。如果有人手里有 1000 萬(wàn)到 4000 萬(wàn)美元想購(gòu)買(mǎi)這樣一套流程,那么可以考慮一下 Foundry,他們做出來(lái)的這套流程令人印象非常深刻(免責(zé)聲明:我沒(méi)有多少實(shí)際上手 Foundry 成果的經(jīng)歷,我只是作為客戶看過(guò)他們的真實(shí)案例的演示才得出了上面的結(jié)論。)

 

 

其他人手里可能沒(méi)那么多錢(qián)可花,還好現(xiàn)在也有開(kāi)源的替代品。數(shù)據(jù)版本控制項(xiàng)目(https://dvc.org/)是一個(gè)專(zhuān)為數(shù)據(jù)科學(xué)家用戶打造的選擇。針對(duì)大數(shù)據(jù)負(fù)載,DataBricks 已經(jīng)向數(shù)據(jù)湖的完整開(kāi)源版本控制系統(tǒng)邁出了第一步,并發(fā)布了他們的開(kāi)源 Delta Lake 項(xiàng)目。這些項(xiàng)目剛誕生不久,因此還沒(méi)有加入分支、標(biāo)記、譜系跟蹤、錯(cuò)誤歸檔等功能,但我保證他們的社區(qū)將在明年左右加入這些能力。

下一步就是重建數(shù)據(jù)治理

版本控制和編譯數(shù)據(jù)的技術(shù)誕生后,數(shù)據(jù)團(tuán)隊(duì)開(kāi)始思考他們的流程該如何利用這些新技術(shù)。那些能夠積極利用這種能力來(lái)作出保證的人們可能會(huì)為他們的組織創(chuàng)造巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)。第一步將是取消基于檢查點(diǎn)的治理流程,變?yōu)樽寯?shù)據(jù)治理、數(shù)據(jù)科學(xué)和數(shù)據(jù)工程團(tuán)隊(duì)緊密合作,通過(guò)在數(shù)據(jù)管道中編譯成可執(zhí)行文件來(lái)實(shí)現(xiàn)數(shù)據(jù)的持續(xù)治理。接下來(lái)是將分別由數(shù)據(jù)與單純軟件編譯的組件和基礎(chǔ)設(shè)施集成為同一個(gè)單元;雖然我還沒(méi)看到實(shí)現(xiàn)它的技術(shù)出現(xiàn)。隨著時(shí)間推移,其它創(chuàng)新也將陸續(xù)出現(xiàn)(另一篇文章會(huì)介紹相關(guān)情況),從而改造治理文化,解決許多現(xiàn)有的關(guān)鍵問(wèn)題,同時(shí)加快機(jī)器學(xué)習(xí)技術(shù)普及實(shí)用的步伐。我知道這聽(tīng)起來(lái)像是吹牛,但數(shù)據(jù)治理真的要迎來(lái)激動(dòng)人心的時(shí)代了。

能讀到這里,你可能已經(jīng)對(duì)數(shù)據(jù)治理感興趣了,所以請(qǐng)?jiān)谠u(píng)論區(qū)寫(xiě)下你的看法。如果你恰好在芝加哥,或者將參加即將召開(kāi)的 AWS 峰會(huì),你也可以與作者在現(xiàn)代數(shù)據(jù)企業(yè)大會(huì)(https://www.eventbrite.com/e/discover-how-to-build-a-modern-data-enterprise-tickets-58108644520)上當(dāng)面討論。

作者介紹

Ryan Gross 是 Pariveda Solutions 的機(jī)器學(xué)習(xí)部門(mén)主管,對(duì)人和機(jī)器的學(xué)習(xí)方式,以及將它們結(jié)合起來(lái)的工作很感興趣。

查看英文原文:

https://towardsdatascience.com/the-rise-of-dataops-from-the-ashes-of-data-governance-da3e0c3ac2c4

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:2019 到目前為止的深度學(xué)習(xí)研究進(jìn)展匯總

下一篇:需要關(guān)注的5種預(yù)測(cè)性存儲(chǔ)分析功能