中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)思維:打造健康數(shù)據(jù)驅(qū)動組織的 6 條原則

2019-06-04    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

本文要點

♦ 大多數(shù)組織都難以解鎖數(shù)據(jù)科學(xué)以優(yōu)化其操作流程,讓數(shù)據(jù)科學(xué)家、分析師和業(yè)務(wù)團隊采用一致的語言:不同的團隊和數(shù)據(jù)科學(xué)流程常常是形成摩擦的根源。

♦ 健康的數(shù)據(jù)科學(xué)組織框架是一系列方法論、技術(shù)和資源的組合,它們將幫助你的組織 (從業(yè)務(wù)理解、數(shù)據(jù)生成和獲取、建模,到模型部署和管理) 變得更為數(shù)據(jù)驅(qū)動。

♦ 為了成功地將愿景和業(yè)務(wù)目標(biāo)轉(zhuǎn)化為切實有效的結(jié)果,建立清晰的績效指標(biāo)非常重要。

♦ 組織需要更有機地考慮其端到端的數(shù)據(jù)流和體系結(jié)構(gòu),它們將是數(shù)據(jù)科學(xué)解決方案的支撐。

♦ 基于 Azure 機器學(xué)習(xí)服務(wù),團隊構(gòu)建了一個人員部署推薦方案,為新項目推薦最優(yōu)的員工組合和具有對口經(jīng)驗和專業(yè)知識的人員。

在過去的幾年里,來自無數(shù)不同來源的數(shù)據(jù)變得更加可用和可消費,許多組織都在開始尋找使用最新數(shù)據(jù)分析技術(shù)的方法,以滿足他們的業(yè)務(wù)需求和尋求新的機會。除了數(shù)據(jù)變得更加可用和可訪問外,還出現(xiàn)了大量工具和應(yīng)用程序,使團隊有能力構(gòu)建復(fù)雜的數(shù)據(jù)分析解決方案。鑒于以上種種,組織越來越多地圍繞數(shù)據(jù)科學(xué)的職能組建團隊。

數(shù)據(jù)科學(xué)是一個結(jié)合數(shù)學(xué)、編程和可視化技術(shù)的領(lǐng)域,它將科學(xué)方法應(yīng)用于特定的業(yè)務(wù)領(lǐng)域或問題,如預(yù)測未來的客戶行為、規(guī)劃空中交通路線或識別語音模式等。但是,成為一個數(shù)據(jù)驅(qū)動的組織究竟意味著什么呢?

通過本文,業(yè)務(wù)和技術(shù)領(lǐng)導(dǎo)者將學(xué)到一些評估他們的組織是否是數(shù)據(jù)驅(qū)動的方法,以及對其數(shù)據(jù)科學(xué)成熟度進行基準(zhǔn)測試的方法。此外,通過現(xiàn)實世界中已經(jīng)應(yīng)用過的用例,他們將學(xué)習(xí)如何使用健康的數(shù)據(jù)科學(xué)組織框架在組織內(nèi)培養(yǎng)健康的數(shù)據(jù)科學(xué)思維。作為一名數(shù)據(jù)科學(xué)家,我基于自身的經(jīng)驗創(chuàng)建了這個框架,我正在從事端到端數(shù)據(jù)科學(xué)和機器學(xué)習(xí)解決方案的工作,與許多不同類型行業(yè)的外部客戶合作,包括能源、石油和天然氣、零售、航空航天、醫(yī)療保健和職業(yè)勞務(wù)。該框架提供了一個構(gòu)建數(shù)據(jù)科學(xué)項目的開發(fā)生命周期。這個生命周期概述了項目在運行時從開始到結(jié)束要遵循的步驟。

理解健康的數(shù)據(jù)科學(xué)組織框架

成為一個數(shù)據(jù)驅(qū)動的組織意味著要嵌入數(shù)據(jù)科學(xué)團隊,以充分參與業(yè)務(wù),并調(diào)整公司的運營骨架 (技術(shù)、流程、基礎(chǔ)設(shè)施和文化)。健康的數(shù)據(jù)科學(xué)組織框架是一系列方法論、技術(shù)和資源的組合,如果正確使用,這些方法論、技術(shù)和資源將幫助你的組織 (從業(yè)務(wù)理解、數(shù)據(jù)生成和獲取、建模,到模型部署和管理) 變得更為數(shù)據(jù)驅(qū)動。這個框架包括六個關(guān)鍵原則,如圖 1 所示:

了解業(yè)務(wù)和制定決策的過程
建立績效指標(biāo)
構(gòu)建端到端解決方案
構(gòu)建你的數(shù)據(jù)科學(xué)技巧工具箱
統(tǒng)一組織的數(shù)據(jù)科學(xué)愿景
讓人類參與其中

 

 

圖 1 健康的數(shù)據(jù)科學(xué)組織框架

考慮到該領(lǐng)域的快速發(fā)展,組織通常需要指導(dǎo)如何應(yīng)用最新的數(shù)據(jù)科學(xué)技術(shù)來滿足其業(yè)務(wù)需求或?qū)で笮碌臋C會。

原則 1:了解業(yè)務(wù)和制定決策的過程

對于大多數(shù)組織來說,缺乏數(shù)據(jù)并不是問題。事實恰恰相反:通常在制定決策時手里掌握太多的信息。有這么多的數(shù)據(jù)需要分類,組織需要充分定義一個策略在以下各方面對業(yè)務(wù)加以闡述:

♦ 數(shù)據(jù)科學(xué)如何幫助企業(yè)做業(yè)務(wù)轉(zhuǎn)變,更好地管理成本,并驅(qū)動更卓越的運營?

♦ 組織對想要完成的事情是否有一個明確定義并予以清晰表達的目標(biāo)和愿景?

♦ 組織如何獲得 C 級管理人員和涉眾的支持,以實現(xiàn)數(shù)據(jù)驅(qū)動的愿景,并推動它貫穿至業(yè)務(wù)的各個部分?

簡而言之,公司需要對其業(yè)務(wù)決策過程有一個清晰的理解,以及一個更好的數(shù)據(jù)科學(xué)策略來支持該過程。有了正確的數(shù)據(jù)科學(xué)思維,以往大量不同的信息就變成了一個簡單清晰的決策點。推動轉(zhuǎn)型需要公司對他們想要實現(xiàn)的事情有一個明確定義并予以清晰表達的目標(biāo)和愿景。它通常需要 c 級主管的支持,以實現(xiàn)該愿景,并推動它貫穿至業(yè)務(wù)的各個部分。

組織必須從正確的問題著手。該問題應(yīng)該是可度量的、清晰的、簡潔的,并與他們的核心業(yè)務(wù)有直接的關(guān)聯(lián)。在此階段,設(shè)計問題就特定業(yè)務(wù)問題或機會的潛在解決方案加以限定(或取消限定)非常重要。例如,從一個明確定義的問題開始:一家零售公司的成本正在不斷上升,無法再向客戶提供有競爭力的價格。要解決這一業(yè)務(wù)問題,可能會引出許多的問題,其中之一可能是:公司能否在不影響質(zhì)量的情況下減少運營?

要回答這類問題,組織需要解決兩項主要任務(wù):

♦ 定義業(yè)務(wù)目標(biāo):數(shù)據(jù)科學(xué)團隊需要與業(yè)務(wù)專家和其他涉眾合作,以理解和識別業(yè)務(wù)問題。

♦ 提出正確的問題:公司需要提出明確的問題,定義數(shù)據(jù)科學(xué)團隊可以瞄向的業(yè)務(wù)目標(biāo)。

去年,Azure 機器學(xué)習(xí)團隊為一家職業(yè)勞務(wù)公司開發(fā)了一個基于推薦的員工分配解決方案。通過使用Azure 機器學(xué)習(xí)服務(wù),我們開發(fā)并部署了一個人員部署推薦解決方案,該方案為新項目推薦最優(yōu)的員工組合和具有對口經(jīng)驗和專業(yè)知識的個人員工。我們這個解決方案的最終業(yè)務(wù)目標(biāo)是提高客戶的利潤。

當(dāng)時,項目人員配置是由項目經(jīng)理手工完成的,他基于的是員工的可用性和其個人過去業(yè)績的先驗知識。這個過程非常耗時,而且結(jié)果往往并不理想。利用歷史數(shù)據(jù)和先進的機器學(xué)習(xí)技術(shù)可以更有效地完成這個過程。

為了將這個業(yè)務(wù)問題轉(zhuǎn)化為切實可行的解決方案和結(jié)果,我們幫助客戶提出了正確的問題,例如:

♦ 我們?nèi)绾晤A(yù)測新項目的員工構(gòu)成?例如,一名高級項目經(jīng)理、一名首席數(shù)據(jù)科學(xué)家和兩名會計助理。

♦ 我們?nèi)绾斡嬎阈马椖康膯T工適合度評分?我們將員工適合度得分定義為度量項目員工適合度的指標(biāo)。

我們這個機器學(xué)習(xí)解決方案的目標(biāo)是根據(jù)員工的可用性、地理位置、項目類型經(jīng)驗、行業(yè)經(jīng)驗和以前項目產(chǎn)生的小時貢獻邊際,為新項目推薦最合適的員工。Azure和無數(shù)的基于云計算的工具,可以幫助該組織制定成功的勞動力分析解決方案,為具體的行動計劃和人力資源投資提供基礎(chǔ):使用 Azure 云,更容易獲得無與倫比的生產(chǎn)力,它具有端到端的開發(fā)工具和監(jiān)控、管理和保護云資源的管理工具。此外,Azure 機器學(xué)習(xí)服務(wù)提供了一個基于云的環(huán)境,組織可以使用它來準(zhǔn)備數(shù)據(jù)、培訓(xùn)、測試、部署、管理和跟蹤機器學(xué)習(xí)模型。Azure 機器學(xué)習(xí)服務(wù)還包括自動生成模型和調(diào)優(yōu)的功能,以幫助你輕松、高效并準(zhǔn)確地創(chuàng)建模型。這些解決方案可以解決組織人員分配中需要克服的偏差或低效,從而得到更好的業(yè)務(wù)結(jié)果。組織可以通過使用勞動力分析來優(yōu)化人力資本的使用,從而獲得競爭優(yōu)勢。在接下來的幾個章節(jié),我們將一起了解如何為客戶構(gòu)建這個解決方案。

原則 2:建立績效指標(biāo)

為了成功地將這個愿景和業(yè)務(wù)目標(biāo)轉(zhuǎn)化為切實有效的結(jié)果,下一步是建立清晰的績效指標(biāo)。在第二步中,組織需要從分析層面關(guān)注定義數(shù)據(jù)解決方案管道的以下兩個關(guān)鍵方面(如圖 2):

♦ 解決該業(yè)務(wù)問題并得出準(zhǔn)確結(jié)論的最佳分析方法是什么?

♦ 如何將這一愿景轉(zhuǎn)化為能夠改善業(yè)務(wù)的切實有效的結(jié)果?

 

 

圖 2 數(shù)據(jù)解決方案流水線

這一步分為三個子步驟:

1.決定度量什么

我們以預(yù)測性維護為例,這是一種用于預(yù)測在役機器何時會發(fā)生故障的技術(shù),它使你能夠?qū)ζ渚S護提前很好地進行規(guī)劃。事實證明,這是一個非常廣泛的領(lǐng)域,有著各種各樣的最終目標(biāo),比如預(yù)測故障的根本原因、哪些部件需要更換以及故障發(fā)生后何時提供維護建議等等。

許多公司正在嘗試進行預(yù)測性維護,以及從各種傳感器和系統(tǒng)中獲得大量數(shù)據(jù)。但是,通常情況下,客戶并沒有足夠的故障歷史數(shù)據(jù),這使得預(yù)測維護非常困難。畢竟,為了預(yù)測未來的故障事件,需要基于此類故障歷史數(shù)據(jù)對模型進行培訓(xùn)。因此,盡管為任何分析項目制定愿景、目的和范圍很重要,但是從收集合適的數(shù)據(jù)開始才至關(guān)重要。用于預(yù)測維護的相關(guān)數(shù)據(jù)源包括但不限于:故障歷史、維護 / 維修歷史、機器操作條件、設(shè)備元數(shù)據(jù)。讓我們假定有一個車輪故障用例:訓(xùn)練數(shù)據(jù)應(yīng)該包含與車輪操作相關(guān)的特征。如果問題是預(yù)測牽引系統(tǒng)的故障,訓(xùn)練數(shù)據(jù)必須包含牽引系統(tǒng)的所有不同部件。第一個案例針對特定的組件,而第二個案例針對較大子系統(tǒng)的故障。一般的建議是設(shè)計關(guān)于特定組件的預(yù)測系統(tǒng),而不是更大的子系統(tǒng)。

給定上述數(shù)據(jù)源,預(yù)測維護領(lǐng)域中觀察到的兩種主要數(shù)據(jù)類型是:1)暫態(tài)數(shù)據(jù)(如操作遙感、機器條件、工作指令類型、記錄時具有時間戳的優(yōu)先級代碼)。故障、維護 / 修理和使用歷史記錄也將有與每個事件相關(guān)聯(lián)的時間戳);2)靜態(tài)數(shù)據(jù)(機器特征和操作員特征一般是靜態(tài)的,因為它們描述了機器或操作員屬性的技術(shù)規(guī)格。如果這些特征隨著時間的推移而改變,那么它們也應(yīng)該具有與之相關(guān)聯(lián)的時間戳)。預(yù)測器和目標(biāo)變量應(yīng)該根據(jù)使用的算法進行預(yù)處理 / 轉(zhuǎn)換為數(shù)值、分類和其他數(shù)據(jù)類型。

2. 決定如何度量它

考慮組織如何度量數(shù)據(jù)也同樣重要,尤其是在數(shù)據(jù)收集和攝入階段之前。這一子步驟的關(guān)鍵問題包括:

♦ 時間是什么時候?
♦ 度量單位是什么?
♦ 應(yīng)該包括哪些因素?

此步驟的中心目標(biāo)是確定分析需要預(yù)測的關(guān)鍵業(yè)務(wù)變量。我們將這些變量稱為模型目標(biāo),并使用與它們關(guān)聯(lián)的度量來確定項目的成功。針對這類目標(biāo),舉兩個例子為銷售預(yù)測或預(yù)測是欺詐性訂單的可能性。

3、定義成功指標(biāo)

在標(biāo)識關(guān)鍵業(yè)務(wù)變量之后,將業(yè)務(wù)問題轉(zhuǎn)換為數(shù)據(jù)科學(xué)問題并定義界定項目是否成功的度量標(biāo)準(zhǔn)非常重要。組織通常使用數(shù)據(jù)科學(xué)或機器學(xué)習(xí)來回答以下五類問題:

♦ 多少?(回歸)
♦ 哪一類?(分類)
♦ 哪一組?(聚類)
♦ 這奇怪嗎?(異常檢測)
♦ 應(yīng)該采取哪種選擇?(推薦)

確定公司正在詢問哪些問題,以及如何回答這些問題,這樣才能實現(xiàn)業(yè)務(wù)目標(biāo),并能夠?qū)Y(jié)果進行度量。在這一點上,通過提出和精煉相關(guān)的、具體的、明確的尖銳問題來重新審視項目目標(biāo)是很重要的。例如假設(shè),一家公司想要實現(xiàn)客戶流失率的預(yù)測,需要精確到在一個為期三個月的項目結(jié)束時達到“x”%。有了這些數(shù)據(jù),公司就可以為客戶提出減少客戶流失率的促銷活動了。

以我們的職業(yè)勞務(wù)公司為例,我們決定解決的第一個業(yè)務(wù)問題是,如何預(yù)測一個新項目的員工組合,例如一名高級會計師加兩名會計助理。對于這種客戶參與,我們使用了近五年個人級別的每日歷史項目數(shù)據(jù)。我們刪除了任何有負邊際貢獻或負總小時數(shù)的數(shù)據(jù)。我們首先從測試數(shù)據(jù)集中隨機抽取了 1000 個項目,以加速參數(shù)調(diào)優(yōu)。在確定了最優(yōu)參數(shù)組合后,我們對測試數(shù)據(jù)集中的所有項目進行了相同的數(shù)據(jù)準(zhǔn)備。

以下是我們?yōu)檫@次業(yè)務(wù)構(gòu)建的數(shù)據(jù)類型和解決方案流(如圖 3 所示):

 

 

圖 3 數(shù)據(jù)類型和解決方案流

我們使用了一種聚類方法:K 最近鄰 (KNN) 算法。KNN 是一種簡單、易于實現(xiàn)的監(jiān)督機器學(xué)習(xí)算法。KNN 算法假設(shè)相似的事物具有很近的距離,從而在訓(xùn)練數(shù)據(jù)中找到最相似的數(shù)據(jù)點,并根據(jù)它們的分類進行有根據(jù)的猜測。該方法雖然易于理解和實現(xiàn),但在推薦系統(tǒng)、語義搜索和異常檢測等領(lǐng)域也得到了廣泛的應(yīng)用。

在第一步中,我們使用 KNN 來預(yù)測一個新項目的人員組成,也就是說,使用歷史項目數(shù)據(jù)預(yù)測每種人員分類 / 職務(wù)的數(shù)量。我們根據(jù)不同的項目屬性,如項目類型、總賬款、行業(yè)、客戶、收入范圍等,找出與新項目相似的歷史項目。我們根據(jù)業(yè)務(wù)規(guī)則和標(biāo)準(zhǔn)為每個項目屬性分配了不同的權(quán)重。我們還刪除了任何有負邊際貢獻 (利潤) 的數(shù)據(jù)。對于每一種人員分類,通過計算同類歷史項目對應(yīng)人員分類的人員數(shù)量加權(quán)和來預(yù)測人員數(shù)量。最后將這些權(quán)值規(guī)格化,使所有權(quán)值的和為 1。在計算加權(quán)和之前,我們剔除了 10% 的過高異常值和 10% 的過低異常值。

我們要解決的第二個業(yè)務(wù)問題是,如何計算新項目的員工適合度得分,我們決定使用基于內(nèi)容的自定義過濾方法:具體來說,我們實現(xiàn)了一個基于內(nèi)容的算法來預(yù)測員工的經(jīng)驗與項目需求的匹配度。在基于內(nèi)容的過濾系統(tǒng)中,通常是根據(jù)用戶對條目的歷史評分來計算得出用戶配置文件。這些用戶配置文件描述了用戶的品味和偏好。為了預(yù)測員工對新項目的適合度,我們使用歷史數(shù)據(jù)為每個員工創(chuàng)建了兩個員工檔案向量:一個向量基于的是一個小時數(shù),它代表員工在不同類型項目上的經(jīng)驗和專業(yè)技能;另一個向量基于的是每小時貢獻利潤率 (CMH),它代表員工在不同類型項目上的盈利能力。新項目的員工適合度評分是通過計算這兩個員工輪廓向量和代表項目重要屬性的二進制向量之間的內(nèi)積來計算的。

我們使用Azure 機器學(xué)習(xí)服務(wù)實現(xiàn)了這個機器學(xué)習(xí)步驟。使用主流的 Python SDK和用于 Azure 機器學(xué)習(xí)的Data Prep SDK,我們在 Azure 機器學(xué)習(xí)服務(wù)工作區(qū)中構(gòu)建我們的機器學(xué)習(xí)模型,并對其展開訓(xùn)練。這個工作區(qū)是為該服務(wù)準(zhǔn)備的頂級資源,它為我們提供了一個集中的地方來處理這個項目創(chuàng)建的所有工件。

為了創(chuàng)建一個工作區(qū),我們確定了以下配置項:

該工作區(qū)保存了一個計算目標(biāo)列表,你可以使用這些目標(biāo)訓(xùn)練你的模型。它還保存執(zhí)行訓(xùn)練的歷史記錄,包括日志、指標(biāo)、輸出和腳本快照。我們使用這些信息來確定哪個訓(xùn)練運行生成了最佳模型。

之后,我們將模型注冊到工作區(qū)中,并使用注冊的模型和計分腳本創(chuàng)建用于部署的鏡像(為此用例構(gòu)建端到端體系結(jié)構(gòu)的相關(guān)更多細節(jié)將在下面討論)。工作區(qū)的概念和機器學(xué)習(xí)流程如圖 4 所示:

 

 

圖 4 工作區(qū)概念和機器學(xué)習(xí)流程

原則 3:構(gòu)建端到端解決方案

在大數(shù)據(jù)時代,越來越多的數(shù)據(jù)的積累和分析,往往是非結(jié)構(gòu)化的,它們來自于應(yīng)用程序、Web 環(huán)境和各種各樣的設(shè)備。在第三步中,組織需要更有機地考慮支持其數(shù)據(jù)科學(xué)解決方案的端到端數(shù)據(jù)流和體系結(jié)構(gòu),并問問自己以下問題:

♦ 他們真的需要這么多數(shù)據(jù)嗎?

♦ 他們?nèi)绾未_保它的完整性和可靠性?

♦ 他們應(yīng)該如何存儲、處理和操作這些數(shù)據(jù),以回答我的問題?

♦ 最重要的是,他們?nèi)绾螌⑦@個數(shù)據(jù)科學(xué)解決方案整合到他們自己的業(yè)務(wù)和運營中,以便隨著時間的推移仍能成功地使用它?

數(shù)據(jù)體系結(jié)構(gòu)是規(guī)劃數(shù)據(jù)收集的過程,包括對所要收集的信息的定義、用于結(jié)構(gòu)化數(shù)據(jù)的標(biāo)準(zhǔn)和規(guī)范以及用于提取、存儲和處理此類數(shù)據(jù)的工具。

對于任何執(zhí)行數(shù)據(jù)分析的項目來說,這個階段都是基礎(chǔ),因為它保證了將來所要研究的信息的可用性和完整性。為此,你需要了解數(shù)據(jù)將如何存儲、處理和使用,以及項目需要哪些分析。就這一點,可以說項目的技術(shù)愿景和戰(zhàn)略愿景是交叉的,因為這個計劃任務(wù)的目的是保持數(shù)據(jù)提取和操作過程與業(yè)務(wù)目標(biāo)保持一致。

在定義了業(yè)務(wù)目標(biāo)(原則 1)并將它們轉(zhuǎn)換為有形的度量標(biāo)準(zhǔn)(原則 2)之后,現(xiàn)在必須要做的是選擇正確的工具,以使組織能夠?qū)嶋H構(gòu)建端到端數(shù)據(jù)科學(xué)解決方案?紤]諸如數(shù)據(jù)量、數(shù)據(jù)種類以及數(shù)據(jù)生成和處理的速度等因素,對公司確定應(yīng)該使用哪種類型的技術(shù)會很有幫助。在現(xiàn)有的各類工具中,必須考慮:

數(shù)據(jù)收集工具,如Azure Stream Analytics 和Azure Data Factory,這些工具將幫助我們提取和組織原始數(shù)據(jù)。

存儲工具,如Azure Cosmos DB和Azure Storage:這些工具以結(jié)構(gòu)化或非結(jié)構(gòu)化的形式存儲數(shù)據(jù),并且可以以集成的方式聚集來自于多個平臺的信息

數(shù)據(jù)處理和分析工具,如Azure Time Series Insights和Azure Machine Learning Service Data Prep,有了這些,我們可以使用存儲和處理的數(shù)據(jù)創(chuàng)建可視化邏輯,使分析、研究和報告成為可能,從而支持運營和戰(zhàn)略決策的制定。

模型操作化工具,如 Azure Machine Learning service 和Machine Learning Server:在公司擁有一組運行良好的模型之后,它們可以將這些模型操作化,供其他應(yīng)用程序使用。根據(jù)業(yè)務(wù)需求來看,可以實時預(yù)測,也可以批量預(yù)測。為部署模型,公司需要使用一個開放的 API 接口來暴露它們。各類的應(yīng)用程式可以通過該接口輕松使用這個模型,例如:

♦ 在線網(wǎng)站

♦ 電子表格

♦ 儀表板

♦ 企業(yè)重要流程線(LoB)應(yīng)用程序

♦ 后端應(yīng)用程序

這些工具可以根據(jù)業(yè)務(wù)的需要予以調(diào)整,但在理想情況下應(yīng)該提供它們之間集成的可能性,從而使數(shù)據(jù)可以在任意選擇的平臺上使用,而不需要手工處理。這種端到端架構(gòu)(如圖 5)還將為公司提供一些關(guān)鍵的優(yōu)勢和價值,例如:

 

 

圖 5 端到端體系結(jié)構(gòu)的示例

♦ 加速部署和降低風(fēng)險:集成的端到端體系結(jié)構(gòu)可以極大地降低組裝端到端解決方案所需的成本和精力,從而進一步減少部署用例的時間

♦ 模塊化:使公司能夠從端到端體系結(jié)構(gòu)的任何部分開始切入,并確保已經(jīng)集成了關(guān)鍵組件,且可以良好地配合

♦ 靈活性:可以在任何地方運行,包括多云或混合云環(huán)境

♦ 端到端分析和機器學(xué)習(xí):支持從邊緣到云的端到端分析,能夠?qū)C器學(xué)習(xí)模型回推到邊緣進行實時決策

♦ 端到端數(shù)據(jù)安全性和依從性:預(yù)集成了跨基礎(chǔ)設(shè)施的安全性和可管理性,包括訪問、授權(quán)和身份驗證

♦ 支持開源創(chuàng)新:基于開源項目和確保開放標(biāo)準(zhǔn)的充滿活力的社區(qū)創(chuàng)新模型

之于我們職業(yè)勞務(wù)公司,我們的解決方案架構(gòu)由以下組件組成(如圖 6):

 

 

圖 6 由微軟 Azure ML 團隊開發(fā)的端到端架構(gòu)

數(shù)據(jù)科學(xué)家使用 Azure 機器學(xué)習(xí)和 HDInsight 集群來訓(xùn)練模型。Azure HDInsight 是一種面向企業(yè)的管理、全頻譜、開源的分析服務(wù)。HDInsight 是一種云服務(wù),它使海量數(shù)據(jù)的處理變得簡單、快速和劃算。模型被裝箱并放入Azure 容器注冊表。Azure 容器注冊表使你可以為所有類型的容器部署構(gòu)建、存儲和管理鏡像。對于這個特定的客戶參與,我們使用Azure CLI創(chuàng)建了一個 Azure 容器注冊表實例。然后,使用 Docker 命令將容器鏡像推入注冊表,最后從注冊表中拉出并運行鏡像。Azure CLI 是一個命令行工具,為管理 Azure 資源提供了很好的體驗。CLI 旨在簡化腳本編寫、查詢數(shù)據(jù)、支持耗時操作等等。

該模型通過離線安裝程序部署到 Azure 棧上的 Kubernetes 集群。Azure Kubernetes Service (AKS) 簡化了 Kubernetes 的管理,它通過 Azure CLI 等工具簡化了集群的供應(yīng),并通過自動化的升級和擴展簡化了集群的維護。此外,創(chuàng)建 GPU 集群的能力使 AKS 能夠用于高性能服務(wù)和機器學(xué)習(xí)模型的自動擴展。

最終用戶提供的數(shù)據(jù)是根據(jù)模型評分的。將預(yù)測模型應(yīng)用于一組數(shù)據(jù)的過程稱為對數(shù)據(jù)進行評分。一旦建立了模型,就可以將模型規(guī)格說明保存在一個文件中,該文件包含重構(gòu)模型所需的所有信息。然后你可以使用該模型文件在其他數(shù)據(jù)集中生成預(yù)測分數(shù)。

從評分中獲得的洞見和異常將被存儲起來供以后上傳。Azure Blob storage 用于存儲所有項目數(shù)據(jù)。Azure 機器學(xué)習(xí)服務(wù)與 Blob 存儲集成在一起,以便用戶不必在計算平臺和 Blob 存儲之間手動移動數(shù)據(jù)。從該工作負載所需的性能來看,Blob 存儲也是非常劃算的。

在全局應(yīng)用程序中,全局相關(guān)和兼容性的洞見可供使用。Azure App Service是一種托管 Web 應(yīng)用程序、REST API 和移動后端的服務(wù)。App Service 不僅為你的應(yīng)用程序添加了 Microsoft Azure 的強大功能,比如安全性、負載平衡、自動縮放和自動化管理,還為你提供了 DevOps 能力,例如 Azure DevOps、GitHub、Docker Hub以及其他來源的持續(xù)部署,包管理、準(zhǔn)生產(chǎn)環(huán)境、自定義域和 SSL 證書。

最后,利用邊緣評分數(shù)據(jù)對模型進行改進。

原則 4:構(gòu)建數(shù)據(jù)科學(xué)技巧工具箱

在為我們的職業(yè)勞務(wù)公司開發(fā)基于推薦的人員分配方案時,我們立刻意識到他們的時間有限,并且沒有無限的計算資源。組織如何組織他們的工作以保持最高的生產(chǎn)力呢?

我們與客戶的數(shù)據(jù)科學(xué)團隊緊密合作,幫助他們開發(fā)了一組不同的技巧,以優(yōu)化他們的工作,縮短生產(chǎn)時間,例如:

首先,不要在你擁有的整個數(shù)據(jù)集進行培訓(xùn),而應(yīng)在一個小得多的子集上:一旦數(shù)據(jù)科學(xué)團隊清楚地了解了他們需要實現(xiàn)的功能、損失函數(shù)、度量標(biāo)準(zhǔn)和超參數(shù)值之后,再進行擴展。

重用以前項目中獲得的知識:許多數(shù)據(jù)科學(xué)問題都是彼此想通的。從其他數(shù)據(jù)科學(xué)家過去解決過的類似問題中重用超參數(shù)或特征提取器的最佳值,這將為組織節(jié)省大量時間。

設(shè)置自動報警,通知數(shù)據(jù)科學(xué)團隊某個特定的實驗已經(jīng)結(jié)束:假使實驗時有些東西出錯了,這么做將節(jié)省數(shù)據(jù)科學(xué)團隊的時間。

使用Jupyter 筆記本進行快速原型設(shè)計:數(shù)據(jù)科學(xué)家可以在對結(jié)果滿意之后再將代碼重寫為 Python 包 / 類。

將實驗代碼保存在版本控制系統(tǒng)中,比如GitHub。

使用云中的預(yù)配置環(huán)境進行數(shù)據(jù)科學(xué)開發(fā):這些是虛擬機鏡像(如Windows 虛擬機和Azure 數(shù)據(jù)科學(xué)虛擬機),使用一些常用的工具進行預(yù)安裝、配置和測試,這些工具通常在數(shù)據(jù)分析和機器學(xué)習(xí)培訓(xùn)會用得到。

在運行實驗時,列出要做哪些事情:數(shù)據(jù)收集、清理、注釋;閱讀新的數(shù)據(jù)科學(xué)主題,嘗試新的算法或框架。所有這些活動都會對你未來項目的成功有所助益。建議可參考這幾個數(shù)據(jù)科學(xué)網(wǎng)站:數(shù)據(jù)科學(xué)中心、KDnuggets、Revolution Analytics

原則 5:統(tǒng)一組織的數(shù)據(jù)科學(xué)愿景

從開始數(shù)據(jù)科學(xué)過程的第一天起,數(shù)據(jù)科學(xué)團隊就應(yīng)該與業(yè)務(wù)伙伴進行交互。數(shù)據(jù)科學(xué)家和業(yè)務(wù)伙伴不經(jīng)常接觸解決方案。業(yè)務(wù)伙伴希望遠離技術(shù)細節(jié),數(shù)據(jù)科學(xué)家也是想遠離業(yè)務(wù)。然而,為了理解并行模型的實現(xiàn)以構(gòu)建模型,他們之間保持持續(xù)交互是非常重要的。大多數(shù)組織都難以解鎖數(shù)據(jù)科學(xué)以優(yōu)化其操作流程,讓數(shù)據(jù)科學(xué)家、分析師和業(yè)務(wù)團隊采用一致的語言:不同的團隊和數(shù)據(jù)科學(xué)流程常常是形成摩擦的根源。這種摩擦定義了新的數(shù)據(jù)科學(xué)鐵三角,它基于的是數(shù)據(jù)科學(xué)、IT 運營和業(yè)務(wù)運營的協(xié)調(diào)配合。

為了與客戶共同完成這項任務(wù),我們實施了以下步驟:

要求 C 級別高管的支持采納這一愿景,并將其推動至其他不同業(yè)務(wù)部分:哪里有清晰的目標(biāo), 愿景和支持,就在哪里先試點,最初的成功或勝利,會刺激大家進一步試驗和探索,這經(jīng)常會導(dǎo)致多米諾效應(yīng),讓大家產(chǎn)生積極的轉(zhuǎn)變。

營造一種實驗文化:即使有了明確的目標(biāo),但通常僅憑這一點也不會帶來成功的業(yè)務(wù)轉(zhuǎn)型。在許多組織中,一個重要的障礙是員工沒有足夠的權(quán)力來實現(xiàn)變革。向員工充分授權(quán)有助于讓員工參與進來,并讓他們積極地為共同的目標(biāo)做出貢獻。

讓每個人都參與到溝通中來:達成共識會增強績效表現(xiàn)。如果數(shù)據(jù)科學(xué)家在沒有其他人參與的情況下孤立地工作,組織將缺乏共同承擔(dān)的愿景、價值觀和共同的目標(biāo)。跨多個團隊的組織的共同愿景和共同目標(biāo),能帶來協(xié)作的提升。

原則 6:讓人類參與其中

成為一家數(shù)據(jù)驅(qū)動型公司,更多的是一種文化轉(zhuǎn)變,而不僅僅是數(shù)字化:因此,任何數(shù)據(jù)科學(xué)解決方案的結(jié)果都應(yīng)讓人類參與評估,這很重要。人類 - 數(shù)據(jù)科學(xué)的團隊合作將會得到比任何一個單獨的團隊更好的結(jié)果。

例如,在我們的客戶案例中,我們結(jié)合數(shù)據(jù)科學(xué)與人類經(jīng)驗,幫助他們構(gòu)建、部署和維護了一個人員部署推薦解決方案,為新項目建議最優(yōu)的人員組合和具有對口經(jīng)驗和專業(yè)知識的人員,這常常會直接帶來經(jīng)濟價值。在我們部署了解決方案之后,我們的客戶決定與幾個項目團隊進行試點。他們還創(chuàng)建了一個數(shù)據(jù)科學(xué)家和業(yè)務(wù)專家的 v-Team,目的與機器學(xué)習(xí)解決方案并行開展工作,從兩個試點團隊使用 Azure 機器學(xué)習(xí)解決方案前后比較機器學(xué)習(xí)在項目完成時間、收入、員工、客戶滿意度等方面得出的結(jié)果。這種由一組數(shù)據(jù)和業(yè)務(wù)專家進行的線下評估對項目本身非常有益,這主要有兩個原因:

♦ 驗證了該機器學(xué)習(xí)解決方案能夠為每個項目提高約 4% 到 5% 的貢獻邊際;

♦ 該 v-Team 能夠測試這個解決方案并創(chuàng)建一個可靠的即時反饋機制,使他們能夠不斷地監(jiān)控結(jié)果并改進最終的解決方案。

♦ 在這個試點項目之后,客戶成功地將我們的解決方案集成到了他們的內(nèi)部項目管理系統(tǒng)中。

在開始這種數(shù)據(jù)驅(qū)動的文化轉(zhuǎn)變時,公司應(yīng)該牢記以下幾點準(zhǔn)則:

♦ 并肩工作:業(yè)界領(lǐng)先的公司越來越認識到,當(dāng)技術(shù)能夠助力人類,而不是取代人類時,它們才是最有效的。理解數(shù)據(jù)科學(xué)和人類為不同類型的工作和任務(wù)帶來的獨特能力將是至關(guān)重要的,因為這樣重點就從自動化轉(zhuǎn)向了對工作的重新設(shè)計。

♦ 對人類接觸的認知:重點是要記住,即使高度電腦化的工作不得不保持在面向服務(wù)的層面,并由像數(shù)據(jù)科學(xué)家和開發(fā)人員這些角色來解釋公司的成功,但仍需要創(chuàng)造力、同理心、溝通能力和解決復(fù)雜問題等必要的人類技能。

♦ 投資于勞動力的發(fā)展:對勞動力的發(fā)展、學(xué)習(xí)和職業(yè)模式予以重新關(guān)注也很重要,要不吝為其注入創(chuàng)造力。也許最關(guān)鍵的是對做有意義的工作的需求——盡管他們與智能機器有了新的合作,但人類將熱切地擁抱這些工作。

♦ 在數(shù)據(jù)科學(xué)需要額外的目前昂貴得令人望而卻步的基礎(chǔ)設(shè)施(例如巨大的知識圖譜),以在每個領(lǐng)域中提供上下文和替代人類經(jīng)驗的情況下,人類組件將特別重要。

結(jié)論

通過在數(shù)據(jù)分析過程中應(yīng)用健康數(shù)據(jù)科學(xué)組織框架中的這六個原則,組織可以針對他們的業(yè)務(wù)做出更好的決策,他們的選擇將得到可靠的數(shù)據(jù)收集和分析的支持。

我們的客戶能夠?qū)崿F(xiàn)一個成功的人員部署推薦解決方案,該方案為新項目推薦最優(yōu)的員工組合和具有對口經(jīng)驗和專業(yè)知識的個人員工。通過將員工經(jīng)驗與項目需求結(jié)合起來,我們幫助項目經(jīng)理更好更快地進行人員分配。

通過實踐,數(shù)據(jù)科學(xué)過程將變得更快、更準(zhǔn)確,這意味著組織將做出更好、更明智的決策,從而最有效地運營。

以下是一些可能會用到的附加資源,可幫助你學(xué)習(xí)如何培養(yǎng)健康的數(shù)據(jù)科學(xué)思維,建立一個成功的數(shù)據(jù)驅(qū)動組織:

♦ 團隊數(shù)據(jù)科學(xué)過程文檔(Team Data Science Process Documentation)

♦ 團隊數(shù)據(jù)科學(xué)處理 GitHub 庫(Team Data Science Process GitHub Repo)

♦ 數(shù)據(jù)架構(gòu)指南(Data Architecture Guide)

♦ Azure 的筆記本(Azure Notebooks)

♦ 數(shù)據(jù)科學(xué)虛擬機(Data Science Virtual Machine )

♦ Azure 機器學(xué)習(xí)文檔(Azure Machine Learning Documentation )

♦ 微軟 Azure 數(shù)據(jù)科學(xué)博客(Microsoft Azure Data Science Blog)

作者簡介

Francesca Lazzeri 博士(推特:@frlazzeri)是微軟云計算倡導(dǎo)團隊的高級機器學(xué)習(xí)科學(xué)家,也是大數(shù)據(jù)技術(shù)創(chuàng)新和基于機器學(xué)習(xí)的解決方案在現(xiàn)實問題中的應(yīng)用方面的專家。她是《時間序列預(yù)測:機器學(xué)習(xí)方法》(O 'Reilly Media, 2019) 一書的作者,她定期在美國和歐洲的大學(xué)教授應(yīng)用分析和機器學(xué)習(xí)課程。在加入微軟之前,她是哈佛商學(xué)院商業(yè)經(jīng)濟學(xué)研究員,她在那里的技術(shù)和運營管理部門進行統(tǒng)計和計量分析。她還是麻省理工學(xué)院博士和博士后的數(shù)據(jù)科學(xué)導(dǎo)師,并在學(xué)術(shù)和行業(yè)會議上發(fā)表主題演說和專題演講,在會上,她分享了她對人工智能、機器學(xué)習(xí)和編碼的知識和激情。

查看英文原文:The Data Science Mindset: Six Principles to Build Healthy Data-Driven Organizations

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:時勢造AI 談?wù)勅祟悶樯稕]被大數(shù)據(jù)海洋淹沒!

下一篇:十大免費機器學(xué)習(xí)課程