中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

AI人才稀缺:全面解讀數(shù)據(jù)科學(xué)家成長的4個階段

2020-12-04    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:彭鴻濤 張宗耀 聶磊 來源:大數(shù)據(jù)DT

本文帶你了解數(shù)據(jù)科學(xué)家的成長之路。內(nèi)容摘編自《增強(qiáng)型分析:AI驅(qū)動的數(shù)據(jù)分析、業(yè)務(wù)決策與案例實踐》

 

 

一次偶然的機(jī)會,有一位正在深造機(jī)器學(xué)習(xí)方面學(xué)位的朋友問了筆者一個問題:如何成為一名合格的數(shù)據(jù)科學(xué)家?

這個問題回答起來亦簡亦難。簡單回答的話可以拿出標(biāo)準(zhǔn)答案,坐而論道地說需要編程能力、數(shù)據(jù)操作能力、數(shù)學(xué)基礎(chǔ)、算法庫應(yīng)用能力、算法調(diào)優(yōu)能力與業(yè)務(wù)對接的能力等。

但是這樣的答案筆者其實是不滿意的,因為有太多的技術(shù)意味。做數(shù)據(jù)分析、將數(shù)據(jù)的價值發(fā)揮出來,是一個“工程 + 科學(xué)”的過程,只要在這個過程中的任意一處找到自己的位置,就無謂數(shù)據(jù)科學(xué)家這種稱號了。

大數(shù)據(jù)時代方興未艾,人工智能時代又呼嘯而至。人們在很多場合下能看到諸多新應(yīng)用,加之整個社會都在熱切地?fù)肀斯ぶ悄芗夹g(shù),使得大家都相信人工智能時代勢必會改變社會的方方面面,筆者對此也深信不疑。

在人工智能時代,將數(shù)據(jù)的價值發(fā)揮出來的要素有資金、數(shù)據(jù)、平臺、技術(shù)、人員等。數(shù)據(jù)科學(xué)家是人員要素中最為重要的部分,是需要企業(yè)非常重視的。在數(shù)據(jù)科學(xué)家自身發(fā)展的方向、組織結(jié)構(gòu),以及如何體現(xiàn)出價值等方面,相信大家肯定會有很多想法。

筆者從十幾年前加入IBM SPSS進(jìn)入數(shù)據(jù)分析領(lǐng)域開始,至今擔(dān)任過分析軟件工具的開發(fā)者、解決實際業(yè)務(wù)問題的數(shù)據(jù)挖掘者、數(shù)據(jù)驅(qū)動業(yè)務(wù)以及數(shù)字化轉(zhuǎn)型的咨詢者等多種角色。反觀這些年的成長路徑,將一些較為重要的經(jīng)驗做一個粗淺的總結(jié),拋磚引玉,以供讀者參考。

 

 

01 算法與數(shù)據(jù)科學(xué)家

我們隨便打開一些教科書,會發(fā)現(xiàn)機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘等經(jīng)典領(lǐng)域所談?wù)摰暮芏嘀R點是共通的,比如從歷史數(shù)據(jù)中學(xué)習(xí)到事物模式并用于對未來做出判斷,是機(jī)器學(xué)習(xí)中的重要內(nèi)容,也是人工智能的重要方面,更是數(shù)據(jù)挖掘的重點內(nèi)容。

現(xiàn)在有一個很時髦的說法,認(rèn)為機(jī)器學(xué)習(xí)是比數(shù)據(jù)挖掘更為高深的學(xué)科,實現(xiàn)人機(jī)對話那肯定是人工智能的范疇。

其實,從一個更為宏觀的視角來看的話,這幾個學(xué)科都是在將數(shù)據(jù)的價值通過算法和算法的組合(數(shù)據(jù)分析的流程)發(fā)揮出來,沒有一個清晰的標(biāo)準(zhǔn)說某類算法必須屬于人工智能范疇、某類算法必須屬于機(jī)器學(xué)習(xí)的范疇。

1. 數(shù)據(jù)科學(xué)、人工智能、機(jī)器學(xué)習(xí)等

有國外的學(xué)者試圖給出一個機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、人工智能等時髦名詞之間關(guān)系的示意圖,如圖1-1所示,我們發(fā)現(xiàn),這些學(xué)科間的關(guān)系可以說是交纏不清。

 

 

圖1-1 數(shù)據(jù)科學(xué)相關(guān)的學(xué)科之間的關(guān)系筆者也就這些學(xué)科之間的關(guān)系進(jìn)行了深入探索,查詢了很多的資料,發(fā)現(xiàn)圖1-1的中間部分,其實是來自SAS在1998年提供的數(shù)據(jù)分析的課程。除此之外,很少有人能將它們的關(guān)系說清楚,因為這本來就說不清楚。所以,對上圖,讀者只當(dāng)其是一個參考即可。

重點是圖1-1所表達(dá)的含義:這些技術(shù)都是圍繞“問題解決” →“分析” →“策略” →“領(lǐng)域知識” →“溝通” →“表達(dá)” →“探索”等問題來展開的,而這些問題都是人們在認(rèn)識世界、解決問題時所涉及的方面。

所以,本節(jié)采用圖1-1想表達(dá)的含義也是如此:計算機(jī)的技術(shù)在迅猛發(fā)展,現(xiàn)在很多的技術(shù)都可以融合使用來解決復(fù)雜問題了;對于數(shù)據(jù)科學(xué)相關(guān)的這些技術(shù),很多方面都是通用的。

2. 室內(nèi)活動還是室外活動

數(shù)據(jù)科學(xué)家是個含義較廣的名詞,人們往往也不會太多在意他們所從事的具體工作有什么不同,習(xí)慣將從事算法設(shè)計開發(fā)、在客戶現(xiàn)場直接應(yīng)用數(shù)據(jù)分析工具解決問題的人都稱為數(shù)據(jù)科學(xué)家。

這樣的劃分其實無可厚非。但是若將算法看作成品,則可以將數(shù)據(jù)科學(xué)家分為室外(out-house)和室內(nèi)(in-house)兩種角色。

所謂室內(nèi)數(shù)據(jù)科學(xué)家關(guān)注具體算法的設(shè)計、實現(xiàn)。比如,在MapReduce的計算方式下如何實現(xiàn)分層聚類算法。

而室外數(shù)據(jù)科學(xué)家,也就是數(shù)據(jù)挖掘者,他們一般不需要關(guān)注具體算法和工具的實現(xiàn),他們的職責(zé)是將客戶的需求翻譯為具體工具能解決的工作流程,并應(yīng)用合適算法能得出有意義的結(jié)論。圖1-2比較形象地對比了兩種科學(xué)家的不同。

 

 

圖1-2 室內(nèi)室外兩種數(shù)據(jù)分析人員職責(zé)對比現(xiàn)在還有一種習(xí)慣就是將室內(nèi)數(shù)據(jù)科學(xué)家稱為算法工程師,而對于室外數(shù)據(jù)科學(xué)家則稱之為數(shù)據(jù)科學(xué)家。我們大可不必糾結(jié)于這些名稱的不同,只要對他們的職責(zé)有不同的認(rèn)識即可。

室外數(shù)據(jù)科學(xué)家,在長期的項目過程中,需要與業(yè)務(wù)人員有非常深入的溝通才能得出有意義的數(shù)據(jù)分析結(jié)果。所以,相對于數(shù)據(jù)模型而更加看重業(yè)務(wù)的需求和特點,這是室外數(shù)據(jù)科學(xué)家的基本素養(yǎng)。本書所謂的數(shù)據(jù)科學(xué)家是指所謂從事室外活動的數(shù)據(jù)分析者。

02 數(shù)據(jù)科學(xué)家不斷成長的幾個階段

現(xiàn)在移動端各種App百花齊放,這已經(jīng)使得信息的傳播沒有任何的限制,人們在不自覺的過程其實已經(jīng)閱讀了大量的自己感興趣的文章。若對機(jī)器學(xué)習(xí)比較感興趣,相信人們已經(jīng)看到了很多非常炫酷的機(jī)器學(xué)習(xí)的應(yīng)用,如人臉識別的精度已經(jīng)提高到一個非常高的水平、大量智能問答機(jī)器人的部署已經(jīng)替代了不知多少呼叫中心的員工等。

顯而易見,這些應(yīng)用絕不是單靠一個算法就能解決的,注定是平臺、算法、業(yè)務(wù)等要素的綜合應(yīng)用才能產(chǎn)生這樣的效果。在應(yīng)用數(shù)據(jù)分析時已經(jīng)基本形成一個共識,就是數(shù)據(jù)分析者要對業(yè)務(wù)有一定的了解,才能保證產(chǎn)生較好的結(jié)果。

Gartner很早就將數(shù)據(jù)分析能力分成了4種(如圖1-3所示):

描述性分析(Descriptive Analysis)是在回答“過去發(fā)生了什么”,是了解現(xiàn)狀的有力手段;

診斷分析(Diagnostic Analysis)是尋找“為什么會是這樣”的方法;

預(yù)測分析(Predictive Analysis)是在回答“將來會是怎樣”;

規(guī)范分析(Prescriptive Analysis)則是說“基于現(xiàn)狀、預(yù)測等結(jié)果,我如何選擇一個較優(yōu)的決策得到期望的結(jié)果”。

 

 

圖1-3 四種分析能力劃分(Gartner)Business Intelligence的核心能力是解決描述分析和診斷分析。人們常說的預(yù)測模型(包括傳統(tǒng)的隨機(jī)森林、GBT等,還包括深度學(xué)習(xí)的常見算法如CNN等)、聚類模型、關(guān)聯(lián)分析等都屬于預(yù)測分析范疇。利用凸優(yōu)化、馬爾可夫等方法從眾多的決策選項中尋求最優(yōu)決策,則屬于Prescriptive Analysis的范疇,重點解決最優(yōu)決策的問題。

在圖1-3中,分析之后,人們經(jīng)驗、業(yè)務(wù)的輸入(Human Input)隨著分析手段的提高而減少,這是因為Prescriptive Analysis在分析過程中已經(jīng)將這些因素充分地引入。

比如,預(yù)測客戶流失的模型能夠輸出“哪些客戶將要流失”的名單,但是并不會輸出“OK,企業(yè)應(yīng)該采用何種決策來挽留”,是應(yīng)該給個折扣,還是辦一張會員卡?這些還是需要人們進(jìn)行業(yè)務(wù)決策的輸入。

而Prescriptive Analysis則會分析折扣和會員卡哪種方式既能挽留客戶又能使得企業(yè)的收益較高,但是這些決策(會員卡和折扣)也是需要人們輸入后才能進(jìn)行分析。

所以“通過數(shù)據(jù)分析的手段發(fā)揮數(shù)據(jù)價值”的過程,沒有業(yè)務(wù)輸入是絕對行不通的。所以,筆者也認(rèn)為數(shù)據(jù)科學(xué)家絕不是僅僅精通算法即可,還需要對業(yè)務(wù)一直保持熱情,不斷思考如何發(fā)揮數(shù)據(jù)分析的業(yè)務(wù)價值。我們需要從技能、效果、工作內(nèi)容、工作方法等多個層面來擴(kuò)展相關(guān)的能力,這才能發(fā)揮較大的價值。

總之,如果數(shù)據(jù)科學(xué)家僅僅只是被動地考慮用何種算法滿足業(yè)務(wù)部門所提出的要求的話,是遠(yuǎn)遠(yuǎn)不夠的。

如果讀者有志于成為一個數(shù)據(jù)科學(xué)家,或者已經(jīng)是一個數(shù)據(jù)科學(xué)家,類似于職場的職業(yè)路徑規(guī)劃,數(shù)據(jù)科學(xué)家的成長路徑可以是什么?如何不斷成長?相信大家按照自己的興趣都有不同的理解。

若數(shù)據(jù)科學(xué)家一直致力于“發(fā)揮數(shù)據(jù)的價值”這條主線,那么筆者認(rèn)為從價值的大小上可以分為算法、用法、業(yè)務(wù)、戰(zhàn)略4個層面(如圖1-4所示),數(shù)據(jù)科學(xué)家也可以沿著這條路徑來成長。

從圖1-4中可以看到不同層面的數(shù)據(jù)科學(xué)家的職責(zé)和作用是不同的,4個層次也是數(shù)據(jù)科學(xué)家成長的不同階段。

 

 

圖1-4 數(shù)據(jù)科學(xué)家成長的4個階段1. 算法——如何構(gòu)建數(shù)據(jù)分析模型

人們總是津津樂道各種時髦的算法,感嘆算法的發(fā)展使得人工智能有了長足的進(jìn)展。比如,人們看到機(jī)器可以精準(zhǔn)地識別人臉、機(jī)器可以作詩、機(jī)器可以識別圖片內(nèi)容并“說出”符合其內(nèi)容的文字描述,也熱衷于緊跟最新的技術(shù)發(fā)展來做一些新穎的應(yīng)用。這是一個非常好的趨勢,可以促進(jìn)人工智能的相關(guān)產(chǎn)業(yè)發(fā)展。

然而,人類已經(jīng)發(fā)明的算法遠(yuǎn)不僅僅如此。若讀者一直在從事數(shù)據(jù)分析的相關(guān)工作,會發(fā)現(xiàn)其實能夠解決實際業(yè)務(wù)問題的算法非常多,有很多也是簡單直接的。

比如,找到潛在的價值客戶,既可以通過響應(yīng)預(yù)測的模型,也可以通過聚類分析的模型,還可以通過社交網(wǎng)絡(luò)分析的模型來找到。構(gòu)建這些模型所需要的相關(guān)知識也需要體系化地學(xué)習(xí)、不斷積累才能真正滿足實際的業(yè)務(wù)需求。

在很多數(shù)據(jù)挖掘的資料中都會把算法分為有監(jiān)督的學(xué)習(xí)、無監(jiān)督的學(xué)習(xí)等類別,每個類別下各自的算法又有不同。比如聚類算法屬于無監(jiān)督的學(xué)習(xí)范疇,而能夠做類別判斷或回歸的算法都屬于有監(jiān)督的學(xué)習(xí)范疇。

在實際使用時,需要針對需求靈活應(yīng)用,如可以先用決策樹算法生成預(yù)測模型,然后分析決策樹的分支來細(xì)分客群。只有對這些算法有一個體系化的學(xué)習(xí),才能達(dá)到靈活應(yīng)用的目的。

超參數(shù)(Hyperparameter)是在給定數(shù)據(jù)集的情況下,確定一組參數(shù)組合能使得模型性能、泛化能力達(dá)到較優(yōu)。

每個算法在調(diào)試超參數(shù)的過程中,都有一些與算法特征相關(guān)的普遍規(guī)律,如隨機(jī)森林算法中決策樹的個數(shù)、決策樹的深度等,一般是需要預(yù)先被設(shè)定和關(guān)注的;陔S機(jī)森林中每棵樹應(yīng)當(dāng)是一個弱分類器的原理,決策樹的深度應(yīng)該很小才能避免過擬合。

目前有Grid Search等工具能夠在不同參數(shù)組合下嘗試找出一個合適的超參數(shù),替代人們不斷進(jìn)行手工嘗試的過程。但是不論如何,設(shè)置算法參數(shù)時總有一些經(jīng)驗總結(jié)可以在后來的應(yīng)用中被復(fù)用。

在深刻了解算法原理、算法體系的基礎(chǔ)上,掌握參數(shù)調(diào)優(yōu)的技能是一個數(shù)據(jù)科學(xué)家的基本能力。不論是對初學(xué)者還是有一定經(jīng)驗的從業(yè)者來說,這都是一個需要不斷學(xué)習(xí)和積累的基本任務(wù)。

2. 用法——如何回頭看模型

在很多情況下,當(dāng)數(shù)據(jù)科學(xué)家花費大量時間和精力構(gòu)建出模型后,興高采烈地試圖交給業(yè)務(wù)人員進(jìn)行使用時,往往會遇到一個有趣的情況:業(yè)務(wù)人員聽不懂你對高深算法的解釋,甚至不在乎你對數(shù)據(jù)的各種費心處理,他們只關(guān)心實際的問題,如模型到底效果如何?

在很多情況下,模型構(gòu)建完成后需要對模型進(jìn)行驗證。比如訓(xùn)練時采用截止到3月的數(shù)據(jù),而模型部署是在7月,所以需要數(shù)據(jù)科學(xué)家驗證截止到6月的情況下,模型的實際效果能達(dá)到什么程度。

這時,我們除了需要通過新數(shù)據(jù)計算模型性能指標(biāo)(如提升度、準(zhǔn)確性、穩(wěn)定性等)外,還需要計算模型實際業(yè)務(wù)結(jié)果會是怎么樣,能帶來多少收益或能避免多少損失(如圖1-5所示)。

 

 

圖1-5 以簡單明了的方式來討論模型使用的預(yù)期價值數(shù)據(jù)科學(xué)家除了要對模型性能指標(biāo)熟稔于心外,還需要能夠表達(dá)清楚模型真正的實際價值。所以,在第一步模型構(gòu)建完成后,應(yīng)用兩套指標(biāo)來衡量是比較可取的做法——模型性能指標(biāo)是從數(shù)學(xué)角度說明模型優(yōu)劣;業(yè)務(wù)指標(biāo)是從模型應(yīng)用的業(yè)務(wù)結(jié)果來評價其價值。

在現(xiàn)實中,人們往往不好準(zhǔn)確把握模型的真實業(yè)務(wù)價值,在實際應(yīng)用后通過數(shù)據(jù)統(tǒng)計才能有結(jié)論。

但是這一點都不妨礙模型部署前的估算:按照目前模型的性能指標(biāo),估計在第一次給定客戶數(shù)的情況能有多少人購買,大致的營業(yè)額會是多少。采用估算還是采用事后統(tǒng)計,都是用以說明模型業(yè)務(wù)價值的手段,可以靈活應(yīng)用。

數(shù)據(jù)科學(xué)家要像重視模型性能指標(biāo)的計算一樣重視模型所帶來的業(yè)務(wù)指標(biāo)的計算。

總體來講,數(shù)據(jù)科學(xué)家不能將自己的工作范圍只框定在純粹建模,需要“抬頭看”和“睜眼看”業(yè)務(wù)價值。

3. 業(yè)務(wù)——如何產(chǎn)生更大價值

業(yè)務(wù)問題的解決,可以從一處痛點開始突破,也可以按照體系化的方法整體解決。

比如,銀行對理財產(chǎn)品的營銷:

若只關(guān)注具體產(chǎn)品的銷售,則簡單的產(chǎn)品響應(yīng)預(yù)測模型即可解決;

若只關(guān)注一批產(chǎn)品的銷售,則也可以通過構(gòu)建多輸出預(yù)測模型預(yù)測每一個產(chǎn)品的購買概率來生成推薦列表;

若關(guān)注客戶旅程地圖(Customer Journey Map)而確定營銷時機(jī),則需要一批模型;

若關(guān)注客戶體驗的提升,需要的就不是一批模型,而是一個體系化的平臺加大量模型才能達(dá)到預(yù)期效果。

大多數(shù)情況下,數(shù)據(jù)科學(xué)家應(yīng)當(dāng)在具體的業(yè)務(wù)背景下展開工作。比如,若業(yè)務(wù)部門按照客戶旅程地圖的方法來分析客戶特征、了解客戶需求、并適時推薦產(chǎn)品(如圖1-6所示),則數(shù)據(jù)挖掘的模型是服務(wù)于一個個業(yè)務(wù)場景,在整體客戶關(guān)系管理的框架下發(fā)揮價值。

數(shù)據(jù)科學(xué)家的工作需要深度融入業(yè)務(wù),甚至引領(lǐng)數(shù)據(jù)驅(qū)動的業(yè)務(wù)發(fā)展。此時,數(shù)據(jù)科學(xué)家的定位不應(yīng)該僅僅是構(gòu)建模型者,還應(yīng)該是數(shù)據(jù)驅(qū)動業(yè)務(wù)這種新模式的搭建者。

這種角色變化就要求數(shù)據(jù)科學(xué)家深刻理解具體的業(yè)務(wù)、新的數(shù)據(jù)驅(qū)動模式的運作方式,圍繞數(shù)據(jù)驅(qū)動模式而展開各種活動的意義。

 

 

圖1-6 以客戶旅程地圖為例說明不同的業(yè)務(wù)場景需要相應(yīng)的模型在這種情況下,數(shù)據(jù)科學(xué)家在構(gòu)建模型時需要明確:該模型在數(shù)據(jù)驅(qū)動業(yè)務(wù)的新模式中在哪個階段發(fā)揮什么作用?如何構(gòu)建一個模型組來協(xié)同工作?有了這些模型后數(shù)據(jù)驅(qū)動業(yè)務(wù)模式能夠做到什么程度?

4. 戰(zhàn)略——如何更廣

數(shù)字化變革是目前幾乎所有企業(yè)都無法回避的任務(wù)。企業(yè)由于所處行業(yè)、自身特點等原因,需要量身定制數(shù)字化轉(zhuǎn)型的戰(zhàn)略。大型企業(yè)需要選擇發(fā)展重點作為突破方向,在轉(zhuǎn)型過程中既要做好技術(shù)基礎(chǔ),也需要大力推行敏捷的方法,同時要對人們的觀念、組織內(nèi)的流程等方面做出更新(如圖1-7所示)。

 

 

圖1-7 一個量身定制的數(shù)字化轉(zhuǎn)型路線圖示例資深數(shù)據(jù)科學(xué)家或首席數(shù)據(jù)科學(xué)家所擔(dān)負(fù)的職責(zé)不應(yīng)該僅僅是完成目前安排的任務(wù),或者去做一些博人眼球的所謂智能應(yīng)用。其還應(yīng)該深度參與企業(yè)數(shù)字化轉(zhuǎn)型的戰(zhàn)略制定、計劃安排、引領(lǐng)加速器項目等工作,因為資深數(shù)據(jù)科學(xué)家最應(yīng)該懂得數(shù)據(jù)的價值如何發(fā)揮、能夠發(fā)揮到什么程度。

對于大型企業(yè)而言,數(shù)字化轉(zhuǎn)型的任務(wù)是艱巨的,不過眾多行業(yè)已經(jīng)或多或少地開始了相關(guān)的行動。筆者由于工作關(guān)系也深入?yún)⑴c到了大型金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的咨詢工作,深刻感觸到了企業(yè)在進(jìn)行數(shù)字化轉(zhuǎn)型時的困難。這使得筆者更加認(rèn)為讓真正懂得如何發(fā)揮數(shù)據(jù)價值的人員按照加速器的方式來推動數(shù)字化轉(zhuǎn)型進(jìn)程是至關(guān)重要的。

關(guān)于作者:

彭鴻濤,德勤企業(yè)咨詢總監(jiān)兼首席數(shù)據(jù)科學(xué)家,德勤全球AI團(tuán)隊核心成員,德勤數(shù)字化轉(zhuǎn)型、智慧營銷、智慧風(fēng)控、客戶體驗等核心咨詢服務(wù)方案的資深顧問。

張宗耀,上海全應(yīng)科技有限公司資深數(shù)據(jù)科學(xué)家,前華為企業(yè)智能部門資深數(shù)據(jù)科學(xué)家,前IBM SPSS 算法組件團(tuán)隊資深算法工程師。

聶磊,陜西萬禾數(shù)字科技有限公司CTO,前IBM SPSS 資深數(shù)據(jù)科學(xué)家,前IBM Watson Analytics數(shù)據(jù)分析引擎技術(shù)主管及架構(gòu)師。

本文摘編自《增強(qiáng)型分析:AI驅(qū)動的數(shù)據(jù)分析、業(yè)務(wù)決策與案例實踐》,經(jīng)出版方授權(quán)發(fā)布。

標(biāo)簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)分析與數(shù)據(jù)科學(xué)的未來

下一篇:傳統(tǒng)數(shù)據(jù)庫架構(gòu)已經(jīng)不適合新興世界了?