中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何建立數(shù)據(jù)科學部門?

2020-04-28    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

來源:大數(shù)據(jù)文摘

很多牛逼的公司都宣稱在建立數(shù)據(jù)科學部門,這個部門該如何組建,大家都在摸石頭過河。O‘reilly Strata今年 六月份發(fā)布了報告 《Analyzing the Analyzers 》,比較清晰的闡述了數(shù)據(jù)科學部門所需要的不同角色及其技能。重點內(nèi)容翻譯如下:

數(shù)據(jù)科學家的分類研究方法

自我認識

請被調(diào)查者用常用的5級標準(從完全同意到完全不同意)來回答 “我覺得自己是一個XX” 這樣的問題,能夠獲得數(shù)據(jù)科學家的自我認識結(jié)果。調(diào)查結(jié)果將數(shù)據(jù)科學家分為以下四類:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。

 

 

技能需求

請被調(diào)查者對數(shù)據(jù)科學家所需的以下22項技能進行排序,分析不同類型的數(shù)據(jù)科學家的技能要求。其中的ML是機器學習的簡寫,OR指運籌學(Operations Research)

 

 

將它們結(jié)合起來分析

根據(jù)受訪者的自我認知和技能排序,可以識別出不同類型的數(shù)據(jù)科學家所需要的技能。

 

 

數(shù)據(jù)科學家的類別

Data Businesspeople

Data Businesspeople 往往專注于組織管理和如何從數(shù)據(jù)項目中產(chǎn)生利潤。他們往往將自己定位為領導或創(chuàng)業(yè)者,約 80% 的 Data Businesspeople 承擔員工管理的責任。Data Businesspeople 還可能是咨詢服務或合同類服務的提供者。Data Businesspeople 學歷相對較高,大約 60% 擁有碩士以上學位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科學位的背景。Data Businesspeople 往往操作真實數(shù)據(jù),90% 以上偶爾會操作 GB 級別的數(shù)據(jù)。與其他數(shù)據(jù)科學家相比,Data Businesspeople 年齡稍微偏大,接近四分之一是女性(相比略高),僅有四分之一的 Businesspeople 把自己稱為數(shù)據(jù)科學家(相比略低)。

Data Creative

數(shù)據(jù)科學家往往可以獨立完成一條龍的完整分析過程:從數(shù)據(jù)提取,整合、并進行分層,進行統(tǒng)計或其他復雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,開發(fā)具有更寬廣應用前景的數(shù)據(jù)工具。而 Data Creative 則是其中能力最廣泛的數(shù)據(jù)科學家,他們能夠綜合使用各種工具和技術(shù)解決問題、能夠像黑客馬拉松那樣創(chuàng)新產(chǎn)品原型,是典型的萬事通型人才。與其他類的數(shù)據(jù)科學家相比,Data Creative 更具藝術(shù)家風范。與 Data Researcher 相似,Data Creative 也有豐富的的學術(shù)經(jīng)驗,大約 3/4 擁有院校授課或發(fā)表論文的經(jīng)歷,一般擁有經(jīng)濟學和統(tǒng)計學等領域的學位。但不同之處在于,僅有較少的 Data Creative 擁有博士學位。Data Creative 具有深厚的業(yè)務經(jīng)驗,80% 的 Data Creative 按合同工作(接項目?);40% 創(chuàng)立了企業(yè),甚至比 Data Businesspeople 還多。Data Creative 還被認為是黑客。他們往往還可能有深厚的開源經(jīng)驗,業(yè)余為開源項目和開放數(shù)據(jù)項目做貢獻。Data Creative 相對更年輕,男性更多。有意思的是,他們也是最積極的回應我們最后一個問題的:“你覺得本次調(diào)查是否對你有用?”

Data Developer

Data Developer 專注于解決數(shù)據(jù)管理的技術(shù)問題 —— 如何獲取,存儲,以及學習。Data Developer 更傾向于將自己評價為科學家(在這一點上僅次于 Data Researcher)。對于那些從事機器學習和相關的學術(shù)研究的人來說,這是當然合理的。但是,還有一些 Data Developer,每日的工作僅僅是日復一日的開發(fā)代碼。半數(shù) Data Developer 具有計算機科學或計算機工程學位,約一半人為開源項目作出過貢獻。更多 Data Developer 會強調(diào)自己具有機器學習/大數(shù)據(jù)技能。部分 Data Developer 做過咨詢工作,承擔過管理崗位、或為開放數(shù)據(jù)項目做出過貢獻。

Data Researcher

走向“數(shù)據(jù)科學家”頭銜的職業(yè)生涯路徑中,最有趣是從在學校研究物理或社會科學開始,也有統(tǒng)計學專業(yè)的。許多組織已經(jīng)深刻認識到,即使這些學生在校期間所學專業(yè)與企業(yè)業(yè)務領域完全不同,但他們被訓練出的利用數(shù)據(jù)了解復雜過程的能力仍然極具價值。大部分具備統(tǒng)計技能的受訪者,自認為是 Data Researcher。近 75% 的 Data Researcher 在同行評審期刊上發(fā)表過文章,半數(shù)以上擁有博士學位。(心理和政治科學學位也有可觀的數(shù)字)。Data Researcher 很少創(chuàng)業(yè),而且僅有半數(shù)具有管理經(jīng)驗。

關于大數(shù)據(jù)

下圖描述了對于不同數(shù)量級數(shù)據(jù)集處理的調(diào)查結(jié)果:大多數(shù)數(shù)據(jù)科學家很少直接操作 TB 級以上的數(shù)據(jù)。

 

 

T 型數(shù)據(jù)科學家

大多數(shù)成功的數(shù)據(jù)科學家既有豐富的專業(yè)經(jīng)驗,還至少在數(shù)據(jù)科學的某一方面深入鉆研,如統(tǒng)計,大數(shù)據(jù),或業(yè)務溝通等。這就是20世紀90年代提出的所謂的“T形技能”模式:“T”字母頂部的橫表示廣博技能,而豎線表示在某個區(qū)域的深度鉆研。T形人才能夠更容易融入跨學科團隊,也能夠更高效地工作。數(shù)據(jù)科學領域與生俱來就具有協(xié)作性和創(chuàng)造性,那些成功的專業(yè)人士能夠與數(shù)據(jù)庫管理員,商務人士,以及其他具有多種互補工作技能的人合作,以使數(shù)據(jù)項目以創(chuàng)新的方式完成。

Data Businesspeople 具有頂級的商業(yè)能力,其他能力較弱。Data Researcher 往往具有非常深的統(tǒng)計相關技能,但一般說來,他們對于機器學習/大數(shù)據(jù),商業(yè),和編程技巧卻相對低。Data Developer的模式可以被稱為“π形”,擁有強大的編程技巧,較強的機器學習/大數(shù)據(jù)相關技能,而其他三個技能相對中庸。最后,Data Creative 是不像T形結(jié)構(gòu)的,所有技能相對平均,既不最強,也不最弱。

 

 

數(shù)據(jù)科學家和組織結(jié)構(gòu)

數(shù)據(jù)人才來自哪里?

70% 的受訪者至少擁有碩士學位,而科學領域的(社會學或物理學,而非數(shù)學、計算機、統(tǒng)計、或工程學科)達40%。

科學領域的研究生以上教育,提供了對真實數(shù)據(jù)的動手實踐,不僅僅描述現(xiàn)象,還要評價理論和辨析立場。物理學和天文學教授了嚴格的統(tǒng)計思維,而粒子加速器和太空望遠鏡系統(tǒng)則提供了大量的需要小心處理的數(shù)據(jù)流。硬科學背景為任何類型的數(shù)據(jù)科學家,尤其是Data Developer提供了良好的培訓。

另一方面,有人認為,社會科學也培養(yǎng)了大量的數(shù)據(jù)科學家。心理學家,經(jīng)濟學家,政治學家,以及其他組織,他們在工作中需要處理的來自真實世界的混亂的,嘈雜的數(shù)據(jù)。這些領域的數(shù)據(jù)科學家可以快速清理和匯總數(shù)據(jù),利用先進的統(tǒng)計技術(shù)來理解因果關系,并深入思考有關數(shù)據(jù)可視化,展示和溝通的問題。我們在 Data Researcher 和 Data Creative中看到很多這樣的受訪者。

經(jīng)典計算機科學(機器學習)和應用統(tǒng)計學位也是非常有效的數(shù)據(jù)科學家的起點。機器學習的重點是大規(guī)模數(shù)據(jù)處理和算法、結(jié)合軟件開發(fā)技能,自然應用于真實世界組織數(shù)據(jù)。許多應用統(tǒng)計學科則將咨詢能力、專業(yè)領域知識、以及關鍵方面有效的數(shù)據(jù)科學結(jié)合在一起。

還有不少學校也開始培養(yǎng)一些新興的學位,如分析、數(shù)據(jù)可續(xù)、商務智能碩士等。

大多數(shù)當前的數(shù)據(jù)科學家往往涉足過多個領域,在不禁意之間獲得了廣泛而深入的領域知識。

從理論到實踐:實習和指導

帕蒂爾(2011)建議 “招收哪些剛剛走出大學校園的聰明而有創(chuàng)意的人才,再把他們投入非常嚴格的實習計劃中去。” 對于擁有足夠預算,以及高級人才輔導項目的大型組織,這樣做可能效果不錯,但對于小公司,它的實用性似乎不太好。

對于小組織來說,有個可行的替代方式(DataGotham 2012年)—— 聘請專業(yè)的顧問,幫助招聘、培訓、再整合和指導新鮮出校的數(shù)據(jù)科學家。DonorsChoose.org 意識到,雇傭數(shù)據(jù)科學家收集數(shù)據(jù),在完成其慈善使命中具有巨大價值,他們與專家團隊一同工作達5個星期完成雇傭。雇傭之前,專家?guī)椭@個非營利性組織了解到數(shù)據(jù)科學家的作用,隨后幫助新員工培訓和指導,并設置了啟動項目的成功路徑。數(shù)據(jù)科學家的廣泛的能力將對小組織非常有用,但必須有像這樣創(chuàng)新的方法以確保其有效性。

團隊和組織架構(gòu)

首先,我們的數(shù)據(jù)顯示,數(shù)據(jù)科學家應該是T形人才,具有多樣技能,需要在技能互補的團隊中最有效率。(達文波特 2010;帕蒂爾 2011)。而不明白這一點的組織往往期望聘請一個可以做到一切的“神”。

其次,組織需要建立自己的數(shù)據(jù)科學團隊,以有效的開展工作。數(shù)據(jù)科學團隊即需要直接訪問原始數(shù)據(jù),也需要與決策者溝通。根據(jù)我們的分析,他們具備需要多方面的技能才能充分利用數(shù)據(jù)。他們還需要得到流程管理的支持,采納和使用其結(jié)果。當數(shù)據(jù)科學團隊的產(chǎn)出被期望為具有完整的生命周期的軟件系統(tǒng)時,那么這個團隊中就必須擁有足夠的資源去進行測試,部署和系統(tǒng)維護,這一點至關重要。雖然我們的受訪者都或多或少有一些編程技巧,并能夠承擔這類任務,但期望大多數(shù) Data Businesspeople 或 Data Researchers 能夠高效完成這些,還是個不現(xiàn)實的期望。在大型組織里,在數(shù)據(jù)科學團隊上的資金投入,與其他團隊之間的管理關系協(xié)調(diào),包括數(shù)據(jù)基礎設施和IT員工,確實能夠?qū)崿F(xiàn)價值。(達文波特,2010年)

職業(yè)發(fā)展

企業(yè)中的數(shù)據(jù)科學家的角色不是一成不變的,也需要職業(yè)發(fā)展的晉升機會。具有多年數(shù)據(jù)科學家經(jīng)驗的員工,非常有價值,也非常難于替代。將工程師提升為領導角色需要充分衡量利與弊,還要考慮資深員工不想從事管理崗位的各種變數(shù)。在我們的調(diào)查者中,62%的承擔著管理責任;這個數(shù)據(jù)能夠顯示有多少數(shù)據(jù)科學家愿意管理團隊,而不是視管理為煩惱。

在大型組織中,保留數(shù)據(jù)科學家的另一個有趣的潛在方法是設立輪崗計劃(達文波特,2010年)。在入職培訓之后,數(shù)據(jù)科學家可以在內(nèi)部團隊有計劃的轉(zhuǎn)崗。產(chǎn)品部門可能需要個性化用戶模式;市場部門需要在可控實驗(controlled experiments)方面的幫助;財務部門需要預測;運營部門需要流程優(yōu)化。通過直接加入不同部門,數(shù)據(jù)科學家能夠了解關鍵業(yè)務的價值觀和技能,專注于部門最需要幫助的問題,并以最小代價提供解決方案。而且,通過階段性輪崗,數(shù)據(jù)科學家可以獲得更寶貴的技能和寬闊的視野,不斷提升其數(shù)據(jù)科學技能。

標簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:不交學費也能成為數(shù)據(jù)科學家,這里有一條免費學習路徑

下一篇:探討關于數(shù)據(jù)科學和人工智能戰(zhàn)略的制定