中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何建立數(shù)據(jù)科學(xué)部門(mén)?

2020-12-04    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

來(lái)源:大數(shù)據(jù)文摘

很多牛逼的公司都宣稱(chēng)在建立數(shù)據(jù)科學(xué)部門(mén),這個(gè)部門(mén)該如何組建,大家都在摸石頭過(guò)河。O‘reilly Strata今年 六月份發(fā)布了報(bào)告 《Analyzing the Analyzers 》,比較清晰的闡述了數(shù)據(jù)科學(xué)部門(mén)所需要的不同角色及其技能。重點(diǎn)內(nèi)容翻譯如下:

數(shù)據(jù)科學(xué)家的分類(lèi)研究方法

自我認(rèn)識(shí)

請(qǐng)被調(diào)查者用常用的5級(jí)標(biāo)準(zhǔn)(從完全同意到完全不同意)來(lái)回答 “我覺(jué)得自己是一個(gè)XX” 這樣的問(wèn)題,能夠獲得數(shù)據(jù)科學(xué)家的自我認(rèn)識(shí)結(jié)果。調(diào)查結(jié)果將數(shù)據(jù)科學(xué)家分為以下四類(lèi):Data Businesspeople、Data Creatives、Data Developer、Data Researchers。

 

 

技能需求

請(qǐng)被調(diào)查者對(duì)數(shù)據(jù)科學(xué)家所需的以下22項(xiàng)技能進(jìn)行排序,分析不同類(lèi)型的數(shù)據(jù)科學(xué)家的技能要求。其中的ML是機(jī)器學(xué)習(xí)的簡(jiǎn)寫(xiě),OR指運(yùn)籌學(xué)(Operations Research)

 

 

將它們結(jié)合起來(lái)分析

根據(jù)受訪者的自我認(rèn)知和技能排序,可以識(shí)別出不同類(lèi)型的數(shù)據(jù)科學(xué)家所需要的技能。

 

 

數(shù)據(jù)科學(xué)家的類(lèi)別

Data Businesspeople

Data Businesspeople 往往專(zhuān)注于組織管理和如何從數(shù)據(jù)項(xiàng)目中產(chǎn)生利潤(rùn)。他們往往將自己定位為領(lǐng)導(dǎo)或創(chuàng)業(yè)者,約 80% 的 Data Businesspeople 承擔(dān)員工管理的責(zé)任。Data Businesspeople 還可能是咨詢(xún)服務(wù)或合同類(lèi)服務(wù)的提供者。Data Businesspeople 學(xué)歷相對(duì)較高,大約 60% 擁有碩士以上學(xué)位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科學(xué)位的背景。Data Businesspeople 往往操作真實(shí)數(shù)據(jù),90% 以上偶爾會(huì)操作 GB 級(jí)別的數(shù)據(jù)。與其他數(shù)據(jù)科學(xué)家相比,Data Businesspeople 年齡稍微偏大,接近四分之一是女性(相比略高),僅有四分之一的 Businesspeople 把自己稱(chēng)為數(shù)據(jù)科學(xué)家(相比略低)。

Data Creative

數(shù)據(jù)科學(xué)家往往可以獨(dú)立完成一條龍的完整分析過(guò)程:從數(shù)據(jù)提取,整合、并進(jìn)行分層,進(jìn)行統(tǒng)計(jì)或其他復(fù)雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,開(kāi)發(fā)具有更寬廣應(yīng)用前景的數(shù)據(jù)工具。而 Data Creative 則是其中能力最廣泛的數(shù)據(jù)科學(xué)家,他們能夠綜合使用各種工具和技術(shù)解決問(wèn)題、能夠像黑客馬拉松那樣創(chuàng)新產(chǎn)品原型,是典型的萬(wàn)事通型人才。與其他類(lèi)的數(shù)據(jù)科學(xué)家相比,Data Creative 更具藝術(shù)家風(fēng)范。與 Data Researcher 相似,Data Creative 也有豐富的的學(xué)術(shù)經(jīng)驗(yàn),大約 3/4 擁有院校授課或發(fā)表論文的經(jīng)歷,一般擁有經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)等領(lǐng)域的學(xué)位。但不同之處在于,僅有較少的 Data Creative 擁有博士學(xué)位。Data Creative 具有深厚的業(yè)務(wù)經(jīng)驗(yàn),80% 的 Data Creative 按合同工作(接項(xiàng)目?);40% 創(chuàng)立了企業(yè),甚至比 Data Businesspeople 還多。Data Creative 還被認(rèn)為是黑客。他們往往還可能有深厚的開(kāi)源經(jīng)驗(yàn),業(yè)余為開(kāi)源項(xiàng)目和開(kāi)放數(shù)據(jù)項(xiàng)目做貢獻(xiàn)。Data Creative 相對(duì)更年輕,男性更多。有意思的是,他們也是最積極的回應(yīng)我們最后一個(gè)問(wèn)題的:“你覺(jué)得本次調(diào)查是否對(duì)你有用?”

Data Developer

Data Developer 專(zhuān)注于解決數(shù)據(jù)管理的技術(shù)問(wèn)題 —— 如何獲取,存儲(chǔ),以及學(xué)習(xí)。Data Developer 更傾向于將自己評(píng)價(jià)為科學(xué)家(在這一點(diǎn)上僅次于 Data Researcher)。對(duì)于那些從事機(jī)器學(xué)習(xí)和相關(guān)的學(xué)術(shù)研究的人來(lái)說(shuō),這是當(dāng)然合理的。但是,還有一些 Data Developer,每日的工作僅僅是日復(fù)一日的開(kāi)發(fā)代碼。半數(shù) Data Developer 具有計(jì)算機(jī)科學(xué)或計(jì)算機(jī)工程學(xué)位,約一半人為開(kāi)源項(xiàng)目作出過(guò)貢獻(xiàn)。更多 Data Developer 會(huì)強(qiáng)調(diào)自己具有機(jī)器學(xué)習(xí)/大數(shù)據(jù)技能。部分 Data Developer 做過(guò)咨詢(xún)工作,承擔(dān)過(guò)管理崗位、或?yàn)殚_(kāi)放數(shù)據(jù)項(xiàng)目做出過(guò)貢獻(xiàn)。

Data Researcher

走向“數(shù)據(jù)科學(xué)家”頭銜的職業(yè)生涯路徑中,最有趣是從在學(xué)校研究物理或社會(huì)科學(xué)開(kāi)始,也有統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的。許多組織已經(jīng)深刻認(rèn)識(shí)到,即使這些學(xué)生在校期間所學(xué)專(zhuān)業(yè)與企業(yè)業(yè)務(wù)領(lǐng)域完全不同,但他們被訓(xùn)練出的利用數(shù)據(jù)了解復(fù)雜過(guò)程的能力仍然極具價(jià)值。大部分具備統(tǒng)計(jì)技能的受訪者,自認(rèn)為是 Data Researcher。近 75% 的 Data Researcher 在同行評(píng)審期刊上發(fā)表過(guò)文章,半數(shù)以上擁有博士學(xué)位。(心理和政治科學(xué)學(xué)位也有可觀的數(shù)字)。Data Researcher 很少創(chuàng)業(yè),而且僅有半數(shù)具有管理經(jīng)驗(yàn)。

關(guān)于大數(shù)據(jù)

下圖描述了對(duì)于不同數(shù)量級(jí)數(shù)據(jù)集處理的調(diào)查結(jié)果:大多數(shù)數(shù)據(jù)科學(xué)家很少直接操作 TB 級(jí)以上的數(shù)據(jù)。

 

 

T 型數(shù)據(jù)科學(xué)家

大多數(shù)成功的數(shù)據(jù)科學(xué)家既有豐富的專(zhuān)業(yè)經(jīng)驗(yàn),還至少在數(shù)據(jù)科學(xué)的某一方面深入鉆研,如統(tǒng)計(jì),大數(shù)據(jù),或業(yè)務(wù)溝通等。這就是20世紀(jì)90年代提出的所謂的“T形技能”模式:“T”字母頂部的橫表示廣博技能,而豎線(xiàn)表示在某個(gè)區(qū)域的深度鉆研。T形人才能夠更容易融入跨學(xué)科團(tuán)隊(duì),也能夠更高效地工作。數(shù)據(jù)科學(xué)領(lǐng)域與生俱來(lái)就具有協(xié)作性和創(chuàng)造性,那些成功的專(zhuān)業(yè)人士能夠與數(shù)據(jù)庫(kù)管理員,商務(wù)人士,以及其他具有多種互補(bǔ)工作技能的人合作,以使數(shù)據(jù)項(xiàng)目以創(chuàng)新的方式完成。

Data Businesspeople 具有頂級(jí)的商業(yè)能力,其他能力較弱。Data Researcher 往往具有非常深的統(tǒng)計(jì)相關(guān)技能,但一般說(shuō)來(lái),他們對(duì)于機(jī)器學(xué)習(xí)/大數(shù)據(jù),商業(yè),和編程技巧卻相對(duì)低。Data Developer的模式可以被稱(chēng)為“π形”,擁有強(qiáng)大的編程技巧,較強(qiáng)的機(jī)器學(xué)習(xí)/大數(shù)據(jù)相關(guān)技能,而其他三個(gè)技能相對(duì)中庸。最后,Data Creative 是不像T形結(jié)構(gòu)的,所有技能相對(duì)平均,既不最強(qiáng),也不最弱。

 

 

數(shù)據(jù)科學(xué)家和組織結(jié)構(gòu)

數(shù)據(jù)人才來(lái)自哪里?

70% 的受訪者至少擁有碩士學(xué)位,而科學(xué)領(lǐng)域的(社會(huì)學(xué)或物理學(xué),而非數(shù)學(xué)、計(jì)算機(jī)、統(tǒng)計(jì)、或工程學(xué)科)達(dá)40%。

科學(xué)領(lǐng)域的研究生以上教育,提供了對(duì)真實(shí)數(shù)據(jù)的動(dòng)手實(shí)踐,不僅僅描述現(xiàn)象,還要評(píng)價(jià)理論和辨析立場(chǎng)。物理學(xué)和天文學(xué)教授了嚴(yán)格的統(tǒng)計(jì)思維,而粒子加速器和太空望遠(yuǎn)鏡系統(tǒng)則提供了大量的需要小心處理的數(shù)據(jù)流。硬科學(xué)背景為任何類(lèi)型的數(shù)據(jù)科學(xué)家,尤其是Data Developer提供了良好的培訓(xùn)。

另一方面,有人認(rèn)為,社會(huì)科學(xué)也培養(yǎng)了大量的數(shù)據(jù)科學(xué)家。心理學(xué)家,經(jīng)濟(jì)學(xué)家,政治學(xué)家,以及其他組織,他們?cè)诠ぷ髦行枰幚淼膩?lái)自真實(shí)世界的混亂的,嘈雜的數(shù)據(jù)。這些領(lǐng)域的數(shù)據(jù)科學(xué)家可以快速清理和匯總數(shù)據(jù),利用先進(jìn)的統(tǒng)計(jì)技術(shù)來(lái)理解因果關(guān)系,并深入思考有關(guān)數(shù)據(jù)可視化,展示和溝通的問(wèn)題。我們?cè)?Data Researcher 和 Data Creative中看到很多這樣的受訪者。

經(jīng)典計(jì)算機(jī)科學(xué)(機(jī)器學(xué)習(xí))和應(yīng)用統(tǒng)計(jì)學(xué)位也是非常有效的數(shù)據(jù)科學(xué)家的起點(diǎn)。機(jī)器學(xué)習(xí)的重點(diǎn)是大規(guī)模數(shù)據(jù)處理和算法、結(jié)合軟件開(kāi)發(fā)技能,自然應(yīng)用于真實(shí)世界組織數(shù)據(jù)。許多應(yīng)用統(tǒng)計(jì)學(xué)科則將咨詢(xún)能力、專(zhuān)業(yè)領(lǐng)域知識(shí)、以及關(guān)鍵方面有效的數(shù)據(jù)科學(xué)結(jié)合在一起。

還有不少學(xué)校也開(kāi)始培養(yǎng)一些新興的學(xué)位,如分析、數(shù)據(jù)可續(xù)、商務(wù)智能碩士等。

大多數(shù)當(dāng)前的數(shù)據(jù)科學(xué)家往往涉足過(guò)多個(gè)領(lǐng)域,在不禁意之間獲得了廣泛而深入的領(lǐng)域知識(shí)。

從理論到實(shí)踐:實(shí)習(xí)和指導(dǎo)

帕蒂爾(2011)建議 “招收哪些剛剛走出大學(xué)校園的聰明而有創(chuàng)意的人才,再把他們投入非常嚴(yán)格的實(shí)習(xí)計(jì)劃中去。” 對(duì)于擁有足夠預(yù)算,以及高級(jí)人才輔導(dǎo)項(xiàng)目的大型組織,這樣做可能效果不錯(cuò),但對(duì)于小公司,它的實(shí)用性似乎不太好。

對(duì)于小組織來(lái)說(shuō),有個(gè)可行的替代方式(DataGotham 2012年)—— 聘請(qǐng)專(zhuān)業(yè)的顧問(wèn),幫助招聘、培訓(xùn)、再整合和指導(dǎo)新鮮出校的數(shù)據(jù)科學(xué)家。DonorsChoose.org 意識(shí)到,雇傭數(shù)據(jù)科學(xué)家收集數(shù)據(jù),在完成其慈善使命中具有巨大價(jià)值,他們與專(zhuān)家團(tuán)隊(duì)一同工作達(dá)5個(gè)星期完成雇傭。雇傭之前,專(zhuān)家?guī)椭@個(gè)非營(yíng)利性組織了解到數(shù)據(jù)科學(xué)家的作用,隨后幫助新員工培訓(xùn)和指導(dǎo),并設(shè)置了啟動(dòng)項(xiàng)目的成功路徑。數(shù)據(jù)科學(xué)家的廣泛的能力將對(duì)小組織非常有用,但必須有像這樣創(chuàng)新的方法以確保其有效性。

團(tuán)隊(duì)和組織架構(gòu)

首先,我們的數(shù)據(jù)顯示,數(shù)據(jù)科學(xué)家應(yīng)該是T形人才,具有多樣技能,需要在技能互補(bǔ)的團(tuán)隊(duì)中最有效率。(達(dá)文波特 2010;帕蒂爾 2011)。而不明白這一點(diǎn)的組織往往期望聘請(qǐng)一個(gè)可以做到一切的“神”。

其次,組織需要建立自己的數(shù)據(jù)科學(xué)團(tuán)隊(duì),以有效的開(kāi)展工作。數(shù)據(jù)科學(xué)團(tuán)隊(duì)即需要直接訪問(wèn)原始數(shù)據(jù),也需要與決策者溝通。根據(jù)我們的分析,他們具備需要多方面的技能才能充分利用數(shù)據(jù)。他們還需要得到流程管理的支持,采納和使用其結(jié)果。當(dāng)數(shù)據(jù)科學(xué)團(tuán)隊(duì)的產(chǎn)出被期望為具有完整的生命周期的軟件系統(tǒng)時(shí),那么這個(gè)團(tuán)隊(duì)中就必須擁有足夠的資源去進(jìn)行測(cè)試,部署和系統(tǒng)維護(hù),這一點(diǎn)至關(guān)重要。雖然我們的受訪者都或多或少有一些編程技巧,并能夠承擔(dān)這類(lèi)任務(wù),但期望大多數(shù) Data Businesspeople 或 Data Researchers 能夠高效完成這些,還是個(gè)不現(xiàn)實(shí)的期望。在大型組織里,在數(shù)據(jù)科學(xué)團(tuán)隊(duì)上的資金投入,與其他團(tuán)隊(duì)之間的管理關(guān)系協(xié)調(diào),包括數(shù)據(jù)基礎(chǔ)設(shè)施和IT員工,確實(shí)能夠?qū)崿F(xiàn)價(jià)值。(達(dá)文波特,2010年)

職業(yè)發(fā)展

企業(yè)中的數(shù)據(jù)科學(xué)家的角色不是一成不變的,也需要職業(yè)發(fā)展的晉升機(jī)會(huì)。具有多年數(shù)據(jù)科學(xué)家經(jīng)驗(yàn)的員工,非常有價(jià)值,也非常難于替代。將工程師提升為領(lǐng)導(dǎo)角色需要充分衡量利與弊,還要考慮資深員工不想從事管理崗位的各種變數(shù)。在我們的調(diào)查者中,62%的承擔(dān)著管理責(zé)任;這個(gè)數(shù)據(jù)能夠顯示有多少數(shù)據(jù)科學(xué)家愿意管理團(tuán)隊(duì),而不是視管理為煩惱。

在大型組織中,保留數(shù)據(jù)科學(xué)家的另一個(gè)有趣的潛在方法是設(shè)立輪崗計(jì)劃(達(dá)文波特,2010年)。在入職培訓(xùn)之后,數(shù)據(jù)科學(xué)家可以在內(nèi)部團(tuán)隊(duì)有計(jì)劃的轉(zhuǎn)崗。產(chǎn)品部門(mén)可能需要個(gè)性化用戶(hù)模式;市場(chǎng)部門(mén)需要在可控實(shí)驗(yàn)(controlled experiments)方面的幫助;財(cái)務(wù)部門(mén)需要預(yù)測(cè);運(yùn)營(yíng)部門(mén)需要流程優(yōu)化。通過(guò)直接加入不同部門(mén),數(shù)據(jù)科學(xué)家能夠了解關(guān)鍵業(yè)務(wù)的價(jià)值觀和技能,專(zhuān)注于部門(mén)最需要幫助的問(wèn)題,并以最小代價(jià)提供解決方案。而且,通過(guò)階段性輪崗,數(shù)據(jù)科學(xué)家可以獲得更寶貴的技能和寬闊的視野,不斷提升其數(shù)據(jù)科學(xué)技能。

標(biāo)簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)中一些不常用但很有用的Python庫(kù)

下一篇:大數(shù)據(jù)和人工智能如何協(xié)同工作