中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)工程師 vs 數(shù)據(jù)科學家

2019-05-05    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

了解數(shù)據(jù)工程師和數(shù)據(jù)科學家之間的差異非常重要。 誤解或不了解其差異,會導致團隊在處理大數(shù)據(jù)時失敗或者表現(xiàn)不及預期。

一個核心的誤解是每個職位各自的優(yōu)點和弱點。 我認為,其中一些誤解來源于描述數(shù)據(jù)科學家和數(shù)據(jù)工程師的圖表。

 

 

圖1.關于數(shù)據(jù)科學家和數(shù)據(jù)工程師過度簡化的維恩圖。 來自Jesse Anderson的插圖

像圖1這樣的維恩圖,過度簡化了崗位的復雜性,以及崗位的區(qū)別之處。它使兩個崗位看上去可以互換。 是的,這兩個崗位都處理大數(shù)據(jù)。 不過,每個崗位利用大數(shù)據(jù),無論是創(chuàng)造價值,還是創(chuàng)造數(shù)據(jù)管線的做法都是截然不同的。這種差異來自每個崗位的基本技能。

何為數(shù)據(jù)科學家和數(shù)據(jù)工程師?

當我與組織機構合作,處理它們的團隊架構時,我不用維恩圖去描述一名數(shù)據(jù)工程師和一名數(shù)據(jù)科學家之間的關系。 我繪制的圖如圖2所示。

 

 

圖2.顯示數(shù)據(jù)科學家和數(shù)據(jù)工程師的核心能力及其重疊技能的圖表。 Jesse Anderson和大數(shù)據(jù)研究所的插圖

數(shù)據(jù)科學家的技能

數(shù)學與統(tǒng)計學(有時物理也可以)是數(shù)據(jù)科學家的核心。 在基于這種數(shù)學背景,他們正創(chuàng)建高級分析能力。 他們通過將數(shù)學應用到極致來創(chuàng)建機器學習模型和人工智能模型。

如同軟件工程一樣,數(shù)據(jù)科學家將不得不與業(yè)務端進行交流。 這包括充分了解領域,以獲得洞察力。 數(shù)據(jù)科學家通常負責分析數(shù)據(jù)以幫助業(yè)務,這需要一定的商業(yè)敏銳度。 最后,他們的結(jié)果需要以可理解的方式提供給業(yè)務方。這要求數(shù)據(jù)科學家有能力用口述和視覺結(jié)果的形式,與業(yè)務方交流那些復雜的結(jié)果和觀察情況,以似的業(yè)務方能夠理解并且基于此展開決策。

關于數(shù)據(jù)科學家,我一言以概之的定義是:數(shù)據(jù)科學家是通過編程來強化他們的數(shù)學和統(tǒng)計背景能力來進行分析數(shù)據(jù)、創(chuàng)造數(shù)學模型的人。

數(shù)據(jù)科學家的一個常見特征是,他們不得不選擇了編程,以實現(xiàn)他們除了編程以外無法做到的事情。 當我與數(shù)據(jù)科學家交談時,他們經(jīng)常向我傾訴的一件事情。 為了完成更復雜的分析,或者由于其他方面難以克服的問題,他們學會了如何編程。 他們的編程和系統(tǒng)搭建技能達不到你從程序員或數(shù)據(jù)工程師那里會看到的水平 – 他們也沒必要達到。

數(shù)據(jù)工程師的技能

編程能力是數(shù)據(jù)工程師的核心。這種能力背景通常是Java,Scala或Python的編程經(jīng)驗。 他們的工作重點或?qū)I(yè)能力主要在分布式系統(tǒng)和大數(shù)據(jù)方面。 數(shù)據(jù)工程師具有高級編程和系統(tǒng)構建技能。

對于數(shù)據(jù)工程師,我對其一言以蔽之的定義是:數(shù)據(jù)工程師是在圍繞大數(shù)據(jù)建立創(chuàng)建軟件解決方案上具備專業(yè)技能的人。

利用這些工程技能,他們可以創(chuàng)建數(shù)據(jù)管線。 創(chuàng)建數(shù)據(jù)管線可能聽起來很簡單或微不足道,但在大數(shù)據(jù)這種規(guī)模上,這意味著將10-30種不同的大數(shù)據(jù)技術整合在一起。 更重要的是,數(shù)據(jù)工程師是理解并選擇“適合處理某種工作的工具”的人。 數(shù)據(jù)工程師深入了解各種技術和框架,以及如何將它們組合在一起以創(chuàng)建解決方案,從而使公司的業(yè)務流程具備數(shù)據(jù)管線。

在我的經(jīng)驗中,數(shù)據(jù)工程師只是最低限度地參與集群的運維(與此處討論有關數(shù)據(jù)工程師的說法相反)。 雖然某些數(shù)據(jù)科學技術確實需要設置一個運維或者數(shù)據(jù)運維崗位,不過絕大多數(shù)技術都沒有。 就像大多數(shù)程序員一樣,我不允許他們直接訪問生產(chǎn)系統(tǒng)。 這主要是系統(tǒng)管理員或運維人員的工作。

重疊技能

數(shù)據(jù)科學家和數(shù)據(jù)工程師技能之間存在重疊。 然而,重疊永遠發(fā)生在每個人能力的不規(guī)則邊緣。

比方說,這兩個崗位在“分析”上重疊了。 但是,數(shù)據(jù)科學家的分析技能將遠遠超過數(shù)據(jù)工程師的分析技能。 數(shù)據(jù)工程師可以執(zhí)行一些基本到中級的分析,但很難進行數(shù)據(jù)科學家所做的高級分析。

數(shù)據(jù)科學家和數(shù)據(jù)工程師在編程能力上有所重疊。 不過,數(shù)據(jù)工程師的編程技能遠遠超出了數(shù)據(jù)科學家的編程技能。 讓數(shù)據(jù)科學家創(chuàng)建數(shù)據(jù)管線早已遠離了他們技能優(yōu)勢邊界,但卻是數(shù)據(jù)工程師的優(yōu)勢所在。 在這種情況下,這兩個角色是互補的,數(shù)據(jù)工程師對數(shù)據(jù)科學家的工作起支持作用。

您會注意到,數(shù)據(jù)科學家和數(shù)據(jù)工程師之間還存在一個大數(shù)據(jù)方面的重疊。 通過更好地了解每個崗位的技能,您現(xiàn)在可以更好的理解這種技能重疊。 數(shù)據(jù)工程師使用他們的編程和系統(tǒng)構建技能來創(chuàng)建大數(shù)據(jù)管線。 數(shù)據(jù)科學家利用他們更加有限的編程技能,運用他們的高級數(shù)學技能, 利用已經(jīng)存在的數(shù)據(jù)管線創(chuàng)建高級數(shù)據(jù)產(chǎn)品。 “創(chuàng)建和使用”之間的這種差異,是在處理大數(shù)據(jù)時,團隊失敗或者表現(xiàn)不佳的核心之處。一個團隊,如果期望他們的數(shù)據(jù)科學家創(chuàng)建數(shù)據(jù)管線,最后將會極其失望。

當機構把事情搞錯了

不幸的是,一個機構誤解每個崗位的核心技能和職位角色相當常見。一些機構認為數(shù)據(jù)科學家可以創(chuàng)建數(shù)據(jù)管線。 數(shù)據(jù)科學家可以將就地創(chuàng)建數(shù)據(jù)管線。 數(shù)據(jù)科學家創(chuàng)建數(shù)據(jù)管道的問題有幾個方面。 請記住,數(shù)據(jù)科學家只是不得不學習編程和大數(shù)據(jù)。 他們是聰明的人,最終確實可以解決問題,但創(chuàng)建數(shù)據(jù)管線并不是他們的核心競爭力。

從管理角度來看,數(shù)據(jù)科學團隊將陷入困境。 您將環(huán)顧四周或聽取其他團隊的意見,并將他們的進度與本團隊的進度進行比較。 看起來,好像數(shù)據(jù)科學團隊根本沒有產(chǎn)出,或者表現(xiàn)不佳。 這是一種基于對數(shù)據(jù)科學家核心競爭力的誤解,所產(chǎn)生的不公平的評估。

數(shù)據(jù)科學家從事數(shù)據(jù)工程

我見過公司要求數(shù)據(jù)科學家們做數(shù)據(jù)工程師所做的事情。 數(shù)據(jù)科學家的效率為20-30%。 數(shù)據(jù)科學家并不知道數(shù)據(jù)工程師所知道的事情。 創(chuàng)建數(shù)據(jù)管道并非易事 – 它需要高級編程技能,大數(shù)據(jù)框架理解和系統(tǒng)創(chuàng)建。 這些不是普通數(shù)據(jù)科學家所擁有的技能。 數(shù)據(jù)科學家可以獲得這些技能; 然而,這段時間的投資回報率(ROI)非常低。 不要誤解我:數(shù)據(jù)科學家確實需要編程和大數(shù)據(jù)技能,而不是數(shù)據(jù)工程師需要的水平。

在數(shù)據(jù)管線創(chuàng)建中,相對來說業(yè)余的數(shù)據(jù)科學家也會碰到這種問題:數(shù)據(jù)科學家會在選擇工具上犯錯誤、進行錯誤的選擇,而數(shù)據(jù)工程師則不會。 數(shù)據(jù)科學家通常不清楚或者不理解處理一個任務所需要的合適工具。對于所有任務都使用單一工具(往往是一個錯誤的工具),最終把一切都搞砸,F(xiàn)實情況是,為了處理不同的工作,需要許多不同的工具。 合格的數(shù)據(jù)工程師會知道這些,數(shù)據(jù)科學家通常不會知道這些。

最近的一個例子是,數(shù)據(jù)科學家使用Apache Spark處理幾十GB數(shù)據(jù)集。 的確,Spark可以處理這么多數(shù)據(jù)。 但是,一個小型數(shù)據(jù)程序會更快,也會執(zhí)行的更好。他們的Spark任務需要10-15分鐘才能執(zhí)行,然而小數(shù)據(jù)的關系型數(shù)據(jù)庫只需要0.01秒來完成同樣的事情。 在這種情況下,數(shù)據(jù)科學家不甚完美地解決了這個問題,但卻不明白這項工作的正確工具是什么。 在一天內(nèi)完成這種消耗15分鐘時間的工作16次,(這是低端的數(shù)據(jù)分析),你的數(shù)據(jù)科學家每天就要花四個小時等待,因為他們正在使用錯誤的工具來完成這個任務。

在另一個機構中,他們的數(shù)據(jù)科學家沒有任何數(shù)據(jù)工程資源。 數(shù)據(jù)科學家會處理這些問題,直到他們遇到無法解決的數(shù)據(jù)工程問題并且卡住。 他們向業(yè)務部門報告說,他們無法完成任務,就在那里讓工作只完成了一半就停了下來。這導致數(shù)據(jù)科學家們截止到那個時刻都在浪費時間,并且據(jù)他們估計,就只因為無法完成工作,數(shù)百萬美元的價值在那里懸而未決。

如果讓一位數(shù)據(jù)科學家做數(shù)據(jù)工程師工作,一個更令人擔憂的表現(xiàn)是數(shù)據(jù)科學家會感到沮喪并辭職。 我在許多機構中,和處理數(shù)據(jù)工程師工作的許多數(shù)據(jù)科學家交談過。 對話總是一樣的 :數(shù)據(jù)科學家抱怨他們來公司是為了從事數(shù)據(jù)科學工作,而不是數(shù)據(jù)工程工作的。 他們把事情做完就需要完成數(shù)據(jù)工程工作,但讓數(shù)據(jù)科學家做數(shù)據(jù)工程師的工作會讓他們發(fā)瘋。 他們會選擇辭職,而您將會需要用3-6個月的時間來完成數(shù)據(jù)工程。 我在另一篇文章中更多地討論了這些問題。

數(shù)據(jù)工程師與數(shù)據(jù)科學家的比率

決定數(shù)據(jù)工程師和數(shù)據(jù)科學家的比率是一個常見問題。在確定這個比率時,常見需要考慮的問題包括數(shù)據(jù)管線有多復雜,數(shù)據(jù)管線有多成熟,以及數(shù)據(jù)工程團隊需要擁有多少經(jīng)驗。

擁有比數(shù)據(jù)工程師更多的數(shù)據(jù)科學家通常是個問題。 它通常意味著,機構正在讓他們的數(shù)據(jù)科學家進行數(shù)據(jù)工程工作。 正如我之前所說的,這會進而導致各種各樣的問題。

為每個數(shù)據(jù)科學家搭配2-3位數(shù)據(jù)工程師是一個常見配置。 對于一些具有更復雜數(shù)據(jù)工程要求的機構,這個數(shù)字可以是每個數(shù)據(jù)科學家配備4-5名數(shù)據(jù)工程師。 這包括那些數(shù)據(jù)工程和數(shù)據(jù)科學處于不同匯報組織結(jié)構中的機構。 您需要更多的數(shù)據(jù)工程師,因為創(chuàng)建數(shù)據(jù)管線需要比創(chuàng)建ML / AI部分花費更多的時間和精力。

我在《數(shù)據(jù)工程團隊》一書中,更多地討論了數(shù)據(jù)工程和數(shù)據(jù)科學團隊應該如何相互交流。

數(shù)據(jù)工程師從事數(shù)據(jù)科學研究

一個遠非常見的情況是數(shù)據(jù)工程師開始進行數(shù)據(jù)科學工作。 隨著數(shù)據(jù)工程師開始提高他們的數(shù)學和統(tǒng)計技能,這是一個向上的推動力。 隨著數(shù)據(jù)科學變得更加標準化,這種向上的推動力變得越來越普遍。 它導致了一種全新的工程師類型出現(xiàn)。

對機器學習工程師的需求

讓我們直面這個事實:數(shù)據(jù)科學家來自學術背景。 他們通常擁有博士學位或碩士學位。 問題在于,他們寧愿寫一篇關于問題的論文,而不是將某些東西投入生產(chǎn)。 其他時候,他們的編程能力只會擴展到在R中創(chuàng)建一些東西。把用R編寫的東西放到生產(chǎn)中本身就是一個問題。 他們不像工程師那樣思考如何建立系統(tǒng)。

數(shù)據(jù)科學家面臨的一般問題是,他們不是將工作投入生產(chǎn)、創(chuàng)建數(shù)據(jù)管線以及公開這些AI / ML結(jié)果的工程師。

為了應對學術思維與“投入生產(chǎn)的需求”之間的差異,我們觀察到了一種新型的工程師。 現(xiàn)在,這位工程師大多可以在美國看到。他們的頭銜是機器學習工程師。

 

 

圖3.顯示機器學習工程師與數(shù)據(jù)科學家和數(shù)據(jù)工程師的匹配情況的圖表。 Jesse Anderson和大數(shù)據(jù)研究所的插圖

機器學習工程師主要來自數(shù)據(jù)工程背景。 他們經(jīng)歷了足夠多的交叉培訓,變得同時熟練掌握數(shù)據(jù)工程和數(shù)據(jù)科學。 一種不常見的途徑是數(shù)據(jù)科學家在數(shù)據(jù)工程方面進行交叉訓練。

對機器學習工程師,我一言以蔽之的定義是:機器學習工程師是坐在數(shù)據(jù)科學和數(shù)據(jù)工程的十字路口,并且熟練掌握數(shù)據(jù)工程和數(shù)據(jù)科學兩方面的人。

如圖2所示,您可能想知道在數(shù)據(jù)科學與數(shù)據(jù)工程之間存在的差距里會發(fā)生什么。 這正是機器學習工程師所處的位置,如圖3所示。它們是數(shù)據(jù)工程師創(chuàng)建的數(shù)據(jù)管線與數(shù)據(jù)科學家所創(chuàng)造東西之間的橋梁。 機器學習工程師負責獲取數(shù)據(jù)科學家發(fā)現(xiàn)或創(chuàng)造的內(nèi)容,并使其在生產(chǎn)環(huán)境中發(fā)揮價值(值得注意的是,數(shù)據(jù)科學家創(chuàng)建的大部分內(nèi)容并非在生產(chǎn)上有價值, 并且大部分被用技巧拼湊起來能夠工作)。

機器學習工程師的工作,主要是創(chuàng)建數(shù)據(jù)科學管線的最后一步。 這可能需要幾個部分。 它可能是將數(shù)據(jù)科學家的代碼從R / Python重寫為Java / Scala。 它可能是從軟件工程的角度優(yōu)化ML / AI代碼,保證數(shù)據(jù)科學家寫的代碼能夠運行良好(或者干脆就是能夠運行)。 機器學習工程師具有足夠的工程背景,可以在一個領域(數(shù)據(jù)科學)保障所必需的工程規(guī)范,這些領域以并不遵循良好的工程原理而著稱。

在生產(chǎn)環(huán)境中運行的模型需要維護和輸入,而普通的軟件并不需要。 機器學習模型可能過時,并開始給出不正確或扭曲事實的結(jié)果。 這可能來自數(shù)據(jù)屬性的改變,新數(shù)據(jù)的增加,或惡意性質(zhì)的攻擊。 無論是哪種方式導致的,機器學習工程師都需要時刻注意他們的模型中需要修改的部分,這可能導致模型的重新訓練或調(diào)整。

機器學習工程師和數(shù)據(jù)工程師

數(shù)據(jù)工程師向機器學習工程師的過渡是一個緩慢的過程。 坦率來講,我們將看到,變成機器學習工程師需要作出什么變化和變成數(shù)據(jù)科學家需要作出什么變化是非常相似的。

為了解釋我的“緩慢變化”的意思,我將分享那些我見過的從數(shù)據(jù)工程師轉(zhuǎn)變?yōu)闄C器學習工程師的人的經(jīng)驗。 他們花了數(shù)年時間做軟件工程師和數(shù)據(jù)工程師的開發(fā)工作。 他們一直對統(tǒng)計學或數(shù)學感興趣。 其他時候,他們只是厭倦了作為一名數(shù)據(jù)工程師所遇到的限制。 無論哪種方式,這種轉(zhuǎn)變需要數(shù)年時間。 參加初級統(tǒng)計課程或初級學習機器課程之后,我沒發(fā)現(xiàn)人們能立刻成為機器學習工程師。

正如我將數(shù)據(jù)科學家視為偏學術一樣,數(shù)據(jù)工程師也不剛好是適合做機器學習工程師的。 一個工程師喜歡世界里的真和假,黑和白,以及1和0。他們不喜歡不確定性。 通過機器學習,模型的猜測存在一定程度的不確定性(工程師也不喜歡猜測)。 與大多數(shù)工程師不同,機器學習工程師可以跨越數(shù)據(jù)工程的確定性和數(shù)據(jù)科學的不確定性。

機器學習工程師日益增加的價值

進行數(shù)據(jù)科學的門檻正在逐漸降低。 最佳實踐正在逐步充實。 最常見的算法變?yōu)楣沧R。 更好的消息是,有人已經(jīng)編碼并優(yōu)化了這些算法。

這種不斷增長的成熟性,使得數(shù)據(jù)科學家和機器學習工程師更容易將算法投入生產(chǎn)而無需編碼。 我們也看到,數(shù)據(jù)科學變得更加自動化,有著更為自驅(qū)動的過程。 Google的AutoML就代表了這樣一種趨勢,工具會自動為您找到最佳算法,無需成熟數(shù)據(jù)科學家的工作即可獲得結(jié)果。 DataRobot是另一種自動化技術,它為數(shù)據(jù)尋找最佳的數(shù)據(jù)科學算法。 它還將幫助機器學習工程師將算法投入生產(chǎn)。

這些工具不會取代硬核的數(shù)據(jù)科學,但它將使數(shù)據(jù)科學家能夠?qū)W⒂跀?shù)據(jù)科學中更困難的部分。 它將使機器學習工程師變得越來越有生產(chǎn)力。 我們將逐漸看到,機器學習工程師的負擔會越發(fā)減少,自動化算法越發(fā)增加。

未來應該期望機器學習工程師達到何種水平的生產(chǎn)力?我對這一點感到左右為難。簡單來說,機器學習工程師是否要為他們的Web開發(fā)人員做Wordpress配置員? 在這種場景下,機器學習工程師可以通過眾所周知的標準用例來提高工作效率,只有數(shù)據(jù)科學家才能處理真正的自定義工作。 或者,機器學習工程師會重新成為數(shù)據(jù)庫管理員嗎? 在對模型已知的深入了解,他們可以使用已知的、千篇一律的方法來配置模型,在50-80%的時候獲得正確的結(jié)果,并且這足以滿足所有需求。 要獲得真正準確的結(jié)果,您會需要一位數(shù)據(jù)科學家。

機器學習工程師和數(shù)據(jù)科學家的生產(chǎn)力的關鍵,將會是他們的工具。 現(xiàn)在工具缺乏成熟度,這就是為什么我會好奇他們將來會有多么高效。

我希望數(shù)據(jù)科學的入門門檻繼續(xù)降低。 這將使機器學習工程師能夠在不大量增加知識的情況下完成更多的數(shù)據(jù)科學工作。 我希望機器學習工程師的角色在美國和全世界范圍內(nèi)變得越來越普遍。

該怎么做?

現(xiàn)在您已經(jīng)看到了數(shù)據(jù)科學家和數(shù)據(jù)工程師之間的差異,您需要環(huán)顧整個機構,看看您需要在哪些地方作出改變。 這是我?guī)椭渌麢C構完成的一項變革,他們已經(jīng)看到了巨大的成果。 在數(shù)據(jù)科學小組似乎陷入困境、無法有作為的情況下,我們創(chuàng)建了數(shù)據(jù)工程團隊,向數(shù)據(jù)科學和數(shù)據(jù)工程團隊展示了如何協(xié)同工作,并制定了正確的流程。

這些變化使數(shù)據(jù)科學團隊的生產(chǎn)力從20%提高到90%。 團隊能夠用相同數(shù)量的人做更多事情。 數(shù)據(jù)科學家們更開心,因為他們沒有進行數(shù)據(jù)工程。 管理層可以開始基于備受期待的大數(shù)據(jù)提供價值。

您也許還會遇到一個新崗位,機器學習工程師。 隨著您的數(shù)據(jù)科學和數(shù)據(jù)工程團隊的成熟,您需要檢查團隊之間的差距。 您可能需要提拔一位數(shù)據(jù)工程師,在他的努力路徑上讓他成為機器學習工程師,或直接聘請一位機器學習工程師。

最后,大數(shù)據(jù)的絕大多數(shù)問題都是人和團隊的問題。 它們不是技術問題(至少在最初階段不是)。 技術通常會受到指責,因為責怪技術要比團隊自省容易得多。 在您解決人事問題之前,您不會遇到真正棘手的技術問題,也不會創(chuàng)造出您所期望的大數(shù)據(jù)能夠帶來的價值。 誠實地審視您的團隊和您的機構,看看您需要在哪里作出改變。

標簽: [db:TAGG]

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:英文教程太難啃?這里有一份TensorFlow2.0中文教程

下一篇:李飛飛最新訪談:我每天都在對AI的擔憂中醒來