中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據科學家和數(shù)據工程師之間到底有什么差別?

2019-04-26    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

我們最近在Reddit上做了 AMA。人們提出的最常見問題是數(shù)據科學家和數(shù)據工程師之間到底有什么差別。因此,有關這一問題,我們會在這篇文章中深入討論。

 

 

有很多數(shù)據專家的崗位,聽起來差不多,用的工具也差不多,很難搞清楚到底每個崗位需要做什么工作。另外,規(guī)模比較小的公司可能只能招聘有限幾個的數(shù)據工程師或數(shù)據科學家。這意味著在很多情況下,特定的任務和目標可能都需要一個人完成。

這使得很難區(qū)分這兩種角色。因此,我們會從不同的目標、思維方式、工具和所需的背景來討論數(shù)據工程師和數(shù)據科學家的差異。

在討論之前,我想簡單地加一段導語。事實上,許多數(shù)據科學家和數(shù)據工程師都會執(zhí)行其他技術性角色的任務。數(shù)據科學家可能需要開發(fā) ETL,數(shù)據工程師可能需要開發(fā) API 和前端。因此,我們以下指出的區(qū)別只是為了闡明技術差別在哪里。

 

 

目標

數(shù)據工程師的目標更關注于任務和開發(fā)。數(shù)據工程師構建自動化系統(tǒng)和建模數(shù)據結構,幫助數(shù)據得到有效處理。這代表著數(shù)據工程師的目標是創(chuàng)建并開發(fā)表和數(shù)據管道,以支持用于分析的儀表盤和其他的數(shù)據用戶(如數(shù)據科學家、分析師和其他工程師)。他們的工作和大多數(shù)的工程師很類似,要進行大量的設計、假設、約束和開發(fā)才能完成最終的任務。每個設計和解決方案也都會有自己的約束,即使它們都可以執(zhí)行最終的任務。

相對而言,數(shù)據科學家更加以問題為中心。就這點而言,他們需要尋找降低成本、增加利潤、提升用戶體驗或業(yè)務效率的方法。這代表著他們要先提出問題,然后自己解決問題(提出問題、做出假設、得到結論)。因此他們需要提出這樣的問題:什么會影響患者再次入院?如果增加一個類似的A/B 測試,客戶是否愿意買單?有更快的路線來運送包裹嗎?跳過剩余的過程步驟。這里的目標就是找到提出的問題的答案。它可能是最終的結論,也可能會引出更多的問題。在這個過程中,數(shù)據科學家需要分析、收集支持信息、得出問題的結論。

工具

這個部分就更加讓人感到困惑了。數(shù)據科學家和數(shù)據工程師都需要依賴于 Python 和 SQL。然而,兩個崗位的人使用這些技術的方式是不同的。同樣,這也和思維方式的不同息息相關。Python 是非常健壯的語言,它擁有強大的類庫來幫助管理操作性任務和分析性任務。

數(shù)據科學家會使用 Pandas 和 Scikit Learn 這樣的語言,而數(shù)據工程師會使用 Python 來管理管道。在這里Airflow和Luigi這樣的類庫就能派上用處。

如上所說,數(shù)據科學家的查詢將重點關注于問題。但是數(shù)據工程師的查詢會更關注于數(shù)據的清理和轉換。

可能這兩類數(shù)據專家都會使用一些其他的工具,包括Tableau、Jupyter筆記本以及其他工具等。但他們的用法會有所不同。

背景

當討論數(shù)據工程師和數(shù)據科學家之間的差別時,另外一個常見的問題是需要什么樣的背景。

數(shù)據工程師和數(shù)據科學家都需要了解數(shù)據和編程。即使涉獵不必太廣。然而,除了編程之外還有一些差別,特別是對于數(shù)據科學家來說。由于數(shù)據科學家更像是研究員,如果有基于研究的背景會是加分點。

這可以是在經濟學、心理學、流行病學等領域的研究背景。數(shù)據科學家可以使用 SQL、Python,具有良好的商業(yè)意識,還能將其與自身的研究背景結合起來。這些都不能用級別來衡量。事實上,數(shù)據科學家在各個領域都有所涉及。大多數(shù)雇主更希望招聘至少碩士學歷、具備某些技術或數(shù)學研究背景的數(shù)據科學家。

而數(shù)據工程師就不一定需要碩士學位。數(shù)據工程師更像是一個開發(fā)人員。比起理論知識,他們需要更多的實踐經驗。因此,擁有碩士學位并不能說明這一點。

舉個例子

比如一家醫(yī)療保健公司的主管想知道如何減少初次就診后 30 天內再入院的患者數(shù)量。從數(shù)據的角度來看,需要完成一系列工作。

數(shù)據科學家需要了解是什么導致了這些患者再入院。這是他們需要回答的問題。根據他們得出的結論,他們會和醫(yī)院合作,制定指標和政策,幫助改善患者再入院比例。

數(shù)據工程師會創(chuàng)建表格,幫助支持數(shù)據科學家找到問題的答案,與此同時,他們還要創(chuàng)建分析表,幫助追蹤過去和未來的患者再入院指標。這些指標的創(chuàng)建會根據數(shù)據科學家得到的答案而改變。

數(shù)據科學家和數(shù)據工程師有很多的區(qū)別。他們有不同的目標、背景,但這就是兩者一起合作的價值所在。事實上,數(shù)據工程師更關注于構建健壯的系統(tǒng),這也能方便數(shù)據科學家輕松地查詢數(shù)據,并有效地分析數(shù)據。這樣的合作就能在數(shù)據方面給公司創(chuàng)造價值。

查看英文原文:What Is The Difference Between A Data Engineer And A Data Scientist

標簽: [db:TAGG]

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:新手指南:大數(shù)據、區(qū)塊鏈及其結合(附應用場景)

下一篇:數(shù)據科學家必知的五大深度學習框架。ǜ讲鍒D)