中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

成為卓越數據科學家必備的 13 項技能

2020-12-04    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一周前,我在 LinkedIn 上問了一個問題:優(yōu)秀的數據科學家與卓越的數據科學家之間的區(qū)別是什么? 令人驚訝的是,我得到了來自各行各業(yè)的許多頂尖數據科學家的積極反饋。我發(fā)現這非常實用和有趣。為了進一步了解二者間的區(qū)別,我一直在網上尋找答案……直到發(fā)現了這篇文章——《成為數據科學家必備的九項技能》。綜上,我總結了相關信息,列出了一份成為卓越的數據科學家應該掌握的技能清單。雖然,數據科學家不可能具備下列所有技能。但在我看來,正是這些技能讓卓越的數據科學家與優(yōu)秀的數據科學家區(qū)分開來。我希望這些技能會對你的職業(yè)生涯有所幫助。

 

 

1. 教育

一般來說,數據科學家的受教育程度普遍較高。至少 88% 擁有碩士學位,46% 擁有博士學位。雖然有一些例外,但通常情況下,亮眼的教育背景意味著具備數據科學家所需的知識深度。要想成為一名數據科學家,你可以攻讀計算機科學、社會科學、物理科學和統(tǒng)計學的學士學位。最常見的研究領域是數學和統(tǒng)計學 (32%),其次是計算機科學 (19%) 和工程學 (16%)。以上任何一個學位都能讓你掌握處理和分析大數據所需的技能。

修讀完學士學位后,你還得繼續(xù)深造。事實上,大多數數據科學家都擁有碩士或博士學位。此外,他們還接受在線培訓,學習特殊技能,像如何使用 Hadoop 或大數據查詢等等。因此,你可以學習數據科學、數學、天體物理學或任何其他相關領域的碩士學位課程。攻讀碩博學位期間所學的技能將幫助你輕松過渡到數據科學。

除了課堂學習,你還可以通過創(chuàng)建應用程序、博客或嘗試數據分析來實踐你在課堂上學到的東西,從而讓你收獲更多。

在我看來,碩士或博士學位并不是必須的,只要你能勝任你的工作便可。在大多數工作中,只要你能夠解決業(yè)務問題,就不需要研究和掌握最前沿的機器學習模型。

這里有一本很好的免費電子書可供參考:《成為專業(yè)數據科學家的 74 個秘密》

2. R 語言

每一位數據科學家至少要深入研究一種最新的分析工具,而 R 語言通常是首選。R 語言是專門為數據科學設計的。你可以利用它解決在數據科學中遇到的任何問題。事實上,43% 的數據科學家使用 R 語言來解決統(tǒng)計問題。然而,R 語言的學習曲線并不太容易,尤其是當你已經掌握了一門編程語言,R 就更難學了。盡管如此,在網上依然有很多資源可以幫助你學習,比如 Simplilearn 的 R 語言數據科學培訓。對于數據科學家來說,這是一個很好的學習資源。

3.Python

Python 是我在數據科學研究中接觸到的最常見的編程語言,此外,還有 Java、Perl 和 C/ C++。在 O 'Reilly 調查中,40% 的受訪者將 Python 作為他們主要的編程語言。

由于其通用性,你可以將 Python 應用于幾乎所有涉及到數據科學的步驟中。它可以使用各種格式的數據,輕松地將 SQL 表導入代碼。它允許創(chuàng)建數據集,也可以很便捷地幫助你在谷歌上找到任何類型的數據集。

你可以通過以下書籍了解更多關于 Python 的基礎知識以及它在數據科學中的應用:

Python 數據科學手冊

Python 數據分析

學習 Python

4. Hadoop 平臺

雖然 Hadoop 并不是必需掌握的,但在許多情況下,它是數據科學運算的首選。如果熟悉 Hive 或 Pig 很不錯,熟悉 Amazon S3 等云工具也有好處。CrowdFlower 對 3490 個 LinkedIn 數據科學職位進行的一項研究將 Apache Hadoop 列為數據科學家第二重要的技能,獲得了 49% 的評分。

作為一名數據科學家,你可能會遇到這樣的情況:你擁有的數據量超過了系統(tǒng)的內存,或者你需要將數據發(fā)送到不同的服務器,這時候你就需要用到 Hadoop 了。你可以使用 Hadoop 將數據快速傳遞到系統(tǒng)上的各個點。它的功能還有很多,比如數據探索、數據過濾、數據采樣和匯總等。

5. SQL 數據庫 / 編碼

盡管 NoSQL 和 Hadoop 已經成為數據科學的一個重要組成部分,但是公司還是希望員工能夠使用 SQL 編寫和執(zhí)行復雜的查詢。SQL(結構化查詢語言)是一種編程語言,它可以幫助你在數據庫中執(zhí)行添加、刪除和提取數據等操作,它還可以幫助你執(zhí)行分析功能和轉換數據庫結構。

作為一名數據科學家,你需要精通 SQL。這是因為 SQL 是專門為訪問、交互和處理數據而設計的。當你使用 SQL 查詢數據庫時,它往往會給你一些額外的收獲。它有簡潔的命令,可以幫你節(jié)省時間,減少執(zhí)行復雜查詢所需的編程工作。學習 SQL 將幫助你更好地理解關系數據庫,并增強你作為數據科學家的個人能力。

6. Apache Spark

Apache Spark 正在成為全球最流行的大數據技術。它是一個類似 Hadoop 的大數據計算框架。唯一的區(qū)別在于 Spark 比 Hadoop 更快。這是因為 Hadoop 讀取和寫入磁盤,這會使它的速度變慢,但 Spark 會將其計算緩存于內存中。

Apache Spark 是專門為數據科學設計的,它可以更快地運行復雜的算法。在處理大量數據時,它可以分發(fā)數據處理,從而節(jié)省時間。它還幫助數據科學家處理復雜的非結構化數據集。你也可以在一臺機器或一組機器上使用它。

Apache spark 可防止數據科學研究中的數據丟失。它的優(yōu)勢在于速度和平臺,這使得數據科學項目的實施變得更容易。使用 Apache spark,你可以完成從數據接收到分布式計算的所有分析工作。

7. 機器學習和人工智能

許多數據科學家并不精通機器學習領域的技術,包括神經網絡、強化學習、對抗性學習等。但如果你想從其他數據科學家中脫穎而出,你需要了解機器學習技術,如監(jiān)督機器學習、決策樹、邏輯回歸等,這些技能將幫助你解決基于主要組織結果預測的不同數據科學問題。

數據科學需要在機器學習的不同領域應用技能。據 Kaggle 的一項調查顯示,只有一小部分專業(yè)人員掌握高級機器學習技能,如監(jiān)督機器學習、非監(jiān)督機器學習、時間序列、自然語言處理、離群值檢測、計算機視覺、推薦引擎、生存分析、強化學習和對抗學習等。

數據科學涉及大量數據集的處理,你可以在這里繼續(xù)了解機器學習。

8. 數據可視化

商業(yè)化社會經常產生大量的數據,這些數據需要轉換成易于理解的格式。比起原始數據,人們更容易理解圖片。俗話說,“一圖勝千言”。

作為一名數據科學家,你必須學會使用諸如 ggplot、d3.js、Matplotlib 以及 Tableau 等數據可視化工具,這些工具將幫助你把項目中的復雜結果轉換為易于理解的格式。問題是,很多人不理解序列相關的 P 值,你需要直觀地向他們展示這些術語在結果中表示的含義。

數據可視化為決策者提供了直接處理數據的機會。他們能夠通過這種方式迅速洞察數據,從而抓住新的商業(yè)機會,并在競爭中保持領先地位。

我特別寫了一篇文章,討論數據可視化的重要性,以及如何用數據更好地講故事。感興趣的話,你可以了解一下。

9. 非結構化數據

能夠處理非結構化數據對數據科學家來說是至關重要的。非結構化數據是不適合數據庫表的未定義內容,包括視頻、博客文章、客戶評論、社交媒體文章、視頻摘要、音頻等。這些類型的數據排序很困難,因為它們不是結構化的。

由于非結構化數據的復雜性,大多數人稱其為“黑暗分析”。分析非結構化數據可以幫助你尋找對決策有用的見解。作為一名數據科學家,你必須具備理解和操作來自不同平臺的非結構化數據的能力。

10. 求知欲

“我沒有什么特殊的才能,我只是充滿了好奇心。”

——愛因斯坦

當然,你可能經?吹竭@句話,因為它與數據科學家有很大的相關性。Frank Lo 在幾個月前發(fā)表的博客中闡述了它的含義,并談到了其他必要的“軟技能”。

好奇心可以被定義為渴望獲得更多的知識。數據科學領域是一個發(fā)展非常迅速的領域,你必須學習更多才能跟上它的步伐。你需要定期閱讀關于數據科學趨勢的在線內容或書籍來更新你的知識。不要被網上飛來飛去的海量數據所淹沒,你必須知道如何理解這一切。好奇心是一名成功的數據科學家必備的技能之一。剛開始你可能沒有從收集的數據中看到有價值信息的洞察力,但好奇心會驅使你從數據中篩選出答案和更多的價值。

11. 商業(yè)敏感性

要想成為一名數據科學家,你需要對你所從事的行業(yè)有扎實的了解,并知道你的公司想要解決哪些問題。就數據科學而言,除了確定處理數據要利用的新方法之外,能夠識別出哪些問題是處理業(yè)務的關鍵點同樣至關重要。

要做到這一點,你必須了解你所解決的問題是如何影響業(yè)務的。這就是為什么你需要了解企業(yè)是如何運作的,這樣你才能朝著正確的工作方向前進。

12. 溝通技巧

大多數公司都缺少掌握溝通技巧的數據科學家,因為這樣的員工能夠清晰順暢地將他們的技術成果傳達給非技術團隊,如市場或銷售部門。除了理解非技術同事的需求之外,數據科學家還必須為業(yè)務提供量化的數據,從而使業(yè)務部門能夠做出正確決策。

當然,不僅僅是使用大家都能理解的語言,他們還要懂得用數據講故事。作為一名數據科學家,你必須知道如何圍繞數據創(chuàng)建一個故事線,以便任何人都能輕松地理解。單純展示數據表不如以講故事的形式分享數據背后的含義有效,講故事能幫助你更好地向雇主傳達見解。

在交流時,要注意分析數據中所包含的結果和價值。大多數企業(yè)家并不想知道你分析了什么,他們感興趣的是它將如何對其業(yè)務產生積極的影響。你還可以通過閱讀這篇文章進一步學習,如何通過溝通傳遞價值,并建立持久的聯系。

13. 團隊合作

數據科學家并非獨立工作,他們通常需要和公司高管一起研究策略,和產品經理、設計師一起討論產品,和營銷人員一起商量營銷活動的優(yōu)化方案,與客戶端和服務器軟件開發(fā)人員一起工作,以創(chuàng)建數據管道,并改進工作流。他們必須和公司里的每一個人一起工作,包括客戶。

本質上,數據科學家還需要與團隊成員協(xié)作開發(fā)用例,以便了解業(yè)務目標和數據。你需要了解正確處理用例的方法、解決問題所需的數據,以及如何將結果轉換并呈現為每個相關人員都可以輕松理解的內容。

總結

如果你對以上提到的技能不知所措、一臉茫然,也是可以理解的。說到底,這些技能并不是成為數據科學家所必備的,但與其他一般的數據科學家相比,它們確實會讓你與眾不同。

我知道,你希望變得不一般!

作者介紹:

Admond Lee 是一名非常受歡迎的數據科學家顧問。他在數據科學咨詢方面擁有深厚的專業(yè)積累,善于幫助初創(chuàng)企業(yè)的創(chuàng)始人和各種公司解決數據使用方面的問題。如果你有數據科學方面的問題,可以在 LinkedIn 、 Medium 、 Twitter 或 Facebook 上與他聯系。

原文鏈接:Top 13 Skills To Become a Rockstar Data Scientist

譯者:小大非

標簽: 數據 蒲Ъ

版權申明:本站文章部分自網絡,如有侵權,請聯系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯系。

上一篇:前端必看的數據可視化入門指南

下一篇:是什么讓數據科學家從優(yōu)秀變得偉大?