中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

成為卓越數(shù)據(jù)科學(xué)家必備的 13 項技能

2020-04-20    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一周前,我在 LinkedIn 上問了一個問題:優(yōu)秀的數(shù)據(jù)科學(xué)家與卓越的數(shù)據(jù)科學(xué)家之間的區(qū)別是什么? 令人驚訝的是,我得到了來自各行各業(yè)的許多頂尖數(shù)據(jù)科學(xué)家的積極反饋。我發(fā)現(xiàn)這非常實用和有趣。為了進一步了解二者間的區(qū)別,我一直在網(wǎng)上尋找答案……直到發(fā)現(xiàn)了這篇文章——《成為數(shù)據(jù)科學(xué)家必備的九項技能》。綜上,我總結(jié)了相關(guān)信息,列出了一份成為卓越的數(shù)據(jù)科學(xué)家應(yīng)該掌握的技能清單。雖然,數(shù)據(jù)科學(xué)家不可能具備下列所有技能。但在我看來,正是這些技能讓卓越的數(shù)據(jù)科學(xué)家與優(yōu)秀的數(shù)據(jù)科學(xué)家區(qū)分開來。我希望這些技能會對你的職業(yè)生涯有所幫助。

 

 

1. 教育

一般來說,數(shù)據(jù)科學(xué)家的受教育程度普遍較高。至少 88% 擁有碩士學(xué)位,46% 擁有博士學(xué)位。雖然有一些例外,但通常情況下,亮眼的教育背景意味著具備數(shù)據(jù)科學(xué)家所需的知識深度。要想成為一名數(shù)據(jù)科學(xué)家,你可以攻讀計算機科學(xué)、社會科學(xué)、物理科學(xué)和統(tǒng)計學(xué)的學(xué)士學(xué)位。最常見的研究領(lǐng)域是數(shù)學(xué)和統(tǒng)計學(xué) (32%),其次是計算機科學(xué) (19%) 和工程學(xué) (16%)。以上任何一個學(xué)位都能讓你掌握處理和分析大數(shù)據(jù)所需的技能。

修讀完學(xué)士學(xué)位后,你還得繼續(xù)深造。事實上,大多數(shù)數(shù)據(jù)科學(xué)家都擁有碩士或博士學(xué)位。此外,他們還接受在線培訓(xùn),學(xué)習(xí)特殊技能,像如何使用 Hadoop 或大數(shù)據(jù)查詢等等。因此,你可以學(xué)習(xí)數(shù)據(jù)科學(xué)、數(shù)學(xué)、天體物理學(xué)或任何其他相關(guān)領(lǐng)域的碩士學(xué)位課程。攻讀碩博學(xué)位期間所學(xué)的技能將幫助你輕松過渡到數(shù)據(jù)科學(xué)。

除了課堂學(xué)習(xí),你還可以通過創(chuàng)建應(yīng)用程序、博客或嘗試數(shù)據(jù)分析來實踐你在課堂上學(xué)到的東西,從而讓你收獲更多。

在我看來,碩士或博士學(xué)位并不是必須的,只要你能勝任你的工作便可。在大多數(shù)工作中,只要你能夠解決業(yè)務(wù)問題,就不需要研究和掌握最前沿的機器學(xué)習(xí)模型。

這里有一本很好的免費電子書可供參考:《成為專業(yè)數(shù)據(jù)科學(xué)家的 74 個秘密》

2. R 語言

每一位數(shù)據(jù)科學(xué)家至少要深入研究一種最新的分析工具,而 R 語言通常是首選。R 語言是專門為數(shù)據(jù)科學(xué)設(shè)計的。你可以利用它解決在數(shù)據(jù)科學(xué)中遇到的任何問題。事實上,43% 的數(shù)據(jù)科學(xué)家使用 R 語言來解決統(tǒng)計問題。然而,R 語言的學(xué)習(xí)曲線并不太容易,尤其是當你已經(jīng)掌握了一門編程語言,R 就更難學(xué)了。盡管如此,在網(wǎng)上依然有很多資源可以幫助你學(xué)習(xí),比如 Simplilearn 的 R 語言數(shù)據(jù)科學(xué)培訓(xùn)。對于數(shù)據(jù)科學(xué)家來說,這是一個很好的學(xué)習(xí)資源。

3.Python

Python 是我在數(shù)據(jù)科學(xué)研究中接觸到的最常見的編程語言,此外,還有 Java、Perl 和 C/ C++。在 O 'Reilly 調(diào)查中,40% 的受訪者將 Python 作為他們主要的編程語言。

由于其通用性,你可以將 Python 應(yīng)用于幾乎所有涉及到數(shù)據(jù)科學(xué)的步驟中。它可以使用各種格式的數(shù)據(jù),輕松地將 SQL 表導(dǎo)入代碼。它允許創(chuàng)建數(shù)據(jù)集,也可以很便捷地幫助你在谷歌上找到任何類型的數(shù)據(jù)集。

你可以通過以下書籍了解更多關(guān)于 Python 的基礎(chǔ)知識以及它在數(shù)據(jù)科學(xué)中的應(yīng)用:

Python 數(shù)據(jù)科學(xué)手冊

Python 數(shù)據(jù)分析

學(xué)習(xí) Python

4. Hadoop 平臺

雖然 Hadoop 并不是必需掌握的,但在許多情況下,它是數(shù)據(jù)科學(xué)運算的首選。如果熟悉 Hive 或 Pig 很不錯,熟悉 Amazon S3 等云工具也有好處。CrowdFlower 對 3490 個 LinkedIn 數(shù)據(jù)科學(xué)職位進行的一項研究將 Apache Hadoop 列為數(shù)據(jù)科學(xué)家第二重要的技能,獲得了 49% 的評分。

作為一名數(shù)據(jù)科學(xué)家,你可能會遇到這樣的情況:你擁有的數(shù)據(jù)量超過了系統(tǒng)的內(nèi)存,或者你需要將數(shù)據(jù)發(fā)送到不同的服務(wù)器,這時候你就需要用到 Hadoop 了。你可以使用 Hadoop 將數(shù)據(jù)快速傳遞到系統(tǒng)上的各個點。它的功能還有很多,比如數(shù)據(jù)探索、數(shù)據(jù)過濾、數(shù)據(jù)采樣和匯總等。

5. SQL 數(shù)據(jù)庫 / 編碼

盡管 NoSQL 和 Hadoop 已經(jīng)成為數(shù)據(jù)科學(xué)的一個重要組成部分,但是公司還是希望員工能夠使用 SQL 編寫和執(zhí)行復(fù)雜的查詢。SQL(結(jié)構(gòu)化查詢語言)是一種編程語言,它可以幫助你在數(shù)據(jù)庫中執(zhí)行添加、刪除和提取數(shù)據(jù)等操作,它還可以幫助你執(zhí)行分析功能和轉(zhuǎn)換數(shù)據(jù)庫結(jié)構(gòu)。

作為一名數(shù)據(jù)科學(xué)家,你需要精通 SQL。這是因為 SQL 是專門為訪問、交互和處理數(shù)據(jù)而設(shè)計的。當你使用 SQL 查詢數(shù)據(jù)庫時,它往往會給你一些額外的收獲。它有簡潔的命令,可以幫你節(jié)省時間,減少執(zhí)行復(fù)雜查詢所需的編程工作。學(xué)習(xí) SQL 將幫助你更好地理解關(guān)系數(shù)據(jù)庫,并增強你作為數(shù)據(jù)科學(xué)家的個人能力。

6. Apache Spark

Apache Spark 正在成為全球最流行的大數(shù)據(jù)技術(shù)。它是一個類似 Hadoop 的大數(shù)據(jù)計算框架。唯一的區(qū)別在于 Spark 比 Hadoop 更快。這是因為 Hadoop 讀取和寫入磁盤,這會使它的速度變慢,但 Spark 會將其計算緩存于內(nèi)存中。

Apache Spark 是專門為數(shù)據(jù)科學(xué)設(shè)計的,它可以更快地運行復(fù)雜的算法。在處理大量數(shù)據(jù)時,它可以分發(fā)數(shù)據(jù)處理,從而節(jié)省時間。它還幫助數(shù)據(jù)科學(xué)家處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)集。你也可以在一臺機器或一組機器上使用它。

Apache spark 可防止數(shù)據(jù)科學(xué)研究中的數(shù)據(jù)丟失。它的優(yōu)勢在于速度和平臺,這使得數(shù)據(jù)科學(xué)項目的實施變得更容易。使用 Apache spark,你可以完成從數(shù)據(jù)接收到分布式計算的所有分析工作。

7. 機器學(xué)習(xí)和人工智能

許多數(shù)據(jù)科學(xué)家并不精通機器學(xué)習(xí)領(lǐng)域的技術(shù),包括神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí)、對抗性學(xué)習(xí)等。但如果你想從其他數(shù)據(jù)科學(xué)家中脫穎而出,你需要了解機器學(xué)習(xí)技術(shù),如監(jiān)督機器學(xué)習(xí)、決策樹、邏輯回歸等,這些技能將幫助你解決基于主要組織結(jié)果預(yù)測的不同數(shù)據(jù)科學(xué)問題。

數(shù)據(jù)科學(xué)需要在機器學(xué)習(xí)的不同領(lǐng)域應(yīng)用技能。據(jù) Kaggle 的一項調(diào)查顯示,只有一小部分專業(yè)人員掌握高級機器學(xué)習(xí)技能,如監(jiān)督機器學(xué)習(xí)、非監(jiān)督機器學(xué)習(xí)、時間序列、自然語言處理、離群值檢測、計算機視覺、推薦引擎、生存分析、強化學(xué)習(xí)和對抗學(xué)習(xí)等。

數(shù)據(jù)科學(xué)涉及大量數(shù)據(jù)集的處理,你可以在這里繼續(xù)了解機器學(xué)習(xí)。

8. 數(shù)據(jù)可視化

商業(yè)化社會經(jīng)常產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)需要轉(zhuǎn)換成易于理解的格式。比起原始數(shù)據(jù),人們更容易理解圖片。俗話說,“一圖勝千言”。

作為一名數(shù)據(jù)科學(xué)家,你必須學(xué)會使用諸如 ggplot、d3.js、Matplotlib 以及 Tableau 等數(shù)據(jù)可視化工具,這些工具將幫助你把項目中的復(fù)雜結(jié)果轉(zhuǎn)換為易于理解的格式。問題是,很多人不理解序列相關(guān)的 P 值,你需要直觀地向他們展示這些術(shù)語在結(jié)果中表示的含義。

數(shù)據(jù)可視化為決策者提供了直接處理數(shù)據(jù)的機會。他們能夠通過這種方式迅速洞察數(shù)據(jù),從而抓住新的商業(yè)機會,并在競爭中保持領(lǐng)先地位。

我特別寫了一篇文章,討論數(shù)據(jù)可視化的重要性,以及如何用數(shù)據(jù)更好地講故事。感興趣的話,你可以了解一下。

9. 非結(jié)構(gòu)化數(shù)據(jù)

能夠處理非結(jié)構(gòu)化數(shù)據(jù)對數(shù)據(jù)科學(xué)家來說是至關(guān)重要的。非結(jié)構(gòu)化數(shù)據(jù)是不適合數(shù)據(jù)庫表的未定義內(nèi)容,包括視頻、博客文章、客戶評論、社交媒體文章、視頻摘要、音頻等。這些類型的數(shù)據(jù)排序很困難,因為它們不是結(jié)構(gòu)化的。

由于非結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜性,大多數(shù)人稱其為“黑暗分析”。分析非結(jié)構(gòu)化數(shù)據(jù)可以幫助你尋找對決策有用的見解。作為一名數(shù)據(jù)科學(xué)家,你必須具備理解和操作來自不同平臺的非結(jié)構(gòu)化數(shù)據(jù)的能力。

10. 求知欲

“我沒有什么特殊的才能,我只是充滿了好奇心。”

——愛因斯坦

當然,你可能經(jīng)常看到這句話,因為它與數(shù)據(jù)科學(xué)家有很大的相關(guān)性。Frank Lo 在幾個月前發(fā)表的博客中闡述了它的含義,并談到了其他必要的“軟技能”。

好奇心可以被定義為渴望獲得更多的知識。數(shù)據(jù)科學(xué)領(lǐng)域是一個發(fā)展非常迅速的領(lǐng)域,你必須學(xué)習(xí)更多才能跟上它的步伐。你需要定期閱讀關(guān)于數(shù)據(jù)科學(xué)趨勢的在線內(nèi)容或書籍來更新你的知識。不要被網(wǎng)上飛來飛去的海量數(shù)據(jù)所淹沒,你必須知道如何理解這一切。好奇心是一名成功的數(shù)據(jù)科學(xué)家必備的技能之一。剛開始你可能沒有從收集的數(shù)據(jù)中看到有價值信息的洞察力,但好奇心會驅(qū)使你從數(shù)據(jù)中篩選出答案和更多的價值。

11. 商業(yè)敏感性

要想成為一名數(shù)據(jù)科學(xué)家,你需要對你所從事的行業(yè)有扎實的了解,并知道你的公司想要解決哪些問題。就數(shù)據(jù)科學(xué)而言,除了確定處理數(shù)據(jù)要利用的新方法之外,能夠識別出哪些問題是處理業(yè)務(wù)的關(guān)鍵點同樣至關(guān)重要。

要做到這一點,你必須了解你所解決的問題是如何影響業(yè)務(wù)的。這就是為什么你需要了解企業(yè)是如何運作的,這樣你才能朝著正確的工作方向前進。

12. 溝通技巧

大多數(shù)公司都缺少掌握溝通技巧的數(shù)據(jù)科學(xué)家,因為這樣的員工能夠清晰順暢地將他們的技術(shù)成果傳達給非技術(shù)團隊,如市場或銷售部門。除了理解非技術(shù)同事的需求之外,數(shù)據(jù)科學(xué)家還必須為業(yè)務(wù)提供量化的數(shù)據(jù),從而使業(yè)務(wù)部門能夠做出正確決策。

當然,不僅僅是使用大家都能理解的語言,他們還要懂得用數(shù)據(jù)講故事。作為一名數(shù)據(jù)科學(xué)家,你必須知道如何圍繞數(shù)據(jù)創(chuàng)建一個故事線,以便任何人都能輕松地理解。單純展示數(shù)據(jù)表不如以講故事的形式分享數(shù)據(jù)背后的含義有效,講故事能幫助你更好地向雇主傳達見解。

在交流時,要注意分析數(shù)據(jù)中所包含的結(jié)果和價值。大多數(shù)企業(yè)家并不想知道你分析了什么,他們感興趣的是它將如何對其業(yè)務(wù)產(chǎn)生積極的影響。你還可以通過閱讀這篇文章進一步學(xué)習(xí),如何通過溝通傳遞價值,并建立持久的聯(lián)系。

13. 團隊合作

數(shù)據(jù)科學(xué)家并非獨立工作,他們通常需要和公司高管一起研究策略,和產(chǎn)品經(jīng)理、設(shè)計師一起討論產(chǎn)品,和營銷人員一起商量營銷活動的優(yōu)化方案,與客戶端和服務(wù)器軟件開發(fā)人員一起工作,以創(chuàng)建數(shù)據(jù)管道,并改進工作流。他們必須和公司里的每一個人一起工作,包括客戶。

本質(zhì)上,數(shù)據(jù)科學(xué)家還需要與團隊成員協(xié)作開發(fā)用例,以便了解業(yè)務(wù)目標和數(shù)據(jù)。你需要了解正確處理用例的方法、解決問題所需的數(shù)據(jù),以及如何將結(jié)果轉(zhuǎn)換并呈現(xiàn)為每個相關(guān)人員都可以輕松理解的內(nèi)容。

總結(jié)

如果你對以上提到的技能不知所措、一臉茫然,也是可以理解的。說到底,這些技能并不是成為數(shù)據(jù)科學(xué)家所必備的,但與其他一般的數(shù)據(jù)科學(xué)家相比,它們確實會讓你與眾不同。

我知道,你希望變得不一般!

作者介紹:

Admond Lee 是一名非常受歡迎的數(shù)據(jù)科學(xué)家顧問。他在數(shù)據(jù)科學(xué)咨詢方面擁有深厚的專業(yè)積累,善于幫助初創(chuàng)企業(yè)的創(chuàng)始人和各種公司解決數(shù)據(jù)使用方面的問題。如果你有數(shù)據(jù)科學(xué)方面的問題,可以在 LinkedIn 、 Medium 、 Twitter 或 Facebook 上與他聯(lián)系。

原文鏈接:Top 13 Skills To Become a Rockstar Data Scientist

譯者:小大非

標簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:拯救數(shù)據(jù)科學(xué)的“半貝葉斯人”

下一篇:你應(yīng)該知道的10種可視化技術(shù)