中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

申請數(shù)據科學家職位被拒,我開始研究他們都是些什么人

2020-04-20    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

如果你很希望找到一份數(shù)據科學家的工作,與其因為不知道自己需要哪類技能而感到煩惱,不如了解一下究竟哪些人在這方面獲得了成功,這樣對你更有幫助。最常見的特征組合可能是那些擁有計算機科學、工程技術、數(shù)學或分析學碩士學位或博士學位的人;那些已經在行業(yè)中工作了大約 4 到 6 年的人;以及之前曾是研究人員、軟件工程師、分析師或數(shù)據科學實習生的人。但不要錯誤地認為這種組合就構成了數(shù)據科學家的大多數(shù),這只是代表了概率的倍增。

與其專注于數(shù)據科學家所需的技能,不如看看他們之前實際做過些什么。

原文作者:Hanif Samad, 發(fā)布于 2019 年 8 月 1 日。譯者:姚佳靈。

在寫這篇文章的時候,我的 Towards Data Science 定制主頁上的每一篇熱門文章都在討論如何應用或學習數(shù)據科學技能。每一篇都是如此。排名靠前的文章講的是全局技能,例如《 作為數(shù)據科學家,如何與利益相關者合作》和《如何成為數(shù)據工程師》,接下來是一些非常具體的技能,包括批次梯度下降與隨機梯度下降比較、多類文本分類、更快的 R-CNN,等等。作為一個數(shù)據科學領域“共享概念、想法和代碼”的媒體平臺,這樣的學習資源受到 Towards Data Science 追隨者的追捧并不足為奇,因為他們可能已經涉足這個領域。但是,對于一個新手來說,難免令人感到氣餒。他們需要被訓練成為 Kaggler 高手嗎?把神經網絡用于圖像識別或自然語言處理?都不是?既然一切都是關于如何把模型部署到生產環(huán)境,那么學習一下 Kubernetes 及其部署模型怎么樣? Hadoop 到底怎么了?

我在 LinkedIn 上把自己描述成一個軟件工程師和數(shù)據科學家。從我的職場生涯來看,前半部分可能更準確,因為我在數(shù)據科學領域只獲得過一個短期合同。在我放棄早期的醫(yī)療統(tǒng)計學家職業(yè)后,我想在我所在的國家(新加坡)找一份全職的數(shù)據科學家工作,然而這讓我陷入了煩惱之中。我的一些熟人只有學士學位,但很容易找到工作,而我有醫(yī)學統(tǒng)計碩士學位和 Web 開發(fā)大會的證書,但它們并沒有我所期望的作用。網上瘋傳諸如“我如何找到怎樣怎樣的職位”之類的炫耀帖,這讓我的耐心很快消磨殆盡,而事實上,這樣的例子并不多。

我逐漸意識到,我把數(shù)據科學實際做的事情和如何成為數(shù)據科學家混為一談了。讓我感到吃驚的是,這兩者并不是指同一件事情。與大多數(shù)新手一樣,我把網絡上的博文、數(shù)據科學職位的要求以及從事該領域工作的人的傳聞匯總在一起。這些來源都在強調技能,還有一些用苛刻和道德化的語氣強調數(shù)據科學家能夠并且應該學習一大堆東西,而頗具諷刺意味的是,這把新手帶入了一個追逐最新技術的死循環(huán)中,而最有效的策略可能是先迅速找到一個跟數(shù)據科學緊密相關的工作,然后在工作中學習這些技能。

我想我需要在吃早餐前掌握 10 個不可能的技能,因為我讀過的有關數(shù)據科學家的文章,他們看起來似乎就是這樣,但我沒有想到的是可能已經有數(shù)千位已經成功入職的數(shù)據科學家,他們中的大多數(shù)并不是超級明星。我并不想再寫一篇有關數(shù)據科學家需要掌握哪些技能的文章,而是想分析一下那些已經成功過渡到數(shù)據科學領域的人的真實數(shù)據。他們之前是做什么工作的?

我需要的是關于那些已經成功過渡到數(shù)據科學領域的人的實際數(shù)據。

有關數(shù)據科學家的數(shù)據

盡管已經有一些針對數(shù)據科學家進行大規(guī)模問卷調查的公開數(shù)據,但我發(fā)現(xiàn)這些數(shù)據存在一些問題:

自我選擇偏差。由于這些問卷調查跟某類組織有關,并且是完全志愿的,因此受訪者的某些個人資料可能導致樣本出現(xiàn)過度偏差。我就發(fā)現(xiàn)了一個問題,那些對 TensorFlow 過分熱情的參與者主導了 Kaggle 數(shù)據科學調查,這與數(shù)據科學在商業(yè)中的實際應用情況可能大不相同。

受訪者偏差。受訪者是百分百的志愿者,他們不太會有夸大頭銜、教育情況或其他信息的動機。

市場代表性。我的主要動機是為了找到那些已經成功地在我的目標市場(新加坡)找到數(shù)據科學家工作的人的個人資料。從我已經知道的情況來看,市場問卷調查的主要參與者是有志于成為數(shù)據科學家的人(主要是學生),而新加坡數(shù)據科學家的具體信息相當有限。

在我看來,LinkedIn無疑是一個我可以從中獲取信息的地方。盡管仍然存在一些選擇性偏差(LinkedIn 的算法也許沒有把數(shù)據科學家的真正隨機樣本展示給我看),但我發(fā)現(xiàn)它被求職者和招聘行業(yè)廣泛采用,將其作為內置檢查,最小化受訪者偏見,并確保個人資料的真實性。LinkedIn 的個人資料也受制于實際的就業(yè)市場。

此外,LinkedIn 允許我在搜索查詢中指定個人資料的地理位置,如果需要,可以將其限制在新加坡。于是就剩下最后一個問題:如何獲得數(shù)據。

爬取數(shù)據:不要說我沒警告過你

關于爬取 LinkedIn 數(shù)據是否合法存在一些爭議。盡管最近的一些先例說明這些數(shù)據是公開的,也就是說任何人可以獲取,但其法律合法性并未得到證實。不管怎樣,在試圖爬取 LinkedIn 數(shù)據時,會遇到一些障礙:

違反 LinkedIn 的用戶協(xié)議。雖然這些協(xié)議的可執(zhí)行性仍然不明確,但我們會因為違反服務條款而被凍結賬號。

LinkedIn 限制了個人資料免費查看次數(shù)的上限,爬蟲程序很快就會達到這個上限(特別是我們又花了大量時間調試爬蟲程序)。

LinkedIn 一直在悄悄地頻繁改變他們的 HTML 標簽,因而,基于當前標簽屬性集的爬蟲程序只有相當短的壽命。

可以說,我開發(fā)的爬蟲程序在 HTML 標簽被替換前一直都很有用,足以爬取一個相當大的數(shù)據集(1027 份 LinkedIn 個人資料)。

通過使用搜索關鍵字“數(shù)據科學家和新加坡(Data Scientist AND Singapore)”,我從 LinkedIn 爬取了盡可能多的個人資料。我只考慮三個相關的數(shù)據元素:Current Position(現(xiàn)有職位,包括職位名稱和雇主的名字)、Education(教育背景,包括最近畢業(yè)的院校和研究領域)以及Experience(經驗,包括職位、組織、之前工作的時間段)。只選擇這三個元素不僅我為節(jié)省了開發(fā)和調試爬蟲程序的時間,還把我試圖不遵守 LinkedIn 服務條款而造成的潛在責任范圍縮到最小。

在過濾了數(shù)據科學愛好者、學生和信息不足的個人資料后,我獲得了 869 份數(shù)據科學家的個人資料,F(xiàn)在,我可以發(fā)問了:目前在職的數(shù)據科學家有哪些共同特征?

發(fā)現(xiàn) 1:大多數(shù)數(shù)據科學家擁有博士學位

數(shù)據中最令人注目的是,大多數(shù)(73%)從事數(shù)據科學家工作的人擁有本科以上的學歷,這在別的地方也得到了證實。多數(shù)(55%)數(shù)據科學家擁有碩士學歷,擁有博士學位的占了 29%,比擁有本科學位的人(21%)多。據報道,只有 6% 的數(shù)據科學家持有 MOOC、訓練營或非傳統(tǒng)認證作從業(yè)資格。這表明未來的雇主會認可高學歷,認為高學歷更能滿足數(shù)據科學家的角色需求。數(shù)據科學訓練營或其他非傳統(tǒng)認證項目可以替代學歷的想法后所動搖。

 

 

LinkedIn 數(shù)據科學家抽樣報告中的學歷劃分

發(fā)現(xiàn) 2:計算機科學、工程和商業(yè)分析主導了研究領域

構成數(shù)據科學職業(yè)基石的計算機科學、數(shù)學和統(tǒng)計學及工程科學三位一體的概念在一定程度上得到了數(shù)據的證實。但還是有一些不一樣的地方。到目前為止,計算機科學超過了其他所有的領域,占所有研究科學的 14%。工程學是個多樣化的范疇,包括化學、電氣和電子等領域,以及所謂的知識工程,加起來占研究學科的 22%。數(shù)學和統(tǒng)計學也以不同的形式出現(xiàn),包括應用數(shù)學、數(shù)學物理、統(tǒng)計學和應用概率,但是,它們似乎只占研究科學更小的比例,累計約 12%。在數(shù)據科學教育領域,一個令人驚訝的贏家是商業(yè)分析和其他分析領域,加起來占所有學科的 15%。事實上,對數(shù)據科學家來說,這應該是排名最靠前的領域。據報導,這些數(shù)據科學家擁有的最高學位是碩士學位。

其他排名較高的領域包括:物理(3.5%)和信息技術(2.2%)。盡管與計算機和工程相關的領域顯示出成為數(shù)據科學家的持續(xù)相關性,但數(shù)學和統(tǒng)計學的光芒在某種程度上被更新的面向商業(yè)的分析領域(及其相關變體)遮蓋了。不過其他領域的長尾巴說明了當今數(shù)據科學家追求的領域的具有廣泛的多樣性。

 

 

發(fā)現(xiàn) 3:當前在職的數(shù)據科學家大都處于職業(yè)生涯的中期

在抽樣報告中,數(shù)據科學家的工作經驗一般在 4 到 6 年之間,具體數(shù)字跟他們的最高學歷有關。但值得注意的是,大多受聘數(shù)據科學家并不是那些從 MOOC 直接出來的大學畢業(yè)生。和大多數(shù)其他空缺職位一樣,填補該職位空缺的人一般是有經驗的人。

還有一個有趣的事實:這些數(shù)據科學家沒有一個是剛完成非傳統(tǒng)認證項目就找到工作的,他們通常至少有 1 年以上的工作經驗。

 

 

LinkedIn 數(shù)據科學家抽樣報告表明他們有多年的工作經驗

發(fā)現(xiàn) 4:大多數(shù)數(shù)據科學家職位都是新的

大多數(shù)數(shù)據科學家(76%)在目前職位上的工作時間不到 2 年,多數(shù)(42%)的工作時間不到 1 年。這表明盡管大多數(shù)數(shù)據科學職位空缺是最近出現(xiàn)的,但填補職位空缺的人已經在求職市場上等待了一段時間。

 

 

LinkedIn 數(shù)據科學家抽樣報告顯示他們目前的就職年限。“0”表示 0 到 1 年(不包括 1 年)

發(fā)現(xiàn) 5:你是研究員、軟件工程師、分析師或數(shù)據科學實習生?很好。還是數(shù)據科學家?那更好。

我要找出數(shù)據科學家在從事目前的工作之前所做的事,這是我想要得到的核心發(fā)現(xiàn)。也許這并不令人感到意外(考慮到樣本中研究生學位持有者占大多數(shù)),他們中的很大一部分(11%)之前曾經是科學家或研究人員(包括研究助理和研究員)。而相當一部分(11%)曾從事過某些形式的軟件工程工作,包括開發(fā)人員和解決方案架構師。另一部分數(shù)據科學家之前曾從事分析師工作(11%),包括數(shù)據分析師和系統(tǒng)分析師。有趣的是,實習生和受訓人員(11%)也屬于成熟數(shù)據科學家角色的先行者類別,他們通常采用數(shù)據科學或分析實習的形式。其他排名靠前的前職位包括咨詢(5%)、各種管理職位(5%)和數(shù)據科學指導職位(3%)。

抽樣數(shù)據顯示,28% 的數(shù)據科學家之前就已經在從事這個工作。此外,這種在職優(yōu)勢似乎還在增加,比如:29% 入職 1 年以內的人之前就是數(shù)據科學家,而在入職 3 到 4 年的人中,數(shù)據科學家只占 12%。

對我自己來說,從統(tǒng)計學家和精算師成為現(xiàn)職數(shù)據科學家的排名最為靠后。

 

 

LinkedIn 數(shù)據科學家抽樣報告顯示最近的職位,按當前職位在職年限分組。“0”表示 0 到 1 年(不包括 1 年)")

發(fā)現(xiàn) 6:一半的數(shù)據科學家職位來自非技術公司

由于資金充足,成熟的技術公司(如谷歌或亞馬遜)往往成為數(shù)據科學家就職的理想場所。但值得注意的是,樣本中幾乎一半(49%)的數(shù)據科學家來自于非直接創(chuàng)造技術產品的組織。這些公司和機構來自于:金融和保險(11%)、咨詢(9%)、政府(5%)、制造業(yè)(5%)和學術界(2.4%)。在技術領域中,具有良好代表性的行業(yè)包括:交通(8%,主要歸功于總部位于新加坡的叫車應用程序 Grab)、企業(yè)(8%,包括 IBM、SAP 和微軟)、電子商務(5%)和金融(5%)。我們可以看到像星展銀行之類的金融機構招聘數(shù)據科學家與像 Refinitiv 這樣利用數(shù)據科學為機構創(chuàng)造科技產品的金融科技公司之間的區(qū)別。

我把一大類技術公司標記為AI和ML(6.5%),包括像 DataRobot 這樣的公司,它已經有交付過實際的自動化機器學習產品,還有像 Amaris.AI 這樣的新公司。

如果把數(shù)據科學領域的非技術公司和技術公司出身的區(qū)分與其他地方提出的 A 類型和 B 類型數(shù)據科學家的特征對應起來,那么就可以很明顯地看出,就業(yè)市場(至少在新加坡)一直在為這兩種類型的數(shù)據科學家提供平等的機會,這將是一個有待驗證的有趣且有價值的假設。

 

 

LinkedIn 數(shù)據科學家抽樣報告顯示的雇主類別

結論: 對我來說,所有這一切意味著什么?

如果你很希望找到一份數(shù)據科學家的工作,與其因為不知道自己需要哪類技能而感到煩惱,不如了解一下究竟哪些人在這方面獲得了成功,這樣對你更有幫助。最常見的特征組合可能是那些擁有計算機科學、工程技術、數(shù)學或分析學碩士學位或博士學位的人;那些已經在行業(yè)中工作了大約 4 到 6 年的人;以及之前曾是研究人員、軟件工程師、分析師或數(shù)據科學實習生的人。但不要錯誤地認為這種組合就構成了數(shù)據科學家的大多數(shù),這只是代表了概率的倍增。正如本文和其他研究所指出的,數(shù)據科學家的背景非常多樣化,比起其他職位(如軟件工程師)的多樣性更豐富。

最后我要指出的是,盡管數(shù)據沒有說明那些從 MOOC 和數(shù)據訓練營等非傳統(tǒng)證書機構獲得技能的必要性,但確實表明了這些并非充分條件。研究生學位會更有競爭力。但這并不是說獲取技能不重要,數(shù)據科學的發(fā)展速度很快,很多重要的算法和技術不會出現(xiàn)在傳統(tǒng)的教學大綱里。這只是表明,特定技能的獲取也許是為了滿足某種需求,但不是馬上就能讓你入職數(shù)據科學家崗位。

關于數(shù)據科學的專業(yè)課程層出不窮,這些課程似乎是專門為那些感到不安的有志者而設計的。他們不斷地被告知,只要掌握了那些技能就能夠實現(xiàn)突破。在了解了那些真正入職數(shù)據科學家的人之后,他們應該清醒清醒了。

原文鏈接: I wasn’t getting hired as a Data Scientist. So I sought data on who is.

標簽: 數(shù)據 蒲Ъ

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據科學的5個陷阱與缺陷

下一篇:使用 Visual Studio 和 python 設置自己的數(shù)據科學工作區(qū)