中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一位數(shù)據(jù)科學家的獨白

2020-04-20    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
作者:Jingles

譯者:李冬梅

最近幾年,云的出現(xiàn)以及企業(yè)紛紛向互聯(lián)網(wǎng)轉(zhuǎn)型導致了數(shù)據(jù)大爆炸。因此,數(shù)據(jù)科學家在市場上供不應求。

據(jù)《哈佛商業(yè)評論》稱,21 世紀數(shù)據(jù)科學家是最性感的職業(yè)。他們每天暢游在大數(shù)據(jù)的海洋里,與 AI 和深度學習為伴,探索并發(fā)現(xiàn)撬動世界變革的力量。 而在真正的數(shù)據(jù)科學家眼中,他們對自己的認知卻和外界有所不同,下文是來自一位數(shù)據(jù)科學家的自白。

過去 5 年,我一直從事“ 數(shù)據(jù)科學家 ”這個工作,人們都覺得這個工作“很性感”,但其實我始終弄不明白到底哪兒“性感”。可能除了我新燙的頭發(fā)看起來有點像韓國歐巴外,其他的都和性感這個詞不沾邊兒。

那么,我就先來為大家揭秘數(shù)據(jù)科學家每天要做的工作有哪些?

通過分析 LinkedIn 上的職位發(fā)布我得出了以下內(nèi)容,我總結(jié)了一些最為日常的工作內(nèi)容:

了解業(yè)務和客戶,對假設(shè)問題進行驗證;

建立預測模型和機器學習流水線,進行 A / B 測試;
歷史數(shù)據(jù)的分析挖掘:包括跟各種產(chǎn)品線相關(guān)的業(yè)務分析,用戶畫像,用戶行為分析,用戶留存分析等;
開發(fā)算法為業(yè)務線賦能;
進行實驗并研究新技術(shù)和方法,提高技術(shù)能力;

這些工作聽起來是不是很性感?

而這些,僅僅是數(shù)據(jù)科學家工作的“冰山一角”。

在 CrowdFlower 的一份調(diào)查中揭露了數(shù)據(jù)科學家每天的日常工作:

 

 

通常,我們認為數(shù)據(jù)科學家每天都在構(gòu)建算法、研究數(shù)據(jù)并進行預測分析。從上表中可以看出,這并不是他們的主要工作內(nèi)容,實際上他們大部分時間都在收集數(shù)據(jù)集、清理和管理數(shù)據(jù)。

為什么需要高效的數(shù)據(jù)清理專家?

數(shù)據(jù)湖是存儲公司所有數(shù)據(jù)的集中存儲庫。企業(yè)或組織可以使用數(shù)據(jù)湖中的數(shù)據(jù)來構(gòu)建機器學習模型和儀表板。但令人不解的是,有人把數(shù)據(jù)湖當成了數(shù)據(jù)存儲中轉(zhuǎn)站,或者是超大硬盤。

許多組織最初實施數(shù)據(jù)湖時,對如何處理收集中的數(shù)據(jù)一無所知。他們不明就里地去收集一切數(shù)據(jù),根本不去考慮其實際用途。盡管數(shù)據(jù)湖的核心作用是將公司的所有數(shù)據(jù)集中在一個地方,但需要根據(jù)特定的項目需求對數(shù)據(jù)湖進行定制化設(shè)計。不進行合理規(guī)劃就像創(chuàng)建一個新的“未命名文件夾 ”,然后在其中復制并粘貼公司所有數(shù)據(jù),到頭來只會變?yōu)橐粓F亂麻。

及時清理數(shù)據(jù)是十分必要的。其實,數(shù)據(jù)科學家并不喜歡處理雜亂的數(shù)據(jù),所以他們不得不花費很長的時間來進行數(shù)據(jù)清理、數(shù)據(jù)標記和數(shù)據(jù)精練。在調(diào)查數(shù)據(jù)科學家最不喜歡做的工作排名時,我們得到了這樣的結(jié)論:他們最不喜歡的,也是花費時間最長的工作就是清理和管理數(shù)據(jù)。

 

 

數(shù)據(jù)科學家最不喜歡的工作內(nèi)容排名

“臟數(shù)據(jù)”無所不在

每個處理數(shù)據(jù)的人都應該聽說過“ 臟數(shù)據(jù)”一詞。因為原始數(shù)據(jù)存在各種各樣的問題,如篡改數(shù)據(jù)、數(shù)據(jù)不完整、數(shù)據(jù)不一致、數(shù)據(jù)重復、數(shù)據(jù)存在錯誤、異常數(shù)據(jù)等,這些情況我們統(tǒng)稱為存在“臟數(shù)據(jù)”。“臟數(shù)據(jù)”的存在不僅浪費時間,而且可能導致最終分析有誤。

數(shù)據(jù)不完整是指某些基礎(chǔ)特征缺失。例如,假設(shè)你的任務是預測房價,在這其中“房子的面積”對于預測房價來說至關(guān)重要,但是如果這部分信息缺失,這項任務很可能就無法完成,因此模型的效果也就會不佳。

數(shù)據(jù)不準確和不一致是指數(shù)值在技術(shù)上是正確的,但放在場景中就是錯誤的。例如,一名員工變更了他的地址,但是并未及時更新,或者某一組數(shù)據(jù)有多個副本,但是數(shù)據(jù)科學家使用的版本是過時的版本,這些都指的是數(shù)據(jù)的不準確和不一致。

重復數(shù)據(jù)是一個普遍的問題。我與大家分享下我在一家電商公司發(fā)生的一件事。根據(jù)設(shè)計,當訪問者單擊“領(lǐng)取優(yōu)惠券”按鈕時,網(wǎng)站會響應到服務器上,隨后我們就能計算出有多少用戶收集到了優(yōu)惠券。

網(wǎng)站一直運行良好,但突然有一天網(wǎng)站發(fā)生了點狀況,而我卻對此一無所知。前端開發(fā)人員在有人成功領(lǐng)取優(yōu)惠券時添加了另外一個響應,理由是某些優(yōu)惠券可能缺貨。他們新添加的另外一個響應是想跟蹤單擊該按鈕的訪問者以及已經(jīng)領(lǐng)取完優(yōu)惠券的訪問者。

在添加完新的響應后,兩個響應結(jié)果都發(fā)到了同一個 log 表中。等我再查看我的報告工具時,發(fā)現(xiàn)領(lǐng)取的優(yōu)惠券的數(shù)量似乎在一夜之間翻了一番!在前一天部署模型時,我還天真地以為我的新模型會很完美,但后來我才意識到我只是做了重復計算。

 

 

數(shù)據(jù)科學家最應該掌握的十大技能

除了數(shù)據(jù)清理和管理,數(shù)據(jù)科學家還要做什么?

這個世界每天都充斥著海量的數(shù)據(jù),有的來自人工輸入,有的來自機器日志,但無論是那種數(shù)據(jù),數(shù)據(jù)整理都是現(xiàn)實世界中數(shù)據(jù)科學家工作的重要部分。為了使監(jiān)督學習更加有效,我們需要可靠的、帶有標簽的數(shù)據(jù),標記錯誤的數(shù)據(jù)無法建立預訓練模型,但問題在于,沒有人喜歡這項繁雜的、枯燥的數(shù)據(jù)標記工作。

許多人將數(shù)據(jù)科學家的工作描述為 80/20 原則。也就是說他們會用 20%的時間來構(gòu)建模型,而其他 80%的時間用于收集、分析、清理和重組數(shù)據(jù)。處理臟數(shù)據(jù)是數(shù)據(jù)科學家工作中最耗時的部分。

盡管這項工作做起來很讓人厭煩,但數(shù)據(jù)清理在任何一個項目中都是十分重要的,凌亂的數(shù)據(jù)不會產(chǎn)生好的結(jié)果,就像很多人都聽過一句話“輸入的是垃圾,得到的也會是垃圾”。

如果要來對我的工作進行個總結(jié),我會認為我是 40% 的數(shù)據(jù)清潔工、40% 的數(shù)據(jù)管理員,最后 20% 的…算命先生,因為我還要在出現(xiàn)問題時進行診斷和分析,找出癥結(jié)所在。

參考鏈接:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845

標簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Python數(shù)據(jù)可視化:5段代碼搞定散點圖繪制與使用

下一篇:Gartner首份云上AI開發(fā)服務魔力象限:國內(nèi)騰訊入圍,阿里百度落選