中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一個數(shù)據(jù)科學(xué)負責人眼中的數(shù)據(jù)科學(xué):太無聊了!

2020-04-28    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

數(shù)據(jù)科學(xué)家的工作是否如你想象一般,每天建模型,調(diào)整參數(shù),充滿了樂趣和挑戰(zhàn)?在 Dessa 的數(shù)據(jù)科學(xué)負責人 Ian Xiao 看來,或許并非如此。他認為,數(shù)據(jù)科學(xué)家的工作往往是非常「無聊的」,在決定踏上這條道路之前,我們必須對此做好心理準備,建立自己的應(yīng)對機制。以下是他的全文。

 

 

Julian Howard 在 Unsplash 上的照片

TLDR:很多人選擇數(shù)據(jù)科學(xué)(或機器學(xué)習)中令人興奮的東西來激勵自己和他人。但我們必須面對一個現(xiàn)實:真正的工作往往是「無聊的」——與人們認為浪漫的東西相比是無聊的。感到無聊會造成緊張,它最終會導(dǎo)致數(shù)據(jù)科學(xué)領(lǐng)域工程師的高流動性。我想和大家分享我的實際工作以及如何應(yīng)對「數(shù)據(jù)科學(xué)的枯燥」。我希望能幫助你——一個有抱負的數(shù)據(jù)科學(xué)家,去設(shè)定正確的期望。所以,一旦你決定從事數(shù)據(jù)科學(xué)的職業(yè),你就要長期從事這項工作。享受它吧!

分享你的方法?我想強調(diào)的是,每個人都需要有一個應(yīng)對機制; 2 分鐘告訴我你的故事,也許接下來我們可以分享我們各自的應(yīng)對方式,應(yīng)該很有趣。

1.故事時間

我年輕英俊的表弟 Shawn 最近來到了加拿大,他來這里攻讀計算機科學(xué)碩士學(xué)位。和許多學(xué)生一樣,Shawn 對機器學(xué)習很有熱情,他想在兩年后畢業(yè)時成為一名數(shù)據(jù)科學(xué)家(或從事任何與 ML 有關(guān)的作)。

 

 

作為一個真正關(guān)心 Shawn 前途的哥哥,我決定分享從我的數(shù)據(jù)科學(xué)生涯中學(xué)到的最謹慎的知識——這不是《哈佛商業(yè)評論》所描述的「21 世紀最性感的工作」,它枯燥乏味,令人筋疲力盡,令人沮喪——就像其他職業(yè)一樣。

我有義務(wù)告訴 Shawn 真相,即使真相令人失望。這將有助于他對自己的職業(yè)選擇做出明智的決定(更重要的是,我將避免凌晨 3 點接到我母親和叔叔的電話,他們肯定會給我上關(guān)于家庭、責任和誠實的課)。

 

 

作為一個聰明、自驅(qū)、充滿好奇的年輕人,Shawn 想讓我詳細說明「無聊」具體指的是什么,于是我寫下了這篇文章。

此外,我們還討論了 ML 的主要趨勢,以及如何在這個領(lǐng)域脫穎而出。我將在一些后續(xù)文章中分享這一點。如果你感興趣,請接著往下看。

2.設(shè)置一些上下文

作為一名數(shù)據(jù)科學(xué)經(jīng)理,我正在財富 100 強企業(yè)帶領(lǐng)團隊部署 ML 系統(tǒng),管理客戶關(guān)系,并做一些技術(shù)工作。

這里先談?wù)勔恍└匾亩x。ML 系統(tǒng)是一種解決業(yè)務(wù)領(lǐng)域問題的解決方案,它有一個 ML 組件,并且具有與人類或機器一起工作所需要的所有其他非 ML 系統(tǒng)內(nèi)容。

部署意味著獲得驅(qū)動實際業(yè)務(wù)操作的解決方案。例如,設(shè)置用于訓(xùn)練和驗證 ML 模型的實驗不是部署;設(shè)置通過電子郵件發(fā)送每月產(chǎn)品報價的推薦引擎是部署。部署 ML 系統(tǒng)面臨的問題與構(gòu)建一個好的 ML 模型截然不同。如果你感興趣的話,可以在這里閱讀更多內(nèi)容。

也就是說,我指的不是那些加入谷歌(google)或其他高科技公司,成為初級開發(fā)人員和技術(shù)經(jīng)理的人。這些公司確實做得很好,但我認為它們只代表「前 1%」。其他財富 100 強企業(yè)往往在技術(shù)成熟度、應(yīng)用速度以及對工具和工程人才的投資方面落后。

3.讓我們開始吧

簡而言之,當我說數(shù)據(jù)科學(xué)很無聊時,我指的是當人們意識到浪漫的期望和現(xiàn)實之間的差距時的那種壓抑感。

 

 

大多數(shù)年輕的數(shù)據(jù)科學(xué)家希望把大部分時間花在構(gòu)建和改進神秘的 ML 模型上,或者將時間花在用絢麗的可視化技術(shù)展示開創(chuàng)性的商業(yè)見解上。當然,這些確實是你工作的一部分。

但是,隨著企業(yè)成熟度的提高,他們更加注重實際的經(jīng)營價值。這意味著企業(yè)希望部署更多的 ML 系統(tǒng);他們不太關(guān)心他們有多少新模型或漂亮的報表。因此,數(shù)據(jù)科學(xué)家被要求做非 ML 工作。這讓他們感到很無聊。

讓我們進一步具體化數(shù)據(jù)科學(xué)中的「無聊」是什么樣子,如果我給你展示我從周一到周五的典型一天,你將發(fā)現(xiàn)那是非常無聊的。因此,我將把我的工作分類,突出展示預(yù)期與現(xiàn)實的對比,并分享我的應(yīng)對機制。

我將使用「我們」為主語,因為這些例子是從和團隊的經(jīng)驗集合中提取的。這些例子可能并不詳盡,但我認為它們會說明問題。

3.1設(shè)計(占據(jù) 5-10% 的時間)

這指的是我們整個集體一起努力獲得「高」智力來解決問題和提出高明的想法。這些想法可以包括新的模型架構(gòu)、數(shù)據(jù)特性和系統(tǒng)設(shè)計等。很快,我們就會陷入低谷,因為由于時間限制和優(yōu)先級的原因,我們需要采用最簡單(通常也是最無聊)的解決方案。

期望:我們實現(xiàn)的想法,可以在著名的 ML 期刊,如 NIPS,谷歌的人工智能研究博客等上面刊登,甚至可能贏得下一個諾貝爾獎。

現(xiàn)實:我們執(zhí)行的事情能很好地完成工作。我們?yōu)橐恍┲档醚b幀的漂亮白板畫拍照。

 

 

應(yīng)對機制:1)和我領(lǐng)域外的朋友一起喝酒時繼續(xù)談?wù)摨偪竦南敕?他們可以殘忍地讓我停止這些瘋狂、愚蠢的想法;2)把瘋狂和聰明的想法作為輔助項目來做;3)結(jié)果是,大多數(shù)瘋狂的想法并沒有真正起作用或者只是比簡單的想法稍微好一點。所以 KISS 原則(保持簡單愚蠢,Keep-It-Simple-Stupid)總是給我安慰和結(jié)束。

3.2 編碼(會花費 20-70% 的時間,具體取決于角色)

這里沒什么好說的。在這個階段,我們戴上耳機,喝點咖啡,伸展手指,鎖定屏幕,打出漂亮的代碼行,讓魔術(shù)發(fā)生。

 

 

我們的代碼通常分為五類,各個代碼行數(shù)占總代碼行數(shù)的百分比為:數(shù)據(jù)管道(50-70%)、系統(tǒng)和集成(10-20%)、ML 模型(5-10%)、支持調(diào)試和演示的分析(5-10%)。這與其他人的觀察結(jié)果大致一致。

 

 

Sergey Karayev 的模型代碼在其全套深度學(xué)習課程中所占的比例

如你所見,我們大部分時間都在處理無聊的非 ML 內(nèi)容。盡管 ML 組件非常關(guān)鍵,但現(xiàn)代的框架和編碼語言(例如 Keras, XGBoost, Python 的 sklearn 等)已經(jīng)將許多復(fù)雜的東西抽象出來了。這意味著實現(xiàn)我們需要的結(jié)果不需要沉重的代碼庫;工作流已經(jīng)很好地標準化和優(yōu)化了(做低級優(yōu)化是不同的,但它可能只是 1% 的情況)。

預(yù)期:你將花費大部分時間開發(fā)和優(yōu)化 ML 組件,其他人將負責其余部分。

現(xiàn)實:沒有人希望 1)做你不想做的事情,2)你把所有的好東西都留給自己,3)你在一個已經(jīng)很好優(yōu)化的工作流程上花費了不相稱的時間。

應(yīng)對機制:我們都會根據(jù)自己領(lǐng)域的專業(yè)知識做出決策,并在對他人發(fā)揮支持作用的同時成為自己領(lǐng)域的主要開發(fā)人員(例如,貢獻想法、進行實際開發(fā)或 QA)。這樣做可以讓我們在向他人學(xué)習的同時發(fā)揮自己的優(yōu)勢。更重要的是,它有助于避免為了做「性感的工作」而產(chǎn)生矛盾。

3.3 QA、Debug 和修復(fù) Sh*t(至少 65% 的時間)

在我看來,這是任何技術(shù)開發(fā)工作中最無聊、最痛苦的部分,開發(fā) ML 系統(tǒng)也不例外。

在 ML 中,有兩種類型的「bug」:糟糕的結(jié)果和傳統(tǒng)的軟件問題。糟糕的結(jié)果是指低分數(shù)模型(例如,準確性或精確性)或不敏感的預(yù)測(例如,基于商業(yè)經(jīng)驗的概率非常不準確)。代碼沒什么問題,只是結(jié)果不合理或不夠好。傳統(tǒng)的軟件問題包括諸如代碼損壞或系統(tǒng)配置等問題。

預(yù)期:我們只需要處理糟糕的結(jié)果,并想出更聰明的方法來建立更好的模型。這件事情還是有點吸引人的,看到由于一些好的想法而提高表現(xiàn)是非常值得的。

實際情況:在我們花在 QA /debug/apply 修復(fù)上的時間中,大約 70-90% 是在傳統(tǒng)的軟件問題上。通常,在建立端到端的模型訓(xùn)練和驗證流程之后,我們可以相當快地獲得足夠好的結(jié)果。然后,我們經(jīng)常將建模的優(yōu)先級降低,以關(guān)注系統(tǒng)問題。

應(yīng)對機制:我使用 github 的 Issue 特性將其游戲化并保留一個「獎杯板」。當我關(guān)閉 issue 時,我會立刻分泌多巴胺。看到我們「征服」的問題,我感到更加自豪。當然,我更自豪的是,當我點擊「go」時,一切都神奇地運行起來——這在大學(xué)里的編程作業(yè)中只發(fā)生過一次。我將終生記住這種感覺。如果它在現(xiàn)實生活中再次發(fā)生,很可能是出了問題。

 

 

3.4 應(yīng)對突發(fā)事件(10-50% 的時間)

 

 

對于任何交付團隊的經(jīng)理來說,這都是一場噩夢,而不是數(shù)據(jù)科學(xué)。不管時間線是怎么安排的,總會有事情發(fā)生,讓你偏離正軌。具體來說,這些突發(fā)事件可以分為三類:a)外部問題,如范圍更改、上游系統(tǒng)依賴性和客戶投訴;b)內(nèi)部團隊問題,如惱人的 bug 需要比預(yù)期長得多的時間才能解決;人們需要過渡來適應(yīng)新的工作內(nèi)容得到新的工作;人員配備,性格沖突等,C)我自己的無知等等其它問題。

期望:從頭到尾按部就班;來自客戶、老板和團隊的熱烈掌聲和擁抱。

現(xiàn)實:意想不到的事情通常發(fā)生在最不方便的時候。沒有什么萬全的辦法來避免這些問題,這令人沮喪。

應(yīng)對機制:1)將項目的時間線乘以 2-2.5 倍,以便在涉及到深層次的技術(shù)問題或跨團隊活動時留出足夠的緩沖空間;2)在內(nèi)部設(shè)定進度時要有緊迫感;3)我在腦海中大聲發(fā)誓,好吧,在適當?shù)那闆r下,有時會口頭發(fā)誓;4)呼吸、微笑和傾聽,5)與團隊一起探索所有可能的選擇,并根據(jù)可行性、需要的努力和阻力確定優(yōu)先順序,6)如果這些都不起作用,不要等待,尋求幫助!7)執(zhí)行。其中許多機制本身并不是應(yīng)對機制,但它們是良好的做法,且一直運作良好。

4.總結(jié)

 

 

我想強調(diào)的是,每個人都需要有一個應(yīng)對機制。

所有這些都是想告訴你,現(xiàn)實世界的數(shù)據(jù)科學(xué)是困難的。有志于從事 ML 職業(yè)的人應(yīng)該認識到,除了建立模型之外還有很多事情要做。你最終會感到無聊和沮喪,就像你對任何職業(yè)一樣。這是正常的。但最重要的是,你應(yīng)該建立一個應(yīng)對機制,這樣你就可以長期留在這個游戲中,享受一路上的小獎勵和最后的勝利。

via:https://towardsdatascience.com/data-science-is-boring-1d43473e353e?gi=bc4e3668bb57

標簽: 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:一看就懂的10個數(shù)據(jù)可視化技巧

下一篇:大數(shù)據(jù)分析應(yīng)用于政府的12個數(shù)據(jù)科學(xué)案例