中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

不要再讓數(shù)據(jù)科學(xué)家管理 Kubernetes 集群了

2020-03-27    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Caleb Kaiser 譯者:平川 來源: InfoQ

本文內(nèi)容基于我對機器學(xué)習(xí)團(tuán)隊的觀察,而不是對該行業(yè)的學(xué)術(shù)調(diào)查。我是 Cortex 的貢獻(xiàn)者,這是一個用于在生產(chǎn)環(huán)境中部署模型的開源平臺。生產(chǎn)級機器學(xué)習(xí)有一個組織性的問題,這是因為它相對還比較新。雖然更成熟的領(lǐng)域(例如 Web 開發(fā))經(jīng)過幾十年的發(fā)展已經(jīng)有了最佳實踐,但是生產(chǎn)級機器學(xué)習(xí)還沒有。如果我們希望未來以 ML 為基礎(chǔ)的軟件真正普及開來,那么消除基礎(chǔ)設(shè)施瓶頸就至關(guān)重要——要做到這一點,我們需要將其真正的專門化,讓數(shù)據(jù)科學(xué)家專注于數(shù)據(jù)科學(xué)。

本文最初發(fā)布于 Towards Data Science 博客

聲明:以下內(nèi)容基于我對機器學(xué)習(xí)團(tuán)隊的觀察,而不是對該行業(yè)的學(xué)術(shù)調(diào)查。我的背景:我是 Cortex 的貢獻(xiàn)者,這是一個用于在生產(chǎn)環(huán)境中部署模型的開源平臺。

生產(chǎn)級機器學(xué)習(xí)有一個組織性的問題,這是因為它相對還比較新。雖然更成熟的領(lǐng)域(例如 Web 開發(fā))經(jīng)過幾十年的發(fā)展已經(jīng)有了最佳實踐,但是生產(chǎn)級機器學(xué)習(xí)還沒有。

舉個例子,假設(shè)你的任務(wù)是為你所在的初創(chuàng)公司組建一個產(chǎn)品工程組織,而這家公司是一個開發(fā) Web 應(yīng)用程序的公司。即使你沒有組建團(tuán)隊的經(jīng)驗,你也可以找到成千上萬的文章和書籍,它們會告訴你這個工程組織應(yīng)該采用什么結(jié)構(gòu)以及如何發(fā)展。

現(xiàn)在想象一下,你在一家剛剛開始涉足機器學(xué)習(xí)的公司。你已經(jīng)聘請了一名數(shù)據(jù)科學(xué)家來領(lǐng)導(dǎo)最初的工作,結(jié)果也不錯。隨著機器學(xué)習(xí)在產(chǎn)品中的應(yīng)用越來越深入,隨著數(shù)據(jù)科學(xué)家的職責(zé)迅速增加,機器學(xué)習(xí)團(tuán)隊顯然需要發(fā)展壯大。

在這種情況下,并沒有那么多關(guān)于如何構(gòu)建一個生產(chǎn)級機器學(xué)習(xí)團(tuán)隊的文章和書籍。

這不是一個不常見的場景,經(jīng)常出現(xiàn)的情況是,機器學(xué)習(xí)組織的新職責(zé)—特別是基礎(chǔ)設(shè)施—被分配給了數(shù)據(jù)科學(xué)家。

這是個錯誤。

機器學(xué)習(xí)和機器學(xué)習(xí)基礎(chǔ)設(shè)施的區(qū)別

在這一點上,平臺和產(chǎn)品工程師的區(qū)別已經(jīng)很好理解了。類似地,數(shù)據(jù)分析師和數(shù)據(jù)工程師顯然是不同的角色。

許多公司的機器學(xué)習(xí)仍然缺乏這種專業(yè)化。

了解機器學(xué)習(xí)和機器學(xué)習(xí)基礎(chǔ)設(shè)施之間的區(qū)別很重要,這有助于了解它們所需的工作和工具。

為了設(shè)計和訓(xùn)練新模型,數(shù)據(jù)科學(xué)家需要:

  ♦  把時間花在 Notebook、分析數(shù)據(jù)、做實驗上。

  ♦  考慮類似數(shù)據(jù)保健和為數(shù)據(jù)集選擇正確的模型架構(gòu)這樣的問題。

  ♦  使用 Python、R、Swift 或 Julia 等編程語言。

  ♦  對像 PyTorch 或 TensorFlow 這樣的機器學(xué)習(xí)框架有自己的見解。

換句話說,他們的職責(zé)、技能和工具將圍繞著操縱數(shù)據(jù)開發(fā)模型,他們的最終輸出將是可以提供最準(zhǔn)確預(yù)測的模型。

基礎(chǔ)設(shè)施方面則完全不同。

將模型投入生產(chǎn)應(yīng)用的一種常見方法是將其作為微服務(wù)部署到云中。要將模型部署為生產(chǎn)用 API,工程師需要:

  ♦  在配置文件、終端和云提供商的控制臺之間分配他們的時間,設(shè)法優(yōu)化穩(wěn)定性、延遲和成本。

  ♦  考慮實例的自動擴展、在 API 不崩潰的情況下更新模型以及在 GPU 上提供推斷服務(wù)等問題。

  ♦  使用 Docker、Kubernetes、Istio、Flask 等工具,以及他們的云提供商提供的任何服務(wù) /API。

關(guān)于機器學(xué)習(xí)和機器學(xué)習(xí)基礎(chǔ)設(shè)施方面的工作,下面是一個簡單的可視化:

 

 

機器學(xué)習(xí) vs 機器學(xué)習(xí)基礎(chǔ)設(shè)施

直觀地說,數(shù)據(jù)科學(xué)家應(yīng)該處理左邊的圓,而不是右邊的圓,這是有道理的。

讓非專業(yè)人員管理基礎(chǔ)設(shè)施有什么問題嗎?

我們不妨做個假設(shè)。假設(shè)你必須指派某人來管理你的機器學(xué)習(xí)基礎(chǔ)設(shè)施,但是你又不想讓某人全職參與其中。你只有兩個選擇:

  ♦  一個是數(shù)據(jù)科學(xué)家,因為他們熟悉機器學(xué)習(xí)。
  ♦  一個是 DevOps 工程師,因為他們熟悉一般的基礎(chǔ)設(shè)施。

這兩種選擇都有問題。

首先,數(shù)據(jù)科學(xué)家應(yīng)該盡可能多的把時間花在他們最擅長的數(shù)據(jù)科學(xué)上。當(dāng)然,這并不是說學(xué)習(xí)基礎(chǔ)設(shè)施超出了他們的工作范圍,只是基礎(chǔ)設(shè)施和數(shù)據(jù)科學(xué)都是全職工作,將數(shù)據(jù)科學(xué)家的時間分配到這兩項工作中會降低產(chǎn)出的質(zhì)量。

其次,你的組織需要專門負(fù)責(zé)機器學(xué)習(xí)基礎(chǔ)設(shè)施的人員。在生產(chǎn)環(huán)境中提供模型服務(wù)不同于托管 Web 應(yīng)用程序。你需要一個專門的人來擔(dān)任此角色,他可以在組織中倡導(dǎo)機器學(xué)習(xí)基礎(chǔ)設(shè)施。

這種倡導(dǎo)是至關(guān)重要的。我了解了很多機器學(xué)習(xí)組織,你會驚訝地發(fā)現(xiàn),他們的瓶頸往往不是來自技術(shù)性挑戰(zhàn),而是來自組織性挑戰(zhàn)。

例如,我曾見過需要使用 GPU 進(jìn)行推理的機器學(xué)習(xí)團(tuán)隊——像 GPT-2 這樣的大型模型基本上都要求合理的延遲時間——但他們卻無法獲得 GPU,因為他們的基礎(chǔ)設(shè)施是由更廣泛的 DevOps 團(tuán)隊管理的,而這些團(tuán)隊不想讓自己承擔(dān)成本。

有專人致力于你的機器學(xué)習(xí)基礎(chǔ)設(shè)施,意味著你不僅有一個不斷改進(jìn)基礎(chǔ)設(shè)施的團(tuán)隊成員,還意味著你有一個能夠滿足你的團(tuán)隊需求的倡導(dǎo)者。

那么誰應(yīng)該管理基礎(chǔ)設(shè)施?

機器學(xué)習(xí)基礎(chǔ)設(shè)施工程師。

現(xiàn)在,不要對這種官方的頭銜有異議,要知道,機器學(xué)習(xí)還處于初級階段,在頭銜問題上,它還屬于“狂野的西部”。不同的公司可能會有不同的叫法:

  ♦  機器學(xué)習(xí)基礎(chǔ)設(shè)施工程師
  ♦  數(shù)據(jù)科學(xué)平臺工程師
  ♦  ML 生產(chǎn)工程師

我們已經(jīng)可以看到成熟的機器學(xué)習(xí)組織招聘這個職位,包括 Spotify:

 

 

還有 Netflix:

 

 

隨著諸如 Gmail 的 Smart Compose、Uber 的 ETA 預(yù)測和 Netflix 的內(nèi)容推薦等基于 ML 的功能在軟件中的應(yīng)用越來越普遍,機器學(xué)習(xí)基礎(chǔ)設(shè)施變得越來越重要。

如果我們希望未來以 ML 為基礎(chǔ)的軟件真正普及開來,那么消除基礎(chǔ)設(shè)施瓶頸就至關(guān)重要——要做到這一點,我們需要將其真正的專門化,讓數(shù)據(jù)科學(xué)家專注于數(shù)據(jù)科學(xué)。

英文原文: Stop making data scientists manage Kubernetes clusters

標(biāo)簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:5G、大數(shù)據(jù)、AI、物聯(lián)網(wǎng)、區(qū)塊鏈、數(shù)字孿生的大戰(zhàn)“疫”

下一篇:大數(shù)據(jù)項目中的 QA 需要迎接新的挑戰(zhàn)