不要再讓數(shù)據(jù)科學(xué)家管理 Kubernetes 集群了

2020-03-03 來源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

作者：Caleb Kaiser 譯者：平川來源： InfoQ

本文內(nèi)容基于我對(duì)機(jī)器學(xué)習(xí)團(tuán)隊(duì)的觀察，而不是對(duì)該行業(yè)的學(xué)術(shù)調(diào)查。我是 Cortex 的貢獻(xiàn)者，這是一個(gè)用于在生產(chǎn)環(huán)境中部署模型的開源平臺(tái)。生產(chǎn)級(jí)機(jī)器學(xué)習(xí)有一個(gè)組織性的問題，這是因?yàn)樗鄬?duì)還比較新。雖然更成熟的領(lǐng)域(例如 Web 開發(fā))經(jīng)過幾十年的發(fā)展已經(jīng)有了最佳實(shí)踐，但是生產(chǎn)級(jí)機(jī)器學(xué)習(xí)還沒有。如果我們希望未來以 ML 為基礎(chǔ)的軟件真正普及開來，那么消除基礎(chǔ)設(shè)施瓶頸就至關(guān)重要——要做到這一點(diǎn)，我們需要將其真正的專門化，讓數(shù)據(jù)科學(xué)家專注于數(shù)據(jù)科學(xué)。

本文最初發(fā)布于 Towards Data Science 博客

聲明：以下內(nèi)容基于我對(duì)機(jī)器學(xué)習(xí)團(tuán)隊(duì)的觀察，而不是對(duì)該行業(yè)的學(xué)術(shù)調(diào)查。我的背景：我是 Cortex 的貢獻(xiàn)者，這是一個(gè)用于在生產(chǎn)環(huán)境中部署模型的開源平臺(tái)。

生產(chǎn)級(jí)機(jī)器學(xué)習(xí)有一個(gè)組織性的問題，這是因?yàn)樗鄬?duì)還比較新。雖然更成熟的領(lǐng)域(例如 Web 開發(fā))經(jīng)過幾十年的發(fā)展已經(jīng)有了最佳實(shí)踐，但是生產(chǎn)級(jí)機(jī)器學(xué)習(xí)還沒有。

舉個(gè)例子，假設(shè)你的任務(wù)是為你所在的初創(chuàng)公司組建一個(gè)產(chǎn)品工程組織，而這家公司是一個(gè)開發(fā) Web 應(yīng)用程序的公司。即使你沒有組建團(tuán)隊(duì)的經(jīng)驗(yàn)，你也可以找到成千上萬的文章和書籍，它們會(huì)告訴你這個(gè)工程組織應(yīng)該采用什么結(jié)構(gòu)以及如何發(fā)展。

現(xiàn)在想象一下，你在一家剛剛開始涉足機(jī)器學(xué)習(xí)的公司。你已經(jīng)聘請(qǐng)了一名數(shù)據(jù)科學(xué)家來領(lǐng)導(dǎo)最初的工作，結(jié)果也不錯(cuò)。隨著機(jī)器學(xué)習(xí)在產(chǎn)品中的應(yīng)用越來越深入，隨著數(shù)據(jù)科學(xué)家的職責(zé)迅速增加，機(jī)器學(xué)習(xí)團(tuán)隊(duì)顯然需要發(fā)展壯大。

在這種情況下，并沒有那么多關(guān)于如何構(gòu)建一個(gè)生產(chǎn)級(jí)機(jī)器學(xué)習(xí)團(tuán)隊(duì)的文章和書籍。

這不是一個(gè)不常見的場(chǎng)景，經(jīng)常出現(xiàn)的情況是，機(jī)器學(xué)習(xí)組織的新職責(zé)—特別是基礎(chǔ)設(shè)施—被分配給了數(shù)據(jù)科學(xué)家。

這是個(gè)錯(cuò)誤。

機(jī)器學(xué)習(xí)和機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的區(qū)別

在這一點(diǎn)上，平臺(tái)和產(chǎn)品工程師的區(qū)別已經(jīng)很好理解了。類似地，數(shù)據(jù)分析師和數(shù)據(jù)工程師顯然是不同的角色。

許多公司的機(jī)器學(xué)習(xí)仍然缺乏這種專業(yè)化。

了解機(jī)器學(xué)習(xí)和機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施之間的區(qū)別很重要，這有助于了解它們所需的工作和工具。

為了設(shè)計(jì)和訓(xùn)練新模型，數(shù)據(jù)科學(xué)家需要：

♦ 把時(shí)間花在 Notebook、分析數(shù)據(jù)、做實(shí)驗(yàn)上。

♦ 考慮類似數(shù)據(jù)保健和為數(shù)據(jù)集選擇正確的模型架構(gòu)這樣的問題。

♦ 使用 Python、R、Swift 或 Julia 等編程語言。

♦ 對(duì)像 PyTorch 或 TensorFlow 這樣的機(jī)器學(xué)習(xí)框架有自己的見解。

換句話說，他們的職責(zé)、技能和工具將圍繞著操縱數(shù)據(jù)開發(fā)模型，他們的最終輸出將是可以提供最準(zhǔn)確預(yù)測(cè)的模型。

基礎(chǔ)設(shè)施方面則完全不同。

將模型投入生產(chǎn)應(yīng)用的一種常見方法是將其作為微服務(wù)部署到云中。要將模型部署為生產(chǎn)用 API，工程師需要：

♦ 在配置文件、終端和云提供商的控制臺(tái)之間分配他們的時(shí)間，設(shè)法優(yōu)化穩(wěn)定性、延遲和成本。

♦ 考慮實(shí)例的自動(dòng)擴(kuò)展、在 API 不崩潰的情況下更新模型以及在 GPU 上提供推斷服務(wù)等問題。

♦ 使用 Docker、Kubernetes、Istio、Flask 等工具，以及他們的云提供商提供的任何服務(wù) /API。

關(guān)于機(jī)器學(xué)習(xí)和機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施方面的工作，下面是一個(gè)簡單的可視化：

機(jī)器學(xué)習(xí) vs 機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施

直觀地說，數(shù)據(jù)科學(xué)家應(yīng)該處理左邊的圓，而不是右邊的圓，這是有道理的。

讓非專業(yè)人員管理基礎(chǔ)設(shè)施有什么問題嗎?

我們不妨做個(gè)假設(shè)。假設(shè)你必須指派某人來管理你的機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施，但是你又不想讓某人全職參與其中。你只有兩個(gè)選擇：

♦ 一個(gè)是數(shù)據(jù)科學(xué)家，因?yàn)樗麄兪煜C(jī)器學(xué)習(xí)。
♦ 一個(gè)是 DevOps 工程師，因?yàn)樗麄兪煜ひ话愕幕A(chǔ)設(shè)施。

這兩種選擇都有問題。

首先，數(shù)據(jù)科學(xué)家應(yīng)該盡可能多的把時(shí)間花在他們最擅長的數(shù)據(jù)科學(xué)上。當(dāng)然，這并不是說學(xué)習(xí)基礎(chǔ)設(shè)施超出了他們的工作范圍，只是基礎(chǔ)設(shè)施和數(shù)據(jù)科學(xué)都是全職工作，將數(shù)據(jù)科學(xué)家的時(shí)間分配到這兩項(xiàng)工作中會(huì)降低產(chǎn)出的質(zhì)量。

其次，你的組織需要專門負(fù)責(zé)機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的人員。在生產(chǎn)環(huán)境中提供模型服務(wù)不同于托管 Web 應(yīng)用程序。你需要一個(gè)專門的人來擔(dān)任此角色，他可以在組織中倡導(dǎo)機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施。

這種倡導(dǎo)是至關(guān)重要的。我了解了很多機(jī)器學(xué)習(xí)組織，你會(huì)驚訝地發(fā)現(xiàn)，他們的瓶頸往往不是來自技術(shù)性挑戰(zhàn)，而是來自組織性挑戰(zhàn)。

例如，我曾見過需要使用 GPU 進(jìn)行推理的機(jī)器學(xué)習(xí)團(tuán)隊(duì)——像 GPT-2 這樣的大型模型基本上都要求合理的延遲時(shí)間——但他們卻無法獲得 GPU，因?yàn)樗麄兊幕A(chǔ)設(shè)施是由更廣泛的 DevOps 團(tuán)隊(duì)管理的，而這些團(tuán)隊(duì)不想讓自己承擔(dān)成本。

有專人致力于你的機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施，意味著你不僅有一個(gè)不斷改進(jìn)基礎(chǔ)設(shè)施的團(tuán)隊(duì)成員，還意味著你有一個(gè)能夠滿足你的團(tuán)隊(duì)需求的倡導(dǎo)者。

那么誰應(yīng)該管理基礎(chǔ)設(shè)施?

機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施工程師。

現(xiàn)在，不要對(duì)這種官方的頭銜有異議，要知道，機(jī)器學(xué)習(xí)還處于初級(jí)階段，在頭銜問題上，它還屬于“狂野的西部”。不同的公司可能會(huì)有不同的叫法：

♦ 機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施工程師
♦ 數(shù)據(jù)科學(xué)平臺(tái)工程師
♦ ML 生產(chǎn)工程師

我們已經(jīng)可以看到成熟的機(jī)器學(xué)習(xí)組織招聘這個(gè)職位，包括 Spotify：

還有 Netflix：

隨著諸如 Gmail 的 Smart Compose、Uber 的 ETA 預(yù)測(cè)和 Netflix 的內(nèi)容推薦等基于 ML 的功能在軟件中的應(yīng)用越來越普遍，機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施變得越來越重要。

如果我們希望未來以 ML 為基礎(chǔ)的軟件真正普及開來，那么消除基礎(chǔ)設(shè)施瓶頸就至關(guān)重要——要做到這一點(diǎn)，我們需要將其真正的專門化，讓數(shù)據(jù)科學(xué)家專注于數(shù)據(jù)科學(xué)。

英文原文： Stop making data scientists manage Kubernetes clusters

標(biāo)簽：數(shù)據(jù) 蒲Ъ

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目來挑戰(zhàn)你的數(shù)據(jù)科學(xué)技能�。ǜ芥溄樱�

下一篇:2020年中國大數(shù)據(jù)產(chǎn)業(yè)市場(chǎng)分析：優(yōu)勢(shì)企業(yè)助力疫情防控技術(shù)紅利賦能企業(yè)發(fā)展

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

不要再讓數(shù)據(jù)科學(xué)家管理 Kubernetes 集群了