中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

不要再讓數(shù)據(jù)科學家管理 Kubernetes 集群了

2020-03-03    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Caleb Kaiser 譯者:平川 來源: InfoQ

本文內(nèi)容基于我對機器學習團隊的觀察,而不是對該行業(yè)的學術調(diào)查。我是 Cortex 的貢獻者,這是一個用于在生產(chǎn)環(huán)境中部署模型的開源平臺。生產(chǎn)級機器學習有一個組織性的問題,這是因為它相對還比較新。雖然更成熟的領域(例如 Web 開發(fā))經(jīng)過幾十年的發(fā)展已經(jīng)有了最佳實踐,但是生產(chǎn)級機器學習還沒有。如果我們希望未來以 ML 為基礎的軟件真正普及開來,那么消除基礎設施瓶頸就至關重要——要做到這一點,我們需要將其真正的專門化,讓數(shù)據(jù)科學家專注于數(shù)據(jù)科學。

本文最初發(fā)布于 Towards Data Science 博客

聲明:以下內(nèi)容基于我對機器學習團隊的觀察,而不是對該行業(yè)的學術調(diào)查。我的背景:我是 Cortex 的貢獻者,這是一個用于在生產(chǎn)環(huán)境中部署模型的開源平臺。

生產(chǎn)級機器學習有一個組織性的問題,這是因為它相對還比較新。雖然更成熟的領域(例如 Web 開發(fā))經(jīng)過幾十年的發(fā)展已經(jīng)有了最佳實踐,但是生產(chǎn)級機器學習還沒有。

舉個例子,假設你的任務是為你所在的初創(chuàng)公司組建一個產(chǎn)品工程組織,而這家公司是一個開發(fā) Web 應用程序的公司。即使你沒有組建團隊的經(jīng)驗,你也可以找到成千上萬的文章和書籍,它們會告訴你這個工程組織應該采用什么結構以及如何發(fā)展。

現(xiàn)在想象一下,你在一家剛剛開始涉足機器學習的公司。你已經(jīng)聘請了一名數(shù)據(jù)科學家來領導最初的工作,結果也不錯。隨著機器學習在產(chǎn)品中的應用越來越深入,隨著數(shù)據(jù)科學家的職責迅速增加,機器學習團隊顯然需要發(fā)展壯大。

在這種情況下,并沒有那么多關于如何構建一個生產(chǎn)級機器學習團隊的文章和書籍。

這不是一個不常見的場景,經(jīng)常出現(xiàn)的情況是,機器學習組織的新職責—特別是基礎設施—被分配給了數(shù)據(jù)科學家。

這是個錯誤。

機器學習和機器學習基礎設施的區(qū)別

在這一點上,平臺和產(chǎn)品工程師的區(qū)別已經(jīng)很好理解了。類似地,數(shù)據(jù)分析師和數(shù)據(jù)工程師顯然是不同的角色。

許多公司的機器學習仍然缺乏這種專業(yè)化。

了解機器學習和機器學習基礎設施之間的區(qū)別很重要,這有助于了解它們所需的工作和工具。

為了設計和訓練新模型,數(shù)據(jù)科學家需要:

  ♦  把時間花在 Notebook、分析數(shù)據(jù)、做實驗上。

  ♦  考慮類似數(shù)據(jù)保健和為數(shù)據(jù)集選擇正確的模型架構這樣的問題。

  ♦  使用 Python、R、Swift 或 Julia 等編程語言。

  ♦  對像 PyTorch 或 TensorFlow 這樣的機器學習框架有自己的見解。

換句話說,他們的職責、技能和工具將圍繞著操縱數(shù)據(jù)開發(fā)模型,他們的最終輸出將是可以提供最準確預測的模型。

基礎設施方面則完全不同。

將模型投入生產(chǎn)應用的一種常見方法是將其作為微服務部署到云中。要將模型部署為生產(chǎn)用 API,工程師需要:

  ♦  在配置文件、終端和云提供商的控制臺之間分配他們的時間,設法優(yōu)化穩(wěn)定性、延遲和成本。

  ♦  考慮實例的自動擴展、在 API 不崩潰的情況下更新模型以及在 GPU 上提供推斷服務等問題。

  ♦  使用 Docker、Kubernetes、Istio、Flask 等工具,以及他們的云提供商提供的任何服務 /API。

關于機器學習和機器學習基礎設施方面的工作,下面是一個簡單的可視化:

 

 

機器學習 vs 機器學習基礎設施

直觀地說,數(shù)據(jù)科學家應該處理左邊的圓,而不是右邊的圓,這是有道理的。

讓非專業(yè)人員管理基礎設施有什么問題嗎?

我們不妨做個假設。假設你必須指派某人來管理你的機器學習基礎設施,但是你又不想讓某人全職參與其中。你只有兩個選擇:

  ♦  一個是數(shù)據(jù)科學家,因為他們熟悉機器學習。
  ♦  一個是 DevOps 工程師,因為他們熟悉一般的基礎設施。

這兩種選擇都有問題。

首先,數(shù)據(jù)科學家應該盡可能多的把時間花在他們最擅長的數(shù)據(jù)科學上。當然,這并不是說學習基礎設施超出了他們的工作范圍,只是基礎設施和數(shù)據(jù)科學都是全職工作,將數(shù)據(jù)科學家的時間分配到這兩項工作中會降低產(chǎn)出的質(zhì)量。

其次,你的組織需要專門負責機器學習基礎設施的人員。在生產(chǎn)環(huán)境中提供模型服務不同于托管 Web 應用程序。你需要一個專門的人來擔任此角色,他可以在組織中倡導機器學習基礎設施。

這種倡導是至關重要的。我了解了很多機器學習組織,你會驚訝地發(fā)現(xiàn),他們的瓶頸往往不是來自技術性挑戰(zhàn),而是來自組織性挑戰(zhàn)。

例如,我曾見過需要使用 GPU 進行推理的機器學習團隊——像 GPT-2 這樣的大型模型基本上都要求合理的延遲時間——但他們卻無法獲得 GPU,因為他們的基礎設施是由更廣泛的 DevOps 團隊管理的,而這些團隊不想讓自己承擔成本。

有專人致力于你的機器學習基礎設施,意味著你不僅有一個不斷改進基礎設施的團隊成員,還意味著你有一個能夠滿足你的團隊需求的倡導者。

那么誰應該管理基礎設施?

機器學習基礎設施工程師。

現(xiàn)在,不要對這種官方的頭銜有異議,要知道,機器學習還處于初級階段,在頭銜問題上,它還屬于“狂野的西部”。不同的公司可能會有不同的叫法:

  ♦  機器學習基礎設施工程師
  ♦  數(shù)據(jù)科學平臺工程師
  ♦  ML 生產(chǎn)工程師

我們已經(jīng)可以看到成熟的機器學習組織招聘這個職位,包括 Spotify:

 

 

還有 Netflix:

 

 

隨著諸如 Gmail 的 Smart Compose、Uber 的 ETA 預測和 Netflix 的內(nèi)容推薦等基于 ML 的功能在軟件中的應用越來越普遍,機器學習基礎設施變得越來越重要。

如果我們希望未來以 ML 為基礎的軟件真正普及開來,那么消除基礎設施瓶頸就至關重要——要做到這一點,我們需要將其真正的專門化,讓數(shù)據(jù)科學家專注于數(shù)據(jù)科學。

英文原文: Stop making data scientists manage Kubernetes clusters

標簽: 數(shù)據(jù) 蒲Ъ

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:5個機器學習開源項目來挑戰(zhàn)你的數(shù)據(jù)科學技能。ǜ芥溄樱

下一篇:2020年中國大數(shù)據(jù)產(chǎn)業(yè)市場分析:優(yōu)勢企業(yè)助力疫情防控 技術紅利賦能企業(yè)發(fā)展