中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

除了R、Python,還有這些重要的數(shù)據(jù)科學(xué)工具

2018-11-20    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

這年頭,如果你不會(huì)點(diǎn)兒R或者Python,你都不好意思說(shuō)你是混數(shù)據(jù)圈的。

在你向一些大神請(qǐng)教的時(shí)候,他可能也會(huì)推薦你學(xué)習(xí)這兩個(gè)高級(jí)編程語(yǔ)言,然后順便在推薦你了解一下SQL以及Math。如果講究點(diǎn)的,可能還會(huì)傳授你一些Spark、AWS/云計(jì)算的經(jīng)驗(yàn)。

嗯!差不多就這些了~

當(dāng)前主流數(shù)據(jù)科學(xué)領(lǐng)域用的工具就是這些了。

但是,如果你想成為一個(gè)數(shù)據(jù)科學(xué)“英雄”,僅僅掌握一些主流的東西是不夠的。

今天呢,就給你推薦幾個(gè)好用到爆的小工具~~

Linux

Linux名字應(yīng)該是如雷貫耳了吧!但很多數(shù)據(jù)科學(xué)家對(duì)它的命令行并不熟悉。Bash腳本是計(jì)算機(jī)科學(xué)中最基本的工具,并且數(shù)據(jù)科學(xué)中很大一部分需要編程,因此這項(xiàng)技能至關(guān)重要。

 

 

我的Linux啟動(dòng)小企鵝

幾乎可以肯定的是,你的代碼會(huì)在linux上開(kāi)發(fā)和部署,使用命令行完成一些工作是非?岬摹Ec數(shù)據(jù)科學(xué)一樣,Python也無(wú)法獨(dú)立于環(huán)境工作,并且你必須通過(guò)一些命令行界面來(lái)處理包、框架管理、環(huán)境變量、訪(fǎng)問(wèn)路徑($PATH)等等。

Git

Git聽(tīng)名字,你也應(yīng)該不陌生。大多數(shù)數(shù)據(jù)科學(xué)家對(duì)git似懂非懂。由于數(shù)據(jù)科學(xué)定義模糊,很多人都不遵循良好的軟件開(kāi)發(fā)實(shí)踐。例如,有人甚至很長(zhǎng)一段時(shí)間都不知道單元測(cè)試。

 

 

當(dāng)你在團(tuán)隊(duì)中編碼時(shí),你就會(huì)知道git是很重要的。如果團(tuán)隊(duì)成員提交的代碼發(fā)生沖突,你得知道如何處理;蛘吣阈枰暨x部分代碼修復(fù)bug、更新……將代碼提交到開(kāi)源或私有的repo(如Github)時(shí),你也可以使用Coveralls之類(lèi)的東西進(jìn)行代碼測(cè)試,并且還有其他框架幫助你在提交時(shí)方便地將代碼部署到生產(chǎn)中。

REST APIs

現(xiàn)在,你已經(jīng)訓(xùn)練好了一個(gè)模型——然后該怎么辦?沒(méi)有人想看你的Jupyter notebook或者某種蹩腳的交互式shell腳本。此外,除非你在共享環(huán)境中進(jìn)行訓(xùn)練,否則你的模型只能自己使用。僅僅擁有模型是不夠的,而這正是大多數(shù)據(jù)科學(xué)家遇到困難的地方。

 

 

要從模型中獲得實(shí)際的預(yù)測(cè)結(jié)果,最好通過(guò)標(biāo)準(zhǔn)API調(diào)用或開(kāi)發(fā)可用的應(yīng)用程序。像Amazon SageMaker這樣的服務(wù)已經(jīng)得到普及,因?yàn)樗梢宰屇愕哪P秃涂捎贸绦驘o(wú)縫銜接。

如果你功力深厚,當(dāng)然你也可以使用Python中的Flask框架自己構(gòu)建一個(gè)。

 

 

此外,在后端有許多Python包可進(jìn)行API調(diào)用,因此了解API是什么以及如何在開(kāi)發(fā)中使用API,這會(huì)讓你有點(diǎn)兒與眾不同。

Docker & Kubernetes

這兩個(gè)工具棒極了。docker允許用戶(hù)擁有一個(gè)生產(chǎn)就緒(production ready)的應(yīng)用環(huán)境,而無(wú)需為每個(gè)在其上運(yùn)行的單個(gè)服務(wù)集中配置生產(chǎn)服務(wù)器。與需要安裝完整操作系統(tǒng)的虛擬機(jī)不同,docker容器在與主機(jī)相同的內(nèi)核上運(yùn)行,并且輕量得多。

 

 

想象一下像Python的venv這樣的docker容器,有更多功能。 更高級(jí)的機(jī)器學(xué)習(xí)庫(kù)(如Google的Tensorflow)需要特定的配置,而這些配置很難在某些主機(jī)上進(jìn)行故障排除。因此,docker經(jīng)常與Tensorflow一起使用,以確保用于模型訓(xùn)練的環(huán)境是開(kāi)發(fā)就緒(development-ready)的。

 

 

容器化且可擴(kuò)展的應(yīng)用程序

隨著市場(chǎng)趨向于更多的微型服務(wù)和容器化應(yīng)用,docker因其強(qiáng)大的功能越來(lái)越受歡迎。Docker不僅適用于訓(xùn)練模型,也適用于部署。將模型視作服務(wù),你就可以將它們?nèi)萜骰,以便它們具有運(yùn)行所需的環(huán)境,然后可以與應(yīng)用程序的其他服務(wù)無(wú)縫交互。這樣,你的模型具有可擴(kuò)展性同時(shí)也具有了便攜性。

 

 

Kubernetes(K8s)是一個(gè)在多主機(jī)上進(jìn)行規(guī)模管理和部署容器化服務(wù)的平臺(tái)。本質(zhì)上,這意味著您可以輕松地通過(guò)跨水平可擴(kuò)展集群,管理和部署docker容器。

 

 

由于谷歌正在使用Kubernetes來(lái)管理他們的Tensorflow容器(還有其他東西),他們進(jìn)一步開(kāi)發(fā)了Kubeflow,一個(gè)在Kubernetes上用于訓(xùn)練和部署模型的開(kāi)源工作流。容器化的開(kāi)發(fā)和生產(chǎn)正不斷與機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)相結(jié)合,我相信這些技能對(duì)于2019年的數(shù)據(jù)科學(xué)家來(lái)說(shuō)將是重要的。

 

 

Apache Airflow

Airflow平臺(tái)雖然很小眾,但是卻很酷。Airflow是一個(gè)Python平臺(tái),可以使用有向無(wú)環(huán)圖(DAG)程序化地創(chuàng)建、調(diào)度和監(jiān)控工作流。

 

 

DAG(有向無(wú)環(huán)圖)

這基本上只是意味著你可以隨時(shí)根據(jù)需要輕松地設(shè)置Python或bash腳本。與可自定義但不太方便的定時(shí)任務(wù)(cron job)相比,Airflow能讓你在用戶(hù)友好的GUI中控制調(diào)度作業(yè)。

Elasticsearch

Elasticsearch同樣比較小眾。這個(gè)有點(diǎn)特別,取決于你是否有搜索/ NLP用例。但是,我可以告訴你在財(cái)富50強(qiáng)公司工作,我們有大量的搜索用例,這是我們堆棧中最重要的框架之一。與在Python中從頭開(kāi)始構(gòu)建某些東西相反,Elastic通過(guò)Python客戶(hù)端便捷地提供了所需的一切。

 

 

Elasticsearch讓你可以輕松地以容錯(cuò)和可擴(kuò)展的方式索引和搜索文檔。你擁有的數(shù)據(jù)越多,啟動(dòng)的節(jié)點(diǎn)就越多,查詢(xún)執(zhí)行的速度就越快。Elastic使用Okapi BM25算法,該算法在功能上非常類(lèi)似于TF-IDF(詞頻-逆向文件頻率,Elastic以前使用的算法)。它有一大堆花里胡哨的東西,甚至支持多語(yǔ)言分析器等定制插件。

 

Elasticsearch index

 

由于它本質(zhì)上是比較查詢(xún)到的與索引中文檔的相似性,因此它也可用于比較文檔間的相似性。強(qiáng)烈建議先查看一下Elasticsearch是否提供了所需的一切,而不是直接從scikit-learn包中導(dǎo)入TF-IDF使用。

Homebrew(mac系統(tǒng))

Ubuntu有apt-get,Redhat有yum,而Windows 10甚至有OneGet 。這些包管理器通過(guò)命令行界面(CLI)安裝、管理依賴(lài)項(xiàng),并自動(dòng)更新路徑($PATH)。雖然mac系統(tǒng)不能開(kāi)箱即用,但Homebrew可以通過(guò)終端命令輕易安裝。

 

 

彌補(bǔ)了OS系統(tǒng)無(wú)包管理的缺陷

不能在本地安裝Apache Spark的小伙伴?梢栽L(fǎng)問(wèn)官網(wǎng),下載后解壓,并將spark-shell命令添加到$ PATH中,或者在終端輸入brew install apache-spark(注意:要想使用spark,你需要安裝scala和java)。

官網(wǎng)

https://spark.apache.org/downloads.html

相關(guān)報(bào)道:

https://towardsdatascience.com/some-important-data-science-tools-that-arent-python-r-sql-or-math-96a109fa56d

標(biāo)簽: Google linux 代碼 服務(wù)器 谷歌 腳本 搜索 云計(jì)算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:想從事數(shù)據(jù)行業(yè)?你必須掌握這個(gè)最核心的技能

下一篇:從睫毛膏到太空垃圾,2018年度最佳數(shù)據(jù)可視化作品都在這了!