中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

5個免費工具,讓數(shù)據(jù)科學更加簡單

2019-02-28    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

數(shù)據(jù)科學有一個很大的優(yōu)點是,數(shù)據(jù)科學家使用的許多最先進的工具都是免費的。事實上,業(yè)內(nèi)免費工具的數(shù)量已經(jīng)非常之大,有時甚至會讓人頭疼,不知該如何選擇。為了幫助大家確定自己該選擇哪些工具,這里列出了用于數(shù)據(jù)處理的五個值得了解的免費軟件工具。

 

 

Photo by rawpixel.com from Pexels

Anaconda Distribution

Python之所以成為數(shù)據(jù)科學領域的一個偉大工具,是因為有大量開發(fā)人員構(gòu)建了基于Python的數(shù)據(jù)科學庫。對于使用Python完成工作的數(shù)據(jù)科學家來說,諸如NumPy、SciPy、panda、scikit-learn等庫是必不可少的。不幸的是,即使對于經(jīng)驗最豐富的開發(fā)者來說,處理所有這些Python庫也是一個挑戰(zhàn)。它們可能很難安裝,而且許多都依賴于Python之外的某個軟件。

Anaconda是一個免費的Python發(fā)行版和包管理器,它解決了這個問題。Anaconda Python發(fā)行版預先安裝了超過200個最流行的數(shù)據(jù)科學Python庫,并且它的包管理器提供了一種簡單的方式來安裝超過2000個額外的包,且無需擔心軟件依賴關系。Anaconda還附帶許多其他流行的工具,包括Jupyter Notebook——它使數(shù)據(jù)科學家能夠在基于瀏覽器的環(huán)境中交互工作。

RStudio & RStudio Server

RStudio是一個集成開發(fā)環(huán)境(IDE),是為在R語言中執(zhí)行交互式數(shù)據(jù)分析和更正式的編程而定制的。RStudio為交互式工作環(huán)境提供了一個完美的平衡,它支持R控制臺和數(shù)據(jù)可視化面板,以及功能齊全的文本編輯器,該文本編輯器可以實現(xiàn)語法高亮顯示和代碼補全。

一個不太為人所知的工具是RStudio Server,它是RStudio IDE的一個功能完整的版本,運行在服務器上,可以通過瀏覽器訪問。這意味著您可以通過網(wǎng)絡連接從任何地方訪問RStudio IDE,并將計算轉(zhuǎn)移到專用資源上。這使得數(shù)據(jù)科學家可以處理潛在的敏感數(shù)據(jù),而不必將其下載到個人設備上,也可以在任何設備上用R執(zhí)行復雜且計算量大的工作。

OpenRefine

OpenRefine最初由谷歌的工程師開發(fā),是一種用于數(shù)據(jù)清理的開源工具。它允許從業(yè)者讀取混亂或損壞的數(shù)據(jù),執(zhí)行批量轉(zhuǎn)換以修復錯誤,并生成干凈的數(shù)據(jù),并以一系列有用的格式導出結(jié)果。

OpenRefine的最佳特性之一是,它能夠跟蹤在數(shù)據(jù)集上執(zhí)行的每個操作,使步驟跟蹤和工作流的重新創(chuàng)建變得非常容易。當您有許多文件都具有相同的數(shù)據(jù)完整性問題,并且需要相同的轉(zhuǎn)換時,這尤其有用。OpenRefine允許導出對第一個數(shù)據(jù)文件所做的更改序列,并將其應用于第二個數(shù)據(jù)文件,從而節(jié)省重復工作的時間并降低人為操作出現(xiàn)錯誤的可能性。

OpenRefine還提供了非常強大的工具來處理凌亂的文本字段。例如,如果數(shù)據(jù)集中有一列的條目是“Vancouver, BC”。、“VANCOUVER BC”和“vancouver b.c.”, OpenRefine的文本聚類工具就會識別出它們可能是相同的,并執(zhí)行批量轉(zhuǎn)換,以便對每個事件應用單個標簽。

Apache Airflow

在大多數(shù)組織中,數(shù)據(jù)并不是存留在一個地方,也不是只使用一種方法訪問的。通常有多個數(shù)據(jù)庫、數(shù)據(jù)存儲系統(tǒng)、API和其他進程,來跟蹤整個組織中的數(shù)據(jù)。數(shù)據(jù)團隊的主要工作是將數(shù)據(jù)從存留的位置移動到需要進行分析的位置,并根據(jù)需要進行轉(zhuǎn)換。理想情況下,這項工作應該盡可能自動化,Apache Airflow可以完成此事。

Airflow是Airbnb的工程師為內(nèi)部使用開發(fā)的,2015年開源。它是一個映射、自動化和調(diào)度復雜工作流的工具,這些工作流涉及了許多具有相互依賴關系的不同系統(tǒng)。它可以監(jiān)控這些流程是否成功,并在出現(xiàn)問題時提醒工程師。Airflow還有一個基于Web的用戶界面,它將工作流表示為一個小作業(yè)網(wǎng)絡,這樣依賴關系就可以很容易地實現(xiàn)可視化。

H2O

隨著機器學習技術(shù)的成熟,一些基本算法得到了廣泛的應用。廣義線性模型、基于樹的模型和神經(jīng)網(wǎng)絡都已成為機器學習工具包中的基本元素。然而,盡管R和Python中那些算法的許多實現(xiàn)對于原型設計和概念驗證非常有用,但它們并不能很好地擴展到生產(chǎn)環(huán)境中。

H2O是一個開源工具,它提供了最流行的統(tǒng)計和機器學習算法的高效和可擴展實現(xiàn)。它可以連接到許多不同類型的數(shù)據(jù)存儲系統(tǒng),可以在包括從筆記本電腦到大型計算集群的任何設備上運行。它擁有強大和靈活的工具,來構(gòu)建模型原型并進行微調(diào),而且在H2O中構(gòu)建的模型非常易于部署到生產(chǎn)環(huán)境中。最重要的是,H2O有Python和R的API,因此數(shù)據(jù)科學家可以無縫地將其與現(xiàn)有環(huán)境集成。

目前數(shù)據(jù)科學領域的軟件工具數(shù)不勝數(shù),在項目啟動時,選擇足夠優(yōu)秀的免費工具來加速和優(yōu)化數(shù)據(jù)流程是一個不錯的選擇。

原文來源:BrainStation

標簽: 代碼 服務器 谷歌 開發(fā)者 數(shù)據(jù)分析 數(shù)據(jù)庫 網(wǎng)絡

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:阿里巴巴以9000萬歐元收購德國大數(shù)據(jù)公司Data Artisans

下一篇:1500+星標,簡單易用 TensorFlow 代碼集,隨查隨看!