中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

19個超贊的數據科學和機器學習工具(附資料)

2018-08-06    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

引言

編程是數據科學的一個組成部分。事實上,理解編程邏輯、循環(huán)和函數的人更有可能成為成功的數據科學家。但那些在學校里從未學習過編程的人怎么辦?

難道他們就沒辦法成為一名數據科學家了嗎?

近年來,隨著數據科學的蓬勃發(fā)展,許多人都有興趣進入這個領域。但對編程卻一籌莫展。事實上,在我的第一份工作之前,我也是非編程聯(lián)盟的成員。因此,我明白當一個你從未學過的東西在任何一步都困擾著你的時候,有多么可怕。

 

 

好消息是無論你的編程技巧如何,你都有辦法成為數據科學家!有一些工具可以避免編程,并提供用戶友好的GUI(圖形用戶界面),因此任何對算法知之甚少的人都可以簡單地使用它們來構建高質量的機器學習模型。

許多公司(尤其是初創(chuàng)公司)最近推出了GUI驅動的數據科學工具。我盡力在本文中介紹一些重要的工具,并盡可能提供視頻。

注意:所有提供的信息都是從開源信息源收集的。我們只是展示一些事實而不是觀點。我們決不會嘗試宣傳或為任何產品/服務打廣告。

以下是本次介紹的工具列表:

1. RapidMiner

鏈接:https://rapidminer.com/

介紹視頻:https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750

RapidMiner(RM)最初于2006年作為一款名為Rapid-I的開源獨立軟件被啟動。多年來,他們以RapidMiner的名字給它命名,并獲得了約3500萬美元的資金。該工具的舊版本(低于v6)是開源的,但最新版本會有14天的試用期并在此之后需要許可證。

RM涵蓋了預測建模的整個生命周期,從數據準備到建模,最后驗證和部署。GUI基于一個框圖方法,與Matlab Simulink非常相似。有預定義的塊用作即插即用設備。你只需要以正確的方式連接它們,就可以在沒有一行代碼的情況下運行各種各樣的算法。最重要的是,它們允許將自定義的R和Python腳本集成到系統(tǒng)中。

目前的產品包括以下內容:

• RapidMiner Studio:一款可用于數據準備、可視化和統(tǒng)計建模的獨立軟件。

• RapidMiner服務器:它是一個企業(yè)級環(huán)境,具有中央存儲庫,可以輕松進行團隊工作,項目管理和模型部署。

• RapidMiner Radoop:實現(xiàn)以Hadoop為中心的大數據分析功能。

• RapidMiner Cloud:一個基于云的存儲庫,可以輕松地在各種設備之間共享信息。

• RM目前已經應用于汽車、銀行、保險、生命科學、制造業(yè)、石油和天然氣、零售、電信和公用事業(yè)等各個行業(yè)。

2. DataRobot

鏈接:https://www.datarobot.com/

介紹視頻:https://youtu.be/wZCNKDX1q4o

DataRobot(DR)是一款高度自動化的機器學習平臺,由全球最好的Kagglers構建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。該平臺聲稱已經消除了對數據科學家的需求。這從他們網站的一句話中可以明顯看出 - “數據科學需要數學和統(tǒng)計資質、編程技能和商業(yè)知識。借助DataRobot,你只需提供商業(yè)知識和數據,而我們的尖端自動化負責其余部分。”

DR宣稱具有以下優(yōu)點:

• 模型優(yōu)化:

平臺通過采用文本挖掘、變量類型檢測、編碼、插補、縮放、轉換等自動檢測最佳數據預處理和特征工程。
根據誤差度量和驗證集合分數自動選擇超參數。

• 并行處理:

計算被分給數千個多核服務器。
使用分布式算法來擴展到大型數據集。

• 部署:

只需點擊幾下即可輕松部署設施(無需編寫任何新代碼)。

• 對于軟件工程師:

Python SDK和API可用于將模型快速集成到工具和軟件中。

3. BigML

鏈接:https://bigml.com/

介紹視頻:https://youtu.be/JVM8qIn3xPQ

BigML提供了一個良好的圖形用戶界面,可以讓用戶通過以下6個步驟掌握:

• 來源:使用各種信息來源

• 數據集:使用定義的源創(chuàng)建數據集

• 模型:制作預測模型

• 預測:基于模型生成預測

• 合成:創(chuàng)建各種模型的合成

• 評估:針對驗證集的非常模型

這些過程顯然會以不同的順序迭代。BigML平臺提供了很好的結果可視化,并具有求解分類、回歸、聚類、異常檢測和關聯(lián)發(fā)現(xiàn)問題的算法。他們提供按月、季度和年度訂閱捆綁在一起的幾個軟件包。他們甚至提供免費套餐,但上傳數據集的大小限制為16MB。

您可以通過他們的YouTube頻道了解他們的界面如何運作。

4. Google Cloud AutoML

鏈接:https://cloud.google.com/automl/

介紹視頻:https://youtu.be/GbLQE2C181U

Cloud AutoML是Google機器學習組件的一部分,它允許有限ML專業(yè)知識的人員來構建高質量模型。作為Cloud AutoML產品組合的一部分,第一款產品是Cloud AutoMLVision。該服務使得訓練圖像識別模型變得更加簡單。它具有拖放界面,可以讓您上傳圖像,訓練模型,然后直接在Google Cloud上部署這些模型。

Cloud AutoML Vision基于Google的遷移學習和神經架構搜索等技術。這個工具已經被很多組織所使用。看看這篇文章,看看AutoML在兩個驚人的現(xiàn)實生活例子的表現(xiàn),以及它如何產生比任何其他工具更好的結果。

5. Paxata

鏈接:https://www.paxata.com/

介紹視頻:https://youtu.be/bxxsCLmXmms

Paxata是少數幾家專注于數據清洗和預處理的組織之一,而不是機器學習或統(tǒng)計建模部分。這是一個易于使用的MS Excel類應用程序。它還提供了可視化的指導,可以輕松地將數據匯集在一起,查找并修復數據中混雜的噪音或缺失,以及在團隊之間共享和重復使用數據項目。與本文中提到的其他工具一樣,Paxata取消了編碼或腳本,從而克服了處理數據所涉及的技術障礙。

Paxata平臺遵循以下流程:

• 添加日期:使用廣泛的來源獲取數據。

• 探查:使用強大的視覺效果進行數據探查,使用戶可以輕松識別數據中的空白。

• 清理+更改:使用插補等步驟執(zhí)行數據清理,使用NLP對相似值進行規(guī)范化,檢測重復值。

• 形狀:制作數據的樞紐,執(zhí)行分組和聚合。

• 分享+管理:允許在強有力的身份驗證和授權的情況下進行分享和協(xié)作。

• 結合:專有技術稱為SmartFusion允許通過1次點擊結合數據幀,因為它可以自動檢測到最佳組合;多個數據集可以組合成一個AnswerSet。

• 商務智能工具:可以在常用的商務智能工具中輕松實現(xiàn)最終答案集的可視化;還可以輕松實現(xiàn)數據預處理和可視化之間的迭代。

Praxata已經涉足金融服務、消費品和網絡領域。如果您的工作需要大量數據清洗,它可能是一個很好的工具。

6. Trifacta

鏈接:https://www.trifacta.com/

介紹視頻:https://youtu.be/L-jWAsJNmAU

Trifacta是另一家重點關注數據預處理的創(chuàng)業(yè)公司。它有3種產品:

• Wrangler:一款免費的獨立軟件。允許處理多達100MB的數據。

• WranglerPro:上述的升級版本。它允許單用戶和多用戶并且數據量限制為40GB。

• WranglerEnterprise:Trifacta的終極產品。它對處理的數據量沒有任何限制,并允許無限制的用戶。非常適合大型組織。

Trifacta提供了一個非常直觀的GUI來執(zhí)行數據清洗。它將數據作為輸入并按列提供各種統(tǒng)計數據的摘要。另外,對于每一列,它都會自動推薦一些可以通過單擊進行選擇的轉換。可以使用一些預先定義的函數對數據執(zhí)行各種轉換,這些函數可以在界面中輕松調用。

Trifacta平臺使用以下數據準備步驟:

• 發(fā)現(xiàn):首先看看數據和分布,以便快速了解您的具體情況。

• 結構:為數據分配適當的形態(tài)和變量類型并解決異常。

• 清理:此步驟包括插補、文本標準化等過程。這是使數據模型準備就緒所必需的一步。

• 充實:此步驟有助于提高分析的質量,可以通過添加更多數據源或對現(xiàn)有數據執(zhí)行一些功能工程來完成。

• 驗證:此步驟對數據執(zhí)行最終檢測。

• 發(fā)布:最后將數據導出以供進一步使用。

Trifacta主要應用于金融、生命科學和電信行業(yè)。

7. MLBase

鏈接:http://mlbase.org/

介紹視頻:https://youtu.be/W-WPclNo8v0

MLBase是加州大學伯克利分校的AMP(算法機器人)實驗室開發(fā)的一個開源項目。背后的核心思想是為機器學習應用于大規(guī)模問題提供一個簡單的解決方案。

它有3種產品:

• MLlib:它是Apache Spark中的核心分布式ML庫。它最初是作為MLBase項目的一部分開發(fā)的,但現(xiàn)在Spark社區(qū)也支持它。

• MLI:用于特征提取和算法開發(fā)的實驗性API,它引入了高級ML編程抽象。

• ML優(yōu)化器:該層旨在自動執(zhí)行ML管道構建任務。優(yōu)化器通過包含在MLI和MLlib中的特征提取器和ML算法來解決搜索問題。

8. Auto-WEKA

鏈接:

http://www.cs.ubc.ca/labs/beta/Projects/autoweka/

介紹視頻:

https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD

Auto-WEKA是一個用Java編寫的數據挖掘軟件,由新西蘭懷卡托大學的機器學習小組開發(fā)。這是一個基于GUI的工具,對數據科學初學者非常有用。它的最大優(yōu)點是它是開源的,開發(fā)人員提供了教程和論文來幫助你入門。你可以在AV的文章中了解更多相關信息。目前它主要應用于教育和學術目的。

9. Driverless AI

鏈接:https://www.h2o.ai/driverless-ai/

介紹視頻:https://youtu.be/KkvWX3FD7yI

Driverless AI是支持自動機器學習的h2o.ai企業(yè)的神奇平臺。這個鏈接上可以使用1月試用版的docker映像。您只需使用簡單的下拉列表選擇文件來訓練,測試并指定您想要跟蹤模型性能的指標。坐下來,看著界面直觀的平臺在你的數據集上訓練出優(yōu)秀的結果,并能與一個經驗豐富的數據科學家能夠提出的好解決方案相比。

這些是Driverless AI 的業(yè)務功能:

它支持XGBOOST,GLM和K-Means等多GPU支持,即使對于大型復雜數據集也能提供出色的訓練速度。

自動功能工程,調整和綜合各種模型以產生高度準確的預測。

在訓練過程中,有解釋模型以及用于實時特征重要性排序的面板的強大功能。

10. Microsoft Azure ML Studio

鏈接:https://studio.azureml.net/

介紹視頻:https://youtu.be/tW1JV6bHXFA

當這個領域有這么多大牌玩家時,微軟怎么會落后?Azure ML Studio是一個簡單卻強大的基于瀏覽器的ML平臺。它有一個可視化的拖放環(huán)境,不需要編程。他們已經為新手發(fā)布了全面的教程和示例實驗,可以幫助他們快速掌握該工具。

它采用簡單的五個步驟:

• 導入數據集。

• 如有必要,執(zhí)行數據清洗和其他預處理步驟。

• 將數據分解為訓練和測試集。

• 應用內置ML算法來訓練您的模型。

• 評價你的模型,并得到你的預測!

11. MLJar

鏈接:https://mljar.com/

介紹視頻:https://youtu.be/ijmw94h4qCk

MLJar是一個基于瀏覽器的平臺,用于快速構建和部署機器學習模型。它有一個直觀的界面,并允許您并行地訓練模型。它具有內置的超參數搜索功能,可以更輕松地部署模型。MLJar提供與NVIDIA的CUDA,python,TensorFlow等的集成。

你只需要執(zhí)行三個步驟來建立一個不錯的模型:

• 上傳你的數據集。

• 訓練和調整許多機器學習算法并選擇最佳的算法。

• 使用最佳模型進行預測并分享您的結果。

目前該工具用于訂閱版本。它有一個免費的版本并且有0.25GB的數據集限制。這絕對值得一試。

12. Amazon Lex

鏈接:https://aws.amazon.com/cn/lex/

介紹視頻:https://youtu.be/d3LYlNqfuzI

Amazon Lex提供了一個易于使用的控制臺,可在幾分鐘內構建自己的聊天機器人。您可以使用Lex在應用程序或網站中構建對話界面。所有你需要做的是提供一些短語,Amazon Lex完成其余步驟!它構建了一個完整的自然語言模型,使用該模型,客戶可以使用語音和文本與應用程序進行交互。

它還內置了與亞馬遜網絡服務(AWS)平臺的集成。Amazon Lex是一項完全托管服務,因此您的用戶參與度不斷增加,您無需擔心配置硬件和管理基礎設施以提高您的機器人體驗。

13. IBM Wastson Studio

鏈接:https://www.ibm.com/cloud/watson-studio

介紹視頻:https://youtu.be/1_W6Y3c2Aeg

本文怎么能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio為構建和部署學習機和深度學習模型提供了一個美麗的平臺。您可以交互式地發(fā)現(xiàn)、清理和轉換您的數據,使用Jupyter筆記本電腦和RStudio等熟悉的開源工具,訪問最流行的庫,訓練深度神經網絡以及大量其他事物。

對于剛進入這個領域的人來說,他們提供了一系列視頻以簡化入門階段。您可以選擇免費試用,并親自查看這款超棒的工具。以上視頻將指導您如何在Watson Studio中創(chuàng)建項目。

14. Automatic Statistician

鏈接:https://www.automaticstatistician.com/index/

 

 

Automatic Statistician本身不是一個產品,而是一個創(chuàng)建數據探索和分析工具的研究機構。它可以采用各種數據,并以其自然語言處理為核心,生成詳細的報告。它由在劍橋和麻省理工學院工作的研究人員開發(fā),并以75萬美元的價格贏得了Google的焦點研究獎。

它目前仍處于積極發(fā)展階段,但在不久的將來應該密切關注。您可以在這里查看一些關于最終報告的示例。

更多工具

• KNIME (https://www.knime.com/)- 這個工具非常適合訓練機器學習模型。最初需要習慣,但是一開始使用就會覺得GUI很棒。它產生的結果與大多數工具相同,也是免費的。

• FeatureLab (http://www.featurelab.co/)- 它允許使用GUI進行簡單的預測建模和部署。最好的賣點之一是自動進行特征工程。

• MarketSwitch (http://www.experian.com/decision-analytics/marketswitch-optimization.html)- 此工具更側重于優(yōu)化而非預測分析。

• Logical Glue(http://www.logicalglue.com/) - 從原始數據到模型部署的另一個基于GUI的機器學習平臺。

• Pure Predictive (http://www.purepredictive.com/)- 該工具使用有專利的人工智能系統(tǒng),該系統(tǒng)可以避免部分數據準備和模型調整;它使用AI將1000個模型組合成他們所謂的“超級模型”。

如果你是第一次聽到這些名字,你不是一個人!隨著越來越多的數據被收集,自動化機器學習的市場正在擴大。他們在未來幾年會被淹沒在市場中嗎?時間會證明一切。但是,這些優(yōu)秀的工具可以幫助那些希望開始學習機器學習,或者正在尋找替代方案來添加到他們現(xiàn)有目錄的組織。

結束語

在本文中,我們已經討論了幾項旨在自動化解決數據科學問題的舉措。其中一些處于初期研究階段,一些是開源的,另一些已經在該行業(yè)中應用并有數百萬資金。所有這些都對數據科學家的工作構成了潛在威脅,預計這一工作在不久的將來會大幅增長。這些工具最適合那些不熟悉編程和編碼的人員。

標簽: Google 大數據 大數據分析 代碼 服務器 腳本 金融 數據分析 搜索 網絡

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:尷尬了,數據故事講不好,模型再酷炫都沒用

下一篇:教育部:建設100+AI特色專業(yè), 500萬AI人才缺口要補上!