中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

幾種流行的大數(shù)據(jù)分析產品模型預測功能介紹

2018-08-10    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

引言

隨著大數(shù)據(jù)分析在實際生產中的廣泛應用,越來越多的大數(shù)據(jù)分析產品在市場中出現(xiàn),有在傳統(tǒng)數(shù)據(jù)分析中占據(jù)重要市場地位的 SPSS 一族產品,也有新興的一些快速發(fā)展的數(shù)據(jù)分析產品,那么對于數(shù)據(jù)科學家,熟悉目前市場上主流或者說流行的產品,稱為必備的技能。

本文以支持導出標準的模型標記語言(PMML)的模型為例,利用產品試用版對時下三個行業(yè)領導者廠商的幾款主流產品(IBM SPSS Modeler, RapidMiner, KNIME)進行了介紹,包括對模型構建和預測功能進行詳細介紹,并對結果進行了簡單分析和比較,使用戶能夠快速了解并使用產品。

數(shù)據(jù)分析平臺的選取

隨著大數(shù)據(jù)分析方法技術在實際生產和生活中的應用越來越廣泛,各個相關廠商分別都提供了類型繁多的數(shù)據(jù)分析平臺和產品,由此帶來的第一個問題就是在眾多產品中我們該如何選擇,對于開源平臺,我們知道流行度比較高的有 R、Scikit-learn、SparkMllib 等,那么對于商業(yè)產品我們該怎么去評價和選擇,本文選取的是美國 IT 調研機構 Gartner 發(fā)布的調研報告。

Gartner 和魔力象限

Gartner 是全球最具權威的 IT 研究與咨詢公司,其研究范圍覆蓋全部 IT 產業(yè),為客戶提供客觀公正的論證報告及市場調研報告,協(xié)助客戶進行市場分析、技術選擇等。魔力象限是在某一時間內依據(jù)標準從產品出發(fā)對市場內的廠商進行分析,魔力象限的四個象限分別是領導者、挑戰(zhàn)者、有遠見者和特定領域者,其中位于第一象限的領導者在技術實力、市場占有以及前瞻性等方面都非常出色。

2017 數(shù)據(jù)科學魔力象限

在 Gartner 2017 對數(shù)據(jù)科學平臺的魔力象限報告中,包括了 16 個廠商,如圖 1 所示,其中位于第一象限的領導者分別是 IBM、SAS、RapidMiner、KNIME。IBM 主要是基于 SPSS Modeler 和 SPSS Statistics 在數(shù)據(jù)分析方面的優(yōu)質表現(xiàn)。SAS 因為沒有免費試用版所以本文暫且不談。KNIME 提供的是開源的 KNIME 分析平臺,為高級分析師提供強大的數(shù)據(jù)分析功能。RapidMiner 則擁有良好的圖形可視化界面,可以使初學者易于上手,而且提供了免費版供初級用戶使用。

本文將對第一象限廠商的幾款主要產品進行介紹,分別是 IBM SPSS Modeler、RapidMiner 免費版、KNIME。

圖 1. 2017 數(shù)據(jù)科學魔力象限

 

 

幾種流行產品介紹以及對預測模型標記語言導出的支持

IBM SPSS Modeler

IBM SPSS Modeler 是一組數(shù)據(jù)挖掘工具,通過這些工具可以采用商業(yè)技術快速建立預測性模型,并將其應用于商業(yè)活動,從而改進決策過程。IBM SPSS Modeler 參照行業(yè)標準 CRISP-DM 模型設計而成,可支持從數(shù)據(jù)到更優(yōu)商業(yè)成果的整個數(shù)據(jù)挖掘過程。提供了各種借助機器學習、人工智能和統(tǒng)計學的建模方法。

IBM SPSS Modeler 支持多種格式的數(shù)據(jù)文件導入,包括自由格式和固定格式的文本文件、SPSS 數(shù)據(jù)文件、SAS 數(shù)據(jù)集、excel 文檔以及數(shù)據(jù)庫文件等。

IBM SPSS Modeler 建模方法分為受監(jiān)督、關聯(lián)、細分三種類別:

1.受監(jiān)督模型使用一個或多個輸入字段的值來預測一個或多個輸出(或目標)字段的值。如決策樹(C&R 樹、QUEST、CHAID 和 C5.0 算法)、回歸(線性、logistic、廣義線性和 Cox 回歸算法)、神經網(wǎng)絡、支持向量機和貝葉斯網(wǎng)絡。

2.關聯(lián)模型查找您數(shù)據(jù)中的模式,其中一個或多個實體(如事件、購買或屬性)與一個或多個其他實體相關聯(lián),如 Apriori 、Carma、序列、關聯(lián)規(guī)則。

3.細分模型將數(shù)據(jù)劃分為具有類似輸入字段模式的記錄段或聚類。細分模型只對輸入字段感興趣,沒有輸出或目標字段的概念。細分模型的示例為 Kohonen 網(wǎng)絡、K-Means 聚類、二階聚類和異常檢測等。

IBM SPSS Modeler 的主界面非常簡潔實用,如圖 2 所示。

圖 2. IBM SPSS Modeler 主界面

 

 

RapidMiner

RapidMiner 是由同名公司開發(fā)的一款數(shù)據(jù)分析產品,它提供了包括數(shù)據(jù)準備、機器學習、深度學習、文本分析和模型預測的一個集成環(huán)境,并且產品中的每個功能操作都實現(xiàn)了可視化,方便操作,易于上手。RapidMiner 提供了 RapidMiner Studio 免費版,和收費版的區(qū)別在于只支持單邏輯處理器,數(shù)據(jù)規(guī)模也僅支持一萬行。本文中的所有測試都是使用了 RapidMiner Studio 免費版,安裝包可以從官網(wǎng)下載,目前支持 Windows32、Windows64, Mac OS 10.8+和 Linux 操作系統(tǒng),安裝過程非常簡單,完成之后打開應用,其主界面如圖 3 所示。

圖 3. RapidMiner 主界面

 

 

KNIME

KNIME 分析平臺是行業(yè)領先的以數(shù)據(jù)驅動創(chuàng)新的開放解決方案。它能幫助用戶發(fā)現(xiàn)數(shù)據(jù)中的潛在信息,探索新的發(fā)現(xiàn)或者對將來作出預測。該平臺能夠快速部署、容易擴展,可以通過其中包括的上百個現(xiàn)成的例子對上千個模型進行學習,該平臺還包括一系列模型的集成工具,以及模型選擇的算法。KNIME 的主界面如圖 4 所示。

圖 4. KNIME 主界面

 

 

預測模型標記語言(PMML)

預測模型標記語言是對數(shù)據(jù)挖掘模型的文本描述,是模型構建的產物,也是利用模型進行評分或者預測的輸入。預測模型標記語言主要是 xml 格式,主要包括數(shù)據(jù)詞典、數(shù)據(jù)轉換、挖掘架構、模型信息等元素,每個元素又包含了很多相關的詳細信息。目前,PMML 的最新版本是 4.3。

預測模型標記語言的最大應用除了模型存儲之外,可以使不同廠家或者平臺的模型構建輸出統(tǒng)一化,不同產品的輸出模型可以通用。例如,用 IBM SPSS Modeler 構建的模型,導出成標準預測模型標記語言之后,可以利用 RapidMiner 進行評分和預測,所以先進的數(shù)據(jù)分析產品都會對標準 PMML 的輸出進行支持。

對于本文要描述的三款產品,它們分別支持很多算法模型,但并不是所有的模型構建都支持標準 PMML 的導出,下面列出了三款產品對標準 PMML 導出的支持列表,如表 1 所示。當然,也并不是每款產品都支持相同版本的 PMML 導出,不過 PMML 的版本是向下兼容的,所以版本信息不是那么重要。對于不同產品對標準 PMML 導出的支持,可以從 PMML 官網(wǎng)查詢。

表 1. 三種產品對 PMML 的支持

 

 

在本文中,為了方便介紹和比較,選取了三個產品都支持的線性回歸模型,然后分別從數(shù)據(jù)的選取和加載、模型的構建導出、模型預測等過程對產品的使用進行介紹。

以 LinearRegression 模型為例進行模型構建和預測

本章首先介紹數(shù)據(jù)的選取和加載,然后以 LinearRegression 模型為例對各產品的模型構建和預測功能進行簡單介紹。

數(shù)據(jù)的選取和加載

每個產品都支持不同的數(shù)據(jù)源,一般都會有自帶的示例數(shù)據(jù)。因為本文所使用的模型是線性回歸的,所以選取了一個適用于該模型的單車租賃真實數(shù)據(jù)。共享單車系統(tǒng)是新一代的單車租賃系統(tǒng),租賃的整個流程,注冊、租車、還車環(huán)節(jié)均可在這個系統(tǒng)中進行。通過這個系統(tǒng),用戶可以很簡單的在一個地點借車,然后在城市內其他地點還車。在 2012 年,世界上存在五百多個單車共享系統(tǒng),五十萬以上的共享單車。今天,共享單車業(yè)務在中國、美國等國家發(fā)展如火如荼,在綠色公共出行、環(huán)境保護和市民身體素質提高方面起著巨大的作用。該數(shù)據(jù)取自 UCI,其各列具體情況如下:

- dteday : 日期
- season : 季節(jié) (1:春季, 2:夏季, 3:秋季, 4:冬季)
- yr : 年份(0: 2011, 1:2012)
- mnth : 月份( 1 to 12)
- hr : 小時(0 to 23)
- holiday : 是否假日
- weekday : 是否周內
- workingday : 是否工作日,1:是, 0:不是
+ weathersit : 天氣情況
- 1: 晴,少云
- 2:霧,多云
- 3: 小雨,小雪
- 4: 大雨,冰雪,雷陣雨
- temp : 歸一化的溫度信息,計算公式:測量值/41
- atemp: 歸一化的體感溫度信息,計算公式:測量值/50
- hum: 歸一化的濕度信息,計算公式,·測量值/100 (max)
- windspeed: 歸一化的風速信息,計算公式,·測量值/67 (max)
- casual: 臨時用戶的租賃數(shù)量 s
- registered: 注冊用戶的租賃數(shù)量
- cnt: 用戶數(shù),臨時和注冊用戶的租賃數(shù)量之和。

除了單車租賃系統(tǒng),共享單車的數(shù)據(jù),包括租賃市場、借還地點等對于人們出行方式的研究非常有意義,這些數(shù)據(jù)可以通過單車上的芯片由租賃公司實時獲取。該數(shù)據(jù)包含 2011 年和 2012 年 Captial 單車共享系統(tǒng)基于小時和天的單車租賃數(shù)據(jù),以及對應的天氣數(shù)據(jù),如溫度、風速。

接下來我們介紹一下各個產品的數(shù)據(jù)加載和設置:

1.IBM SPSS Modeler 數(shù)據(jù)加載和設置

從主界面選擇 Sources 頁,里面包括了所有支持的數(shù)據(jù)源類型,除了常規(guī)的數(shù)據(jù)格式的支持,其中還包括了很多 IBM 數(shù)據(jù)源。由于本文的數(shù)據(jù)格式是 csv 格式,所以我們選擇 Var.File。雙擊或者拖拽至操作面板,都會創(chuàng)建一個新的數(shù)據(jù)源,如圖 5 所示。

在 File 里面選取需要加載的本地數(shù)據(jù)的路徑,就會看到數(shù)據(jù)被讀入,其他選項均為數(shù)據(jù)的相關設置,沒有特殊要求全部選擇默認即可。另外,在 Data 頁面可以選擇數(shù)據(jù)的存儲類型,F(xiàn)ilter 頁面可以選擇哪些 field 被過濾掉不參與后續(xù)處理。Types 頁面可以設置數(shù)據(jù)每一列的 role,即在后續(xù)模型構建中作為輸入變量還是目標變量,或者既是輸入又是輸出。Annotations 頁面是一些補充說明,或者叫注釋。

圖 5. IBM SPSS Modeler 數(shù)據(jù)加載

 

 

2.RapidMiner 數(shù)據(jù)加載和設置

RapidMiner 導入數(shù)據(jù)有兩種方法,一種是通過 Repository 工具欄中的"Add Dada"添加本地數(shù)據(jù)到"Local Repository"下,然后通過拖拽將其放到操作窗口中,如圖 6 所示。

圖 6. RapidMiner 數(shù)據(jù)加載方法一

 

 

另一種方法是通過算子載入數(shù)據(jù)集,雙擊或者拖拽"Read CSV"將其放到操作窗口中,如圖 7 所示。數(shù)據(jù)加載過程中可以進行具體列的選擇和設置,如去掉建模不需要的列、設置 label 變量等,如圖 8 所示。

圖 7. RapidMiner 數(shù)據(jù)加載方法二

 

 

圖 8. RapidMiner 數(shù)據(jù)列選擇和設置

 

 

3.KNIME 數(shù)據(jù)加載和設置

在 KNIME 主界面左下角節(jié)點倉庫中"IO"的"Read"下提供了加載多種數(shù)據(jù)類型的節(jié)點,此處我們選擇"CSV Reader",雙擊或者拖拽均可將其放到操作窗口。在操作窗口的"CSV Reader"圖標上雙擊點開便可進行本地數(shù)據(jù)的加載設置,如圖 9 所示。

圖 9. KNIME 數(shù)據(jù)加載

 

 

模型的構建和預測

1.IBM SPSS Modeler

此例中我們使用"Var.File"加載外部數(shù)據(jù)"bike_sharing_day.csv",使用"Filter"過濾掉對建模具有負面影響的 instant、dteday、casual、registered 四列,使用"Sample"選擇前 700 條數(shù)據(jù)(2011 年全部和 2012 年 1-11 月的數(shù)據(jù))作為訓練數(shù)據(jù)用于建模,后 31 條數(shù)據(jù)(2012 年 12 月的數(shù)據(jù))作為測試數(shù)據(jù)用于后續(xù)評分,使用 Linear"以 cnt 為 target 基于日期(season, yr, mnth, holiday, weekday, workingday)和天氣信息(weathersit, temp, atemp, hum, windspeed)建立線性回歸模型,如圖 10 所示。

圖 10. IBM SPSS Modeler 模型構建

 

 

"Linear"默認會使用"Automatically prepare data"對數(shù)據(jù)進行自動優(yōu)化處理,比如去除一些異常值,經過自動數(shù)據(jù)處理的數(shù)據(jù)更有益于模型構建。另外"Model selection method"默認會使用"Forward stepwise"。此例中為了三種產品的可比性我們讓 Modeler 不使用數(shù)據(jù)自動優(yōu)化處理,如圖 11 所示,并且選擇"Include all predictors"作為模型選擇方法,如圖 12 所示。

圖 11. Automatically prepare data

 

 

圖 12. Model selection method

 

 

其他參數(shù)我們采用默認值,在"Linear"圖標上右鍵執(zhí)行"Run"后會看到生成一個新的黃色圖標(Models 窗口也會出現(xiàn)此圖標)即為建模輸出結果,如圖 10 所示?梢噪p擊圖標查看具體信息,"File"下"Export PMML"或者在"Models"窗口右鍵"Export PMML"可導出 PMML 文件。

Modeler 的建模結果提供了多達十個窗口的眾多信息。比如,"Predictor Importance" 直觀的顯示出年份(yr)、天氣(weathersit)和風速(windspeed)是對單車租賃影響最大的三個因素,與之相反,是否工作日(workingday)、月份(mnth)、溫度(temp)對租賃業(yè)務影響不是很大,如圖 13 所示。

圖 13. Predictor Importance

 

 

"Coefficients"列出了模型系數(shù)的值、顯著性檢驗以及置信區(qū)間,也可以看到按照預測變量重要性的降序從上到下對效應進行了排序(依次為 yr、season、weathersit 等),與"Predictor Importance"是一致的,如圖 14 所示。

圖 14. Coefficients

 

 

接下來我們使用模型生成的 PMML 對將來的租賃業(yè)務進行預測,可以直接使用建模生成的結果圖標也可以通過在"Models"空白處點右鍵加載已導出到本地的 PMML 文件,此例為了方便介紹我們采用第二種方法重新建立了一個新的 stream。

我們依然使用建模的數(shù)據(jù)源并且通過"Filter"過濾掉四列,只是此時使用的是"Sample"的"Discard sample"選項丟棄前 700 條數(shù)據(jù),在 PMML 之后使用"Table"用于存儲預測結果,如圖 15 所示。

圖 15. IBM SPSS Modeler 模型預測

 

 

在"Table"上點擊運行后會彈出預測結果,最后一列"$L-cnt"即為預測結果,如圖 16 所示。

圖 16. IBM SPSS Modeler 模型預測結果

 

 

2.RapidMiner

使用"Read CSV"加載外部數(shù)據(jù) bike_sharing_day.csv,在加載數(shù)據(jù)過程中過濾掉 instant、dteday、casual、registered 四列,使用"Split Data"將數(shù)據(jù)劃分為訓練集(前 700 條)和測試集(后 31 條),即將"Split Data"的"ratio"設置為 0.957 和 0.043,使用"Set Role"設置 cnt 為 label,使用"Linear Regression"以 cnt 為目標變量基于日期(season, yr, mnth, holiday, weekday, workingday)和天氣信息(weathersit, temp, atemp, hum, windspeed)建立線性回歸模型,最后通過"Apply Model"進行模型檢驗和預測,如圖 17 所示。

圖 17. RapidMiner 模型構建

 

 

點擊運行按鈕執(zhí)行成功后,在自動切換到的"Results"界面下可以看到具體的統(tǒng)計信息,如圖 18 所示。

圖 18. LinearRegression

 

 

在另一個界面"ExampleSet"中可以看到使用測試集數(shù)據(jù)得到的預測值,如圖 19 所示。

圖 19. ExampleSet

 

 

3.KNIME

KNIME 使用 Partitioning 模塊,將數(shù)據(jù)分為訓練數(shù)據(jù)和測試數(shù)據(jù)(數(shù)據(jù)條數(shù)與前兩種產品一致),使用訓練數(shù)據(jù)基于日期(season, yr, mnth, holiday, weekday, workingday)和天氣信息(weathersit, temp, atemp, hum, windspeed)建立線性回歸模型,如圖 20 所示。

圖 20. KNIME 模型構建

 

 

模型訓練成功后(狀態(tài)指示燈為綠),可以在 Linear Regression Learner 右鍵菜單上查看模型的系數(shù)和統(tǒng)計信息(如圖 21),以及該模型的散點圖(如圖 22)。

從模型可以看出,年份、天氣和風速對單車租賃數(shù)量影響最大,是否工作日、月份、溫度對租賃業(yè)務影響很小。

圖 21. Statistics on Linear Regression

 

 

另一個對了解模型有幫助的是模型散點圖,如圖 22 所示,是租賃數(shù)量相對于月份的散點圖,從中可以看到單車夏季的租賃業(yè)務明顯好于冬季。

圖 22. 散點圖

 

 

接下來我們通過 PMML READ 節(jié)點和 CSV READER 節(jié)點,將前面保存的 PMML 和測試數(shù)據(jù)加載起來,然后通過"Regresion Predictor"進行預測,如圖 23 所示。

圖 23. KNIME 模型預測

 

 

在輸出結果"Interactive Table"的最后一列可以看到使用測試集數(shù)據(jù)得到的預測值,如圖 24 所示。

圖 24. KNIME 模型預測結果

 

 

由于三種產品的預測值基本相同,我們在此只使用 KNIME 的可視化節(jié)點(另外兩種產品也有各種可視化節(jié)點)查看模型分別對訓練數(shù)據(jù)和測試數(shù)據(jù)的預測值,如圖 25 所示?梢钥吹侥P陀行┣窋M合,即模型對訓練數(shù)據(jù)擬合很好,但對測試數(shù)據(jù)的表現(xiàn)差些,這與測試數(shù)據(jù)的樣本數(shù)目比較少,以及訓練數(shù)據(jù)中 12 月份的數(shù)據(jù)樣本較少有關系。

圖 25. 訓練數(shù)據(jù)和測試數(shù)據(jù)的預測值

 

 

通過以上介紹可以看出三種產品都可以通過界面簡單便捷地進行建模和預測,雖然個別節(jié)點存在各種各樣的差異,功能的多樣性也各有不同,但是在此例中得出了非常相似的結果,無論是建模結果中各個變量對模型的貢獻度大小還是各種統(tǒng)計信息的值都基本相同,還有對測試數(shù)據(jù)的預測值也基本相同。在實際使用時大家可以基于自己的實際情況和使用習慣進行選擇。

總結

在實際的數(shù)據(jù)分析場景或者實驗中,我們往往會用到各種產品,通過本文的介紹,讓讀者對目前流行的數(shù)據(jù)分析產品有一個基礎的認識,讓大家了解如何使用這幾種產品進行建模和預測,希望為后面的深入了解和使用起到一些幫助作用。

作者:周 良, 安 歡, 和 康江波

參考資源

PMML 官網(wǎng)
獲取數(shù)據(jù)網(wǎng)站
spss-modeler 官網(wǎng)
Rapidminer 官網(wǎng)
KNIME 官網(wǎng)

標簽: isp linux 大數(shù)據(jù) 大數(shù)據(jù)分析 大數(shù)據(jù)分析方法 數(shù)據(jù)分析 數(shù)據(jù)庫 網(wǎng)絡

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:超級大資源 | 數(shù)據(jù)工程師的衣柜

下一篇:IT正式發(fā)布編程語言Julia 1.0:Python、R、C++三合一