中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

幾種流行的大數(shù)據(jù)分析產(chǎn)品模型預(yù)測(cè)功能介紹

2018-08-10    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

引言

隨著大數(shù)據(jù)分析在實(shí)際生產(chǎn)中的廣泛應(yīng)用,越來越多的大數(shù)據(jù)分析產(chǎn)品在市場(chǎng)中出現(xiàn),有在傳統(tǒng)數(shù)據(jù)分析中占據(jù)重要市場(chǎng)地位的 SPSS 一族產(chǎn)品,也有新興的一些快速發(fā)展的數(shù)據(jù)分析產(chǎn)品,那么對(duì)于數(shù)據(jù)科學(xué)家,熟悉目前市場(chǎng)上主流或者說流行的產(chǎn)品,稱為必備的技能。

本文以支持導(dǎo)出標(biāo)準(zhǔn)的模型標(biāo)記語言(PMML)的模型為例,利用產(chǎn)品試用版對(duì)時(shí)下三個(gè)行業(yè)領(lǐng)導(dǎo)者廠商的幾款主流產(chǎn)品(IBM SPSS Modeler, RapidMiner, KNIME)進(jìn)行了介紹,包括對(duì)模型構(gòu)建和預(yù)測(cè)功能進(jìn)行詳細(xì)介紹,并對(duì)結(jié)果進(jìn)行了簡(jiǎn)單分析和比較,使用戶能夠快速了解并使用產(chǎn)品。

數(shù)據(jù)分析平臺(tái)的選取

隨著大數(shù)據(jù)分析方法技術(shù)在實(shí)際生產(chǎn)和生活中的應(yīng)用越來越廣泛,各個(gè)相關(guān)廠商分別都提供了類型繁多的數(shù)據(jù)分析平臺(tái)和產(chǎn)品,由此帶來的第一個(gè)問題就是在眾多產(chǎn)品中我們?cè)撊绾芜x擇,對(duì)于開源平臺(tái),我們知道流行度比較高的有 R、Scikit-learn、SparkMllib 等,那么對(duì)于商業(yè)產(chǎn)品我們?cè)撛趺慈ピu(píng)價(jià)和選擇,本文選取的是美國(guó) IT 調(diào)研機(jī)構(gòu) Gartner 發(fā)布的調(diào)研報(bào)告。

Gartner 和魔力象限

Gartner 是全球最具權(quán)威的 IT 研究與咨詢公司,其研究范圍覆蓋全部 IT 產(chǎn)業(yè),為客戶提供客觀公正的論證報(bào)告及市場(chǎng)調(diào)研報(bào)告,協(xié)助客戶進(jìn)行市場(chǎng)分析、技術(shù)選擇等。魔力象限是在某一時(shí)間內(nèi)依據(jù)標(biāo)準(zhǔn)從產(chǎn)品出發(fā)對(duì)市場(chǎng)內(nèi)的廠商進(jìn)行分析,魔力象限的四個(gè)象限分別是領(lǐng)導(dǎo)者、挑戰(zhàn)者、有遠(yuǎn)見者和特定領(lǐng)域者,其中位于第一象限的領(lǐng)導(dǎo)者在技術(shù)實(shí)力、市場(chǎng)占有以及前瞻性等方面都非常出色。

2017 數(shù)據(jù)科學(xué)魔力象限

在 Gartner 2017 對(duì)數(shù)據(jù)科學(xué)平臺(tái)的魔力象限報(bào)告中,包括了 16 個(gè)廠商,如圖 1 所示,其中位于第一象限的領(lǐng)導(dǎo)者分別是 IBM、SAS、RapidMiner、KNIME。IBM 主要是基于 SPSS Modeler 和 SPSS Statistics 在數(shù)據(jù)分析方面的優(yōu)質(zhì)表現(xiàn)。SAS 因?yàn)闆]有免費(fèi)試用版所以本文暫且不談。KNIME 提供的是開源的 KNIME 分析平臺(tái),為高級(jí)分析師提供強(qiáng)大的數(shù)據(jù)分析功能。RapidMiner 則擁有良好的圖形可視化界面,可以使初學(xué)者易于上手,而且提供了免費(fèi)版供初級(jí)用戶使用。

本文將對(duì)第一象限廠商的幾款主要產(chǎn)品進(jìn)行介紹,分別是 IBM SPSS Modeler、RapidMiner 免費(fèi)版、KNIME。

圖 1. 2017 數(shù)據(jù)科學(xué)魔力象限

 

 

幾種流行產(chǎn)品介紹以及對(duì)預(yù)測(cè)模型標(biāo)記語言導(dǎo)出的支持

IBM SPSS Modeler

IBM SPSS Modeler 是一組數(shù)據(jù)挖掘工具,通過這些工具可以采用商業(yè)技術(shù)快速建立預(yù)測(cè)性模型,并將其應(yīng)用于商業(yè)活動(dòng),從而改進(jìn)決策過程。IBM SPSS Modeler 參照行業(yè)標(biāo)準(zhǔn) CRISP-DM 模型設(shè)計(jì)而成,可支持從數(shù)據(jù)到更優(yōu)商業(yè)成果的整個(gè)數(shù)據(jù)挖掘過程。提供了各種借助機(jī)器學(xué)習(xí)、人工智能和統(tǒng)計(jì)學(xué)的建模方法。

IBM SPSS Modeler 支持多種格式的數(shù)據(jù)文件導(dǎo)入,包括自由格式和固定格式的文本文件、SPSS 數(shù)據(jù)文件、SAS 數(shù)據(jù)集、excel 文檔以及數(shù)據(jù)庫(kù)文件等。

IBM SPSS Modeler 建模方法分為受監(jiān)督、關(guān)聯(lián)、細(xì)分三種類別:

1.受監(jiān)督模型使用一個(gè)或多個(gè)輸入字段的值來預(yù)測(cè)一個(gè)或多個(gè)輸出(或目標(biāo))字段的值。如決策樹(C&R 樹、QUEST、CHAID 和 C5.0 算法)、回歸(線性、logistic、廣義線性和 Cox 回歸算法)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和貝葉斯網(wǎng)絡(luò)。

2.關(guān)聯(lián)模型查找您數(shù)據(jù)中的模式,其中一個(gè)或多個(gè)實(shí)體(如事件、購(gòu)買或?qū)傩?與一個(gè)或多個(gè)其他實(shí)體相關(guān)聯(lián),如 Apriori 、Carma、序列、關(guān)聯(lián)規(guī)則。

3.細(xì)分模型將數(shù)據(jù)劃分為具有類似輸入字段模式的記錄段或聚類。細(xì)分模型只對(duì)輸入字段感興趣,沒有輸出或目標(biāo)字段的概念。細(xì)分模型的示例為 Kohonen 網(wǎng)絡(luò)、K-Means 聚類、二階聚類和異常檢測(cè)等。

IBM SPSS Modeler 的主界面非常簡(jiǎn)潔實(shí)用,如圖 2 所示。

圖 2. IBM SPSS Modeler 主界面

 

 

RapidMiner

RapidMiner 是由同名公司開發(fā)的一款數(shù)據(jù)分析產(chǎn)品,它提供了包括數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、文本分析和模型預(yù)測(cè)的一個(gè)集成環(huán)境,并且產(chǎn)品中的每個(gè)功能操作都實(shí)現(xiàn)了可視化,方便操作,易于上手。RapidMiner 提供了 RapidMiner Studio 免費(fèi)版,和收費(fèi)版的區(qū)別在于只支持單邏輯處理器,數(shù)據(jù)規(guī)模也僅支持一萬行。本文中的所有測(cè)試都是使用了 RapidMiner Studio 免費(fèi)版,安裝包可以從官網(wǎng)下載,目前支持 Windows32、Windows64, Mac OS 10.8+和 Linux 操作系統(tǒng),安裝過程非常簡(jiǎn)單,完成之后打開應(yīng)用,其主界面如圖 3 所示。

圖 3. RapidMiner 主界面

 

 

KNIME

KNIME 分析平臺(tái)是行業(yè)領(lǐng)先的以數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新的開放解決方案。它能幫助用戶發(fā)現(xiàn)數(shù)據(jù)中的潛在信息,探索新的發(fā)現(xiàn)或者對(duì)將來作出預(yù)測(cè)。該平臺(tái)能夠快速部署、容易擴(kuò)展,可以通過其中包括的上百個(gè)現(xiàn)成的例子對(duì)上千個(gè)模型進(jìn)行學(xué)習(xí),該平臺(tái)還包括一系列模型的集成工具,以及模型選擇的算法。KNIME 的主界面如圖 4 所示。

圖 4. KNIME 主界面

 

 

預(yù)測(cè)模型標(biāo)記語言(PMML)

預(yù)測(cè)模型標(biāo)記語言是對(duì)數(shù)據(jù)挖掘模型的文本描述,是模型構(gòu)建的產(chǎn)物,也是利用模型進(jìn)行評(píng)分或者預(yù)測(cè)的輸入。預(yù)測(cè)模型標(biāo)記語言主要是 xml 格式,主要包括數(shù)據(jù)詞典、數(shù)據(jù)轉(zhuǎn)換、挖掘架構(gòu)、模型信息等元素,每個(gè)元素又包含了很多相關(guān)的詳細(xì)信息。目前,PMML 的最新版本是 4.3。

預(yù)測(cè)模型標(biāo)記語言的最大應(yīng)用除了模型存儲(chǔ)之外,可以使不同廠家或者平臺(tái)的模型構(gòu)建輸出統(tǒng)一化,不同產(chǎn)品的輸出模型可以通用。例如,用 IBM SPSS Modeler 構(gòu)建的模型,導(dǎo)出成標(biāo)準(zhǔn)預(yù)測(cè)模型標(biāo)記語言之后,可以利用 RapidMiner 進(jìn)行評(píng)分和預(yù)測(cè),所以先進(jìn)的數(shù)據(jù)分析產(chǎn)品都會(huì)對(duì)標(biāo)準(zhǔn) PMML 的輸出進(jìn)行支持。

對(duì)于本文要描述的三款產(chǎn)品,它們分別支持很多算法模型,但并不是所有的模型構(gòu)建都支持標(biāo)準(zhǔn) PMML 的導(dǎo)出,下面列出了三款產(chǎn)品對(duì)標(biāo)準(zhǔn) PMML 導(dǎo)出的支持列表,如表 1 所示。當(dāng)然,也并不是每款產(chǎn)品都支持相同版本的 PMML 導(dǎo)出,不過 PMML 的版本是向下兼容的,所以版本信息不是那么重要。對(duì)于不同產(chǎn)品對(duì)標(biāo)準(zhǔn) PMML 導(dǎo)出的支持,可以從 PMML 官網(wǎng)查詢。

表 1. 三種產(chǎn)品對(duì) PMML 的支持

 

 

在本文中,為了方便介紹和比較,選取了三個(gè)產(chǎn)品都支持的線性回歸模型,然后分別從數(shù)據(jù)的選取和加載、模型的構(gòu)建導(dǎo)出、模型預(yù)測(cè)等過程對(duì)產(chǎn)品的使用進(jìn)行介紹。

以 LinearRegression 模型為例進(jìn)行模型構(gòu)建和預(yù)測(cè)

本章首先介紹數(shù)據(jù)的選取和加載,然后以 LinearRegression 模型為例對(duì)各產(chǎn)品的模型構(gòu)建和預(yù)測(cè)功能進(jìn)行簡(jiǎn)單介紹。

數(shù)據(jù)的選取和加載

每個(gè)產(chǎn)品都支持不同的數(shù)據(jù)源,一般都會(huì)有自帶的示例數(shù)據(jù)。因?yàn)楸疚乃褂玫哪P褪蔷性回歸的,所以選取了一個(gè)適用于該模型的單車租賃真實(shí)數(shù)據(jù)。共享單車系統(tǒng)是新一代的單車租賃系統(tǒng),租賃的整個(gè)流程,注冊(cè)、租車、還車環(huán)節(jié)均可在這個(gè)系統(tǒng)中進(jìn)行。通過這個(gè)系統(tǒng),用戶可以很簡(jiǎn)單的在一個(gè)地點(diǎn)借車,然后在城市內(nèi)其他地點(diǎn)還車。在 2012 年,世界上存在五百多個(gè)單車共享系統(tǒng),五十萬以上的共享單車。今天,共享單車業(yè)務(wù)在中國(guó)、美國(guó)等國(guó)家發(fā)展如火如荼,在綠色公共出行、環(huán)境保護(hù)和市民身體素質(zhì)提高方面起著巨大的作用。該數(shù)據(jù)取自 UCI,其各列具體情況如下:

- dteday : 日期
- season : 季節(jié) (1:春季, 2:夏季, 3:秋季, 4:冬季)
- yr : 年份(0: 2011, 1:2012)
- mnth : 月份( 1 to 12)
- hr : 小時(shí)(0 to 23)
- holiday : 是否假日
- weekday : 是否周內(nèi)
- workingday : 是否工作日,1:是, 0:不是
+ weathersit : 天氣情況
- 1: 晴,少云
- 2:霧,多云
- 3: 小雨,小雪
- 4: 大雨,冰雪,雷陣雨
- temp : 歸一化的溫度信息,計(jì)算公式:測(cè)量值/41
- atemp: 歸一化的體感溫度信息,計(jì)算公式:測(cè)量值/50
- hum: 歸一化的濕度信息,計(jì)算公式,·測(cè)量值/100 (max)
- windspeed: 歸一化的風(fēng)速信息,計(jì)算公式,·測(cè)量值/67 (max)
- casual: 臨時(shí)用戶的租賃數(shù)量 s
- registered: 注冊(cè)用戶的租賃數(shù)量
- cnt: 用戶數(shù),臨時(shí)和注冊(cè)用戶的租賃數(shù)量之和。

除了單車租賃系統(tǒng),共享單車的數(shù)據(jù),包括租賃市場(chǎng)、借還地點(diǎn)等對(duì)于人們出行方式的研究非常有意義,這些數(shù)據(jù)可以通過單車上的芯片由租賃公司實(shí)時(shí)獲取。該數(shù)據(jù)包含 2011 年和 2012 年 Captial 單車共享系統(tǒng)基于小時(shí)和天的單車租賃數(shù)據(jù),以及對(duì)應(yīng)的天氣數(shù)據(jù),如溫度、風(fēng)速。

接下來我們介紹一下各個(gè)產(chǎn)品的數(shù)據(jù)加載和設(shè)置:

1.IBM SPSS Modeler 數(shù)據(jù)加載和設(shè)置

從主界面選擇 Sources 頁(yè),里面包括了所有支持的數(shù)據(jù)源類型,除了常規(guī)的數(shù)據(jù)格式的支持,其中還包括了很多 IBM 數(shù)據(jù)源。由于本文的數(shù)據(jù)格式是 csv 格式,所以我們選擇 Var.File。雙擊或者拖拽至操作面板,都會(huì)創(chuàng)建一個(gè)新的數(shù)據(jù)源,如圖 5 所示。

在 File 里面選取需要加載的本地?cái)?shù)據(jù)的路徑,就會(huì)看到數(shù)據(jù)被讀入,其他選項(xiàng)均為數(shù)據(jù)的相關(guān)設(shè)置,沒有特殊要求全部選擇默認(rèn)即可。另外,在 Data 頁(yè)面可以選擇數(shù)據(jù)的存儲(chǔ)類型,F(xiàn)ilter 頁(yè)面可以選擇哪些 field 被過濾掉不參與后續(xù)處理。Types 頁(yè)面可以設(shè)置數(shù)據(jù)每一列的 role,即在后續(xù)模型構(gòu)建中作為輸入變量還是目標(biāo)變量,或者既是輸入又是輸出。Annotations 頁(yè)面是一些補(bǔ)充說明,或者叫注釋。

圖 5. IBM SPSS Modeler 數(shù)據(jù)加載

 

 

2.RapidMiner 數(shù)據(jù)加載和設(shè)置

RapidMiner 導(dǎo)入數(shù)據(jù)有兩種方法,一種是通過 Repository 工具欄中的"Add Dada"添加本地?cái)?shù)據(jù)到"Local Repository"下,然后通過拖拽將其放到操作窗口中,如圖 6 所示。

圖 6. RapidMiner 數(shù)據(jù)加載方法一

 

 

另一種方法是通過算子載入數(shù)據(jù)集,雙擊或者拖拽"Read CSV"將其放到操作窗口中,如圖 7 所示。數(shù)據(jù)加載過程中可以進(jìn)行具體列的選擇和設(shè)置,如去掉建模不需要的列、設(shè)置 label 變量等,如圖 8 所示。

圖 7. RapidMiner 數(shù)據(jù)加載方法二

 

 

圖 8. RapidMiner 數(shù)據(jù)列選擇和設(shè)置

 

 

3.KNIME 數(shù)據(jù)加載和設(shè)置

在 KNIME 主界面左下角節(jié)點(diǎn)倉(cāng)庫(kù)中"IO"的"Read"下提供了加載多種數(shù)據(jù)類型的節(jié)點(diǎn),此處我們選擇"CSV Reader",雙擊或者拖拽均可將其放到操作窗口。在操作窗口的"CSV Reader"圖標(biāo)上雙擊點(diǎn)開便可進(jìn)行本地?cái)?shù)據(jù)的加載設(shè)置,如圖 9 所示。

圖 9. KNIME 數(shù)據(jù)加載

 

 

模型的構(gòu)建和預(yù)測(cè)

1.IBM SPSS Modeler

此例中我們使用"Var.File"加載外部數(shù)據(jù)"bike_sharing_day.csv",使用"Filter"過濾掉對(duì)建模具有負(fù)面影響的 instant、dteday、casual、registered 四列,使用"Sample"選擇前 700 條數(shù)據(jù)(2011 年全部和 2012 年 1-11 月的數(shù)據(jù))作為訓(xùn)練數(shù)據(jù)用于建模,后 31 條數(shù)據(jù)(2012 年 12 月的數(shù)據(jù))作為測(cè)試數(shù)據(jù)用于后續(xù)評(píng)分,使用 Linear"以 cnt 為 target 基于日期(season, yr, mnth, holiday, weekday, workingday)和天氣信息(weathersit, temp, atemp, hum, windspeed)建立線性回歸模型,如圖 10 所示。

圖 10. IBM SPSS Modeler 模型構(gòu)建

 

 

"Linear"默認(rèn)會(huì)使用"Automatically prepare data"對(duì)數(shù)據(jù)進(jìn)行自動(dòng)優(yōu)化處理,比如去除一些異常值,經(jīng)過自動(dòng)數(shù)據(jù)處理的數(shù)據(jù)更有益于模型構(gòu)建。另外"Model selection method"默認(rèn)會(huì)使用"Forward stepwise"。此例中為了三種產(chǎn)品的可比性我們讓 Modeler 不使用數(shù)據(jù)自動(dòng)優(yōu)化處理,如圖 11 所示,并且選擇"Include all predictors"作為模型選擇方法,如圖 12 所示。

圖 11. Automatically prepare data

 

 

圖 12. Model selection method

 

 

其他參數(shù)我們采用默認(rèn)值,在"Linear"圖標(biāo)上右鍵執(zhí)行"Run"后會(huì)看到生成一個(gè)新的黃色圖標(biāo)(Models 窗口也會(huì)出現(xiàn)此圖標(biāo))即為建模輸出結(jié)果,如圖 10 所示。可以雙擊圖標(biāo)查看具體信息,"File"下"Export PMML"或者在"Models"窗口右鍵"Export PMML"可導(dǎo)出 PMML 文件。

Modeler 的建模結(jié)果提供了多達(dá)十個(gè)窗口的眾多信息。比如,"Predictor Importance" 直觀的顯示出年份(yr)、天氣(weathersit)和風(fēng)速(windspeed)是對(duì)單車租賃影響最大的三個(gè)因素,與之相反,是否工作日(workingday)、月份(mnth)、溫度(temp)對(duì)租賃業(yè)務(wù)影響不是很大,如圖 13 所示。

圖 13. Predictor Importance

 

 

"Coefficients"列出了模型系數(shù)的值、顯著性檢驗(yàn)以及置信區(qū)間,也可以看到按照預(yù)測(cè)變量重要性的降序從上到下對(duì)效應(yīng)進(jìn)行了排序(依次為 yr、season、weathersit 等),與"Predictor Importance"是一致的,如圖 14 所示。

圖 14. Coefficients

 

 

接下來我們使用模型生成的 PMML 對(duì)將來的租賃業(yè)務(wù)進(jìn)行預(yù)測(cè),可以直接使用建模生成的結(jié)果圖標(biāo)也可以通過在"Models"空白處點(diǎn)右鍵加載已導(dǎo)出到本地的 PMML 文件,此例為了方便介紹我們采用第二種方法重新建立了一個(gè)新的 stream。

我們依然使用建模的數(shù)據(jù)源并且通過"Filter"過濾掉四列,只是此時(shí)使用的是"Sample"的"Discard sample"選項(xiàng)丟棄前 700 條數(shù)據(jù),在 PMML 之后使用"Table"用于存儲(chǔ)預(yù)測(cè)結(jié)果,如圖 15 所示。

圖 15. IBM SPSS Modeler 模型預(yù)測(cè)

 

 

在"Table"上點(diǎn)擊運(yùn)行后會(huì)彈出預(yù)測(cè)結(jié)果,最后一列"$L-cnt"即為預(yù)測(cè)結(jié)果,如圖 16 所示。

圖 16. IBM SPSS Modeler 模型預(yù)測(cè)結(jié)果

 

 

2.RapidMiner

使用"Read CSV"加載外部數(shù)據(jù) bike_sharing_day.csv,在加載數(shù)據(jù)過程中過濾掉 instant、dteday、casual、registered 四列,使用"Split Data"將數(shù)據(jù)劃分為訓(xùn)練集(前 700 條)和測(cè)試集(后 31 條),即將"Split Data"的"ratio"設(shè)置為 0.957 和 0.043,使用"Set Role"設(shè)置 cnt 為 label,使用"Linear Regression"以 cnt 為目標(biāo)變量基于日期(season, yr, mnth, holiday, weekday, workingday)和天氣信息(weathersit, temp, atemp, hum, windspeed)建立線性回歸模型,最后通過"Apply Model"進(jìn)行模型檢驗(yàn)和預(yù)測(cè),如圖 17 所示。

圖 17. RapidMiner 模型構(gòu)建

 

 

點(diǎn)擊運(yùn)行按鈕執(zhí)行成功后,在自動(dòng)切換到的"Results"界面下可以看到具體的統(tǒng)計(jì)信息,如圖 18 所示。

圖 18. LinearRegression

 

 

在另一個(gè)界面"ExampleSet"中可以看到使用測(cè)試集數(shù)據(jù)得到的預(yù)測(cè)值,如圖 19 所示。

圖 19. ExampleSet

 

 

3.KNIME

KNIME 使用 Partitioning 模塊,將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)(數(shù)據(jù)條數(shù)與前兩種產(chǎn)品一致),使用訓(xùn)練數(shù)據(jù)基于日期(season, yr, mnth, holiday, weekday, workingday)和天氣信息(weathersit, temp, atemp, hum, windspeed)建立線性回歸模型,如圖 20 所示。

圖 20. KNIME 模型構(gòu)建

 

 

模型訓(xùn)練成功后(狀態(tài)指示燈為綠),可以在 Linear Regression Learner 右鍵菜單上查看模型的系數(shù)和統(tǒng)計(jì)信息(如圖 21),以及該模型的散點(diǎn)圖(如圖 22)。

從模型可以看出,年份、天氣和風(fēng)速對(duì)單車租賃數(shù)量影響最大,是否工作日、月份、溫度對(duì)租賃業(yè)務(wù)影響很小。

圖 21. Statistics on Linear Regression

 

 

另一個(gè)對(duì)了解模型有幫助的是模型散點(diǎn)圖,如圖 22 所示,是租賃數(shù)量相對(duì)于月份的散點(diǎn)圖,從中可以看到單車夏季的租賃業(yè)務(wù)明顯好于冬季。

圖 22. 散點(diǎn)圖

 

 

接下來我們通過 PMML READ 節(jié)點(diǎn)和 CSV READER 節(jié)點(diǎn),將前面保存的 PMML 和測(cè)試數(shù)據(jù)加載起來,然后通過"Regresion Predictor"進(jìn)行預(yù)測(cè),如圖 23 所示。

圖 23. KNIME 模型預(yù)測(cè)

 

 

在輸出結(jié)果"Interactive Table"的最后一列可以看到使用測(cè)試集數(shù)據(jù)得到的預(yù)測(cè)值,如圖 24 所示。

圖 24. KNIME 模型預(yù)測(cè)結(jié)果

 

 

由于三種產(chǎn)品的預(yù)測(cè)值基本相同,我們?cè)诖酥皇褂?KNIME 的可視化節(jié)點(diǎn)(另外兩種產(chǎn)品也有各種可視化節(jié)點(diǎn))查看模型分別對(duì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的預(yù)測(cè)值,如圖 25 所示?梢钥吹侥P陀行┣窋M合,即模型對(duì)訓(xùn)練數(shù)據(jù)擬合很好,但對(duì)測(cè)試數(shù)據(jù)的表現(xiàn)差些,這與測(cè)試數(shù)據(jù)的樣本數(shù)目比較少,以及訓(xùn)練數(shù)據(jù)中 12 月份的數(shù)據(jù)樣本較少有關(guān)系。

圖 25. 訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的預(yù)測(cè)值

 

 

通過以上介紹可以看出三種產(chǎn)品都可以通過界面簡(jiǎn)單便捷地進(jìn)行建模和預(yù)測(cè),雖然個(gè)別節(jié)點(diǎn)存在各種各樣的差異,功能的多樣性也各有不同,但是在此例中得出了非常相似的結(jié)果,無論是建模結(jié)果中各個(gè)變量對(duì)模型的貢獻(xiàn)度大小還是各種統(tǒng)計(jì)信息的值都基本相同,還有對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)值也基本相同。在實(shí)際使用時(shí)大家可以基于自己的實(shí)際情況和使用習(xí)慣進(jìn)行選擇。

總結(jié)

在實(shí)際的數(shù)據(jù)分析場(chǎng)景或者實(shí)驗(yàn)中,我們往往會(huì)用到各種產(chǎn)品,通過本文的介紹,讓讀者對(duì)目前流行的數(shù)據(jù)分析產(chǎn)品有一個(gè)基礎(chǔ)的認(rèn)識(shí),讓大家了解如何使用這幾種產(chǎn)品進(jìn)行建模和預(yù)測(cè),希望為后面的深入了解和使用起到一些幫助作用。

作者:周 良, 安 歡, 和 康江波

參考資源

PMML 官網(wǎng)
獲取數(shù)據(jù)網(wǎng)站
spss-modeler 官網(wǎng)
Rapidminer 官網(wǎng)
KNIME 官網(wǎng)

標(biāo)簽: isp linux 大數(shù)據(jù) 大數(shù)據(jù)分析 大數(shù)據(jù)分析方法 數(shù)據(jù)分析 數(shù)據(jù)庫(kù) 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:超級(jí)大資源 | 數(shù)據(jù)工程師的衣柜

下一篇:IT正式發(fā)布編程語言Julia 1.0:Python、R、C++三合一