站長資訊平臺

一份關于如何為回歸任務選擇機器學習算法指南

2018-08-07 來源：raincent

當遇到任何類型的機器學習(ML)問題時，可能會有許多不同的算法可供你選擇。但是在機器學習中，有一個“沒有免費午餐”的定理，該定理表明，基本上沒有一種機器學習算法能夠對所有問題而言是最合適的。不同機器學習算法的性能很大程度上取決于數(shù)據(jù)的大小和結構。因此，除非我們直接通過一次次實驗和錯誤來測試我們采取的算法，否則，如何選擇正確的算法通常仍然是不清楚的。

事物總有兩面性，每種機器算法也會有一些優(yōu)點和缺點，我們可以根據(jù)其優(yōu)點和缺點作為選擇合適算法的一種指導。雖然一種具體的算法并不總是優(yōu)于另外一種算法，但我們可以根據(jù)每種算法本身具有的一些屬性作為快速選擇正確算法和調整超參數(shù)的指南。本文將分析一些針對回歸問題的典型機器算法，并根據(jù)其優(yōu)勢和劣勢制定何時使用它們的規(guī)則�？赐赀@篇文章，應該可以幫助你為回歸問題選擇出最佳的機器算法!

線性和多項式回歸

線性回歸

從簡單的情況開始講解，單變量線性回歸是一種技術，用于使用線性模型對單個輸入自變量(特征變量)和輸出因變量之間的關系進行建模。更一般的情況是多變量線性回歸，其中為多個獨立輸入變量(特征變量)和輸出因變量之間的關系構建模型。該模型保持線性，因為輸出是輸入變量的線性組合。

存在第三種最常見的情況被稱為多項式回歸，其中模型變?yōu)樘卣髯兞康姆蔷€性組合，即等式中可以存在指數(shù)變量、正弦項和余弦項等。然而，這種情況需要知道數(shù)據(jù)如何與輸出相關，可以使用隨機梯度下降(SGD)算法訓練回歸模型。

優(yōu)點

能夠快速建模，且當要建模的關系不是非常復雜并且沒有大量數(shù)據(jù)時，該方法特別有用。

線性回歸很容易被理解，這對于業(yè)務決策而言顯得非常有價值。

缺點

對于非線性數(shù)據(jù)，多項式回歸在設計時可能非常具有挑戰(zhàn)性，因為必須具有關于數(shù)據(jù)結構和特征變量之間關系的一些信息。

由于上述原因，當涉及高度復雜的數(shù)據(jù)時，這類模型不如其它模型好。

神經網(wǎng)絡

神經網(wǎng)絡

神經網(wǎng)絡由一組稱為神經元的節(jié)點相互連接組成。來自數(shù)據(jù)的輸入特征變量作為多變量線性組合傳遞給這些神經元，其中乘以每個特征變量的值稱為權重。然后將非線性應用于該線性組合，這給予神經網(wǎng)絡模擬復雜非線性關系的能力。神經網(wǎng)絡可以具有多層結構，每一層的輸出出以相同的方式傳遞給下一層。在最后的一層，即輸出端，通常不應用非線性。一般使用隨機梯度下降(SGD)和反向傳播算法訓練神經網(wǎng)絡模型(如上圖所示)。

優(yōu)點

由于神經網(wǎng)絡可以有許多具有非線性的隱藏層，因此它們對于高度復雜的非線性關系建模方面非常有效。

通常，我們不必擔心神經網(wǎng)絡中的數(shù)據(jù)結構，該方法在對任何類型特征變量關系學習時都非常靈活。

研究表明，簡單地為網(wǎng)絡提供更多的訓練數(shù)據(jù)，無論是全新的數(shù)據(jù)，還是增加原始數(shù)據(jù)集，都有利于提升網(wǎng)絡的性能。

缺點

由于這類模型的復雜性，它們不易于解釋和理解。

它們在訓練時可能具有一定的挑戰(zhàn)性，且對計算性能有一定的要求，需要仔細的調整超參數(shù)和學習速率的設置。

神經網(wǎng)絡方法一般需要大量數(shù)據(jù)才能獲得高的性能，并且在“小數(shù)據(jù)”情況下通常優(yōu)于其他的機器算法。

回歸樹和隨機森林

隨機森林

從基本情況開始說起，決策樹是一種直觀的模型，遍歷樹的分支，并根據(jù)節(jié)點的決定來選擇下一個分支。樹形導入是將一組訓練實例作為輸入，決定哪些屬性是最佳分割，分割數(shù)據(jù)集以及在生成的分割數(shù)據(jù)集上重復操作，直到所有訓練實例都被分類務。在構建決策樹時，目標是分割創(chuàng)建最純子節(jié)點的屬性，這將使我們的數(shù)據(jù)集中的所有實例分類所需的分割數(shù)量保持最小。純度是通過信息增益的概念來衡量的，信息增益的概念與先前看不見的實例需要了解多少以便對其進行適當分類有關。在實踐中，一般是通過比較熵，或者如果要在給定屬性上進一步對當前數(shù)據(jù)集分區(qū)進行分區(qū)，則對單個實例進行分類的信息量。

隨機森林只是決策樹的集合，輸入向量通過多個決策樹運行。對于回歸問題，所有樹的輸出值是取的平均值;對于分類問題，投票方案用于確定最終類別。

優(yōu)點：

擅長學習復雜、高度非線性的關系。通�？梢詫崿F(xiàn)相當高的性能，優(yōu)于多項式回歸，并且性能通常與神經網(wǎng)絡相當。

很容易被理解和理解。雖然最終訓練的模型可以學習到復雜的關系，但是在訓練期間建立的決策邊界很容易理解。

缺點：

由于在決策樹訓練時，可能很容易出現(xiàn)嚴重的過度擬合現(xiàn)象。完整的決策樹模型可能過于復雜并且包含不必要的結構，這種情況下有時可以通過適當?shù)臉渲π藜艉透蟮碾S機森林集合來緩解。

使用較大的隨機森林集合來實現(xiàn)更高的性能，這會使得訓練過程耗時長，且需要更多的內存。

結論

本文總結了一些針對于回歸問題的機器學習方法，辯證地分析了其各自的優(yōu)缺點。可以根據(jù)具體問題選擇合適的機器學習算法以完成相應的任務。

標簽：網(wǎng)絡

版權申明：本站文章部分自網(wǎng)絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:數(shù)據(jù)之美：迄今 10 佳數(shù)據(jù)可視化示例

下一篇:騰訊廣告算法大賽背后，是 AI 技術與實踐落地的一次深入交流

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一份關于如何為回歸任務選擇機器學習算法指南