中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一份關于機器學習端到端學習指南

2019-01-17    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

人工智能、機器學習已經火了有一陣了,很多程序員也想換到這方向,目前有關于深度學習基礎介紹的材料很多,但很難找到一篇簡潔的文章提供實施機器學習項目端到端的指南,從頭到尾整個過程的相關指南介紹。因此,個人在網上搜集到了許多有關于實施機器學習項目過程的文章,深入介紹了如何實現(xiàn)機器學習/數(shù)據科學項目的各個部分,但更多時候,我們只需要一些概括性的經驗指導。

在我不熟悉機器學習和數(shù)據科學的時候,我曾經尋找一些指導性的文章,這些文章清楚地闡述了在項目的某些步驟時候我需要做什么才能很好地完成我的項目。本文將介紹一些文章,旨在為成功實現(xiàn)機器學習項目提供一份端到端的指南。

基于此,閑話少敘,下面讓我們開始吧

簡而言之,機器學習項目有三個主要部分:第一部分是數(shù)據理解、數(shù)據收集和清理,第二部分是模型的實現(xiàn),第三部分是進行模型優(yōu)化。一般而言,數(shù)據理解、收集和清理需要花費整個項目60-70%的時間。為此,我們需要該領域專家。

 

 

場景假設

現(xiàn)在假設我們正在嘗試一個機器學習項目。本文將為你提供實施項目可以遵循的步驟指南,確保項目成功。

在項目開始時,我們的大腦中肯定會出現(xiàn)多個問題:

 

 

比如:

♦  如何開始這個項目?需要開發(fā)者或者統(tǒng)計學者?

♦ 選擇何種語言進行開發(fā)?數(shù)據集是否干凈?

♦ 各種依賴包是否安裝齊全正確?項目問題是回歸還是分類問題?

♦ 應該采取何種機器學習方法?如何調參?

機器學習項目簡單來講是一種試錯過程,整個研究過程和遞歸過程比較類似,是一種不斷試錯尋找更優(yōu)解法的過程。該過程同時也是實踐和理論的結合,對相關研究領域的專業(yè)知識有所要求,完成每個項目后也會提升個人的戰(zhàn)略技能,從事該領域的研究人員需要掌握統(tǒng)計相關的知識以及具備一定的編程能力。最重要的是,機器項目會教會你保持耐心,每做完一次實驗后,都會分析實驗結果,進而尋找到更優(yōu)的答案(調參)。

步驟

必須進行的兩個步驟:

1.確保你了解機器學習是什么以及它的三個關鍵領域?梢蚤喿x下面這篇文章:

8分鐘了解機器學習
https://medium.com/fintechexplained/introduction-to-machine-learning-4b2d7c57613b?spm=a2c4e.11153940.blogcont687256.11.5ecb11f4Xt6fSe

機器學習是現(xiàn)在,也是未來。所有的技術人員、數(shù)據科學家和金融專家可以從中受益,同時,如果上述這些人員在之后的日子不對該項技術有所涉獵的話,很可能會被時代所淘汰。

2.選擇合適的編程語言。需要熟練掌握Python,請點擊閱讀:

從零開始學python

https://medium.com/fintechexplained/from-python-installation-to-arima-exchange-rates-forecasting-9467ba03ee0c?spm=a2c4e.11153940.blogcont687256.12.5ecb11f4Xt6fSe

Python是數(shù)據分析和機器學習最流行的編程語言中的一種,并且有很多封裝好的工具包可供我們調用,實現(xiàn)起來相對而言比較簡單。

開始實施

1.選擇合適的機器學習算法。如何選擇合適的算法可以參考下面這篇文章:

機器學習算法大亂斗
https://medium.com/fintechexplained/machine-learning-algorithm-comparison-f14ce372b855?spm=a2c4e.11153940.blogcont687256.13.5ecb11f4Xt6fSe

現(xiàn)實中,不管是工業(yè)界,亦或是學業(yè)界,都有大量的機器學習算法可供使用。上述文章中將分析典型的機器學習算法各自的優(yōu)缺點,及針對的具體問題。

到目前為止,你可能已經理解了你需要解決的項目問題是有監(jiān)督問題還是無監(jiān)督問題。

然而,機器學習不像經典的程序設計一樣(給定一個輸入,其輸出是固定), 機器學習總有可能找到另外一個正確的答案。比如,預測問題中通常有多個正確的答案。

2.如果這是一個有監(jiān)督的機器學習問題,那么請確保你了解該項目是回歸還是分類問題。想弄清楚這點可以閱讀下面這篇文章:

有監(jiān)督的機器學習:回歸與分類
https://medium.com/fintechexplained/supervised-machine-learning-regression-vs-classification-18b2f97708de?spm=a2c4e.11153940.blogcont687256.14.5ecb11f4Xt6fSe

在上述文章中,將闡述有監(jiān)督學習中回歸問題和分類問題之間的關鍵差異。

3.如果是時間序列回歸問題,則在預測時間之前使時間序列數(shù)據保持不變。具體做法參考下面這篇文章:

我是如何預測時間序列?
https://medium.com/fintechexplained/forecasting-time-series-explained-5cc773b232b6?spm=a2c4e.11153940.blogcont687256.15.5ecb11f4Xt6fSe

預測、建模和推導時間序列在許多領域越來越受歡迎。時間序列一般用于預測未來。

4.找出一種預先測量算法性能的方法。如何確定評測指標可以參考下面這篇文章:

每個數(shù)據科學家必須知道的數(shù)學度量方法
https://medium.com/fintechexplained/must-know-mathematical-measures-for-data-scientist-15bfc4f7f39c?spm=a2c4e.11153940.blogcont687256.16.5ecb11f4Xt6fSe

每個數(shù)據科學家都需要了解大量的數(shù)學度量方法,比如準確度、AUC。

5.測量時間序列回歸模型的性能。可以參考下面這篇文章:

搭建的預測模型性能有多好——回歸分析
https://medium.com/fintechexplained/part-3-regression-analysis-bcfe15a12866?spm=a2c4e.11153940.blogcont687256.17.5ecb11f4Xt6fSe

預測是計量經濟學和數(shù)據科學中的一個重要概念,它也廣泛用于人工智能中。

6.調查是否需要使用ARIMA模型。詳細內容請參考下面這篇文章:

了解差分整合移動平均自回歸模型——ARIMA
https://medium.com/fintechexplained/understanding-auto-regressive-model-arima-4bd463b7a1bb?spm=a2c4e.11153940.blogcont687256.18.5ecb11f4Xt6fSe

在文章“如何預測時間序列?”中,提供了關于時間序列分析的相關概述。這篇文章的核心是了解ARIMA模型。

7.如果是無監(jiān)督的機器學習問題,那么需要了解群集是如何工作和實施的。詳細內容請參考下面這篇文章:

無監(jiān)督機器學習:聚類和K均值算法
https://medium.com/fintechexplained/unsupervised-machine-learning-clustering-and-k-means-5f6fee22009a?spm=a2c4e.11153940.blogcont687256.19.5ecb11f4Xt6fSe

上述文章解釋了聚類在無監(jiān)督機器學習中的工作原理。

8.探索神經網絡和深度學習,看看它是否適用于你的問題。詳細內容請參考下面這篇文章:

了解神經網絡:從激活函數(shù)到反向傳播
https://medium.com/fintechexplained/neural-networks-activation-function-to-back-propagation-understanding-neural-networks-bdd036c3f29f?spm=a2c4e.11153940.blogcont687256.20.5ecb11f4Xt6fSe

上述文章旨在闡述神經網絡的基本概述,講解基本概念,包含激活函數(shù)、反向傳播算法。

9.豐富你的特征集合,對其進行縮放、標準化和歸一化等。詳細內容請參考下面這篇文章:

處理數(shù)據以提高機器學習模型的準確性
https://medium.com/fintechexplained/processing-data-to-improve-machine-learning-models-accuracy-de17c655dc8e?spm=a2c4e.11153940.blogcont687256.21.5ecb11f4Xt6fSe

有時我們會建立一個機器學習模型,用我們的訓練數(shù)據訓練它,當我們訓練好后進行預測時,效果并不是很理想,有部分原因是數(shù)據集存在臟數(shù)據或不夠全面,因此需要對數(shù)據進行進一步的處理,比如數(shù)據清洗、增強等。

干凈的數(shù)據=良好的結果。

10.減少特征尺寸空間。詳細內容請參考下面這篇文章:

在數(shù)據科學中,什么是降維?
https://medium.com/fintechexplained/what-is-dimension-reduction-in-data-science-2aa5547f4d29?spm=a2c4e.11153940.blogcont687256.22.5ecb11f4Xt6fSe

雖然現(xiàn)在是大數(shù)據時代,有很多的數(shù)據可供使用,大量數(shù)據可以促使我們創(chuàng)建一個預測模型,但數(shù)據量不是越大越好,而是越精越好。

如果在豐富特征并減小尺寸后,模型沒有產生準確的結果,那么需要重新調整模型的參數(shù)。

11.微調機器學習模型參數(shù)。詳細內容請參考下面這篇文章:

[如何微調機器學習模型以提高模型的預測準確性?]()

微調機器學習預測模型是提高預測結果準確性的關鍵步驟。這個過程有些枯燥,需要一些耐心和運氣。

始終確保模型不會過擬合或欠擬合。

12.最后,重復這些步驟,直到獲得準確的結果:

豐富模型特征;

微調模型參數(shù);

 

 

始終對數(shù)據集進行分析,看看是否缺少任何的重要信息,在看到問題時解決問題,但在開始進行新的實驗前,始終需要備份并保存你前一份的工作內容,這是一個好的習慣么,因為你可能需要返回上一步再一次進行其它的實驗。

機器學習在本質上是回溯過程。

作者:Farhad Malik,數(shù)據科學

文章原標題《End To End Guide For Machine Learning Projects》,譯者:海棠

標簽: 大數(shù)據 大數(shù)據時代 金融 開發(fā)者 評測 數(shù)據分析 網絡

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2018 年度GtiHub開源項目 TOP 25:數(shù)據科學 & 機器學習

下一篇:官方解讀:TensorFlow 2.0中即將到來的所有新特性