中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機器學習和深度學習中值得弄清楚的一些問題

2019-05-22    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

問題1、線性回歸的損失函數(shù)是凸函數(shù)的證明

假設有l(wèi)個訓練樣本,特征向量為xi,標簽值為yi,這里使用均方誤差(MSE),線性回歸訓練時優(yōu)化的目標為:

 

 

損失函數(shù)對權重向量w的一階偏導數(shù)為:

 

 

損失函數(shù)對權重向量w的二階偏導數(shù)為:

 

 

因此目標函數(shù)的Hessian矩陣為:

 

 

寫成矩陣形式為:

 

 

其中X是所有樣本的特征向量按照列構成的矩陣。對于任意不為0的向量x,有:

 

 

因此Hessian矩陣半正定,目標函數(shù)是凸函數(shù)。

問題2、L1和L2正則化的選定標準?

這個問題沒有理論上的定論。在神經(jīng)網(wǎng)絡中我們一般選擇L2正則化。以線性回歸為例,使用L2正則化的嶺回歸和和使用L1正則化的LASSO回歸都有應用。如果使用L2正則化,則正則化項的梯度值為w;如果是L1正則化,則正則化項的梯度值為sgn(w)。一般認為,L1正則化的結果更為稀疏。可以證明,兩種正則化項都是凸函數(shù)。

問題3、什么時候用樸素貝葉斯,什么時候用正態(tài)貝葉斯?

一般我們都用樸素貝葉斯,因為它計算簡單。除非特征向量維數(shù)不高、特征分量之間存在嚴重的相關性我們才用正態(tài)貝葉斯,如果特征向量是n維的,正態(tài)貝葉斯在訓練時需要計算n階矩陣的逆矩陣和行列式,這非常耗時。

問題4、可否請雷老師講解一下discriminative classifier 和generative classifier的異同?

判別模型直接得到預測函數(shù)f(x),或者直接計算概率值p(y|x),比如SVM和logistic回歸,softmax回歸。SVM直接得到分類超平面的方程,logistic回歸和softmax回歸,以及最后一層是softmax層的神經(jīng)網(wǎng)絡,直接根據(jù)輸入向量x得到它屬于每一類的概率值p(y|x)。判別模型只關心決策面,而不管樣本的概率分布。生成模型計算p(x, y)或者p(x|y) ,通俗來說,生成模型假設每個類的樣本服從某種概率分布,對這個概率分布進行建模。

 

 

問題5、雷老師下回可以分享一下自己的學習方法嗎? 機器學習的內(nèi)容又多又難,涉及理論與實踐,很容易碰到問題卡殼的情況。

首先要確定:卡殼在什么地方?數(shù)學公式不理解?算法的思想和原理不理解?還是算法的實現(xiàn)細節(jié)不清楚?

如果是數(shù)學知識欠缺,或者不能理解,需要先去補數(shù)學。如果是對機器學習算法本身使用的思想,思路不理解,則重點去推敲算法的思路。如果是覺得算法太抽象,則把算法形象化,用生動的例子來理解,或者看直觀的實驗結果。配合實驗,實踐,能更清楚的理解算法的效果,實現(xiàn),細節(jié)問題。

問題6、流形學習,拉普拉斯特征映射,證明拉普拉斯矩陣半正定

假設L是圖的拉普拉斯矩陣,D是加權度對角矩陣,W是鄰接矩陣。對于任意不為0的向量f,有:

 

 

因此拉普拉斯矩陣半正定。這里矩陣D的對角線元素是矩陣W的每一行元素的和。

問題7、線性判別分析:優(yōu)化目標有冗余,這個冗余怎么理解呢?

線性判別分析優(yōu)化的目標函數(shù)為:

 

 

如果向量w是最優(yōu)解,則將其乘以不為0的系數(shù)k之后,向量kw仍然是最優(yōu)解,證明如下:

 

 

從幾何上看,w可kw這兩個向量表示的是一個方向,如果w是最佳投影方向,則kw還是這個方向:

 

 

問題8、決策樹,如果是回歸樹,在尋找最佳分裂時的標準

對于回歸樹,尋找最佳分裂的標準是分裂之后的回歸誤差最小化。這等價于讓分裂之前的回歸誤差減去分裂之后的回歸誤差最大化:

 

 

展開之后為:

 

 

由于前面的都是常數(shù),因此這等價于將下面的值最大化:

 

 

問題9、抽樣誤差是怎么判定的?能否消除抽樣誤差?

只要抽樣的樣本不是整個樣本空間,理論上就會有抽樣誤差,只是是否嚴重而已。對于一個一般性的數(shù)據(jù)集,無法從理論上消除抽樣誤差。在機器學習中,我們無法得到所有可能的訓練樣本,只能從中抽取一部分,一般要讓樣本盡量有代表性、全面。

 

 

問題10、卷積神經(jīng)網(wǎng)絡中的w到底是怎么更新的,我知道利用梯度下降法和誤差函數(shù)可以更新w值,但是對具體更新的過程還不是很理解。比如每次怎么調整,是一層一層調整還是整體調整,調整的結果是遵循最小化誤差函數(shù),但是過程中怎么能體現(xiàn)出來?

反向傳播時對每一層計算出參數(shù)梯度值之后立即更新;所有層都計算出梯度值之后一起更新,這兩種方式都是可以的。所有層的參數(shù)都按照梯度下降法更新完一輪,才算一次梯度下降法迭代。

 

 

問題11、對于凸優(yōu)化問題的理解,我自己感覺這個很難實現(xiàn),首先實際問題中有許多問題是不知道約束問題和目標函數(shù)的,不知道是不是我做的圖像識別的問題,我之前對于目標函數(shù)的認識就是使用softmax的交叉損失函數(shù),這里可能是我自己的理解不夠吧,還需要老師給點提示。

所有機器學習算法的優(yōu)化目標函數(shù)都是確定的,如果帶有約束條件,約束條件也是確定的,不會存在不知道目標函數(shù)和約束條件的算法

問題12、如何選擇機器學習算法是映射函數(shù)f(x)?

映射函數(shù)的選取沒有一個嚴格的理論。神經(jīng)網(wǎng)絡,決策樹可以擬合任意目標函數(shù),但決策樹在高維空間容易過擬合,即遇到維數(shù)災難問題。神經(jīng)網(wǎng)絡的結構和激活函數(shù)確定之后,通過調節(jié)權重和偏置項可以得到不同的函數(shù)。決策樹也是如此,不同的樹結構代表不同的函數(shù),而在訓練開始的時候我們并不知道函數(shù)具體是什么樣子的。其他的算法,函數(shù)都是確定的,如logistic回歸,SVM,我們能調節(jié)的只有它們的參數(shù)。每類問題我們都要考慮精度,速度來選擇適合它的函數(shù)。

問題13、梯度下降法的總結

1.為什么需要學習率?保證泰勒展開在x的鄰域內(nèi)進行,從而可以忽略高次項。

2.只要沒有到達駐點,每次迭代函數(shù)值一定能下降,前提是學習率設置合理。

3.迭代終止的判定規(guī)則。達到最大迭代次數(shù),或者梯度充分接近于0。

4.只能保證找到梯度為0的點,不能保證找到極小值點,更不能保證找到全局極小值點。

梯度下降法的改進型,本質上都只用了梯度即一階導數(shù)信息,區(qū)別在于構造更新項的公式不同。

問題14、牛頓法的總結

1.不能保證每次迭代函數(shù)值下降。

2.不能保證收斂。

3.學習率的設定-直線搜索。

4.迭代終止的判定規(guī)則。達到最大迭代次數(shù),或者梯度充分接近于0。

5.只能保證找到梯度為0的點,不能保證找到極小值點,更不能保證找到全局極小值點。

問題15、為什么不能用斜率截距式的方程?

無法表達斜率為正無窮的情況-垂直的直線。直線方程兩邊同乘以一個不為0的數(shù),還是同一條直線。

 

 

問題16、神經(jīng)網(wǎng)絡的正則化項和動量項的比較。

正則化項的作用:緩解過擬合,迫使參數(shù)盡可能小。以L2正則化為例:

 

 

動量項的作用:加速收斂,減少震蕩。計算公式為:

 

 

 

 

這相當于累積了之前的梯度信息,并且呈指數(shù)級衰減。實現(xiàn)時,先加正則化項,計算動量項。

標簽: [db:TAGG]

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:在12家科技創(chuàng)業(yè)公司工作后,這是我的8條經(jīng)驗

下一篇:工行基于MySQL構建分布式架構的轉型之路