站長資訊平臺

首頁 > IDC資訊 > IDC新聞

機器學習和深度學習中值得弄清楚的一些問題

2019-05-22 來源：raincent

問題1、線性回歸的損失函數(shù)是凸函數(shù)的證明

假設有l(wèi)個訓練樣本，特征向量為xi，標簽值為yi，這里使用均方誤差(MSE)，線性回歸訓練時優(yōu)化的目標為：

損失函數(shù)對權重向量w的一階偏導數(shù)為：

損失函數(shù)對權重向量w的二階偏導數(shù)為：

因此目標函數(shù)的Hessian矩陣為：

寫成矩陣形式為：

其中X是所有樣本的特征向量按照列構成的矩陣。對于任意不為0的向量x，有：

因此Hessian矩陣半正定，目標函數(shù)是凸函數(shù)。

問題2、L1和L2正則化的選定標準?

這個問題沒有理論上的定論。在神經(jīng)網(wǎng)絡中我們一般選擇L2正則化。以線性回歸為例，使用L2正則化的嶺回歸和和使用L1正則化的LASSO回歸都有應用。如果使用L2正則化，則正則化項的梯度值為w;如果是L1正則化，則正則化項的梯度值為sgn(w)。一般認為，L1正則化的結果更為稀疏。可以證明，兩種正則化項都是凸函數(shù)。

問題3、什么時候用樸素貝葉斯，什么時候用正態(tài)貝葉斯?

一般我們都用樸素貝葉斯，因為它計算簡單。除非特征向量維數(shù)不高、特征分量之間存在嚴重的相關性我們才用正態(tài)貝葉斯，如果特征向量是n維的，正態(tài)貝葉斯在訓練時需要計算n階矩陣的逆矩陣和行列式，這非常耗時。

問題4、可否請雷老師講解一下discriminative classifier 和generative classifier的異同?

判別模型直接得到預測函數(shù)f(x)，或者直接計算概率值p(y|x)，比如SVM和logistic回歸，softmax回歸。SVM直接得到分類超平面的方程，logistic回歸和softmax回歸，以及最后一層是softmax層的神經(jīng)網(wǎng)絡，直接根據(jù)輸入向量x得到它屬于每一類的概率值p(y|x)。判別模型只關心決策面，而不管樣本的概率分布。生成模型計算p(x, y)或者p(x|y) ，通俗來說，生成模型假設每個類的樣本服從某種概率分布，對這個概率分布進行建模。

問題5、雷老師下回可以分享一下自己的學習方法嗎? 機器學習的內(nèi)容又多又難，涉及理論與實踐，很容易碰到問題卡殼的情況。

首先要確定：卡殼在什么地方?數(shù)學公式不理解?算法的思想和原理不理解?還是算法的實現(xiàn)細節(jié)不清楚?

如果是數(shù)學知識欠缺，或者不能理解，需要先去補數(shù)學。如果是對機器學習算法本身使用的思想，思路不理解，則重點去推敲算法的思路。如果是覺得算法太抽象，則把算法形象化，用生動的例子來理解，或者看直觀的實驗結果。配合實驗，實踐，能更清楚的理解算法的效果，實現(xiàn)，細節(jié)問題。

問題6、流形學習，拉普拉斯特征映射，證明拉普拉斯矩陣半正定

假設L是圖的拉普拉斯矩陣，D是加權度對角矩陣，W是鄰接矩陣。對于任意不為0的向量f，有：

因此拉普拉斯矩陣半正定。這里矩陣D的對角線元素是矩陣W的每一行元素的和。

問題7、線性判別分析：優(yōu)化目標有冗余，這個冗余怎么理解呢?

線性判別分析優(yōu)化的目標函數(shù)為：

如果向量w是最優(yōu)解，則將其乘以不為0的系數(shù)k之后，向量kw仍然是最優(yōu)解，證明如下：

從幾何上看，w可kw這兩個向量表示的是一個方向，如果w是最佳投影方向，則kw還是這個方向：

問題8、決策樹，如果是回歸樹，在尋找最佳分裂時的標準

對于回歸樹，尋找最佳分裂的標準是分裂之后的回歸誤差最小化。這等價于讓分裂之前的回歸誤差減去分裂之后的回歸誤差最大化：

展開之后為：

由于前面的都是常數(shù)，因此這等價于將下面的值最大化：

問題9、抽樣誤差是怎么判定的?能否消除抽樣誤差?

只要抽樣的樣本不是整個樣本空間，理論上就會有抽樣誤差，只是是否嚴重而已。對于一個一般性的數(shù)據(jù)集，無法從理論上消除抽樣誤差。在機器學習中，我們無法得到所有可能的訓練樣本，只能從中抽取一部分，一般要讓樣本盡量有代表性、全面。

問題10、卷積神經(jīng)網(wǎng)絡中的w到底是怎么更新的，我知道利用梯度下降法和誤差函數(shù)可以更新w值，但是對具體更新的過程還不是很理解。比如每次怎么調整，是一層一層調整還是整體調整，調整的結果是遵循最小化誤差函數(shù)，但是過程中怎么能體現(xiàn)出來?

反向傳播時對每一層計算出參數(shù)梯度值之后立即更新;所有層都計算出梯度值之后一起更新，這兩種方式都是可以的。所有層的參數(shù)都按照梯度下降法更新完一輪，才算一次梯度下降法迭代。

問題11、對于凸優(yōu)化問題的理解，我自己感覺這個很難實現(xiàn)，首先實際問題中有許多問題是不知道約束問題和目標函數(shù)的，不知道是不是我做的圖像識別的問題，我之前對于目標函數(shù)的認識就是使用softmax的交叉損失函數(shù)，這里可能是我自己的理解不夠吧，還需要老師給點提示。

所有機器學習算法的優(yōu)化目標函數(shù)都是確定的，如果帶有約束條件，約束條件也是確定的，不會存在不知道目標函數(shù)和約束條件的算法

問題12、如何選擇機器學習算法是映射函數(shù)f(x)?

映射函數(shù)的選取沒有一個嚴格的理論。神經(jīng)網(wǎng)絡，決策樹可以擬合任意目標函數(shù)，但決策樹在高維空間容易過擬合，即遇到維數(shù)災難問題。神經(jīng)網(wǎng)絡的結構和激活函數(shù)確定之后，通過調節(jié)權重和偏置項可以得到不同的函數(shù)。決策樹也是如此，不同的樹結構代表不同的函數(shù)，而在訓練開始的時候我們并不知道函數(shù)具體是什么樣子的。其他的算法，函數(shù)都是確定的，如logistic回歸，SVM，我們能調節(jié)的只有它們的參數(shù)。每類問題我們都要考慮精度，速度來選擇適合它的函數(shù)。

問題13、梯度下降法的總結

1.為什么需要學習率?保證泰勒展開在x的鄰域內(nèi)進行，從而可以忽略高次項。

2.只要沒有到達駐點，每次迭代函數(shù)值一定能下降，前提是學習率設置合理。

3.迭代終止的判定規(guī)則。達到最大迭代次數(shù)，或者梯度充分接近于0。

4.只能保證找到梯度為0的點，不能保證找到極小值點，更不能保證找到全局極小值點。

梯度下降法的改進型，本質上都只用了梯度即一階導數(shù)信息，區(qū)別在于構造更新項的公式不同。

問題14、牛頓法的總結

1.不能保證每次迭代函數(shù)值下降。

2.不能保證收斂。

3.學習率的設定-直線搜索。

4.迭代終止的判定規(guī)則。達到最大迭代次數(shù)，或者梯度充分接近于0。

5.只能保證找到梯度為0的點，不能保證找到極小值點，更不能保證找到全局極小值點。