中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

這些深度學習術語,你了解多少?(上)

2018-10-24    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

對于一個新手來說,深度學習術語可能非常難以理解。本表試圖解釋深度學習常用術語并鏈接到原始參考,以幫助讀者深入了解特定主題。

深度學習與“一般”的機器學習術語之間的界限非常模糊。例如,我這里不包括“交叉驗證”,因為它是一種通用技術,用于整個機器學習。但是,我加入了softmaxword2vec等術語,因為它們通常與深度學習相關,即使它們不是深度學習技術。

激活函數(shù)


為了讓神經(jīng)網(wǎng)絡學習復雜的決策邊界,我們將非線性激活函數(shù)應用于其某些層。常用的函數(shù)包括sigmoid、tanh、ReLU(整流線性單元)及它們的變體。

Adadelta


Adadelta是一種基于梯度下降的學習算法,可以隨時間調(diào)整每個參數(shù)的學習速率。它被認為是對Adagrad的改進,因為Adagrad對超參數(shù)很敏感,并且可能過于快速的降低學習速度。Adadelta類似于rmsprop,可以用來代替樸素SGD

相關資源:

1、ADADELTA:一種自適應學習率方法;

2、斯坦福CS231n:優(yōu)化算法;

3、梯度下降優(yōu)化算法概述


Adagrad


Adagrad是一種自適應學習速率算法,它可以跟隨時間變化,并自動調(diào)整每個參數(shù)的學習速率。它可以代替vanilla SGD使用,并且對稀疏數(shù)據(jù)特別有用,它可以為不經(jīng)常更新的參數(shù)分配更高的學習率。

相關資源:

1、在線學習和隨機優(yōu)化的自適應梯度下降方法;

2、斯坦福CS231n:優(yōu)化算法;

3、梯度下降優(yōu)化算法概述


Adam


Adam是一種類似于rmsprop的自適應學習速率算法,但是使用梯度的第一和第二時刻的運行平均值直接估計更新,并且還包括偏差校正項。

1、Adam:隨機優(yōu)化的一種方法

2、梯度下降優(yōu)化算法概述


Affine layer(仿射層)


一種神經(jīng)網(wǎng)絡中的完全連接層。仿射意味著前一層中的每個神經(jīng)元都連接到當前層中的每個神經(jīng)元。在許多情況下,這是神經(jīng)網(wǎng)絡的“標準”層。在進行最終預測之前,通常會在卷積神經(jīng)網(wǎng)絡遞歸神經(jīng)網(wǎng)絡的輸出之上添加仿射層。仿射層通常形式的y=f(Wx+b),其中x是該層的輸入,W參數(shù),b偏置向量,f是非線性激活函數(shù)

注意力機制


注意力機制受到人類視覺注意力機制的啟發(fā),即關注圖像特定部分的能力。注意力機制可以應用在語言處理和圖像識別架構中,以幫助網(wǎng)絡了解在進行預測時“關注”的內(nèi)容。

1、深度學習和NLP中的注意力機制


Alexnet


Alexnet是一種卷積神經(jīng)網(wǎng)絡架構的名稱,它以絕對的優(yōu)勢贏得了ILSVRC 2012競賽。它由五個卷積層組成,其中一些后面是最大池層,三個是完全連接的層,最后是1000-way softmax。Alexnet在深度卷積神經(jīng)網(wǎng)絡的ImageNet分類中被引入。

動編碼


自動編碼器是一種神經(jīng)網(wǎng)絡模型,其目標是預測輸入本身,通常是通過網(wǎng)絡中某處的“瓶頸”。通過引入瓶頸,我們可以強制網(wǎng)絡輸入的低維表示,這樣能有效地將輸入壓縮為更好的表示。自動編碼器與PCA和其他降維技術差不多,但由于其非線性的特性,它可以學習更復雜的映射。而且存在很多種自動編碼器架構,包括去噪自動編碼器、變分自動編碼器序列自動編碼器

平均池(Average-Pooling


Average-Pooling是用于圖像識別的卷積神經(jīng)網(wǎng)絡的匯集技術。它的工作原理是在一系列特征(例如像素)上滑動窗口,并獲取窗口內(nèi)所有值的平均值。它可以將輸入壓縮為較低維表示。

反向


反向傳播是一種有效計算神經(jīng)網(wǎng)絡中梯度的算法,更一般地說,是一種前饋計算圖。可以把它歸結為從網(wǎng)絡輸出開始應用差異化的鏈規(guī)則并向后傳播梯度,反向傳播的第一次使用可以追溯到1960年代的Vapnik。

1、計算圖上的微積分:反向傳播


反向時間BPTT


Backpropagation Through Timepaper)是應用于遞歸神經(jīng)網(wǎng)絡(RNN)的反向傳播算法。BPTT可被視為應用于RNN的標準反向傳播算法,其中每個時間步長代表一個層,并且參數(shù)在各層之間共享。由于RNN在所有時間步驟中共享相同的參數(shù),因此必須將“一段時間”的錯誤“通過時間”反向傳播到所有先前的時間步驟,因此名稱。當處理長序列時,經(jīng)常使用Truncated-BPTT來降低計算成本。Truncated-BPTT在固定步數(shù)后停止反向傳播錯誤。

1、過時間反向播:它做什么以及如何做到一點


批量準化(Batch Normalization)


批量標準化是一種對每個小批量的層輸入進行標準化的技術。它加快了訓練的速度,允許使用更高的學習率。目前已經(jīng)發(fā)現(xiàn)批量標準化對卷積和前饋神經(jīng)網(wǎng)絡非常有效,但尚未成功應用于遞歸神經(jīng)網(wǎng)絡。

1、批量標準化:通過減少內(nèi)部協(xié)變量轉換來加速深度網(wǎng)絡訓練;

2、批量標準化遞歸神經(jīng)網(wǎng)絡;


雙向RNN


雙向RNN是一種神經(jīng)網(wǎng)絡,包含兩個進入不同方向的RNN。前向RNN從開始到結束讀取輸入序列,而后向RNN從結束到開始讀取輸入序列。兩個RNN堆疊在彼此之上,并且通常通過附加兩個向量來組合它們的狀態(tài)。雙向RNN通常用于自然語言問題,因為希望在進行預測之前考慮單詞之前和之后的上下文。

1、雙向遞歸經(jīng)網(wǎng);


Caffe


Caffe是伯克利視覺和學習中心開發(fā)的深度學習框架,Caffe在視覺任務和CNN模型中特別受歡迎。

交叉熵損失(Categorical Cross-Entropy Loss)


分類交叉熵損失也稱為負對數(shù)似然,它是分類問題中流行損失函數(shù),它可以測量兩個概率分布之間的相似性,通常是真實標簽和預測標簽。它由真實標簽的概率分布L =-sum(y * log(y_prediction))在何處給出,y_prediction是預測標簽的概率分布,通常來自softmax

通道(Channel)


向Deep Learning模型輸入數(shù)據(jù)可以有多個通道。一般的圖像是具有紅色、綠色和藍色通道。圖像可以表示為三維張量,其尺寸對應于通道、高度和寬度。自然語言數(shù)據(jù)也可以具有多個通道,例如以不同類型的嵌入的形式。


經(jīng)網(wǎng)CNNConvNet


CNN使用卷積來連接輸入的局部區(qū)域的提取特征。大多數(shù)CNN都包含卷積,匯集仿射層。CNN已經(jīng)越來越受歡迎,特別是他們在視覺識別任務方面的出色表現(xiàn)。

1、斯坦福CS231n類-視覺識別的卷積神經(jīng)網(wǎng)絡

2、NLP中使用卷積神經(jīng)網(wǎng)絡;


深度信念網(wǎng)DBN


DBN是一種概率圖形模型,其以無監(jiān)督的方式學習數(shù)據(jù)的分層表示。DBN由多個隱藏層組成,每個連續(xù)的層中的神經(jīng)元之間具有連接。DBN是通過將多個RBN堆疊在一起并逐個訓練來構建的。

1、深度信念網(wǎng)絡的快速學習算法


DeepDream


Google發(fā)明的一種技術,旨在提煉深層卷積神經(jīng)網(wǎng)絡捕獲的知識。該技術可以生成新圖像或者轉換現(xiàn)有圖像并賦予它們夢幻般的風格。

Dropout


Dropout是神經(jīng)網(wǎng)絡的正則化技術,可防止過度擬合。它通過在每次訓練迭代中將它們的一部分隨機設置為0來防止神經(jīng)元過度適應?梢砸愿鞣N方式解釋丟失,例如從指數(shù)數(shù)量的不同網(wǎng)絡中隨機采樣。Dropout層首先通過在CNN的使用而獲得普及,但此后已應用于其他層。

1、Dropout:一種防止神經(jīng)網(wǎng)絡過度擬合的簡單方法

2、遞歸神經(jīng)網(wǎng)絡正則化


嵌入(Embedding)


嵌入是將輸入(例如單詞或句子)映射到向量中。有一種流行的嵌入類型是word嵌入,例如word2vecGloVe。它們可以嵌入句子,段落或圖像。例如,通過將圖像及其文本描述映射到公共嵌入空間并最小化它們之間的距離,我們可以將標簽與圖像匹配。嵌入可以明確地學習,例如在word2vec,也作為監(jiān)督任務的一部分,例如情感分析。通常,網(wǎng)絡的輸入層用預先訓練的嵌入進行初始化,然后將其微調(diào)到手頭的任務。

梯度爆炸問題


梯度爆炸問題正好與消失梯度問題相反。在深度神經(jīng)網(wǎng)絡中,梯度可能在反向傳播期間爆炸,導致數(shù)量溢出。處理梯度爆炸的常用技術是執(zhí)行梯度裁剪。

1、訓練遞歸經(jīng)網(wǎng)


調(diào)


微調(diào)是指使用來自其他任務(例如無人監(jiān)督的訓練任務)的參數(shù)初始化網(wǎng)絡,然后根據(jù)手頭的任務更新這些參數(shù)的技術。例如,NLP架構通常使用像word2vec這樣的預訓練詞嵌入模型,然后在訓練期間根據(jù)諸如情感分析之類的特定任務更新這些詞嵌入模型。

梯度裁剪


梯度裁剪是一種防止在非常深的網(wǎng)絡中爆炸梯度的技術。執(zhí)行梯度裁剪有很多方式,但常見的是當參數(shù)矢量的L2范數(shù)超過某個閾值時歸一化參數(shù)矢量的梯度new_gradients=gradients * threshold/l2_norm(gradients)

手套(GloVe)


GloVe是一種用于獲得單詞的矢量表示(嵌入)的無監(jiān)督學習算法。GloVe向量與word2vec具有相同的目的,但由于受到共現(xiàn)統(tǒng)計的訓練,因此具有不同的向量表示。

1、GloVeWord表征的全局向量


GoogleLeNet


它是贏得ILSVRC 2014挑戰(zhàn)的卷積神經(jīng)網(wǎng)絡架構。網(wǎng)絡使用Inception模塊來減少參數(shù)并提高網(wǎng)絡內(nèi)計算資源的利用率。

GRU


門控循環(huán)單元是LSTM單元的簡化版本,參數(shù)較少。就像LSTM單元一樣,它使用門控機制防止RNN通過出現(xiàn)梯度消失的問題。GRU由一個復位門和更新門組成,用于確定舊存儲器的哪一部分與當前時間步的新值保持一致。

1、使用RNN編碼器-解碼器學習短語表示以進行統(tǒng)計機器翻譯

2、循環(huán)神經(jīng)網(wǎng)絡教程-使用Python和Theano實現(xiàn)GRU/LSTM RNN;


初始模


初始模塊用于卷積神經(jīng)網(wǎng)絡,通過堆疊1×1卷積降低維數(shù),實現(xiàn)更高效的計算和更深入的網(wǎng)絡。
 

Keras


Kears是一個基于Python的深度學習庫,包含許多用于深度神經(jīng)網(wǎng)絡的高級構建塊。它可以在TensorFlowTheanoCNTK之上運行。

LSTM


長短期記憶網(wǎng)絡是為了通過使用記憶門控機制來防止遞歸神經(jīng)網(wǎng)絡中的消失梯度問題。使用LSTM單元計算RNN中的隱藏狀態(tài),幫助網(wǎng)絡有效地傳播梯度并學習遠程依賴性。

1、長短期記憶網(wǎng)絡;

2、了解LSTM網(wǎng)絡;

3、循環(huán)神經(jīng)網(wǎng)絡教程-使用Python和Theano實現(xiàn)GRU/LSTM RNN;


Max-pooling


操作通常在卷積神經(jīng)網(wǎng)絡中使用。最大池層會選擇特征塊中的最大值,就像卷積層一樣,池化層通過窗口大小和步幅大小進行參數(shù)化。例如,我們可以使用步幅大小2在10×10特征矩陣上滑動尺寸為2×2的窗口,在每個窗口內(nèi)的所有4個值中選擇最大值,從而產(chǎn)生新的5×5特征矩陣。合并圖層有助于通過僅保留最顯著的信息來減少表征的維度,并且在圖像輸入的情況下,它們提供轉換的基本不變性(即使圖像移動了幾個像素,也將選擇相同的最大值)。通常在連續(xù)的卷積層之間會插入池化層。


MNIST

MNIST數(shù)據(jù)集是最常用的圖像識別數(shù)據(jù)集。它包括60,000個訓練和10,000個手寫數(shù)字測試示例。每個圖像大28×28像素,現(xiàn)有技術模型通常在測試裝置上達到99.5%或更高的精度。

未完待續(xù)····

文章原標題《deep-learning-glossary》

作者:wildml 譯者:虎說八道,審校:。

標簽: Google 網(wǎng)絡

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)時代人工智能在計算機網(wǎng)絡中的運用研究

下一篇:數(shù)據(jù)科學家最需要什么技能?