站長資訊平臺

這些深度學(xué)習(xí)術(shù)語，你了解多少？（上）

2018-10-24 來源：raincent

對于一個新手來說，深度學(xué)習(xí)術(shù)語可能非常難以理解。本表試圖解釋深度學(xué)習(xí)常用術(shù)語并鏈接到原始參考，以幫助讀者深入了解特定主題。

深度學(xué)習(xí)與“一般”的機(jī)器學(xué)習(xí)術(shù)語之間的界限非常模糊。例如，我這里不包括“交叉驗證”，因為它是一種通用技術(shù)，用于整個機(jī)器學(xué)習(xí)。但是，我加入了softmax或word2vec等術(shù)語，因為它們通常與深度學(xué)習(xí)相關(guān)，即使它們不是深度學(xué)習(xí)技術(shù)。

激活函數(shù)

為了讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的決策邊界，我們將非線性激活函數(shù)應(yīng)用于其某些層。常用的函數(shù)包括sigmoid、tanh、ReLU（整流線性單元）及它們的變體。

Adadelta

Adadelta是一種基于梯度下降的學(xué)習(xí)算法，可以隨時間調(diào)整每個參數(shù)的學(xué)習(xí)速率。它被認(rèn)為是對Adagrad的改進(jìn)，因為Adagrad對超參數(shù)很敏感，并且可能過于快速的降低學(xué)習(xí)速度。Adadelta類似于rmsprop，可以用來代替樸素SGD。

相關(guān)資源：

1、ADADELTA：一種自適應(yīng)學(xué)習(xí)率方法；

2、斯坦福CS231n：優(yōu)化算法；

3、梯度下降優(yōu)化算法概述；

Adagrad

Adagrad是一種自適應(yīng)學(xué)習(xí)速率算法，它可以跟隨時間變化，并自動調(diào)整每個參數(shù)的學(xué)習(xí)速率。它可以代替vanilla SGD使用，并且對稀疏數(shù)據(jù)特別有用，它可以為不經(jīng)常更新的參數(shù)分配更高的學(xué)習(xí)率。

相關(guān)資源：

1、在線學(xué)習(xí)和隨機(jī)優(yōu)化的自適應(yīng)梯度下降方法；

2、斯坦福CS231n：優(yōu)化算法；

3、梯度下降優(yōu)化算法概述；

Adam

Adam是一種類似于rmsprop的自適應(yīng)學(xué)習(xí)速率算法，但是使用梯度的第一和第二時刻的運(yùn)行平均值直接估計更新，并且還包括偏差校正項。

1、Adam：隨機(jī)優(yōu)化的一種方法

2、梯度下降優(yōu)化算法概述

Affine layer(仿射層)

一種神經(jīng)網(wǎng)絡(luò)中的完全連接層。仿射意味著前一層中的每個神經(jīng)元都連接到當(dāng)前層中的每個神經(jīng)元。在許多情況下，這是神經(jīng)網(wǎng)絡(luò)的“標(biāo)準(zhǔn)”層。在進(jìn)行最終預(yù)測之前，通常會在卷積神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)的輸出之上添加仿射層。仿射層通常形式的y=f(Wx+b)，其中x是該層的輸入，W參數(shù)，b偏置向量，f是非線性激活函數(shù)。

注意力機(jī)制

注意力機(jī)制受到人類視覺注意力機(jī)制的啟發(fā)，即關(guān)注圖像特定部分的能力。注意力機(jī)制可以應(yīng)用在語言處理和圖像識別架構(gòu)中，以幫助網(wǎng)絡(luò)了解在進(jìn)行預(yù)測時“關(guān)注”的內(nèi)容。

1、深度學(xué)習(xí)和NLP中的注意力機(jī)制

Alexnet

Alexnet是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的名稱，它以絕對的優(yōu)勢贏得了ILSVRC 2012競賽。它由五個卷積層組成，其中一些后面是最大池層，三個是完全連接的層，最后是1000-way softmax。Alexnet在深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類中被引入。

自動編碼器

自動編碼器是一種神經(jīng)網(wǎng)絡(luò)模型，其目標(biāo)是預(yù)測輸入本身，通常是通過網(wǎng)絡(luò)中某處的“瓶頸”。通過引入瓶頸，我們可以強(qiáng)制網(wǎng)絡(luò)輸入的低維表示，這樣能有效地將輸入壓縮為更好的表示。自動編碼器與PCA和其他降維技術(shù)差不多，但由于其非線性的特性，它可以學(xué)習(xí)更復(fù)雜的映射。而且存在很多種自動編碼器架構(gòu)，包括去噪自動編碼器、變分自動編碼器或序列自動編碼器。

平均池（Average-Pooling）

Average-Pooling是用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò)的匯集技術(shù)。它的工作原理是在一系列特征（例如像素）上滑動窗口，并獲取窗口內(nèi)所有值的平均值。它可以將輸入壓縮為較低維表示。

反向傳播

反向傳播是一種有效計算神經(jīng)網(wǎng)絡(luò)中梯度的算法，更一般地說，是一種前饋計算圖�？梢园阉鼩w結(jié)為從網(wǎng)絡(luò)輸出開始應(yīng)用差異化的鏈規(guī)則并向后傳播梯度，反向傳播的第一次使用可以追溯到1960年代的Vapnik。

1、計算圖上的微積分：反向傳播

反向傳播時間（BPTT）

Backpropagation Through Time（paper）是應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò)（RNN）的反向傳播算法。BPTT可被視為應(yīng)用于RNN的標(biāo)準(zhǔn)反向傳播算法，其中每個時間步長代表一個層，并且參數(shù)在各層之間共享。由于RNN在所有時間步驟中共享相同的參數(shù)，因此必須將“一段時間”的錯誤“通過時間”反向傳播到所有先前的時間步驟，因此名稱。當(dāng)處理長序列時，經(jīng)常使用Truncated-BPTT來降低計算成本。Truncated-BPTT在固定步數(shù)后停止反向傳播錯誤。

1、通過時間反向傳播：它做什么以及如何做到這一點(diǎn)

批量標(biāo)準(zhǔn)化（Batch Normalization）

批量標(biāo)準(zhǔn)化是一種對每個小批量的層輸入進(jìn)行標(biāo)準(zhǔn)化的技術(shù)。它加快了訓(xùn)練的速度，允許使用更高的學(xué)習(xí)率。目前已經(jīng)發(fā)現(xiàn)批量標(biāo)準(zhǔn)化對卷積和前饋神經(jīng)網(wǎng)絡(luò)非常有效，但尚未成功應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò)。

1、批量標(biāo)準(zhǔn)化：通過減少內(nèi)部協(xié)變量轉(zhuǎn)換來加速深度網(wǎng)絡(luò)訓(xùn)練；

2、批量標(biāo)準(zhǔn)化遞歸神經(jīng)網(wǎng)絡(luò)；

雙向RNN

雙向RNN是一種神經(jīng)網(wǎng)絡(luò)，包含兩個進(jìn)入不同方向的RNN。前向RNN從開始到結(jié)束讀取輸入序列，而后向RNN從結(jié)束到開始讀取輸入序列。兩個RNN堆疊在彼此之上，并且通常通過附加兩個向量來組合它們的狀態(tài)。雙向RNN通常用于自然語言問題，因為希望在進(jìn)行預(yù)測之前考慮單詞之前和之后的上下文。

1、雙向遞歸神經(jīng)網(wǎng)絡(luò);

Caffe

Caffe是伯克利視覺和學(xué)習(xí)中心開發(fā)的深度學(xué)習(xí)框架，Caffe在視覺任務(wù)和CNN模型中特別受歡迎。

分類交叉熵?fù)p失（Categorical Cross-Entropy Loss）

分類交叉熵?fù)p失也稱為負(fù)對數(shù)似然，它是分類問題中流行損失函數(shù)，它可以測量兩個概率分布之間的相似性，通常是真實(shí)標(biāo)簽和預(yù)測標(biāo)簽。它由真實(shí)標(biāo)簽的概率分布L =-sum(y * log(y_prediction))在何處給出，y_prediction是預(yù)測標(biāo)簽的概率分布，通常來自softmax。

通道（Channel）

向Deep Learning模型輸入數(shù)據(jù)可以有多個通道。一般的圖像是具有紅色、綠色和藍(lán)色通道。圖像可以表示為三維張量，其尺寸對應(yīng)于通道、高度和寬度。自然語言數(shù)據(jù)也可以具有多個通道，例如以不同類型的嵌入的形式。

卷積神經(jīng)網(wǎng)絡(luò)（CNN，ConvNet）

CNN使用卷積來連接輸入的局部區(qū)域的提取特征。大多數(shù)CNN都包含卷積，匯集和仿射層。CNN已經(jīng)越來越受歡迎，特別是他們在視覺識別任務(wù)方面的出色表現(xiàn)。

1、斯坦福CS231n類-視覺識別的卷積神經(jīng)網(wǎng)絡(luò)

2、NLP中使用卷積神經(jīng)網(wǎng)絡(luò)；

深度信念網(wǎng)絡(luò)（DBN）

DBN是一種概率圖形模型，其以無監(jiān)督的方式學(xué)習(xí)數(shù)據(jù)的分層表示。DBN由多個隱藏層組成，每個連續(xù)的層中的神經(jīng)元之間具有連接。DBN是通過將多個RBN堆疊在一起并逐個訓(xùn)練來構(gòu)建的。

1、深度信念網(wǎng)絡(luò)的快速學(xué)習(xí)算法

DeepDream

Google發(fā)明的一種技術(shù)，旨在提煉深層卷積神經(jīng)網(wǎng)絡(luò)捕獲的知識。該技術(shù)可以生成新圖像或者轉(zhuǎn)換現(xiàn)有圖像并賦予它們夢幻般的風(fēng)格。

Dropout

Dropout是神經(jīng)網(wǎng)絡(luò)的正則化技術(shù)，可防止過度擬合。它通過在每次訓(xùn)練迭代中將它們的一部分隨機(jī)設(shè)置為0來防止神經(jīng)元過度適應(yīng)�？梢砸愿鞣N方式解釋丟失，例如從指數(shù)數(shù)量的不同網(wǎng)絡(luò)中隨機(jī)采樣。Dropout層首先通過在CNN中的使用而獲得普及，但此后已應(yīng)用于其他層。

1、Dropout：一種防止神經(jīng)網(wǎng)絡(luò)過度擬合的簡單方法

2、遞歸神經(jīng)網(wǎng)絡(luò)正則化

嵌入（Embedding）

嵌入是將輸入（例如單詞或句子）映射到向量中。有一種流行的嵌入類型是word嵌入，例如word2vec或GloVe。它們可以嵌入句子，段落或圖像。例如，通過將圖像及其文本描述映射到公共嵌入空間并最小化它們之間的距離，我們可以將標(biāo)簽與圖像匹配。嵌入可以明確地學(xué)習(xí)，例如在word2vec中，也作為監(jiān)督任務(wù)的一部分，例如情感分析。通常，網(wǎng)絡(luò)的輸入層用預(yù)先訓(xùn)練的嵌入進(jìn)行初始化，然后將其微調(diào)到手頭的任務(wù)。

梯度爆炸問題

梯度爆炸問題正好與消失梯度問題相反。在深度神經(jīng)網(wǎng)絡(luò)中，梯度可能在反向傳播期間爆炸，導(dǎo)致數(shù)量溢出。處理梯度爆炸的常用技術(shù)是執(zhí)行梯度裁剪。

1、訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)的難點(diǎn)；

微調(diào)

微調(diào)是指使用來自其他任務(wù)（例如無人監(jiān)督的訓(xùn)練任務(wù)）的參數(shù)初始化網(wǎng)絡(luò)，然后根據(jù)手頭的任務(wù)更新這些參數(shù)的技術(shù)。例如，NLP架構(gòu)通常使用像word2vec這樣的預(yù)訓(xùn)練詞嵌入模型，然后在訓(xùn)練期間根據(jù)諸如情感分析之類的特定任務(wù)更新這些詞嵌入模型。

梯度裁剪

梯度裁剪是一種防止在非常深的網(wǎng)絡(luò)中爆炸梯度的技術(shù)。執(zhí)行梯度裁剪有很多方式，但常見的是當(dāng)參數(shù)矢量的L2范數(shù)超過某個閾值時歸一化參數(shù)矢量的梯度new_gradients=gradients * threshold/l2_norm(gradients)。

手套（GloVe）

GloVe是一種用于獲得單詞的矢量表示（嵌入）的無監(jiān)督學(xué)習(xí)算法。GloVe向量與word2vec具有相同的目的，但由于受到共現(xiàn)統(tǒng)計的訓(xùn)練，因此具有不同的向量表示。

1、GloVe：Word表征的全局向量

GoogleLeNet

它是贏得ILSVRC 2014挑戰(zhàn)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。網(wǎng)絡(luò)使用Inception模塊來減少參數(shù)并提高網(wǎng)絡(luò)內(nèi)計算資源的利用率。

GRU

門控循環(huán)單元是LSTM單元的簡化版本，參數(shù)較少。就像LSTM單元一樣，它使用門控機(jī)制防止RNN通過出現(xiàn)梯度消失的問題。GRU由一個復(fù)位門和更新門組成，用于確定舊存儲器的哪一部分與當(dāng)前時間步的新值保持一致。

1、使用RNN編碼器-解碼器學(xué)習(xí)短語表示以進(jìn)行統(tǒng)計機(jī)器翻譯；

2、循環(huán)神經(jīng)網(wǎng)絡(luò)教程-使用Python和Theano實(shí)現(xiàn)GRU/LSTM RNN；

初始模塊

初始模塊用于卷積神經(jīng)網(wǎng)絡(luò)，通過堆疊1×1卷積降低維數(shù)，實(shí)現(xiàn)更高效的計算和更深入的網(wǎng)絡(luò)。

Keras

Kears是一個基于Python的深度學(xué)習(xí)庫，包含許多用于深度神經(jīng)網(wǎng)絡(luò)的高級構(gòu)建塊。它可以在TensorFlow、Theano或CNTK之上運(yùn)行。

LSTM

長短期記憶網(wǎng)絡(luò)是為了通過使用記憶門控機(jī)制來防止遞歸神經(jīng)網(wǎng)絡(luò)中的消失梯度問題。使用LSTM單元計算RNN中的隱藏狀態(tài)，幫助網(wǎng)絡(luò)有效地傳播梯度并學(xué)習(xí)遠(yuǎn)程依賴性。

1、長短期記憶網(wǎng)絡(luò)；

2、了解LSTM網(wǎng)絡(luò)；

3、循環(huán)神經(jīng)網(wǎng)絡(luò)教程-使用Python和Theano實(shí)現(xiàn)GRU/LSTM RNN；

Max-pooling

池操作通常在卷積神經(jīng)網(wǎng)絡(luò)中使用。最大池層會選擇特征塊中的最大值，就像卷積層一樣，池化層通過窗口大小和步幅大小進(jìn)行參數(shù)化。例如，我們可以使用步幅大小2在10×10特征矩陣上滑動尺寸為2×2的窗口，在每個窗口內(nèi)的所有4個值中選擇最大值，從而產(chǎn)生新的5×5特征矩陣。合并圖層有助于通過僅保留最顯著的信息來減少表征的維度，并且在圖像輸入的情況下，它們提供轉(zhuǎn)換的基本不變性（即使圖像移動了幾個像素，也將選擇相同的最大值）。通常在連續(xù)的卷積層之間會插入池化層。

MNIST

該MNIST數(shù)據(jù)集是最常用的圖像識別數(shù)據(jù)集。它包括60,000個訓(xùn)練和10,000個手寫數(shù)字測試示例。每個圖像大28×28像素，現(xiàn)有技術(shù)模型通常在測試裝置上達(dá)到99.5％或更高的精度。

未完待續(xù)····

文章原標(biāo)題《deep-learning-glossary》

作者：wildml 譯者：虎說八道，審校：。

標(biāo)簽： Google 網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)時代人工智能在計算機(jī)網(wǎng)絡(luò)中的運(yùn)用研究

下一篇:數(shù)據(jù)科學(xué)家最需要什么技能？

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗 IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

這些深度學(xué)習(xí)術(shù)語，你了解多少？（上）