中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

推薦系統(tǒng)工程師必看:Embedding 技術(shù)在深度學(xué)習(xí) CTR 模型中的應(yīng)用

2019-05-28    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

這篇文章中,我希望單獨(dú)將 Embedding 技術(shù)抽取出來進(jìn)行講解。因?yàn)樽鳛樯疃葘W(xué)習(xí) CTR 模型中基礎(chǔ)性的,也是不可或缺的“基本操作”,Embedding 技術(shù)發(fā)揮著至關(guān)重要的作用。具體來講,Embedding 技術(shù)在深度學(xué)習(xí) CTR 模型中主要應(yīng)用在下面三個方向:

在深度學(xué)習(xí)網(wǎng)絡(luò)中作為 Embedding 層,完成從高維稀疏特征向量到低維稠密特征向量的轉(zhuǎn)換;

作為預(yù)訓(xùn)練的 Embedding 特征向量,與其他特征向量連接后一同輸入深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;

通過計(jì)算用戶和物品的 Embedding 相似度,Embedding 可以直接作為推薦系統(tǒng)或計(jì)算廣告系統(tǒng)的召回層或者召回方法之一。

下面逐一介紹 Embedding 與深度學(xué)習(xí) CTR 模型結(jié)合的具體方法。

一、深度學(xué)習(xí)網(wǎng)絡(luò)中的 Embedding 層

由于高維稀疏特征向量天然不適合多層復(fù)雜神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,因此如果使用深度學(xué)習(xí)模型處理高維稀疏特征向量,幾乎都會在輸入層到全連接層之間加入 Embedding 層完成高維稀疏特征向量到低維稠密特征向量的轉(zhuǎn)換。典型的例子是微軟的 Deep Crossing 模型和 Google 的 Wide&Deep 模型的深度部分(如圖 1)。

 

 

a 微軟 Deep Crossing 模型

 

 

b Google W&D 中的 Deep 部分

圖 1 Deep Crossing 和 Wide&Deep 模型結(jié)構(gòu)

讀者可以清晰地看到 Deep Crossing 模型中的 Embedding 層將每一個 Feature 轉(zhuǎn)換成稠密向量,Wide&Deep 模型中 Deep 部分的 Dense Embeddings 層同樣將稀疏特征向量進(jìn)行轉(zhuǎn)換。廣義來說,Embedding 層的結(jié)構(gòu)可以比較復(fù)雜,只要完成高維向量的降維就可以了,但一般為了節(jié)省訓(xùn)練時間,深度神經(jīng)網(wǎng)絡(luò)中的 Embedding 層是一個高維向量向低維向量的直接映射(如圖 2)。

 

 

圖 2 Embedding 層的圖示和矩陣表達(dá)

用矩陣的形式表達(dá) Embedding 層,本質(zhì)上是求解一個 m(輸入高維稀疏向量的維度) x n(輸出稠密向量的維度)維的權(quán)重矩陣的過程。如果輸入向量是 one-hot 特征向量的話,權(quán)重矩陣中的列向量即為相應(yīng)維度 one-hot 特征的 embedding 向量。

將 Embedding 層與整個深度學(xué)習(xí)網(wǎng)絡(luò)整合后一同進(jìn)行訓(xùn)練是理論上最優(yōu)的選擇,因?yàn)樯蠈犹荻瓤梢灾苯臃聪騻鞑サ捷斎雽,模型整體是自洽和統(tǒng)一的。但這樣做的缺點(diǎn)同樣顯而易見的,由于 Embedding 層輸入向量的維度甚大,Embedding 層的加入會拖慢整個神經(jīng)網(wǎng)絡(luò)的收斂速度。

這里可以做一個簡單的計(jì)算。假設(shè)輸入層維度是 100,000,embedding 輸出維度是 32,上層再加 5 層 32 維的全連接層,最后輸出層維度是 10,那么輸出層到 embedding 層的參數(shù)數(shù)量是 32100,000= 3,200,000,其余所有層的參數(shù)總數(shù)是 (3232)4+3210=4416。那么 embedding 層的權(quán)重總數(shù)占比是 3,200,000 / (3,200,000 + 4416) = 99.86%。

也就是說 embedding 層的權(quán)重占據(jù)了整個網(wǎng)絡(luò)權(quán)重的絕大部分。那么訓(xùn)練過程可想而知,大部分的訓(xùn)練時間和計(jì)算開銷都被 Embedding 層所占據(jù)。正因?yàn)檫@個原因,Embedding 層往往采用預(yù)訓(xùn)練的方式完成。

二、Embedding 的預(yù)訓(xùn)練方法

通過上面對 Embedding 層的介紹,讀者們已經(jīng)知道 Embedding 層的訓(xùn)練開銷是巨大的。為了解決這個問題,Embedding 的訓(xùn)練往往獨(dú)立于深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行。在得到稀疏特征的稠密表達(dá)之后,再與其他特征一起輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。典型的采用 Embedding 預(yù)訓(xùn)練方法的模型是 FNN(如圖 3)。

 

 

圖 3 FMM 模型結(jié)構(gòu)

FNN 利用了 FM 訓(xùn)練得到的物品向量,作為 Embedding 層的初始化權(quán)重,從而加快了整個網(wǎng)絡(luò)的收斂速度。在實(shí)際工程中,直接采用 FM 的物品向量作為 Embedding 特征向量輸入到后續(xù)深度學(xué)習(xí)網(wǎng)絡(luò)也是可行的辦法。

再延伸一點(diǎn)講,Embedding 的本質(zhì)是建立高維向量到低維向量的映射,而“映射”的方法并不局限于神經(jīng)網(wǎng)絡(luò),實(shí)質(zhì)上可以是任何異構(gòu)模型,這也是 Embedding 預(yù)訓(xùn)練的另一大優(yōu)勢。典型的例子是 2013 年 Facebook 提出的著名的 GBDT+LR 的模型,其中 GBDT 的部分本質(zhì)上是完成了一次特征轉(zhuǎn)換,也可以看作是利用 GBDT 模型完成 Embedding 預(yù)訓(xùn)練之后,將 Embedding 輸入單層神經(jīng)網(wǎng)絡(luò)進(jìn)行 CTR 預(yù)估的過程。

2015 年以來,隨著大量 Graph Embedding 技術(shù)的發(fā)展,Embedding 本身的表達(dá)能力進(jìn)一步增強(qiáng),而且能夠?qū)⒏黝愄卣魅咳诤线M(jìn) Embedding 之中,這使 Embedding 本身成為非常有價值的特征。這些特點(diǎn)都使 Embedding 預(yù)訓(xùn)練成為更被青睞的技術(shù)途徑。

誠然,將 Embedding 過程與深度網(wǎng)絡(luò)的訓(xùn)練過程割裂,必然會損失一定的信息,但訓(xùn)練過程的獨(dú)立也帶來了訓(xùn)練靈活性的提升。舉例來說,由于物品或用戶的 Embedding 天然是比較穩(wěn)定的(因?yàn)橛脩舻呐d趣、物品的屬性不可能在幾天內(nèi)發(fā)生巨大的變化),Embedding 的訓(xùn)練頻率其實(shí)不需要很高,甚至可以降低到周的級別,但上層神經(jīng)網(wǎng)絡(luò)為了盡快抓住最新的正樣本信息,往往需要高頻訓(xùn)練甚至實(shí)時訓(xùn)練。使用不同的訓(xùn)練頻率更新 Embedding 模型和神經(jīng)網(wǎng)絡(luò)模型,是訓(xùn)練開銷和模型效果二者之間權(quán)衡后的最優(yōu)方案。

三、Embedding 作為推薦系統(tǒng)或計(jì)算廣告系統(tǒng)的召回層

隨著 Embedding 技術(shù)的進(jìn)步,Embedding 自身的表達(dá)能力也逐步增強(qiáng),利用 Embedding 向量的相似性,直接將 Embedding 作為推薦系統(tǒng)召回層的方案越來越多的被采用。其中 Youtube 推薦系統(tǒng)召回層(如圖 4)的解決方案是典型的做法。

 

 

圖 4 Youtube 采用 Embedding 作為推薦系統(tǒng)召回層

我曾經(jīng)介紹過了 Youtube 利用深度學(xué)習(xí)網(wǎng)絡(luò)生成 Video Embedding 和 User Embedding 的方法。利用最終的 Softmax 層的權(quán)重矩陣,每個 Video 對應(yīng)的列向量就是其 Item Embedding,而 Softmax 前一層的輸出就是 User Embedding。在模型部署過程中,沒有必要部署整個深度學(xué)習(xí)網(wǎng)絡(luò)來完成從原始特征向量到最終輸出的預(yù)測過程,只需要將 User Embedding 和 Item Embedding 存儲到線上內(nèi)存數(shù)據(jù)庫,通過內(nèi)積運(yùn)算再排序的方法就可以得到 item 的排名。這大大加快了召回層的召回效率。

事實(shí)上,除了上述的三種主要的 Embedding 應(yīng)用方向,業(yè)界對于 Embedding 的創(chuàng)新性研究不僅沒有停止,而且有愈演愈烈之勢,阿里的 EGES,Pinterest 的 GNN 應(yīng)用,Airbnb 基于 Embedding 的搜索模型等大量表達(dá)能力非常強(qiáng)的 Embedding 方法的誕生,使 Embedding 本身就已經(jīng)成為了優(yōu)秀的 CTR 模型和推薦系統(tǒng)模型。作為計(jì)算廣告和推薦系統(tǒng)領(lǐng)域的從業(yè)者,無論如何強(qiáng)調(diào) Embedding 的重要性都不過分,也希望今后能與大家繼續(xù)分享 Embedding 領(lǐng)域的前沿知識。

作者介紹

王喆,畢業(yè)于清華大學(xué)計(jì)算機(jī)系,現(xiàn)在美國最大的 smartTV 公司 Roku 任 senior machine learning engineer

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:ARM停止授權(quán),華為迎來最嚴(yán)峻挑戰(zhàn),任正非:投資千億打造全球最強(qiáng)信息產(chǎn)業(yè)

下一篇:10個數(shù)據(jù)科學(xué)家常犯的編程錯誤(附解決方案)