中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

基于深度學(xué)習(xí)的推薦系統(tǒng)效果遭質(zhì)疑,它真的有帶來實質(zhì)性進(jìn)展嗎?

2019-08-01    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

深度學(xué)習(xí)已經(jīng)成為推薦系統(tǒng)領(lǐng)域的首選方法,但與此同時,已有一些論文指出了目前應(yīng)用機(jī)器學(xué)習(xí)的研究中存在的問題,例如新模型結(jié)果的可復(fù)現(xiàn)性,或?qū)Ρ葘嶒炛谢的選擇。這篇論文發(fā)表在推薦系統(tǒng)頂級會議 ACM RecSys 2019 上,作者對過去幾年在頂級會議上發(fā)表的 18 種 top-n 推薦任務(wù)的算法進(jìn)行了系統(tǒng)分析。

作者發(fā)現(xiàn),這些算法中只有 7 種算法可以合理復(fù)現(xiàn)算法結(jié)果,而其中 6 種方法都被經(jīng)典的啟發(fā)式算法所超越,例如基于最近鄰或基于圖的方法。作者通過這篇論文揭示了當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一些潛在問題,并呼吁大家改進(jìn)該領(lǐng)域的科學(xué)實踐。

 

 

1 引言

在短短幾年內(nèi),深度學(xué)習(xí)技術(shù)在推薦系統(tǒng)算法研究中占據(jù)了主導(dǎo)地位。隨著人們對機(jī)器學(xué)習(xí)的興趣普遍增加,發(fā)表論文數(shù)量越來越多,以及深度學(xué)習(xí)在視覺或語言處理等其他領(lǐng)域的成功,人們可以預(yù)見,這些工作也會為推薦系統(tǒng)領(lǐng)域帶來實質(zhì)性的進(jìn)展。然而,在機(jī)器學(xué)習(xí)的其他應(yīng)用領(lǐng)域中,所取得的進(jìn)展并不總是如預(yù)期的那樣好。

在推薦系統(tǒng)領(lǐng)域,即使是最新的推薦方法,在大多數(shù)情況下也不能超越經(jīng)典的方法(例如基于近鄰的方法)。這些關(guān)于在應(yīng)用機(jī)器學(xué)習(xí)中取得的真正進(jìn)展的問題并不是最新提出的,也與基于深度學(xué)習(xí)的研究無關(guān)。早在 2009 年,研究人員通過對 ad-hoc 檢索任務(wù)的算法分析得出結(jié)論:盡管該領(lǐng)域內(nèi)發(fā)表了許多論文,但這些論文中提到的改進(jìn)并沒有“累積”。

這種現(xiàn)象的出現(xiàn)有不同因素,包括(i)基線方法較弱;(ii)用較差的方法作為新的基線;以及(iii)比較或復(fù)現(xiàn)其他論文結(jié)果具有困難性。第一個問題在于方法對比時基線的選擇。有時對于給定的任務(wù)和數(shù)據(jù)集,選擇的基線太弱,或基線參數(shù)沒有得到適當(dāng)?shù)恼{(diào)整。有時基線是從新提出的算法簇中選擇的,例如,一個新的深度學(xué)習(xí)算法只與深度學(xué)習(xí)基線進(jìn)行比較。這種方法強(qiáng)制傳播了弱基線。此外,隨著論文的不斷發(fā)表,越來越難跟上最先進(jìn)基線的發(fā)展。

除了基線的問題外,另一個挑戰(zhàn)是研究人員使用各種各樣的數(shù)據(jù)集、評估方法、性能度量和數(shù)據(jù)預(yù)處理步驟,因此很難確定哪種方法在不同的應(yīng)用場景中是最好的。當(dāng)研究人員不公開源代碼和數(shù)據(jù)時,這個問題尤其突出。雖然現(xiàn)在越來越多的研究人員會公布算法的源代碼,但這并不是通用規(guī)則,即使頂級會議或頂級期刊也沒有這樣的要求。而且即使發(fā)布了代碼,有些代碼也是不完整的,并不包括數(shù)據(jù)預(yù)處理、參數(shù)調(diào)整或評估程序。

最后,另一個問題可能普遍存在于應(yīng)用機(jī)器學(xué)習(xí)的研究實踐。缺少審稿人,或?qū)φ撐淖髡叩牟划?dāng)激勵,會刺激某些特定類型的研究。以及研究領(lǐng)域?qū)Τ橄缶_性度量的過度關(guān)注,或者只關(guān)心機(jī)器學(xué)習(xí)研究中“頂級期刊能發(fā)表的”內(nèi)容。

這篇論文中,作者的目標(biāo)是闡明上述問題是否也存在于基于深度學(xué)習(xí)的推薦算法領(lǐng)域。作者主要關(guān)注以下兩個問題:

(1)可復(fù)現(xiàn)性:該領(lǐng)域的近期研究有多少是可復(fù)現(xiàn)的(通過合理方法)?

(2)進(jìn)展:與相對簡單但經(jīng)過良好調(diào)整的基線方法相比,近期研究取得了多少實際性進(jìn)展?

為了回答這些問題,作者進(jìn)行了一項系統(tǒng)的研究。作者從 KDD、SIGIR、WWW 和 RecSys 這四大頂會中找到了 18 篇 top-n 推薦任務(wù)中基于深度學(xué)習(xí)的相關(guān)論文。

第一步,對于公開源代碼和實驗數(shù)據(jù)集的論文,作者嘗試復(fù)現(xiàn)論文中報告的結(jié)果。最后,僅有 7 篇論文可以復(fù)現(xiàn)結(jié)果。

第二步,作者重新執(zhí)行了原始論文中報告的實驗,但在比較中增加了額外的基線方法。出乎意料的是,研究顯示,在絕大多數(shù)被調(diào)查的方法中(7 個方法中有 6 個方法),所提出的深度學(xué)習(xí)方法均被經(jīng)典的基線方法所超越。另一個方法中,即使是非個性化的基線方法(向每個人推薦最受歡迎的項目),在某些評價指標(biāo)下的表現(xiàn)也是最好的。

該論文的第一個貢獻(xiàn)在于評估了該領(lǐng)域論文的可復(fù)現(xiàn)程度,論文的第二個貢獻(xiàn)在于提出一個與機(jī)器學(xué)習(xí)的當(dāng)前研究實踐相關(guān)的更深遠(yuǎn)的問題。

2 研究方法

2.1 收集可復(fù)現(xiàn)論文

作者收集了 2015 年至 2018 年期間出現(xiàn)在以下四個會議中的長論文:KDD、SIGIR、WWW 和 RecSys。如果一篇論文(a)提出了一種基于深度學(xué)習(xí)的技術(shù),(b)關(guān)注 top-n 推薦任務(wù),那么就算作一篇相關(guān)論文。經(jīng)過篩選,作者收集了 18 篇相關(guān)論文。

下一步,作者嘗試復(fù)現(xiàn)這些論文中報告的結(jié)果。作者盡可能多地依賴論文原作者自己提供的源代碼和實驗中使用的數(shù)據(jù)。理論上說,應(yīng)該可以只使用論文中的技術(shù)描述來復(fù)現(xiàn)已發(fā)表的結(jié)果。但實際上算法和評估程序的實現(xiàn)包含許多微小細(xì)節(jié),可能會對實驗結(jié)果產(chǎn)生影響。因此,作者嘗試從原作者那里獲得所有相關(guān)論文的代碼和數(shù)據(jù)。如果滿足以下條件,則認(rèn)為論文是可復(fù)現(xiàn)的:

源代碼可用,或者只需要少量的修改即可正常運行。

原論文中至少有一個數(shù)據(jù)集可用。另一個要求是,原論文中使用的訓(xùn)練 - 測試劃分方法是公開的,或者可以根據(jù)文中的信息重構(gòu)。

否則,則認(rèn)為論文是不可復(fù)現(xiàn)的。根據(jù)該標(biāo)準(zhǔn),可復(fù)現(xiàn)的論文列表如表 1 所示:

 

 

總的來說,只有大約三分之一的論文可復(fù)現(xiàn)。

2.2 評價方法

測量方法

在這項工作中,作者通過分解原始代碼來復(fù)現(xiàn)論文,以應(yīng)用與原論文中相同的評估過程。分解的方式是將訓(xùn)練、超參數(shù)優(yōu)化和預(yù)測的代碼與評估代碼分離。并且將評估代碼也用于基線方法。

基線

作者在實驗中考慮了以下基線方法:

TopPopular:一種非個性化的方法,向每個人推薦最流行的項目。

ItemKNN:基于 k 近鄰(kNN)和 item-item 相似度的傳統(tǒng)協(xié)同過濾方法。

UserKNN:一種基于鄰域的協(xié)同用戶相似性方法。

ItemKNN-CBF:一種基于鄰域內(nèi)容過濾(CBF)的方法,通過使用項目內(nèi)容特征(屬性)計算項目相似性。

ItemKNN-CFCBF:基于項目相似性的混合 CF+CFB 算法。

P3α:一種簡單的基于圖的算法,實現(xiàn)了用戶和項目之間的隨機(jī)行走。

RP3β:P3α的另一個版本。

3 DNN 方法與基線對比實驗

3.1 協(xié)作存儲網(wǎng)絡(luò)(Collaborative Memory Networks,CMN)

CMN 方法在 SIGIR18 會議上提出,將記憶網(wǎng)絡(luò)和神經(jīng)注意力機(jī)制與隱因素和鄰域模型結(jié)合。CMN 作者將該方法與不同的矩陣分解和神經(jīng)推薦方法,以及 ItemKNN 算法進(jìn)行了比較。采用了三個數(shù)據(jù)集用于評估:Epinions、CiteULike-a 和 Pinterest。原論文給出了最優(yōu)參數(shù),但沒有提供如何調(diào)整基線實驗的信息。點擊率和 NDCG 是原論文采用的評價指標(biāo)。原論文報告的結(jié)果表明,CMN 在所有的度量標(biāo)準(zhǔn)上都優(yōu)于其他的基線方法。

CMN 所有數(shù)據(jù)集上的實驗都是可復(fù)現(xiàn)的。對于簡單基線進(jìn)行的額外實驗,作者針對點擊率度量優(yōu)化了基線參數(shù)。在三個數(shù)據(jù)集上的實驗結(jié)果如表 2 所示。

 

 

結(jié)果表明,在優(yōu)化基線方法之后,CMN 在任何數(shù)據(jù)集上都不能取得最好的表現(xiàn)。對于 CiteULike-a 和 Pinterest 數(shù)據(jù)集,至少有兩種個性化基線方法在任何度量上都優(yōu)于 CMN 方法;旧纤械膫性化基線方法都比 CMN 效果好。對于 Epinions 數(shù)據(jù)集,出乎意料的是,原始文獻(xiàn)中沒有提及的 TopPopular 方法在很大程度上優(yōu)于所有其他算法。在這個數(shù)據(jù)集上,CMN 確實比基線方法要好。因此,CMN 在這個相對較小且非常稀疏的數(shù)據(jù)集上的成功,可能與數(shù)據(jù)集的特殊性或 CMN 的受歡迎度(popularity)偏置有關(guān)。分析表明,與其他數(shù)據(jù)集相比,Epinions 數(shù)據(jù)集的受歡迎程度的分布確實更加不均勻(基尼指數(shù)為 0.69,而 CiteULike 基尼指數(shù)為 0.37)。

3.2 基于元路徑上下文的推薦方法(Metapath based Context for RECommendation,MCRec)

MCRec 方法發(fā)表在 KDD18,是一個基于元路徑的模型,它利用輔助信息實現(xiàn) top-n 推薦任務(wù)。原文獻(xiàn)作者在三個小數(shù)據(jù)集(MovieLens100k、LastFm 和 Yelp)上對不同復(fù)雜度的各種模型,以及 MCRec 的四個變體進(jìn)行了基準(zhǔn)測試。原文獻(xiàn)通過創(chuàng)建 80/20 隨機(jī)訓(xùn)練測試劃分,進(jìn)行 10 次交叉驗證。選擇 MF 和 NeuMF 作為基線。但只有 MovieLens 數(shù)據(jù)集提供了數(shù)據(jù)劃分,原文獻(xiàn)沒有給出基線超參數(shù)調(diào)參的具體信息。原文獻(xiàn)采用的評價指標(biāo)為精確度、召回率和 NDCG。但是論文中實現(xiàn)的 NDCG 方法較為奇怪,所以作者采用了標(biāo)準(zhǔn)的 NDCG 評價程序。

 

 

表 3 表明,當(dāng)正確設(shè)置傳統(tǒng)的 ItemKNN 方法時,該方法在所有性能指標(biāo)上都優(yōu)于 MCRec。原始論文除了使用一種不常見的 NDCG 方法外,作者還發(fā)現(xiàn)了其他潛在的方法學(xué)問題。如前所述,MF 和 NeuMF 基線的超參數(shù)沒有針對給定數(shù)據(jù)集進(jìn)行優(yōu)化,而是取自原始論文。此外,通過查看提供的源代碼,可以看到作者報告的是不同 epoch 中選擇的最佳結(jié)果,這是不恰當(dāng)?shù)摹?/p>

3.3 協(xié)同變分自動編碼器(Collaborative Variational Autoencoder,CVAE)

CVAE 方法發(fā)表在 KDD18,該模型以無監(jiān)督的方式從內(nèi)容數(shù)據(jù)中學(xué)習(xí)深度隱表示,并從內(nèi)容和排序中學(xué)習(xí)項目和用戶之間的隱式關(guān)系。

該方法在兩個比較小的 CitULike 數(shù)據(jù)集(135K 和 205K 次交互)上進(jìn)行評估,分別測試了這兩個數(shù)據(jù)集的稀疏版本和密集版本。原文獻(xiàn)中的基線實驗包括三個最新的深度學(xué)習(xí)模型以及協(xié)同主題回歸(CTR)。每個方法的參數(shù)都是基于驗證集進(jìn)行調(diào)整的。采用不同的列表長度(50 至 300)的召回率作為評價指標(biāo)。采用隨機(jī)數(shù)據(jù)劃分,重復(fù) 5 次測量。

 

 

原文獻(xiàn)作者共享了代碼和數(shù)據(jù)集。通過對基線進(jìn)行微調(diào),得到了表 4 所示的稠密 CiteULike-a 數(shù)據(jù)集的結(jié)果。對于最短的列表長度 50,即使大多數(shù)純 CF 基線方法在這個數(shù)據(jù)集上也優(yōu)于 CVAE 方法。在較長的列表長度下,ItemKNN-CFCBF 方法獲得了最佳結(jié)果。稀疏 CiteULike-t 數(shù)據(jù)集上也得到了類似的結(jié)果。一般來說,在列表長度為 50 時,ItemKNN-CFCBF 在所有測試配置中始終優(yōu)于 CVAE。只有在更長的列表長度(100 及以上)時,CVAE 才能在兩個數(shù)據(jù)集上超越基線方法?偟膩碚f,只有在某些配置中,并且很長且相當(dāng)不常見的推薦截止閾值下 CVAE 才優(yōu)于基線。然而,這種列表長度的使用是不合理的。

3.4 協(xié)同深度學(xué)習(xí)(Collaborative Deep Learning,CDL)

上述的 CVAE 方法將 KDD15 中經(jīng)常引用的 CDL 方法作為其基線之一。CDL 是疊置去噪自動編碼器(SDAE)和協(xié)同濾波聯(lián)合學(xué)習(xí)的概率前饋模型。原文獻(xiàn)中的評估表明,與 CTR 方法相比,CDL 方法的表現(xiàn)較好,尤其是在稀疏數(shù)據(jù)情況下。

 

 

作者復(fù)現(xiàn)了 CDL 的研究結(jié)果,得出了表 5 中密集型 CiteULike-a 數(shù)據(jù)集的結(jié)果。不足為奇,在前一節(jié)中優(yōu)于 CVAE 的基線也優(yōu)于 CDL,而且對于短列表長度而言,純 CF 方法優(yōu)于 CDL 方法。然而,當(dāng)列表長度超過 100 時,CDL 具有更高的召回率。通過對比 CVAE 和 CDL 的結(jié)果,作者發(fā)現(xiàn)新提出的 CVAE 方法確實優(yōu)于 CDL 方法,這表明 CAVE 方法的確取得了進(jìn)展。然而在大多數(shù)情況下,這兩種方法的表現(xiàn)都不如簡單的基線方法。

3.5 神經(jīng)協(xié)同過濾(Neural Collaborative Filtering,NCF)

基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾方法在 WWW17 會議上提出,通過用一種可以從數(shù)據(jù)中學(xué)習(xí)任意函數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)代替了內(nèi)積來推廣矩陣分解。該方法在兩個數(shù)據(jù)集(MovieLens1M 和 Pinterest)上進(jìn)行了評估,分別包含 100 萬和 150 萬次交互。在評價過程中采用了“留一法”。原文獻(xiàn)結(jié)果表明,當(dāng)使用點擊率和 NDCG 作為評價指標(biāo)時,NeuMF(NCF 的變體)比現(xiàn)有的矩陣因子分解模型更為有利。

實驗結(jié)果如表 6 所示。在 Pinterest 數(shù)據(jù)集上,個性化基線方法在所有評價標(biāo)準(zhǔn)上都比 NeuMF 稍微好一些,或者表現(xiàn)一致。對于 MovieLens 數(shù)據(jù)集,NeuMF 的結(jié)果幾乎與最佳基線 RP3β相同。

 

 

由于 MovieLens 數(shù)據(jù)集被廣泛用于評估新模型,因此作者使用基本矩陣分解方法(此處稱為 pureSVD)進(jìn)行了額外的實驗。優(yōu)化參數(shù)后,作者發(fā)現(xiàn) pureSVD 確實比基線方法好,而且在這個數(shù)據(jù)集上也明顯優(yōu)于 NeuMF。

3.6 光譜協(xié)同過濾(Spectral Collaborative Filtering,SpectralCF)

SpectralCF 發(fā)表在 RecSys18 上,采用光譜圖理論的概念,旨在專門解決冷啟動問題。該方法在三個公共數(shù)據(jù)集(MovieLens1m、HetRec 和 Amazon Instant Video)上進(jìn)行評估,并采用了多種基線方法,包括最近的神經(jīng)網(wǎng)絡(luò)方法和因子分解和排序技術(shù)。實驗采用 80/20 訓(xùn)練 - 測試隨機(jī)劃分,并使用不同截止點的召回率和平均精度(MAP)作為評價指標(biāo)。

對于 MovieLens 數(shù)據(jù)集,原文獻(xiàn)作者共享了使用的訓(xùn)練和測試數(shù)據(jù)集以及代碼。對于其他數(shù)據(jù)集,數(shù)據(jù)劃分沒有公布,因此作者按照文中的描述自己創(chuàng)建了劃分方式。

對于 HetRec 和 Amazon Instant Video 數(shù)據(jù)集,所有的基線方法,包括 TopPopular 方法,在所有度量指標(biāo)上都優(yōu)于 SpectralCF。然而,在原文獻(xiàn)提供的 MovieLens 數(shù)據(jù)劃分上運行代碼時,SpectralCF 比所有的基線都要好很多。

 

 

因此,作者分析了 MovieLens 數(shù)據(jù)集公布的訓(xùn)練測試劃分,發(fā)現(xiàn)測試集中項目的受歡迎程度的分布與隨機(jī)抽樣帶來的分布非常不同。然后,作者使用自己的數(shù)據(jù)劃分方式對 MovieLens 數(shù)據(jù)集進(jìn)行分割,并且優(yōu)化了數(shù)據(jù)分割的參數(shù),以確保公平比較。實驗結(jié)果如表 7 所示。當(dāng)使用原始論文中描述的數(shù)據(jù)分割時,MovieLens 數(shù)據(jù)集的結(jié)果與其他兩個數(shù)據(jù)集的實驗結(jié)果一致,即在所有配置中,SpectralCF 的性能都比基線方法差,甚至 TopPopular 的表現(xiàn)也比它好。

 

 

圖 1 顯示了數(shù)據(jù)劃分問題。藍(lán)色數(shù)據(jù)點顯示訓(xùn)練集中每個項目的歸一化受歡迎度值,最流行的項目的值為 1。在隨機(jī)劃分的情況下,橙色點將非常接近相應(yīng)的藍(lán)色點。然而,這里測試集中許多項目的受歡迎程度值相差很大。無論是訓(xùn)練還是測試,隨機(jī)劃分的數(shù)據(jù)集的基尼指數(shù)都在 0.79 左右,而所提供的測試集的基尼指數(shù)要高得多(0.92),這意味著該分布比隨機(jī)劃分具有更高的受歡迎度偏差。

3.7 變分自動編碼器協(xié)同過濾(Variational Autoencoders for Collaborative Filtering,Mult-VAE)

Mult-VAE 是一種基于變分自動編碼器的隱反饋協(xié)同過濾方法。這項工作發(fā)表在 WWW18 上。原論文在 3 個二值化數(shù)據(jù)集上評估該方法,這些數(shù)據(jù)集包含原始電影評分或歌曲播放計數(shù)。實驗中采用的基線包括 2008 年的矩陣分解法、2011 年的線性模型和最近的神經(jīng)網(wǎng)絡(luò)方法。根據(jù)論文,所提出的方法的召回率和 NDCG 結(jié)果通常比最佳基線高出 3% 左右。

通過使用它們的代碼和數(shù)據(jù)集,作者發(fā)現(xiàn)所提出的方法確實比非常簡單的基線技術(shù)更好。其準(zhǔn)確率比最佳基線高 10% 到 20%。Mult-VAE 是作者經(jīng)過檢查后發(fā)現(xiàn)的唯一一個更復(fù)雜的方法優(yōu)于基線技術(shù)的方法。

為了驗證 Mult-VAE 優(yōu)于復(fù)雜的非神經(jīng)模型,作者將加權(quán)矩陣因子分解方法和線性模型 SLIM 的參數(shù)針對數(shù)據(jù)集 MovieLens 和 Netflix 進(jìn)行了優(yōu)化。表 8 顯示了在 Netflix 數(shù)據(jù)集上的實驗結(jié)果。

 

 

在 NDCG 評價指標(biāo)方面,Mult-VAE 和 SLIM 之間的差異非常小。然而,在召回率方面,與 SLIM 相比,Mult-VAE 的改進(jìn)似乎是可靠的。作者在不同的截止長度下進(jìn)行了額外的評估,結(jié)果見表 9。表 9 表明,當(dāng)使用 NDCG 作為優(yōu)化目標(biāo)和度量指標(biāo)時,SLIM 和 Mult-VAE 之間的差異在這個數(shù)據(jù)集中消失了,SLIM 有時甚至?xí)院靡恍。對?MovieLens 數(shù)據(jù)集,也可以觀察到類似的現(xiàn)象。因此,在這種特殊情況下,通過神經(jīng)網(wǎng)絡(luò)方法獲得的進(jìn)展只是部分的,并且取決于所選擇的評價指標(biāo)。

 

 

4 討論

4.1 可復(fù)現(xiàn)性和可擴(kuò)展性

按理說,在應(yīng)用機(jī)器學(xué)習(xí)領(lǐng)域建立可復(fù)現(xiàn)性要比在其他科學(xué)和計算機(jī)科學(xué)的其他子領(lǐng)域容易得多。當(dāng)研究人員提供他們的代碼和使用的數(shù)據(jù)時,每個人都應(yīng)該能夠或多或少地復(fù)現(xiàn)出相同的結(jié)果。而且如今的研究人員通常使用公共軟件或?qū)W術(shù)機(jī)構(gòu)提供的軟件,因此其他研究人員應(yīng)該更容易在非常相似的條件下重復(fù)實驗。

然而,這篇論文表明,算法可復(fù)現(xiàn)性的程度實際上并不高。與過去相比,已經(jīng)有更多的人開始共享核心算法的代碼,這可能也是因為可復(fù)現(xiàn)性已成為會議論文的評價標(biāo)準(zhǔn)。但是大部分情況下,用于超參數(shù)優(yōu)化、評價、數(shù)據(jù)預(yù)處理和基線的代碼是不公開的。這使得其他人很難確認(rèn)論文報告的結(jié)果。

而許多方法的計算復(fù)雜性也為復(fù)現(xiàn)實驗帶來了挑戰(zhàn)。到 2019 年,已經(jīng)是 Netflix 發(fā)布 1 億條評分?jǐn)?shù)據(jù)集的 10 年之后,研究人員常用的依然是僅包含幾十萬條評分的數(shù)據(jù)集。即使對于小數(shù)據(jù)集,采用 GPU 計算,超參數(shù)優(yōu)化也需要幾天甚至幾周時間。當(dāng)然,本文中討論的基于近鄰的方法也存在可擴(kuò)展性問題。然而,通過適當(dāng)?shù)臄?shù)據(jù)預(yù)處理和數(shù)據(jù)采樣機(jī)制,在學(xué)術(shù)和工業(yè)環(huán)境中也可以確保這些方法的可擴(kuò)展性。

4.2 進(jìn)展評價

最近提出的幾種神經(jīng)網(wǎng)絡(luò)方法盡管計算復(fù)雜,但是其性能卻不如在概念上或計算上更簡單的方法。因此,至少對于本文所討論的方法來說,該領(lǐng)域基于深度學(xué)習(xí)方法的真實進(jìn)展情況尚不明確。

正如論文所分析的,這種“偽進(jìn)展”的一個主要原因是基線方法的選擇和缺乏對基線方法參數(shù)的適當(dāng)優(yōu)化。在大多數(shù)被研究的方法中,原始論文沒有給出足夠的基線優(yōu)化的信息。在有些論文中還發(fā)現(xiàn)了數(shù)據(jù)劃分和某些評價標(biāo)準(zhǔn)的實現(xiàn)上存在錯誤。

另一個有趣的發(fā)現(xiàn)是,最近的一些論文使用神經(jīng)協(xié)同過濾方法(NCF)作為其最先進(jìn)的基線之一。然而,根據(jù)作者的分析,這種方法在部分?jǐn)?shù)據(jù)集上的表現(xiàn)還不如簡單的基線方法。

另一個阻礙評估該領(lǐng)域進(jìn)展的原因在于研究人員使用的各種數(shù)據(jù)集、評估協(xié)議、度量標(biāo)準(zhǔn)和基線實驗。例如,從數(shù)據(jù)集角度,作者發(fā)現(xiàn)了 20 多個公開數(shù)據(jù)集,以及多個 MovieLens 和 Yelp 數(shù)據(jù)集的變體,大部分?jǐn)?shù)據(jù)集只在一兩篇論文中使用。并且研究人員使用了各種度量(精度、召回率、平均精度、NDCG、MRR 等)以及各種評估程序(例如,隨機(jī)保持 80/20、留一法、每個正項 100 條負(fù)項、或 50 項負(fù)項)。然而,在大多數(shù)情況下,這些選擇是不合理的。實際上,度量的選擇應(yīng)該取決于應(yīng)用的環(huán)境。例如,在某些應(yīng)用中,推薦項目的前幾項至少需要有一個相關(guān)項,這時應(yīng)該使用基于排序的度量,如 MRR。在其他領(lǐng)域,當(dāng)目標(biāo)是向用戶顯示盡可能多的相關(guān)項時,高召回率可能更為重要。除了度量標(biāo)準(zhǔn)的選擇不明確之外,這些論文通常也沒有解釋度量的截止長度,從 top-3、top-5,甚至到幾百個元素。

然而,這些現(xiàn)象與基于深度學(xué)習(xí)的推薦方法無關(guān),在神經(jīng)網(wǎng)絡(luò)時代之前也存在這種現(xiàn)象。但是機(jī)器學(xué)習(xí)研究人員對精確度量和尋找“最佳”模型的強(qiáng)烈關(guān)注推動了這種發(fā)展。在目前的研究實踐中,通常認(rèn)為如果一種新的方法可以在一至兩個標(biāo)準(zhǔn)度量上,在一至兩個公共數(shù)據(jù)集上優(yōu)于現(xiàn)有的一組算法,就已經(jīng)足夠了。然而,使用哪種評估度量和哪些數(shù)據(jù)集卻是任意選擇的。

這些現(xiàn)象指出了根本問題,即該領(lǐng)域的研究不受任何假設(shè)的指導(dǎo),也不以解決給定問題為目標(biāo)。追求更高的準(zhǔn)確度成為了該領(lǐng)域研究的主導(dǎo)方向,但是大家甚至還不清楚準(zhǔn)確度的輕微提升是否能夠為推薦系統(tǒng)的消費者或提供者帶來一定的價值。事實上,許多研究工作表明,更高的準(zhǔn)確度并不一定能轉(zhuǎn)化為更好的推薦結(jié)果。

5 總結(jié)

在這項工作中,作者對各大頂會的最新基于神經(jīng)網(wǎng)絡(luò)的推薦算法進(jìn)行了系統(tǒng)分析。分析表明,已發(fā)表論文的可復(fù)現(xiàn)程度仍然不高。此外,實驗證明,這些基于深度學(xué)習(xí)的方法均被經(jīng)典的啟發(fā)式算法所超越。作者認(rèn)為,基于神經(jīng)網(wǎng)絡(luò)的推薦算法為該領(lǐng)域所帶來的實際進(jìn)展并不明確,作者希望該領(lǐng)域的算法貢獻(xiàn)評估能出現(xiàn)更嚴(yán)格和更好的研究實踐。

作者:Maurizio Ferrari Dacrema

譯者:馬卓奇

查看論文原文:https://arxiv.org/abs/1907.06902

標(biāo)簽: 深度學(xué)習(xí) 推薦系統(tǒng)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:谷歌高級研究員Nature發(fā)文:避開機(jī)器學(xué)習(xí)三大「坑」

下一篇:建設(shè)企業(yè)的數(shù)據(jù)化引擎,網(wǎng)易嚴(yán)選數(shù)據(jù)中臺的經(jīng)驗和方法論