谷歌開源 TF-Ranking：一個(gè)可擴(kuò)展的排名學(xué)習(xí) TensorFlow 庫(kù)

2018-12-08 來源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

排名是指對(duì)一個(gè)列表項(xiàng)進(jìn)行排序的過程，以便最大化列表的效用，適用于各種領(lǐng)域，從搜索引擎和推薦系統(tǒng)到機(jī)器翻譯、對(duì)話系統(tǒng)甚至是計(jì)算生物學(xué)。在這些應(yīng)用程序中，研究人員經(jīng)常使用一系列叫作排名學(xué)習(xí)(learning-to-rank)的監(jiān)督機(jī)器學(xué)習(xí)技術(shù)。在很多情況下，這些排名學(xué)習(xí)技術(shù)被應(yīng)用在非常大型的數(shù)據(jù)集上——TensorFlow 的可擴(kuò)展性在這方面可能會(huì)是一個(gè)優(yōu)勢(shì)。但是，目前還不支持直接在 TensorFlow 中應(yīng)用排名學(xué)習(xí)技術(shù)。據(jù)我們所知，還沒有其他開源庫(kù)專門針對(duì)排名學(xué)習(xí)技術(shù)的大規(guī)模應(yīng)用。

今天，我們很高興地宣布TF-Ranking，一個(gè)用于排名學(xué)習(xí)的可擴(kuò)展 TensorFlow 庫(kù)。正如我們?cè)谧罱l(fā)表的論文中所描述的那樣，TF-Ranking 提供了一個(gè)統(tǒng)一的框架，包括了一套最先進(jìn)的排名學(xué)習(xí)算法，并支持 Pairwise 和 Listwise 損失函數(shù)、多項(xiàng)目評(píng)分、排名度量?jī)?yōu)化和無偏見排名學(xué)習(xí)。

TF-Ranking 速度很快，而且易于使用，并可用它創(chuàng)建高質(zhì)量的排名模型。統(tǒng)一的框架讓 ML 研究人員、ML 從業(yè)者和 ML 愛好者能夠基于單個(gè)庫(kù)評(píng)估和選擇一系列不同的排名模型。此外，我們堅(jiān)信，一個(gè)好的開源庫(kù)的關(guān)鍵之處不僅在于提供合理的默認(rèn)設(shè)置，它還應(yīng)該讓用戶能夠開發(fā)自己的自定義模型。因此，我們提供了靈活的 API，用戶可以定義和插入自己的自定義損失函數(shù)、評(píng)分函數(shù)和度量指標(biāo)。

現(xiàn)有的算法和度量指標(biāo)支持

排名學(xué)習(xí)算法的目標(biāo)是最小化在項(xiàng)目列表上定義的損失函數(shù)，優(yōu)化給定應(yīng)用程序的列表排序效用。TF-Ranking 支持標(biāo)準(zhǔn)的 Pointwise、Pairwise 和 Listwise 損失函數(shù)。使用 TF-Ranking 庫(kù)的 ML 研究人員能夠復(fù)制和擴(kuò)展以前發(fā)布的基線，ML 專業(yè)人員可以為他們的應(yīng)用做出最明智的選擇。此外，TF-Ranking 可以通過嵌入和擴(kuò)展到數(shù)億個(gè)訓(xùn)練實(shí)例來處理稀疏特征(如原始文本)。因此，任何對(duì)構(gòu)建真實(shí)世界數(shù)據(jù)密集型排名系統(tǒng)(如網(wǎng)絡(luò)搜索或新聞推薦)感興趣的人都可以使用 TF-Ranking 作為強(qiáng)大、可擴(kuò)展的解決方案。

經(jīng)驗(yàn)評(píng)估是機(jī)器學(xué)習(xí)或信息檢索研究的重要組成部分。為了確保與先前工作的兼容性，我們支持很多常用的排名指標(biāo)，包括平均倒數(shù)排名(MRR)和標(biāo)準(zhǔn)化折扣累積收益(NDCG)。我們還可以在 TensorBoard(開源的 TensorFlow 可視化儀表盤)上顯示這些指標(biāo)(在訓(xùn)練期間)。

在 TensorBoard 中顯示的訓(xùn)練步驟(X 軸)的 NDCG 度量指標(biāo)(Y 軸)的示例。它顯示了訓(xùn)練期間指標(biāo)的總體進(jìn)度�？梢灾苯釉趦x表盤上比較不同的方法。可以根據(jù)指標(biāo)選擇最佳模型。

多項(xiàng)評(píng)分

TF-Ranking 支持一種新穎的評(píng)分機(jī)制，可以聯(lián)合對(duì)多個(gè)項(xiàng)目(例如網(wǎng)頁(yè))進(jìn)行評(píng)分，這是對(duì)傳統(tǒng)評(píng)分機(jī)制的一個(gè)擴(kuò)展，在傳統(tǒng)的評(píng)分機(jī)制中，只對(duì)單個(gè)項(xiàng)目進(jìn)行獨(dú)立評(píng)分。多項(xiàng)目評(píng)分面臨的一個(gè)挑戰(zhàn)是難以進(jìn)行推理，項(xiàng)目必須被分成子組進(jìn)行評(píng)分。然后，累積每個(gè)項(xiàng)目的分?jǐn)?shù)用于排序。為了隱藏這些復(fù)雜性，TF-Ranking 提供了 List-In-List-Out(LILO)API，將這些邏輯包裝在導(dǎo)出的 TF 模型中。

TF-Ranking 庫(kù)支持多項(xiàng)目評(píng)分架構(gòu)，是對(duì)傳統(tǒng)單項(xiàng)評(píng)分的擴(kuò)展。

正如我們?cè)谧罱墓ぷ髦兴故镜哪菢樱诠?LETOR 基準(zhǔn)測(cè)試中，多項(xiàng)目評(píng)分在性能方面與 RankNet、MART 和 LambdaMART 等最先進(jìn)的學(xué)習(xí)模型相比具有相當(dāng)?shù)母?jìng)爭(zhēng)力。

排名指標(biāo)優(yōu)化

排名學(xué)習(xí)的一個(gè)重要研究挑戰(zhàn)是排名指標(biāo)的直接優(yōu)化(例如前面提到的 NDCG 和 MRR)。這些指標(biāo)雖然能夠比標(biāo)準(zhǔn)分類指標(biāo)(如曲線下面積(AUC))更好地衡量排名系統(tǒng)的性能，但卻具有不連續(xù)或扁平的特點(diǎn)。因此，這些指標(biāo)的標(biāo)準(zhǔn)隨機(jī)梯度下降優(yōu)化是有問題的。

在最近的工作中，我們提出了一種新的方法 LambdaLoss，它提供了一種用于對(duì)度量?jī)?yōu)化進(jìn)行排序的原則概率框架。在這個(gè)框架中，可以通過期望最大化過程來設(shè)計(jì)和優(yōu)化基于度量指標(biāo)驅(qū)動(dòng)的損失函數(shù)。TF-Ranking 庫(kù)集成了直接度量指標(biāo)優(yōu)化的最新成果，并提供了 LambdaLoss 實(shí)現(xiàn)。我們希望這些可以鼓勵(lì)和促進(jìn)排名度量指標(biāo)優(yōu)化領(lǐng)域進(jìn)一步的研究和進(jìn)展。

無偏見的排名學(xué)習(xí)

之前的研究表明，對(duì)于給定的已排名項(xiàng)目列表，用戶更有可能與前幾個(gè)結(jié)果交互，無論它們的相關(guān)性是怎樣的。這一發(fā)現(xiàn)激發(fā)了研究人員對(duì)無偏見排名學(xué)習(xí)的興趣，并且基于訓(xùn)練實(shí)例重新加權(quán)開發(fā)出了無偏見的評(píng)估和幾種無偏見的學(xué)習(xí)算法。TF-Ranking 庫(kù)實(shí)現(xiàn)了支持無偏見評(píng)估的度量指標(biāo)，并且通過原生支持重新加權(quán)(解決用戶與數(shù)據(jù)集交互的固有偏差)實(shí)現(xiàn)了無偏見學(xué)習(xí)損失函數(shù)。

TF-Ranking 入門

TF-Ranking 實(shí)現(xiàn)了 TensorFlow Estimator 接口，通過封裝訓(xùn)練、評(píng)估、預(yù)測(cè)和導(dǎo)出服務(wù)極大簡(jiǎn)化了機(jī)器學(xué)習(xí)編程。TF-Ranking 與豐富的 TensorFlow 生態(tài)系統(tǒng)完美集成。如上所述，你可以使用 Tensorboard 可視化 NDCG 和 MRR 等排名指標(biāo)，以及使用這些指標(biāo)選擇最佳模型檢查點(diǎn)。在你的模型準(zhǔn)備就緒之后，可以使用 TensorFlow Serving 將模型部署到生產(chǎn)環(huán)境中。

如果你有興趣嘗試 TF-Ranking，請(qǐng)查看我們的GitHub 存儲(chǔ)庫(kù)，并參考教程示例。TF-Ranking 是一個(gè)活躍的研究項(xiàng)目，我們歡迎你的反饋和貢獻(xiàn)。我們很高興看到 TF-Ranking 能夠給信息檢索和機(jī)器學(xué)習(xí)研究社區(qū)帶來一些幫助。

英文原文：http://ai.googleblog.com/2018/12/tf-ranking-scalable-tensorflow-library.html

標(biāo)簽： Google 排名搜索搜索引擎網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:2018年最炙手可熱的10家大數(shù)據(jù)初創(chuàng)公司

下一篇:Twitter 的 Kafka 遷移歷程

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌開源 TF-Ranking：一個(gè)可擴(kuò)展的排名學(xué)習(xí) TensorFlow 庫(kù)