解析智能推薦系統(tǒng)開發(fā)中十大關(guān)鍵要素

2019-02-26 來源：多智時(shí)代

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

亞馬遜的CEO Jeff Bezos曾經(jīng)說過，他的夢(mèng)想是“如果我有100萬個(gè)用戶，我就要為他們做100萬個(gè)亞馬遜網(wǎng)站”。智能推薦系統(tǒng)承載的就是這個(gè)夢(mèng)想，即通過數(shù)據(jù)挖掘技術(shù)，為每一個(gè)用戶實(shí)現(xiàn)個(gè)性化的推薦結(jié)果，讓每個(gè)用戶更便捷的獲取信息。為了實(shí)現(xiàn)這個(gè)夢(mèng)想，過去十余年間，無數(shù)頂尖技術(shù)專家和工程師投身于推薦算法和技術(shù)的研究與應(yīng)用中，很多優(yōu)秀的方法被提出，很多技術(shù)難題被攻克。在今天的互聯(lián)網(wǎng)應(yīng)用中，越來越多“聰明”的推薦系統(tǒng)被開發(fā)出來，并被廣大用戶信賴和使用。

智能推薦系統(tǒng)充分運(yùn)用了機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、搜索引擎、自然語言處理等相關(guān)領(lǐng)域的技術(shù)。但推薦系統(tǒng)并不神秘，事實(shí)上，推薦在我們身邊無處不在。對(duì)廣大軟件開發(fā)工程師們來說，能夠投身于推薦系統(tǒng)的研發(fā)，是一件既有趣又充滿挑戰(zhàn)的工作。想要成功的開發(fā)一套效果良好的推薦系統(tǒng)，有一系列值得重視的關(guān)鍵點(diǎn)，文本對(duì)此進(jìn)行了總結(jié)，具體列舉如下。

數(shù)據(jù)是一切推薦系統(tǒng)的基礎(chǔ)。良好的推薦效果一定是來自于豐富而準(zhǔn)確的數(shù)據(jù)。這些數(shù)據(jù)既包括了用戶（user）和待推薦物品（item）相關(guān)的基礎(chǔ)信息（注：item和具體的推薦場(chǎng)景相關(guān)，可以是商品、影片、音樂、新聞等，如果是進(jìn)行好友推薦，那么item也可以是user本身），另一方面，user 和item之間在網(wǎng)站或應(yīng)用中發(fā)生的用戶行為和關(guān)系數(shù)據(jù)也非常重要。因?yàn)檫@些用戶行為和關(guān)系數(shù)據(jù)能真實(shí)的反映每個(gè)用戶的偏好和習(xí)慣。采集這些基礎(chǔ)數(shù)據(jù)，并做好清洗和預(yù)處理，是整個(gè)推薦系統(tǒng)的基石。

用戶行為數(shù)據(jù)，又可細(xì)分為兩部分：顯式反饋數(shù)據(jù)（explicit feedbacks）和隱式反饋（implicit feedbacks）數(shù)據(jù)。顯式反饋是指能明確表達(dá)用戶好惡的行為數(shù)據(jù)，例如用戶對(duì)某商品的購買、收-藏、評(píng)分等數(shù)據(jù)。與之相反，隱式反饋數(shù)據(jù)是指無法直接體現(xiàn)用戶偏好的行為，例如用戶在網(wǎng)站中的點(diǎn)擊、瀏覽、停留、跳轉(zhuǎn)、關(guān)閉等行為。通過挖掘顯式反饋數(shù)據(jù)能明確把握用戶的偏好，但在很多應(yīng)用中，顯式反饋數(shù) 據(jù)通常很稀疏，導(dǎo)致對(duì)用戶偏好的挖掘無法深入。這個(gè)問題在一些剛上線的應(yīng)用、或者偏冷門的物品或用戶身上反映尤其明顯。在這種情況下，用戶的隱式反饋數(shù)據(jù) 就顯得尤為重要。因?yàn)殡m然用戶在網(wǎng)站中的點(diǎn)擊等行為很龐雜，但其中蘊(yùn)藏了大量信息。在2006-2008年間進(jìn)行的國(guó)際著名推薦競(jìng)賽Netflix Prize中，冠軍隊(duì)成員Yehuda Koren發(fā)現(xiàn)將用戶租用影片的記錄，轉(zhuǎn)換為特征向量注入奇異值分解算法（SVD）用于影響用戶興趣向量，能夠很好的提高推薦準(zhǔn)確率。

基礎(chǔ)數(shù)據(jù)的預(yù)處理對(duì)推薦效果的提升也非常有幫助。以2012年的ACM KDD-Cup（國(guó)際數(shù)據(jù)挖掘競(jìng)賽）為例，訓(xùn)練樣本中，負(fù)樣本的數(shù)量居然達(dá)到了總樣本數(shù)量的92.82%，但是通過仔細(xì)分析這些負(fù)樣本，發(fā)現(xiàn)其中有大量樣本存在噪音，通過一系列的Session分析和篩選方法，從中保留了11.2%的樣本進(jìn)行后續(xù)推薦挖掘，不僅成功提高了推薦精度，而且大大減少了運(yùn)算量。所以充分利用各類顯式和隱式數(shù)據(jù)，并做好數(shù)據(jù)的預(yù)處理，保證輸入數(shù)據(jù)的質(zhì)量，是第一個(gè)關(guān)鍵點(diǎn)。

經(jīng)過多年的發(fā)展，很多種推薦算法被提出來。常見的推薦方法，從大類上分，有基于歷史行為（Memory-based）的方法、基于模型（Model-based）的方法、基于內(nèi)容（Content-based）方法等。在Memory-based方法這個(gè)方向，又可進(jìn)一步細(xì)分為基于物品的協(xié)同過濾算法（item-based collaborative filtering）、基于用戶的協(xié)同過濾算法（user-based collaborative filtering）、關(guān)聯(lián)規(guī)則（association rule）等；Model-based方法常用的包括Random Walk、pLSA、SVD、SVD++等。每種方法在具體實(shí)施時(shí)，針對(duì)不同的問題又有很多不同的實(shí)現(xiàn)方案，例如在基于物品的協(xié)同過濾算法（item- based collaborative filtering）中，item之間相似度計(jì)算公式（Similarity）也可能有很多很多種變化。

在系統(tǒng)推薦的結(jié)果以外，還有一類傳統(tǒng)的方式是通過專家進(jìn)行推薦。這些專家可以是一些有經(jīng)驗(yàn)的編輯，也可以是社區(qū)中意見領(lǐng)袖等。這些領(lǐng)域?qū)＜彝扑]的結(jié)果，在很多實(shí)際應(yīng)用中，可以作為算法推薦結(jié)果的有益補(bǔ)充。

事實(shí)上，在實(shí)踐中并沒有任何一種方法在實(shí)踐中始終占據(jù)壓倒性的優(yōu)勢(shì)，它們各有千秋，分別有其各自合適的應(yīng)用場(chǎng)景，因此因地制宜根據(jù)不同的場(chǎng)景，挑選不同的方法，并有機(jī)的結(jié)合起來，能讓推薦效果得到極大的提升。常見的融合方法包括Restricted Boltzmann Machines（RBM）， Gradient Boosted Decision Trees（GBDT），Logistic Regression（LR）等，這方面歷次推薦競(jìng)賽中有很多相關(guān)文章，可以看到為了提升推薦效果，將不同算法的結(jié)果能夠取長(zhǎng)補(bǔ)短，各自發(fā)揮價(jià)值，是極為有效的。

在不久的將來，云計(jì)算一定會(huì)徹底走入我們的生活，有興趣入行未來前沿產(chǎn)業(yè)的朋友，可以收藏云計(jì)算，及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識(shí)，讓我們一起攜手，引領(lǐng)人工智能的未來！

標(biāo)簽：大數(shù)據(jù) 互聯(lián)網(wǎng) 搜索搜索引擎云計(jì)算

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:服務(wù)交付平臺(tái)：云供應(yīng)商交付XaaS需求

下一篇:云計(jì)算衛(wèi)星定位助陣社會(huì)治安防控

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

解析智能推薦系統(tǒng)開發(fā)中十大關(guān)鍵要素