中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

解析智能推薦系統(tǒng)開發(fā)中十大關(guān)鍵要素

2019-02-26    來源:多智時代

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

亞馬遜的CEO Jeff Bezos曾經(jīng)說過,他的夢想是“如果我有100萬個用戶,我就要為他們做100萬個亞馬遜網(wǎng)站”。智能推薦系統(tǒng)承載的就是這個夢想,即通過數(shù)據(jù)挖掘技 術(shù),為每一個用戶實現(xiàn)個性化的推薦結(jié)果,讓每個用戶更便捷的獲取信息。為了實現(xiàn)這個夢想,過去十余年間,無數(shù)頂尖技術(shù)專家和工程師投身于推薦算法和技術(shù)的 研究與應(yīng)用中,很多優(yōu)秀的方法被提出,很多技術(shù)難題被攻克。在今天的互聯(lián)網(wǎng)應(yīng)用中,越來越多“聰明”的推薦系統(tǒng)被開發(fā)出來,并被廣大用戶信賴和使用。

解析智能推薦系統(tǒng)開發(fā)中十大關(guān)鍵要素

智能推薦系統(tǒng)充分運用了機器學(xué)習(xí)、數(shù)據(jù)挖掘、搜索引擎、自然語言處理等相關(guān)領(lǐng)域的技術(shù)。但推薦系統(tǒng)并不神秘,事實上,推薦在我們身邊無處不在。對廣 大軟件開發(fā)工程師們來說,能夠投身于推薦系統(tǒng)的研發(fā),是一件既有趣又充滿挑戰(zhàn)的工作。想要成功的開發(fā)一套效果良好的推薦系統(tǒng),有一系列值得重視的關(guān)鍵點, 文本對此進行了總結(jié),具體列舉如下。

數(shù)據(jù)是一切推薦系統(tǒng)的基礎(chǔ)。良好的推薦效果一定是來自于豐富而準(zhǔn)確的數(shù)據(jù)。這些數(shù)據(jù)既包括了用戶(user)和待推薦物品(item)相關(guān)的基礎(chǔ)信 息(注:item和具體的推薦場景相關(guān),可以是商品、影片、音樂、新聞等,如果是進行好友推薦,那么item也可以是user本身),另一方面,user 和item之間在網(wǎng)站或應(yīng)用中發(fā)生的用戶行為和關(guān)系數(shù)據(jù)也非常重要。因為這些用戶行為和關(guān)系數(shù)據(jù)能真實的反映每個用戶的偏好和習(xí)慣。采集這些基礎(chǔ)數(shù)據(jù),并 做好清洗和預(yù)處理,是整個推薦系統(tǒng)的基石。

用戶行為數(shù)據(jù),又可細分為兩部分:顯式反饋數(shù)據(jù)(explicit feedbacks)和隱式反饋(implicit feedbacks)數(shù)據(jù)。顯式反饋是指能明確表達用戶好惡的行為數(shù)據(jù),例如用戶對某商品的購買、收-藏、評分等數(shù)據(jù)。與之相反,隱式反饋數(shù)據(jù)是指無法直 接體現(xiàn)用戶偏好的行為,例如用戶在網(wǎng)站中的點擊、瀏覽、停留、跳轉(zhuǎn)、關(guān)閉等行為。通過挖掘顯式反饋數(shù)據(jù)能明確把握用戶的偏好,但在很多應(yīng)用中,顯式反饋數(shù) 據(jù)通常很稀疏,導(dǎo)致對用戶偏好的挖掘無法深入。這個問題在一些剛上線的應(yīng)用、或者偏冷門的物品或用戶身上反映尤其明顯。在這種情況下,用戶的隱式反饋數(shù)據(jù) 就顯得尤為重要。因為雖然用戶在網(wǎng)站中的點擊等行為很龐雜,但其中蘊藏了大量信息。在2006-2008年間進行的國際著名推薦競賽Netflix Prize中,冠軍隊成員Yehuda Koren發(fā)現(xiàn)將用戶租用影片的記錄,轉(zhuǎn)換為特征向量注入奇異值分解算法(SVD)用于影響用戶興趣向量,能夠很好的提高推薦準(zhǔn)確率。

基礎(chǔ)數(shù)據(jù)的預(yù)處理對推薦效果的提升也非常有幫助。以2012年的ACM KDD-Cup(國際數(shù)據(jù)挖掘競賽)為例,訓(xùn)練樣本中,負樣本的數(shù)量居然達到了總樣本數(shù)量的92.82%,但是通過仔細分析這些負樣本,發(fā)現(xiàn)其中有大量樣 本存在噪音,通過一系列的Session分析和篩選方法,從中保留了11.2%的樣本進行后續(xù)推薦挖掘,不僅成功提高了推薦精度,而且大大減少了運算量。 所以充分利用各類顯式和隱式數(shù)據(jù),并做好數(shù)據(jù)的預(yù)處理,保證輸入數(shù)據(jù)的質(zhì)量,是第一個關(guān)鍵點。

經(jīng)過多年的發(fā)展,很多種推薦算法被提出來。常見的推薦方法,從大類上分,有基于歷史行為(Memory-based)的方法、基于模型 (Model-based)的方法、基于內(nèi)容(Content-based)方法等。在Memory-based方法這個方向,又可進一步細分為基于物品 的協(xié)同過濾算法(item-based collaborative filtering)、基于用戶的協(xié)同過濾算法(user-based collaborative filtering)、關(guān)聯(lián)規(guī)則(association rule)等;Model-based方法常用的包括Random Walk、pLSA、SVD、SVD++等。每種方法在具體實施時,針對不同的問題又有很多不同的實現(xiàn)方案,例如在基于物品的協(xié)同過濾算法(item- based collaborative filtering)中,item之間相似度計算公式(Similarity)也可能有很多很多種變化。

在系統(tǒng)推薦的結(jié)果以外,還有一類傳統(tǒng)的方式是通過專家進行推薦。這些專家可以是一些有經(jīng)驗的編輯,也可以是社區(qū)中意見領(lǐng)袖等。這些領(lǐng)域?qū)<彝扑]的結(jié)果,在很多實際應(yīng)用中,可以作為算法推薦結(jié)果的有益補充。

事實上,在實踐中并沒有任何一種方法在實踐中始終占據(jù)壓倒性的優(yōu)勢,它們各有千秋,分別有其各自合適的應(yīng)用場景,因此因地制宜根據(jù)不同的場景,挑選 不同的方法,并有機的結(jié)合起來,能讓推薦效果得到極大的提升。常見的融合方法包括Restricted Boltzmann Machines(RBM), Gradient Boosted Decision Trees(GBDT),Logistic Regression(LR)等,這方面歷次推薦競賽中有很多相關(guān)文章,可以看到為了提升推薦效果,將不同算法的結(jié)果能夠取長補短,各自發(fā)揮價值,是極為 有效的。

在不久的將來,云計算一定會徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計算,及時獲取人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識,讓我們一起攜手,引領(lǐng)人工智能的未來!

標(biāo)簽: 大數(shù)據(jù) 互聯(lián)網(wǎng) 搜索 搜索引擎 云計算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:服務(wù)交付平臺:云供應(yīng)商交付XaaS需求

下一篇:云計算衛(wèi)星定位助陣社會治安防控