中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

解析智能推薦系統(tǒng)開發(fā)中十大關(guān)鍵要素

2019-02-26    來源:多智時(shí)代

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

亞馬遜的CEO Jeff Bezos曾經(jīng)說過,他的夢(mèng)想是“如果我有100萬個(gè)用戶,我就要為他們做100萬個(gè)亞馬遜網(wǎng)站”。智能推薦系統(tǒng)承載的就是這個(gè)夢(mèng)想,即通過數(shù)據(jù)挖掘技 術(shù),為每一個(gè)用戶實(shí)現(xiàn)個(gè)性化的推薦結(jié)果,讓每個(gè)用戶更便捷的獲取信息。為了實(shí)現(xiàn)這個(gè)夢(mèng)想,過去十余年間,無數(shù)頂尖技術(shù)專家和工程師投身于推薦算法和技術(shù)的 研究與應(yīng)用中,很多優(yōu)秀的方法被提出,很多技術(shù)難題被攻克。在今天的互聯(lián)網(wǎng)應(yīng)用中,越來越多“聰明”的推薦系統(tǒng)被開發(fā)出來,并被廣大用戶信賴和使用。

解析智能推薦系統(tǒng)開發(fā)中十大關(guān)鍵要素

智能推薦系統(tǒng)充分運(yùn)用了機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、搜索引擎、自然語言處理等相關(guān)領(lǐng)域的技術(shù)。但推薦系統(tǒng)并不神秘,事實(shí)上,推薦在我們身邊無處不在。對(duì)廣 大軟件開發(fā)工程師們來說,能夠投身于推薦系統(tǒng)的研發(fā),是一件既有趣又充滿挑戰(zhàn)的工作。想要成功的開發(fā)一套效果良好的推薦系統(tǒng),有一系列值得重視的關(guān)鍵點(diǎn), 文本對(duì)此進(jìn)行了總結(jié),具體列舉如下。

數(shù)據(jù)是一切推薦系統(tǒng)的基礎(chǔ)。良好的推薦效果一定是來自于豐富而準(zhǔn)確的數(shù)據(jù)。這些數(shù)據(jù)既包括了用戶(user)和待推薦物品(item)相關(guān)的基礎(chǔ)信 息(注:item和具體的推薦場(chǎng)景相關(guān),可以是商品、影片、音樂、新聞等,如果是進(jìn)行好友推薦,那么item也可以是user本身),另一方面,user 和item之間在網(wǎng)站或應(yīng)用中發(fā)生的用戶行為和關(guān)系數(shù)據(jù)也非常重要。因?yàn)檫@些用戶行為和關(guān)系數(shù)據(jù)能真實(shí)的反映每個(gè)用戶的偏好和習(xí)慣。采集這些基礎(chǔ)數(shù)據(jù),并 做好清洗和預(yù)處理,是整個(gè)推薦系統(tǒng)的基石。

用戶行為數(shù)據(jù),又可細(xì)分為兩部分:顯式反饋數(shù)據(jù)(explicit feedbacks)和隱式反饋(implicit feedbacks)數(shù)據(jù)。顯式反饋是指能明確表達(dá)用戶好惡的行為數(shù)據(jù),例如用戶對(duì)某商品的購買、收-藏、評(píng)分等數(shù)據(jù)。與之相反,隱式反饋數(shù)據(jù)是指無法直 接體現(xiàn)用戶偏好的行為,例如用戶在網(wǎng)站中的點(diǎn)擊、瀏覽、停留、跳轉(zhuǎn)、關(guān)閉等行為。通過挖掘顯式反饋數(shù)據(jù)能明確把握用戶的偏好,但在很多應(yīng)用中,顯式反饋數(shù) 據(jù)通常很稀疏,導(dǎo)致對(duì)用戶偏好的挖掘無法深入。這個(gè)問題在一些剛上線的應(yīng)用、或者偏冷門的物品或用戶身上反映尤其明顯。在這種情況下,用戶的隱式反饋數(shù)據(jù) 就顯得尤為重要。因?yàn)殡m然用戶在網(wǎng)站中的點(diǎn)擊等行為很龐雜,但其中蘊(yùn)藏了大量信息。在2006-2008年間進(jìn)行的國(guó)際著名推薦競(jìng)賽Netflix Prize中,冠軍隊(duì)成員Yehuda Koren發(fā)現(xiàn)將用戶租用影片的記錄,轉(zhuǎn)換為特征向量注入奇異值分解算法(SVD)用于影響用戶興趣向量,能夠很好的提高推薦準(zhǔn)確率。

基礎(chǔ)數(shù)據(jù)的預(yù)處理對(duì)推薦效果的提升也非常有幫助。以2012年的ACM KDD-Cup(國(guó)際數(shù)據(jù)挖掘競(jìng)賽)為例,訓(xùn)練樣本中,負(fù)樣本的數(shù)量居然達(dá)到了總樣本數(shù)量的92.82%,但是通過仔細(xì)分析這些負(fù)樣本,發(fā)現(xiàn)其中有大量樣 本存在噪音,通過一系列的Session分析和篩選方法,從中保留了11.2%的樣本進(jìn)行后續(xù)推薦挖掘,不僅成功提高了推薦精度,而且大大減少了運(yùn)算量。 所以充分利用各類顯式和隱式數(shù)據(jù),并做好數(shù)據(jù)的預(yù)處理,保證輸入數(shù)據(jù)的質(zhì)量,是第一個(gè)關(guān)鍵點(diǎn)。

經(jīng)過多年的發(fā)展,很多種推薦算法被提出來。常見的推薦方法,從大類上分,有基于歷史行為(Memory-based)的方法、基于模型 (Model-based)的方法、基于內(nèi)容(Content-based)方法等。在Memory-based方法這個(gè)方向,又可進(jìn)一步細(xì)分為基于物品 的協(xié)同過濾算法(item-based collaborative filtering)、基于用戶的協(xié)同過濾算法(user-based collaborative filtering)、關(guān)聯(lián)規(guī)則(association rule)等;Model-based方法常用的包括Random Walk、pLSA、SVD、SVD++等。每種方法在具體實(shí)施時(shí),針對(duì)不同的問題又有很多不同的實(shí)現(xiàn)方案,例如在基于物品的協(xié)同過濾算法(item- based collaborative filtering)中,item之間相似度計(jì)算公式(Similarity)也可能有很多很多種變化。

在系統(tǒng)推薦的結(jié)果以外,還有一類傳統(tǒng)的方式是通過專家進(jìn)行推薦。這些專家可以是一些有經(jīng)驗(yàn)的編輯,也可以是社區(qū)中意見領(lǐng)袖等。這些領(lǐng)域?qū)<彝扑]的結(jié)果,在很多實(shí)際應(yīng)用中,可以作為算法推薦結(jié)果的有益補(bǔ)充。

事實(shí)上,在實(shí)踐中并沒有任何一種方法在實(shí)踐中始終占據(jù)壓倒性的優(yōu)勢(shì),它們各有千秋,分別有其各自合適的應(yīng)用場(chǎng)景,因此因地制宜根據(jù)不同的場(chǎng)景,挑選 不同的方法,并有機(jī)的結(jié)合起來,能讓推薦效果得到極大的提升。常見的融合方法包括Restricted Boltzmann Machines(RBM), Gradient Boosted Decision Trees(GBDT),Logistic Regression(LR)等,這方面歷次推薦競(jìng)賽中有很多相關(guān)文章,可以看到為了提升推薦效果,將不同算法的結(jié)果能夠取長(zhǎng)補(bǔ)短,各自發(fā)揮價(jià)值,是極為 有效的。

在不久的將來,云計(jì)算一定會(huì)徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計(jì)算,及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識(shí),讓我們一起攜手,引領(lǐng)人工智能的未來!

標(biāo)簽: 大數(shù)據(jù) 互聯(lián)網(wǎng) 搜索 搜索引擎 云計(jì)算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:服務(wù)交付平臺(tái):云供應(yīng)商交付XaaS需求

下一篇:云計(jì)算衛(wèi)星定位助陣社會(huì)治安防控