中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

京東首席搜索專家內(nèi)部分享

2019-03-26    來源:Pmcaff

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

嘉賓介紹

商倩蘭,京東實(shí)戰(zhàn)派搜索專家,京東商學(xué)院特級(jí)講師,四年阿里巴巴平臺(tái)搜索排序產(chǎn)品設(shè)計(jì)經(jīng)驗(yàn),現(xiàn)任京東搜索資深產(chǎn)品經(jīng)理,擁有SEO實(shí)戰(zhàn)運(yùn)作經(jīng)驗(yàn),熟知京東、淘寶、天貓平臺(tái)搜索引擎規(guī)則。在電商搜索領(lǐng)域有過豐富的運(yùn)營(yíng)和產(chǎn)品設(shè)計(jì)經(jīng)驗(yàn),擅長(zhǎng)將電商平臺(tái)搜索從一做到十,目前被京東搜索團(tuán)隊(duì)定位為京東的“鬼腳七”。

今天只講搜索引擎的一個(gè)小模塊,所以上半部分,先說搜索引擎的基礎(chǔ)模塊。

這個(gè)圖是我給京東內(nèi)部員工和我團(tuán)隊(duì)產(chǎn)品經(jīng)理培訓(xùn)時(shí)畫的,目前網(wǎng)頁(yè)搜索、電商平臺(tái)類搜索,或各種名目繁多的垂直搜索,都可以簡(jiǎn)單描述成這樣的結(jié)構(gòu)。

抽象說,圍繞用戶搜索產(chǎn)品做四部分內(nèi)容:

1、輔助用戶輸入,提升用戶表達(dá)需求的效率;

2、理解用戶意圖,對(duì)用戶輸入進(jìn)行理解,涉及到自然語(yǔ)言、數(shù)據(jù)挖掘等知識(shí),目前一般的的用戶輸入方式還是關(guān)鍵詞,語(yǔ)音、圖片等交互方式還沒有興起,都嘗試,尤其app、電視這種關(guān)鍵詞交互方式受制的客戶端,在積累對(duì)用戶交互的理解。但總歸需要對(duì)用戶輸入的東西進(jìn)行理解,比如搜“紅豆”,在淘寶前面都是紅豆男裝,在京東都是糧油調(diào)味,這是不同平臺(tái)對(duì)大多數(shù)用戶需求的理解;

3、檢索返回內(nèi)容,依據(jù)理解用戶意圖的模塊帶來的信息,進(jìn)行精確的檢索和排序;

4、呈現(xiàn),頁(yè)面結(jié)構(gòu)、視覺和交互的設(shè)計(jì)來承載返回的內(nèi)容。 今天的內(nèi)容只是第1點(diǎn)中的一個(gè)產(chǎn)品。

在阿里巴巴\淘寶叫smart suggestion,京東叫下拉框推薦,雅虎叫自動(dòng)補(bǔ)全,起到輸入法的作用,提高搜索效率。因?yàn)橥扑]和搜索產(chǎn)品都是策略類產(chǎn)品,所以基本都跟數(shù)據(jù)挖掘有關(guān),目前下拉框推薦詞的數(shù)據(jù)源有三部分組成。

淘寶、京東最開始都只采取most popular的數(shù)據(jù)策略,這樣雖然一個(gè)詞搜索量大,里面需求比較零散(基于消費(fèi)者表達(dá)意思還是短詞多的現(xiàn)狀),可以最大程度滿足大多數(shù)人的需求。所以包含當(dāng)前已經(jīng)輸入在搜索框內(nèi)容的詞列表,按pv從大到小排序,再加上一些反作弊策略即可應(yīng)用。 我在搭建目前京東海外站搜索產(chǎn)品的時(shí)候,尤其英文站的下拉框推薦詞數(shù)據(jù)源,直接抓取亞馬遜的,再檢驗(yàn)下載京東有商品即可,也是Most popular的策略。

最開始都是most popular,形成平臺(tái)上的馬太效應(yīng)之后,流量不精準(zhǔn)問題,必然想到走向個(gè)性化,比如在京東搜索框輸入“RY”,下拉框推薦詞都是榮耀,但在淘寶確有“R語(yǔ)言”的推薦詞。

策略類產(chǎn)品的不同,有時(shí)候不是因?yàn)閮蛇吋夹g(shù)的差異,而是平臺(tái)不同,消費(fèi)者行為數(shù)據(jù)造成的,走向個(gè)性化,就是以上三個(gè)數(shù)據(jù)策略中的后兩項(xiàng)。

我們今晚小流量上線的設(shè)計(jì)就是挖掘session下數(shù)據(jù),來探索實(shí)時(shí)個(gè)性化的策略。 

如果用戶搜索了“nike錢包”,在下一次搜索中會(huì)搜 “adidas錢包” 的概率是704/4648 = 15.1%; 如果用戶在下一個(gè)Query中輸入 Adidas 應(yīng)該提示 “Adidas 錢包”,同時(shí)去觀察同session下用戶的數(shù)據(jù),需求是有趨同的意圖,類似這種: 

所以,我們挖掘出很多詞對(duì)組成一份數(shù)據(jù)源,根據(jù)用戶上一步的關(guān)鍵詞表達(dá)實(shí)時(shí)推薦相關(guān)詞。舉一個(gè)例子: 

這就是挖掘出來的詞對(duì)數(shù)據(jù)源,有了它之后,當(dāng)用戶在一個(gè)session中前面有一個(gè)詞是“十三香”,當(dāng)用戶在搜索框中輸入“五”這個(gè)字的時(shí)候,可以推薦“五香粉”給它,而沒有做實(shí)時(shí)個(gè)性化推薦前,所有京東用戶在搜索框輸入“五”的時(shí)候都看到一樣的下拉框推薦詞,都是這個(gè): 

產(chǎn)品假設(shè)、數(shù)據(jù)挖掘都是在用戶歷史行為中得出的猜想,今晚小流量上線了,等看后續(xù)數(shù)據(jù)。

【Q&A環(huán)節(jié)】

Q:session值是目前所有在線用戶同時(shí)搜索的這個(gè)關(guān)鍵詞么?我可以理解SESSION CONTEXT就是找“尿布和啤酒”么?

A:必然不是,京東每天的session量是個(gè)很大的數(shù),session是什么意思大家知道,數(shù)據(jù)挖掘,策略類產(chǎn)品不是特別好懂,就是訪問會(huì)話。進(jìn)到www.jd.com,搜了n多詞,點(diǎn)擊了一堆商品,買或不買了幾個(gè)商品,然后關(guān)掉www.jd.com,session就結(jié)束了

Q:session值是目前所有在線用戶點(diǎn)擊的這個(gè)關(guān)鍵詞么?

A:不對(duì),session會(huì)記錄所有用戶在你網(wǎng)站的行為,但因?yàn)樗阉鞯漠a(chǎn)品,我們只用其中關(guān)鍵詞搜索來做嘗試。你們?cè)诰〇|任何地方,點(diǎn)了商品,再回到首頁(yè)后,有個(gè)推薦產(chǎn)品叫“猜你喜歡”都會(huì)變化。

Q:那可以理解為,根據(jù)一次會(huì)話的兩個(gè)詞共同出現(xiàn)次數(shù)(有序的),虛擬兩個(gè)詞之間的相關(guān)程度,然后根據(jù)已輸入的Q2的分詞,根據(jù)相關(guān)程度排序,按順序進(jìn)行詞語(yǔ)推薦么? A:根據(jù)所有搜過“十三香”的session中其他搜索詞數(shù)據(jù),挖掘詞的相關(guān)關(guān)系。

Q:目前是否是用平臺(tái)上匯總的全部session來做的推薦?有結(jié)合當(dāng)前用戶的畫像/分類/行為進(jìn)一步精細(xì)化的計(jì)劃么? A:如是是一兩個(gè),那就沒有統(tǒng)計(jì)意義,但其實(shí)策略類產(chǎn)品很好玩,比如去年做過價(jià)格模型,加上業(yè)務(wù)的努力,京東服裝部的每日3000W RMB,提到到去年底的8000W。

Q:有搜索推薦入門書籍推薦嗎? A:搜索推薦這類產(chǎn)品涉及很多知識(shí),可以先從偏技術(shù)類書入門,對(duì)以后有好處。

推薦兩本:《這就是搜索引擎:核心技術(shù)詳解》、《解密搜索引擎技術(shù)實(shí)戰(zhàn):Lucene & Java精華版》。

本文版權(quán)屬于PMcaff產(chǎn)品經(jīng)理社區(qū)(pmcaff.com),轉(zhuǎn)載請(qǐng)注明出處。

標(biāo)簽: 京東搜索優(yōu)化 京東優(yōu)化 產(chǎn)品運(yùn)營(yíng) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:網(wǎng)站標(biāo)題更改后快速上升排名的方法

下一篇:了解robots文件,主動(dòng)告訴搜索引擎該抓取什么內(nèi)容