中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

LinkedIn 招聘之搜索和推薦系統(tǒng)背后的 AI

2019-05-15    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 

在這篇文章中,簡(jiǎn)要概述了我們的模型探索之旅以及 LinkedIn 中人才搜索系統(tǒng)所使用的架構(gòu)。這些模型對(duì)我們的關(guān)鍵業(yè)務(wù)指標(biāo)產(chǎn)生了影響。更重要的是,LinkedIn 會(huì)員和客戶的搜索效果得到了改善。

正文

LinkedIn Talent Solutions(人才解決方案)提供了雇主接觸潛在候選人和求職者尋找職業(yè)機(jī)會(huì)的市場(chǎng)。LinkedIn Recruiter產(chǎn)品是幫助實(shí)現(xiàn)這些目標(biāo)的關(guān)鍵機(jī)制,它幫助招聘人員和招聘經(jīng)理尋找合適的人才,并使他們能夠識(shí)別“人才庫(kù)“,提高了雇用成功的可能性。在本文中,我們將首先重點(diǎn)介紹與人才搜索和推薦系統(tǒng)相關(guān)的一些獨(dú)特的信息檢索、系統(tǒng)和建模中的挑戰(zhàn)。然后,將介紹我們?nèi)绾我?guī)劃和解決這些挑戰(zhàn),如何設(shè)計(jì)和架構(gòu)整體系統(tǒng),實(shí)踐中遇到的問題,以及從 LinkedIn 這些系統(tǒng)的生產(chǎn)部署過程中吸取的經(jīng)驗(yàn)教訓(xùn)。

介紹

LinkedIn Recruiter 產(chǎn)品以查詢、職位發(fā)布或推薦候選人的形式,提供與搜索請(qǐng)求相對(duì)應(yīng)的候選人排序列表。給定一個(gè)搜索請(qǐng)求,選擇與請(qǐng)求匹配的候選人,然后根據(jù)各種因素(例如,崗位經(jīng)驗(yàn) / 技能與搜索范圍的相似度、職位發(fā)布的位置,以及感興趣的候選人響應(yīng)的可能性)使用機(jī)器學(xué)習(xí)的模型在多個(gè)過程中進(jìn)行排序。該應(yīng)用的屏幕截圖如圖 1 所示。

 

 

圖 1:來自 LinkedIn Recruiter 產(chǎn)品的(模擬)屏幕截圖

對(duì)于每個(gè)推薦的候選人,招聘人員可以執(zhí)行以下操作:

查看候選人的個(gè)人簡(jiǎn)介,

將個(gè)人簡(jiǎn)介保存到招聘項(xiàng)目中(作為潛在的匹配項(xiàng)),

向候選人發(fā)送 InMail。

在本文中,將討論在 LinkedIn 的人才搜索系統(tǒng)中使用的多種方法。這些方法旨在解決與人才搜索和推薦系統(tǒng)相關(guān)的一系列獨(dú)特的信息檢索挑戰(zhàn),具體如下:

與傳統(tǒng)的搜索和推薦系統(tǒng)不同,傳統(tǒng)的只關(guān)注如何評(píng)估一條內(nèi)容和給定查詢的相關(guān)度,人才搜索領(lǐng)域需要招聘人員和候選人就本崗位互相彼此感興趣。換句話說,我們不僅需要所顯示的候選人必須與招聘人員的查詢相契合,而且需要招聘人員聯(lián)系的候選人必須對(duì)崗位機(jī)會(huì)表現(xiàn)出興趣。因此,使用適當(dāng)?shù)闹笜?biāo)來優(yōu)化模型以及在線的 A/B 測(cè)試至關(guān)重要。于是我們定義了一個(gè)新目標(biāo),即 InMail Accept(InMail 接受度),當(dāng)候選人從招聘人員那里收到 InMail 并給出肯定回復(fù)時(shí),就會(huì)觸發(fā)目標(biāo)達(dá)成。我們將 InMail Accept 作為雙向興趣的指標(biāo),這可能會(huì)促使候選人收到崗位機(jī)會(huì)并接受它。在 Recruiter 產(chǎn)品的新模型上進(jìn)行實(shí)驗(yàn)時(shí)(參見BigData’15,CIKM’18和SIGIR’18論文詳情),我們使用接收并接受 InMail 的前 k 名候選人的評(píng)分作為主要評(píng)估指標(biāo)(稱為 Precision@k)。

此外,人才搜索系統(tǒng)的底層查詢可能非常復(fù)雜,它結(jié)合了一些結(jié)構(gòu)化字段(如規(guī)范化頭銜、規(guī)范化技能和公司名稱)和非結(jié)構(gòu)化字段(例如自由文本式關(guān)鍵字)。根據(jù)應(yīng)用的不同,查詢可以由顯式地輸入的查詢文本和所選內(nèi)容(通過招聘人員搜索或研究文獻(xiàn)中所謂的“人才搜索”)組成,也可以隱式地以崗位機(jī)會(huì)或理想應(yīng)聘者的形式(推薦匹配)組成。在招聘人員搜索的過程中,為了幫助用戶制定查詢公式,我們會(huì)建議哪些相關(guān)對(duì)象用戶可能感興趣,例如,對(duì)搜索“機(jī)器學(xué)習(xí)工程師”頭銜的招聘人員,我們就推薦具備“數(shù)據(jù)科學(xué)家”頭銜和“數(shù)據(jù)挖掘”技能的人才。通過給定的查詢,我們的目標(biāo)是通過數(shù)億個(gè)半結(jié)構(gòu)化候選人的個(gè)人簡(jiǎn)介實(shí)時(shí)確定最相關(guān)的候選人的排序列表。因此,可靠的標(biāo)準(zhǔn)化、智能化的查詢和查詢建議、可擴(kuò)展索引、候選人選擇的高召回率(high-recall)、有效的排序算法、以及高效的多通道評(píng)分 / 排序系統(tǒng)是必不可少的(參見SIGIR’16和WWW’16論文詳情)。

最后,個(gè)性化對(duì)于人才搜索系統(tǒng)而言非常重要,我們需要根據(jù)招聘人員所尋找應(yīng)聘者的類型來模擬他們的意圖和偏好。這可以通過離線學(xué)習(xí)存儲(chǔ)的招聘人員所使用數(shù)據(jù)的個(gè)性化模型來實(shí)現(xiàn),或通過了解招聘人員在線使用系統(tǒng)期間的偏好來實(shí)現(xiàn)。有時(shí)候,招聘人員甚至可能不確定要搜索什么技能,這必須通過一系列候選人的推薦和評(píng)估的階段來學(xué)習(xí)(關(guān)于如何在 LinkedIn 上應(yīng)用個(gè)性化搜索人才的更多細(xì)節(jié),參見CIKM’18和WWW’19論文詳情)。

借助本文中描述的建模方法,我們已經(jīng)能夠穩(wěn)步提升我們的關(guān)鍵業(yè)務(wù)指標(biāo)。例如,在兩年的時(shí)間里,我們能夠?qū)⑶舐氄叩?InMail Accept 數(shù)量增加一倍。所有這些努力也有助于實(shí)現(xiàn)我們?yōu)槿蛎恳晃粍趧?dòng)力創(chuàng)造經(jīng)濟(jì)機(jī)會(huì)的愿景。

方法

使用梯度提升決策樹(Gradient Boosted Decision Trees)進(jìn)行非線性建模

我們的早期機(jī)器學(xué)習(xí)模式是一種線性模型,它的優(yōu)點(diǎn)是易于解析、解釋和部署,在起步階段是一個(gè)很好的選擇。但是線性模型不能很好地捕捉非線性的特征交互,我們現(xiàn)在使用Gradient Boosted Decision Trees(GBDT)來釋放數(shù)據(jù)的力量。GBDT 模型通過樹結(jié)構(gòu)顯式地實(shí)現(xiàn)了交互。除了更大的假設(shè)空間外,GBDT 還具有其他的一些優(yōu)勢(shì),例如能很好地處理特征共線性(feature collinearity),處理不同范圍的特征以及特征值的缺少等。我們使用 GBDT 進(jìn)行招聘人員搜索排序在線實(shí)驗(yàn),實(shí)現(xiàn)了結(jié)合(engagement)度(招聘人員和候選人之間)指標(biāo)統(tǒng)計(jì)上顯著地改進(jìn)了幾個(gè)百分點(diǎn)。

基于 Pairwise 排序?qū)W習(xí)(Pairwise LTR)的情景感知排序(Context-aware Ranking)

為了將對(duì)搜索情景的認(rèn)識(shí)添加到我們的 GBDT 模型中,我們進(jìn)行了以下改進(jìn)。對(duì)于搜索人員的情景,我們添加了一些個(gè)性化功能。對(duì)于查詢的情景,我們添加了更多候選人查詢的匹配功能,其中一些功能直接來自 LinkedIn 的旗艦搜索產(chǎn)品。非常重要的是,我們使用具有 Pairwise 排序目標(biāo)的 GBDT 模型來比較相同情景(即相同搜索請(qǐng)求)中的候選者。Pairwise 優(yōu)化器會(huì)比較相同搜索查詢中的成對(duì)的結(jié)果,而 Pointwise 優(yōu)化器會(huì)假設(shè)所有的結(jié)果都是獨(dú)立的,無(wú)論它們是否在相同的搜索查詢中。出于這個(gè)原因,Pairwise 排序能更加體現(xiàn)情景的信息。情景的特征和 Pairwise GBDT 模型的應(yīng)用,幫助我們?cè)谡衅刚?- 候選人的結(jié)合度指標(biāo)上提升了十幾個(gè)百分點(diǎn)。

深度學(xué)習(xí)和表示學(xué)習(xí)方面的努力

如上所述,因?yàn)樘荻忍嵘龥Q策樹(GBDT)模型具有優(yōu)于線性模型的特點(diǎn), 現(xiàn)有的排序系統(tǒng)采用它為 LinkedIn Recruiter 產(chǎn)品提供支持。雖然 GBDT 提供了相當(dāng)強(qiáng)大的性能,但它帶來了以下挑戰(zhàn):

使用其他可訓(xùn)練組件(例如離散特性的嵌入)來擴(kuò)充樹的集成模型(Tree Ensemble Model)是非常重要的。這種做法通常需要對(duì)模型與組件 / 特征進(jìn)行聯(lián)合訓(xùn)練,而樹的集成模型假定不需要對(duì)特征本身進(jìn)行訓(xùn)練。

樹模型不能很好地處理稀疏 ID 的特征,如技能 ID、公司 ID 和成員 ID,但我們希望將它們用于人才搜索的排序。由于稀疏特征只有相對(duì)少部分是非零的,因此在每個(gè)提升步驟中選擇這種樹生成的可能性很小,特別是這樣訓(xùn)練出來的樹的深度通常是比較淺的。

樹模型在模型工程中缺乏靈活性。可能需要用到新的損失函數(shù),或用其他條件來增強(qiáng)當(dāng)前的目標(biāo)函數(shù)。使用 GBDT 模型不容易實(shí)現(xiàn)這樣的修改,但是對(duì)于基于可微分編程(differentiable programming)的深度學(xué)習(xí)模型而言,這些修改相對(duì)簡(jiǎn)單。最終具有(廣義)線性層的神經(jīng)網(wǎng)絡(luò)模型,還使得采用諸如遷移學(xué)習(xí)和在線學(xué)習(xí)之類的方法更容易。

為了克服這些挑戰(zhàn),我們探索了基于神經(jīng)網(wǎng)絡(luò)模型的使用,這些模型在設(shè)計(jì)和規(guī)范中提供了足夠的靈活性。我們對(duì)最多三層的 Pairwise 深度模型進(jìn)行的離線實(shí)驗(yàn)表明,與我們的基線 GBDT 模型相比,后者有了很大的進(jìn)步,以結(jié)合度為標(biāo)準(zhǔn),我們觀察到改進(jìn)了幾個(gè)百分點(diǎn)。

我們目前正在探索利用 LinkedIn 的最新模型來改進(jìn)基礎(chǔ)設(shè)施,以部署神經(jīng)網(wǎng)絡(luò)模型。

人才搜索建模的另一個(gè)重大挑戰(zhàn)是,招聘人員如何將大量可用的實(shí)體作為搜索的一部分,以及如何利用它們進(jìn)行候選人選擇和排序。例如,招聘人員如何從成千上萬(wàn)的 LinkedIn 標(biāo)準(zhǔn)化的技能中進(jìn)行選擇。由于不同的實(shí)體在不同程度上可以相互關(guān)聯(lián),因此使用句法特征(例如,候選者只擁有查詢技能的一小部分)有局限性。相反,更需要利用實(shí)體的語(yǔ)義表示,例如,以低維嵌入(low dimensional embedding)的形式。這種表示能將許多稀疏實(shí)體更好地合并為機(jī)器學(xué)習(xí)模型的一部分。在 Recruiter 中,我們利用經(jīng)過大規(guī)模信息網(wǎng)絡(luò)嵌入(LINE)方法訓(xùn)練的無(wú)監(jiān)督網(wǎng)絡(luò)嵌入。LINE 可以優(yōu)化一階近似和二階近似,適用于有向圖和無(wú)向圖,并且擴(kuò)展性很好。網(wǎng)絡(luò)嵌入使用修改版的LinkedIn 經(jīng)濟(jì)圖譜(Economic Graph)進(jìn)行訓(xùn)練,根據(jù)兩個(gè)實(shí)體存在于多少個(gè) LinkedIn 成員的個(gè)人簡(jiǎn)介中,來生成這兩個(gè)實(shí)體之間邊的權(quán)重(例如,他們共有的技能,或者都曾在一條邊兩端的兩個(gè)公司工作等)。下面給出了公司實(shí)體的圖表說明:

 

 

圖 2:公司實(shí)體圖的圖示

我們利用生成的嵌入作為我們訓(xùn)練 GBDT 模型的功能的一部分,這種基于網(wǎng)絡(luò)嵌入語(yǔ)義相似度特征的 GBDT 模型的在線實(shí)驗(yàn)顯示,以結(jié)合度指標(biāo)做比較,提升了幾個(gè)百分點(diǎn)。但是,這種提升在統(tǒng)計(jì)意義上并不顯著。假設(shè)檢索過程是基于頭銜 id 進(jìn)行精確匹配的,所以基于嵌入的相似度不會(huì)對(duì)檢索結(jié)果產(chǎn)生太大的差異,這促使我們把它應(yīng)用到檢索階段。我們采用了一種擴(kuò)展查詢的策略,當(dāng)原始查詢返回的結(jié)果太少時(shí),該策略會(huì)添加具有相似語(yǔ)義的頭銜,例如“軟件開發(fā)人員”之于“軟件工程師”。

基于 GLMix 的實(shí)體級(jí)個(gè)性化(Entity-level Personalization)

在招聘人員進(jìn)行搜索的領(lǐng)域中,多個(gè)實(shí)體(如招聘人員、合同、公司和候選人)發(fā)揮了作用。為了將實(shí)體級(jí)偏好納入非線性模型,我們?cè)诨旌夏P椭薪Y(jié)合了兩者的優(yōu)點(diǎn)。對(duì)于實(shí)體級(jí)的個(gè)性化,我們使用廣義線性混合(GLMix)模型,并在招聘人員的搜索領(lǐng)域中對(duì)多個(gè)實(shí)體進(jìn)行個(gè)性化實(shí)驗(yàn)。為了實(shí)現(xiàn)非線性的特征交互,我們?cè)趯?shí)際環(huán)境中使用 GBDT 模型作為特征變換器,來生成樹的交互特征(Tree Interaction Features)和 GBDT 模型評(píng)分。根據(jù)我們的離線實(shí)驗(yàn),我們?cè)谧罱K的 GLMix 模型中使用了招聘人員級(jí)和合同級(jí)的個(gè)性化方案。圖 3 顯示了使用 LTR 特征、樹交互特征和 GBDT 模型評(píng)分構(gòu)建 GLMix 模型的管道。LTR 特征用作預(yù)訓(xùn)練 GBDT 模型的輸入,產(chǎn)生被編碼成樹交互特征的樹集合和每個(gè)數(shù)據(jù)點(diǎn)的 GBDT 模型評(píng)分。然后,利用原有的 LTR 特征,以及它們?cè)跇浣换ヌ卣骱?GBDT 模型評(píng)分的形式下的非線性轉(zhuǎn)換,建立了一個(gè)具有招聘人員級(jí)和合同級(jí)的個(gè)性化 GBDT 模型。

 

 

圖 3:具有樹交互功能的 GLMix 模型的管道

在在線實(shí)驗(yàn)中,我們將最佳 GLMix 模型的變體“GLMix 全球 + 每個(gè)合同 + 每個(gè)招聘人員”模型與當(dāng)時(shí)的生產(chǎn)模型進(jìn)行了基準(zhǔn)測(cè)試,這是一種 Pairwise GBDT 模型。與 Pairwise GBDT 基礎(chǔ)模型相比,使用具有樹交互特征的 GLMIX 模型的在線實(shí)驗(yàn)結(jié)果,使得結(jié)合度在統(tǒng)計(jì)學(xué)意義上的顯著地改進(jìn)了幾個(gè)百分點(diǎn)。

會(huì)話中的在線個(gè)性化

利用離線學(xué)習(xí)模型的一個(gè)缺點(diǎn)是,當(dāng)招聘人員檢查推薦的候選人并提供反饋時(shí),在當(dāng)前的搜索會(huì)話期間不會(huì)考慮這個(gè)反饋。因此,Recruiter 團(tuán)隊(duì)開發(fā)了適應(yīng)用戶反饋的系統(tǒng),經(jīng)過一些處理步驟(依次對(duì)候選人給出即時(shí)反饋),推薦最佳候選人。

下面是我們?yōu)檫@樣一個(gè)系統(tǒng)使用的架構(gòu)。它首先將崗位潛在的候選人空間按技能進(jìn)行分組,然后,利用多臂賭博機(jī)(multi-armed bandit)模型,根據(jù)招聘者當(dāng)前的意圖,了解哪個(gè)組更合適,并且根據(jù)反饋更新每個(gè)技能組內(nèi)的候選人排序。

 

 

圖 4:多臂強(qiáng)盜在線個(gè)性化系統(tǒng)的架構(gòu)

下面是我們使用這種推薦算法進(jìn)行的初步實(shí)驗(yàn)的一些結(jié)果。當(dāng)更多的候選人被呈現(xiàn)給用戶時(shí),我們還可以展示推薦的準(zhǔn)確度(候選人是否被用戶正面評(píng)價(jià))。圖中顯示,隨著推薦模型中更多的反饋,候選人推薦的質(zhì)量得到了提高(獲得越來越多的正面反饋)。注:根據(jù)公司政策,對(duì)標(biāo)記為“良好匹配”的候選人的準(zhǔn)確百分比進(jìn)行了修改。

 

 

圖 5:每個(gè)指數(shù)的優(yōu)秀候選人的百分比

最近我們團(tuán)隊(duì)中在線學(xué)習(xí)方向的另一項(xiàng)努力,是學(xué)習(xí)各種個(gè)人簡(jiǎn)介的屬性(例如技能、頭銜、行業(yè)和資歷),基于應(yīng)聘者對(duì)這些屬性的的反饋,找到和招聘人員最相關(guān)的那些屬性 。如果招聘人員一直對(duì)那些有領(lǐng)導(dǎo)能力的會(huì)計(jì)師或者擅長(zhǎng)社交媒體的項(xiàng)目經(jīng)理感興趣,我們的目標(biāo)是推薦更多這樣的候選人,并隱式地學(xué)習(xí)招聘人員的搜索查詢來了解他們的意圖。這一切都是在線實(shí)時(shí)發(fā)生的,因此可以即時(shí)地考慮收到的反饋。有關(guān)此方法的更多詳細(xì)信息,感興趣的讀者請(qǐng)查看另一篇最近的LinkedIn 工程博客文章。

系統(tǒng)設(shè)計(jì)與架構(gòu)

LinkedIn 在 Lucene 上構(gòu)建了一個(gè)名為Galene的搜索堆棧,并為各種插件做出了貢獻(xiàn),包括實(shí)時(shí)更新搜索索引的功能。搜索索引包含兩種類型的字段:

inverted 字段:從搜索詞到包含它們的實(shí)體(成員)列表的映射。

forward 字段:從實(shí)體(成員)到元數(shù)據(jù)的映射。

這些搜索索引字段有助于評(píng)估搜索排序中的機(jī)器學(xué)習(xí)特征值。搜索索引字段中數(shù)據(jù)的新鮮度對(duì)于機(jī)器學(xué)習(xí)功能也是非常重要的。

 

 

圖 6:人才搜索架構(gòu)和流程

招聘人員搜索具有分層的排序架構(gòu):

L1:進(jìn)入人才庫(kù),對(duì)候選人進(jìn)行評(píng)分 / 排序。在這一層中,候選檢索和排序是以分布式方式完成的。

L2:優(yōu)化入選人才,使用外部緩存實(shí)現(xiàn)更多動(dòng)態(tài)功能。

 

image

 

圖 7:詳細(xì)的搜索檢索和排序架構(gòu)

Galene 代理系統(tǒng)將搜索查詢請(qǐng)求分散(fan out)到多個(gè)搜索索引分區(qū)。每個(gè)分區(qū)檢索匹配的文檔,并將機(jī)器學(xué)習(xí)模型應(yīng)用于檢索的候選對(duì)象。每個(gè)分區(qū)對(duì)候選對(duì)象的子集進(jìn)行排序,然后代理收集排序后的候選對(duì)象并將其返回給聯(lián)邦者(Federator)。聯(lián)邦者使用動(dòng)態(tài)或從高速緩存引用的附加排序特征(這是 L2 排序?qū)?,進(jìn)一步對(duì)檢索到的候選對(duì)象進(jìn)行排序。有關(guān)我們的聯(lián)邦搜索體系架構(gòu)的更多詳細(xì)信息,請(qǐng)參閱先前與此主題相關(guān)的LinkedIn 工程博客文章。

結(jié)論

在這篇文章中,我們簡(jiǎn)要概述了我們的模型探索之旅以及 LinkedIn 上人才搜索系統(tǒng)所使用的架構(gòu)。這些模型對(duì)我們的關(guān)鍵業(yè)務(wù)指標(biāo)產(chǎn)生了影響。更重要的是,LinkedIn 會(huì)員和客戶的搜索效果得到了改善。最近,出于 LinkedIn為全球每一位成員創(chuàng)造經(jīng)濟(jì)機(jī)會(huì)的目標(biāo)以及確保客戶能夠獲得多樣化人才的濃厚興趣,我們還將性別代表性排序作為我們?nèi)瞬潘褜さ囊徊糠,部署給全球 LinkedIn 招聘產(chǎn)品的所有用戶。

作者:Qi Guo

譯者:楊雷

查看原文鏈接:The AI Behind LinkedIn Recruiter Search and Recommendation Systems

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:OPPO 數(shù)據(jù)中臺(tái)之基石:基于 Flink SQL 構(gòu)建實(shí)數(shù)據(jù)倉(cāng)庫(kù)

下一篇:如何成為一名數(shù)據(jù)科學(xué)家?