中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

李飛飛團(tuán)隊(duì)最新提出OpenTag模型:減少人工標(biāo)注,自動(dòng)提取產(chǎn)品屬性值

2018-07-01    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
導(dǎo)讀:

提取缺失屬性值是指從自由文本輸入中找到描述興趣屬性的值。過(guò)去大多數(shù)關(guān)于提取缺失屬性值的工作都是在封閉的假設(shè)下進(jìn)行,即事先已知一組可能的屬性值,或者使用屬性值字典和手工提取的特征。那么怎樣才能發(fā)現(xiàn)新的屬性值?能用有限的人工標(biāo)注或監(jiān)督來(lái)做到這一點(diǎn)嗎?

論文解讀,給大家?guī)?lái)的是李飛飛團(tuán)隊(duì)最新提出的OpenTag模型論文。OpenTag是目前第一個(gè)端到端的開(kāi)放式屬性值提取框架,在這項(xiàng)工作中,李飛飛團(tuán)隊(duì)利用產(chǎn)品配置文件信息,如標(biāo)題和描述,來(lái)提取缺失的產(chǎn)品屬性值。他們開(kāi)發(fā)了一種新的深度標(biāo)注模型OpenTag,從建模、推斷和學(xué)習(xí)三個(gè)方面解決了現(xiàn)實(shí)生活中屬性值提取面臨的挑戰(zhàn)。

正文:

?

?

 

這篇論文有以下貢獻(xiàn):

(1)將問(wèn)題形式化為序列標(biāo)注任務(wù),并提出利用遞歸神經(jīng)網(wǎng)絡(luò)(雙向LSTM)捕獲上下文和語(yǔ)義的聯(lián)合模型,并且利用條件隨機(jī)場(chǎng)(CRF)來(lái)約束標(biāo)注連貫性;

(2)提出了一種新的注意力機(jī)制,為我們的模型決策提供了解釋;

(3)提出了一種新的采樣策略,利用主動(dòng)學(xué)習(xí)來(lái)減少人類(lèi)標(biāo)注的負(fù)擔(dān)。與以前的工作不同的是,OpenTag不使用任何字典或手動(dòng)提取的特征。作者在不同領(lǐng)域的真實(shí)數(shù)據(jù)集做了大量實(shí)驗(yàn),證明具有主動(dòng)學(xué)習(xí)策略的OpenTag僅從150個(gè)標(biāo)注樣本中就可以發(fā)現(xiàn)新的屬性值(減少了3.3倍的標(biāo)注工作量),并且F分?jǐn)?shù)高達(dá)83%,優(yōu)于目前最先進(jìn)的模型。

背景介紹

產(chǎn)品目錄是電子商務(wù)零售商的寶貴資源,他們可以通過(guò)產(chǎn)品目錄來(lái)組織、規(guī)范并且發(fā)布信息給客戶(hù)。然而,這個(gè)目錄信息經(jīng)常是嘈雜的、不完整的,有很多缺失的產(chǎn)品屬性值。一個(gè)有趣而重要的挑戰(zhàn)就是從產(chǎn)品描述和其他相關(guān)產(chǎn)品信息中補(bǔ)充目錄中缺失的屬性值,特別是我們以前從未見(jiàn)過(guò)的屬性。

非正式問(wèn)題1:給定一組目標(biāo)屬性(例如,品牌、味道、氣味)和非結(jié)構(gòu)化的產(chǎn)品配置信息(如標(biāo)題、描述和要點(diǎn)):如何從文本中提取屬性值?如果一些屬性值是新的,比如新興品牌,該如何做?

??

 

圖1

圖1給出了一張亞馬遜網(wǎng)站上一款狗糧的產(chǎn)品配置信息。產(chǎn)品標(biāo)題“多包菲力牛柳和T骨牛排狗糧(12小包)”中包含了兩個(gè)屬性:尺寸和味道,我們想提取這些屬性對(duì)應(yīng)的值,例如“12包”(尺寸)、“菲力牛柳”(味道)和“T骨牛排”(味道)。

這一問(wèn)題提出了如下挑戰(zhàn):

(1)開(kāi)放性預(yù)測(cè)(Open World Assumption,OWA)。之前的屬性值提取研究都是封閉式估測(cè),使用有限的、預(yù)定義的屬性值詞典。因此無(wú)法發(fā)現(xiàn)新發(fā)布產(chǎn)品的新的屬性值。

(2)屬性疊加與不規(guī)則結(jié)構(gòu)。標(biāo)題和描述中的產(chǎn)品配置信息通常是非結(jié)構(gòu)性的,與產(chǎn)品細(xì)節(jié)緊密排列在一起。因此,鑒別和分割特定的屬性值是很困難的。除此之外,有些產(chǎn)品信息十分簡(jiǎn)略。數(shù)據(jù)集中75%的產(chǎn)品標(biāo)題不超過(guò)15個(gè)詞,而超過(guò)60%的重點(diǎn)內(nèi)容不超過(guò)10個(gè)詞。

(3)有限的標(biāo)注數(shù)據(jù),F(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的屬性值提取方法需要大量的標(biāo)注樣例,因此不能擴(kuò)展至某些只有數(shù)百個(gè)標(biāo)注樣例的領(lǐng)域。這也引出了第二個(gè)非正式問(wèn)題。

非正式問(wèn)題2:我們是否可以開(kāi)發(fā)只需要有限的人工注釋的監(jiān)督模型?另外,我們能開(kāi)發(fā)出對(duì)其決策能給出完整解釋的模型嗎?

論文貢獻(xiàn)

在這篇論文中,我們提出了幾個(gè)新的技術(shù)來(lái)解決上述問(wèn)題。我們將問(wèn)題表述為序列標(biāo)注任務(wù),與命名實(shí)體識(shí)別(named entity recognition,NER)任務(wù)類(lèi)似。命名實(shí)體識(shí)別的任務(wù)目標(biāo)是從非結(jié)構(gòu)化文本中識(shí)別人、組織或位置的名字。

論文提出的新技術(shù)總結(jié)如下

模型:我們將屬性值提取建模為序列標(biāo)注任務(wù),滿(mǎn)足開(kāi)放性預(yù)測(cè)(OWA)并且適用于產(chǎn)品配置文件中的非結(jié)構(gòu)化文本和稀疏文本。我們提出OpenTag模型,利用條件隨機(jī)場(chǎng)(CRF)和LSTM,并且增加了一個(gè)注意力機(jī)制來(lái)解釋模型的預(yù)測(cè)結(jié)果。

學(xué)習(xí):探索了主動(dòng)學(xué)習(xí)和新的采樣方法來(lái)減少對(duì)人工標(biāo)注的依賴(lài)。

實(shí)驗(yàn):我們?cè)诓煌I(lǐng)域的真實(shí)場(chǎng)景數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)來(lái)驗(yàn)證OpenTag的有效性。它可以?xún)H從150個(gè)標(biāo)注樣例中發(fā)現(xiàn)新屬性,并且F分?jǐn)?shù)高達(dá)83%,超過(guò)了目前最好的方法。

問(wèn)題定義

給定一組以非結(jié)構(gòu)的文本數(shù)據(jù)形式出現(xiàn)的產(chǎn)品配置信息(標(biāo)題、描述和要點(diǎn)),以及一組預(yù)定義的目標(biāo)屬性值(例如品牌、口味、尺寸),我們的目標(biāo)是從非結(jié)構(gòu)的文本數(shù)據(jù)中提取對(duì)應(yīng)的屬性值。

例如輸入為:

目標(biāo)屬性:品牌、口味和尺寸

產(chǎn)品標(biāo)題:“5 包裝塞薩爾犬類(lèi)美食多樣包菲力牛柳和T骨牛排狗糧(12小包)”

產(chǎn)品描述:“多樣包裝包括:6盤(pán)菲力牛排味”

我們想提取的是“塞薩爾”(品牌),“菲力牛柳”和“T骨牛排”(口味)以及“6盤(pán)”(尺寸)作為對(duì)應(yīng)的模型輸出。

正式問(wèn)題定義:開(kāi)放式屬性值提取。給定一系列產(chǎn)品I,對(duì)應(yīng)的產(chǎn)品配置文件X={xi:i屬于I},以及屬性值A(chǔ)={a1, a2, …, am},用開(kāi)放式估測(cè)提取所有的屬性值Vi=<{vi,j,1, …, vi,j,lij }, aj>。我們用vij來(lái)表示第i個(gè)產(chǎn)品的aj屬性的值。產(chǎn)品配置文件(標(biāo)題、描述、重點(diǎn))由單詞或詞條序列組成:xi={wi,1, wi,2, …, wi,n}。

序列標(biāo)注方法

傳統(tǒng)的方法將這個(gè)任務(wù)視為多分類(lèi)問(wèn)題,將任意目標(biāo)屬性值作為一個(gè)類(lèi)標(biāo),會(huì)產(chǎn)生以下問(wèn)題:(1)標(biāo)注擴(kuò)展問(wèn)題;(2)封閉式估測(cè);(3)標(biāo)注獨(dú)立估測(cè);谝陨系挠^察,我們采用序列標(biāo)注來(lái)對(duì)該任務(wù)建模。

1. 序列標(biāo)注

為了更好的對(duì)屬性和屬性值之間的依賴(lài)關(guān)系建模,我們采取序列標(biāo)注的方法。我們將給定的標(biāo)注集中的一個(gè)標(biāo)注與輸入序列的每個(gè)詞條進(jìn)行關(guān)聯(lián)。目標(biāo)是聯(lián)合預(yù)測(cè)輸入序列中的所有標(biāo)注。在命名實(shí)體識(shí)別(NER)中,目標(biāo)是標(biāo)注給定輸入序列中實(shí)體的名字。我們的問(wèn)題可以視作是NER的一種特殊場(chǎng)景,我們要做的是給定輸入詞條序列,標(biāo)注屬性值。我們的想法是利用分布式語(yǔ)義,即相似的詞條標(biāo)注序列能夠識(shí)別相似的概念。

2. 序列標(biāo)注方法

“BIOE”是最常用的序列標(biāo)注方法。“B”代表一個(gè)屬性的開(kāi)始,“I”代表屬性的內(nèi)部,“O”代表屬性的外部,“E”代表屬性的結(jié)尾。其他的方法包括“UBIOE”和“IOB”。“UBIOE”的“U”代表單元詞條標(biāo)注,區(qū)分一個(gè)詞的屬性和多個(gè)詞的屬性。而對(duì)于“IOB”標(biāo)注,由于“B”和“I”已經(jīng)足以表達(dá)一個(gè)屬性的邊界,所以省略了“E”。

 

??

 

表1

表1給出了上述標(biāo)注方法的示例。給定一個(gè)序列,“鴨肉、菲力牛排和牧羊羔口味”(duck, fillet mignon and ranch raised lamb flavor),由9個(gè)單詞組成(包括逗號(hào)),BIOE標(biāo)注方法提取出了3個(gè)味道屬性的值,“鴨肉”、“菲力牛排”和“牧羊羔”,分別由“B”、“BE”和“BIE”表示。

3. 序列標(biāo)注的優(yōu)勢(shì)

序列標(biāo)注方法有以下三個(gè)優(yōu)點(diǎn):

(1) 開(kāi)放式預(yù)測(cè)和標(biāo)注擴(kuò)展。一個(gè)標(biāo)注與一個(gè)詞條相關(guān),而不是一個(gè)特定的屬性值,因此可以很好的擴(kuò)展至新的屬性值。

(2) 發(fā)現(xiàn)多詞屬性值。上述方法可以提取詞條序列(多詞屬性值),而不是只能識(shí)別單個(gè)詞屬性值。

(3) 發(fā)現(xiàn)多個(gè)屬性值。如果多個(gè)屬性值分別根據(jù)對(duì)方進(jìn)行了不同標(biāo)注,標(biāo)注方法可以同時(shí)發(fā)現(xiàn)多個(gè)屬性值。

我們將原始的開(kāi)放式屬性值提取問(wèn)題簡(jiǎn)化為如下序列標(biāo)注任務(wù):

假設(shè)Y是包含所有標(biāo)注的標(biāo)注集。如果我們選擇BIOE作為標(biāo)注方法。那么Y={B, I, O, E}。我們的目標(biāo)是學(xué)習(xí)一個(gè)標(biāo)注模型F(x) —> y,能夠?qū)⒌趇個(gè)產(chǎn)品配置的輸入序列xi的每個(gè)詞條wij映射到一個(gè)對(duì)應(yīng)的標(biāo)注yij。該監(jiān)督分類(lèi)任務(wù)的訓(xùn)練集為S={xi, yi}。這是一個(gè)全局性的標(biāo)注模型,能夠捕捉標(biāo)注之間的關(guān)系,并且將整個(gè)序列作為一個(gè)整體建模。我們將這個(gè)模型稱(chēng)作OpenTag。

OpenTag模型:通過(guò)序列標(biāo)注提取屬性值

OpenTag模型基于最先進(jìn)的命名實(shí)體識(shí)別系統(tǒng),使用雙向LSTM和條件隨機(jī)場(chǎng),但是我們沒(méi)有使用任何字典和手動(dòng)設(shè)計(jì)的特征。在下面的章節(jié)中,我們首先回顧這些模塊,以及我們?nèi)绾胃倪M(jìn)它們以適應(yīng)屬性值提取任務(wù)。隨后,我們介紹了使用注意力機(jī)制的端到端的OpenTag結(jié)構(gòu),以及主動(dòng)學(xué)習(xí)來(lái)減少對(duì)標(biāo)注數(shù)據(jù)的依賴(lài)。

雙向LSTM模型

雙向LSTM模型能夠分別通過(guò)前饋和反饋狀態(tài)來(lái)捕捉之前時(shí)間點(diǎn)和未來(lái)時(shí)間點(diǎn)的特征。在序列標(biāo)注任務(wù)中,我們通常需要聯(lián)合考慮左邊和右邊的文本以得到更好的預(yù)測(cè)模型。使用從前向和反向LSTM中獲得的隱矢量表示,以及非線(xiàn)性變換,我們可以創(chuàng)建一個(gè)新的隱矢量。最后,我們通過(guò)增加一個(gè)softmax函數(shù)來(lái)預(yù)測(cè)輸入序列x中每個(gè)詞條xt的標(biāo)注。

雖然雙向LSTM考慮了輸入序列的序列特性,但是沒(méi)有考慮輸出標(biāo)注的性質(zhì)。因此,該模型在預(yù)測(cè)時(shí)不能考慮標(biāo)注的連貫性。每個(gè)標(biāo)注是獨(dú)立于其他標(biāo)注完成預(yù)測(cè)的。為了解決這個(gè)問(wèn)題,作者使用CRF來(lái)約束預(yù)測(cè)標(biāo)注的序列特性。

條件隨機(jī)場(chǎng)和雙向LSTM(BiLSTM)標(biāo)注序列建模

在NER任務(wù)中,傳統(tǒng)的CRF模型使用人為定義的語(yǔ)義特征。我們將LSTM和CRF結(jié)合起來(lái),利用類(lèi)似于分布式詞表示的語(yǔ)義特征。我們將BiLSTM模型產(chǎn)生的隱狀態(tài)作為CRF模型的輸入特征。我們加入一個(gè)非線(xiàn)性層來(lái)計(jì)算隱狀態(tài)的權(quán)重,從而捕捉不同狀態(tài)對(duì)于最終決策的重要性。

BiLSTM-CRF網(wǎng)絡(luò)可以利用(1)之前和之后時(shí)間點(diǎn)的特征,(2)經(jīng)由BiLSTM模型編碼入隱狀態(tài)的輸入序列的語(yǔ)義信息,(3)通過(guò)CRF約束的標(biāo)注連續(xù)性,考慮了輸出標(biāo)注之間的依賴(lài)性。

注意力機(jī)制

引入注意力機(jī)制的目的是讓模型強(qiáng)調(diào)重要的信息,而不是關(guān)注所有的信息。使用這種機(jī)制,我們可以強(qiáng)調(diào)輸入序列中對(duì)于模型的預(yù)測(cè)和進(jìn)行特征選擇有重要性的詞條。

在自然語(yǔ)言處理領(lǐng)域,注意力機(jī)制在神經(jīng)機(jī)器翻譯(Natural Language Processing, NMT)中廣泛使用。NMT系統(tǒng)包括一個(gè)序列到序列的編碼解碼器。引入注意力機(jī)制后,解碼器可以將源序列的不同部分作不同處理。更重要的是,我們讓模型基于輸入序列和當(dāng)前輸入來(lái)學(xué)習(xí)需要注意的部分。

在我們的模型設(shè)置中,解碼器是BiLSTM,產(chǎn)生隱狀態(tài)表示。我們引入一個(gè)注意力層,用注意力矩陣來(lái)計(jì)算輸入序列中任意詞條與所有相鄰詞條的相似性。這使得模型可以根據(jù)詞條的重要性來(lái)產(chǎn)生最終的標(biāo)注決策。

詞嵌入(Word Embedding)

神經(jīng)詞嵌入是將在相似上下文中出現(xiàn)的單詞映射到內(nèi)嵌空間的相近點(diǎn)。這一操作形成了OpenTag的第一層。我們以屬性標(biāo)簽為條件學(xué)習(xí)詞表示,并且為不同的屬性產(chǎn)生不同的詞表示。

OpenTag結(jié)構(gòu)

??

 

圖2

圖2給出了OpenTag的整體結(jié)構(gòu)。第一層是詞嵌入層,為輸入序列x的每個(gè)詞條xt產(chǎn)生一個(gè)內(nèi)嵌矢量。該矢量作為雙向LSTM層的輸入,產(chǎn)生其對(duì)應(yīng)的隱狀態(tài)表示,作為前向和后向LSTM狀態(tài)的連接。BiLSTM的輸出作為注意力層的輸入,學(xué)習(xí)需要特別關(guān)注的狀態(tài),隨后產(chǎn)生帶有注意力關(guān)注的隱狀態(tài)表示。這些表示作為CRF層的輸入特征,來(lái)約束標(biāo)注的連續(xù)性,以捕捉輸出標(biāo)注和詞條隱狀態(tài)表示在每個(gè)時(shí)間點(diǎn)的依賴(lài)性。

主動(dòng)學(xué)習(xí)

主動(dòng)學(xué)習(xí)適用于有大量無(wú)標(biāo)注數(shù)據(jù)的場(chǎng)景,我們可以讓學(xué)習(xí)器從無(wú)標(biāo)注數(shù)據(jù)池中選擇樣本,然后再進(jìn)行標(biāo)注。學(xué)習(xí)器用一個(gè)很小的標(biāo)注實(shí)例集作為初始訓(xùn)練集L。隨后學(xué)習(xí)器使用某種搜索策略Q不斷的從未標(biāo)注數(shù)據(jù)池中選擇數(shù)據(jù)進(jìn)行標(biāo)注。主動(dòng)學(xué)習(xí)的挑戰(zhàn)在于如何設(shè)計(jì)一個(gè)好的搜索策略Q,能夠從無(wú)監(jiān)督實(shí)例集中選擇出信息增益最高的樣本。

我們采用的基線(xiàn)方法是最小置信度法(Least Confidence, LC)。它選擇出分類(lèi)器給的置信度最低的樣本。在我們的序列標(biāo)注任務(wù)中,CRF的置信度通過(guò)條件概率得到。然而這一方法有以下兩個(gè)缺點(diǎn):(1)整個(gè)序列的條件概率與產(chǎn)品的連續(xù)標(biāo)注轉(zhuǎn)換率成比例,因此任意詞條標(biāo)注的錯(cuò)誤置信度都會(huì)降低整個(gè)序列的概率,從而無(wú)法實(shí)現(xiàn)有價(jià)值的搜索,(2)盡管這個(gè)方法能夠反應(yīng)詞條標(biāo)注的置信度,但是只能影響少數(shù)幾個(gè)標(biāo)注,對(duì)整個(gè)序列的影響較小。

標(biāo)注跳躍方法(Tag Flip)

根據(jù)上述局限性,我們提出了一個(gè)新的搜索策略,將標(biāo)注分給一個(gè)序列的不同詞條的困難程度來(lái)判斷這個(gè)序列的信息增益。

我們模擬一個(gè)OpenTag學(xué)習(xí)器的集群來(lái)代表與標(biāo)注數(shù)據(jù)集L一致的不同假設(shè)。信息增益最高的樣本便是與集群成員分歧最大的樣本。在訓(xùn)練過(guò)程中,對(duì)于每一個(gè)epoch,OpenTag學(xué)習(xí)一組不同的模型和參數(shù),來(lái)模擬學(xué)習(xí)器集群的一個(gè)成員。每一個(gè)epoch之后,我們將學(xué)到的模型和參數(shù)應(yīng)用于未標(biāo)注樣本池,然后記錄下系統(tǒng)給每個(gè)樣本分配的最佳標(biāo)注序列。我們定義一次“跳躍”為連續(xù)的epoch中給定序列的詞條標(biāo)注變化的次數(shù)。如果樣本序列詞條的標(biāo)注在連續(xù)的epoch之間不停地變化,則說(shuō)明OpenTag對(duì)于這個(gè)樣本不能確定,模型也是不穩(wěn)定的。因此,我們將標(biāo)注跳躍次數(shù)(TF)作為衡量樣本的不確定性和模型不穩(wěn)定性的標(biāo)準(zhǔn),然后搜索標(biāo)注跳躍次數(shù)最高的樣本進(jìn)行標(biāo)注。

下圖給出了利用標(biāo)注跳躍作為搜索策略的主動(dòng)學(xué)習(xí)算法。

?

?

 

表2給出了不同采樣策略:最小置信度和標(biāo)注跳躍選擇的序列結(jié)果。

?

?

 

表2

從表中可以看出,標(biāo)注跳躍算法選擇的序列S2有許多錯(cuò)誤標(biāo)注,對(duì)該次搜索進(jìn)行標(biāo)注的為學(xué)習(xí)器調(diào)整參數(shù)帶來(lái)的影響要明顯大于對(duì)S1進(jìn)行標(biāo)注帶來(lái)的影響。

實(shí)驗(yàn)

數(shù)據(jù)集

我們對(duì)3類(lèi)產(chǎn)品進(jìn)行試驗(yàn):(1)狗糧,(2)和(3)照相機(jī)。表3給出了不同數(shù)據(jù)集的描述和實(shí)驗(yàn)設(shè)置。

?

?

 

表3

屬性值提取表現(xiàn)

基線(xiàn)模型:我們首先考慮了BiLSTM作為第一個(gè)基線(xiàn)模型。第二個(gè)是采用BiLSTM和CRF用于NER的序列標(biāo)注模型。

標(biāo)注方法:我們采用{B, I, O, E}標(biāo)注方法。

屬性值提取結(jié)果:

?

?

 

表4

我們對(duì)比了OpenTag和上述兩個(gè)基準(zhǔn)模型在判斷來(lái)自不同產(chǎn)品配置文件、不同屬性組在不同領(lǐng)域的屬性值的效果。表4給出了對(duì)比結(jié)果。我們發(fā)現(xiàn)OpenTag的F分?jǐn)?shù)連續(xù)高于其他方法,達(dá)到了82.8%。在產(chǎn)品描述上,OpenTag比BiLSTM-CRF的表現(xiàn)有最大提高,提高了5.3%。

開(kāi)放式預(yù)測(cè)發(fā)現(xiàn)新屬性值實(shí)驗(yàn)結(jié)果:

?

?

 

表5

在這個(gè)實(shí)驗(yàn)中,我們測(cè)試了OpenTag發(fā)現(xiàn)新屬性值的效果。我們將測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)完全分開(kāi),確保它們不共享任何屬性值。從表5中可以看到,OpenTag在非聯(lián)合設(shè)置下表現(xiàn)良好,在發(fā)現(xiàn)新屬性值的實(shí)驗(yàn)中F分?jǐn)?shù)為82.4%。

聯(lián)合提取多屬性值:

OpenTag能夠通過(guò)改變標(biāo)注策略聯(lián)合提取多屬性值。在實(shí)驗(yàn)中,我們從狗糧產(chǎn)品標(biāo)題中聯(lián)合提取了品牌、味道和容量這三個(gè)屬性值。從表4可以看出,OpenTag相比于BiLSTM-CRF基線(xiàn)的F分?jǐn)?shù)提高了2%。

??

 

表6

由于聯(lián)合提取多屬性值能夠利用他們的分布式語(yǔ)義信息,因此比單獨(dú)提取的效果要好,如表6所示。盡管品牌和容量這兩個(gè)屬性值的聯(lián)合提取分?jǐn)?shù)提高了,但是味道屬性的提取分?jǐn)?shù)略有下降。

注意力機(jī)制與可解釋性

利用注意力給出解釋?zhuān)?/p>

?

?

 

圖3

圖3給出了OpenTag在訓(xùn)練過(guò)程中學(xué)習(xí)生成的注意力矩陣A的熱圖。熱圖中的每個(gè)元素代表了一個(gè)詞對(duì)于相鄰上下文的重要程度,以及它是如何影響最終決策的。例如圖中心4個(gè)白色的方塊,它們表明對(duì)應(yīng)的“with”和“and”對(duì)于詞條“beef”和“liver”的標(biāo)注決策是很重要的,因?yàn)檫@些連接詞連接了兩個(gè)相鄰的味道屬性值。

這個(gè)例子表明我們的模型學(xué)習(xí)到了連接詞的語(yǔ)義,以及它們對(duì)于屬性值提取的重要性。

更好的概念聚類(lèi):

?

?

 

圖4 OpenTag取得了更好的概念聚類(lèi)結(jié)果。

子圖按順序顯示了注意力對(duì)輸入數(shù)據(jù)的操作得到了更好的概念聚類(lèi)結(jié)果。圖4(a)顯示了在引入注意力之前詞語(yǔ)嵌入表示的分布。每一個(gè)點(diǎn)代表一個(gè)詞條,它的顏色代表一個(gè)標(biāo)注{B, I, O, E}。我們發(fā)現(xiàn)不同標(biāo)注的詞語(yǔ)最開(kāi)始在內(nèi)嵌空間隨機(jī)分布。

我們通過(guò)累積對(duì)應(yīng)的注意力權(quán)重為每個(gè)詞計(jì)算兩個(gè)重要性度量:(1)它對(duì)屬性詞的重要程度(估測(cè)屬性值內(nèi)詞條的{B, I, E}標(biāo)注);(2)它對(duì)外部詞的重要程度(估測(cè)屬性值外部詞條{O}的標(biāo)注)。對(duì)于每一次計(jì)算,我們采樣前200個(gè)最重要的單詞,圖4(b)給出了它們的分布。我們發(fā)現(xiàn)語(yǔ)義相關(guān)的詞在位置上也比較相近。

圖4(c)顯示了注意力機(jī)制如何將隱矢量投射到新的空間。圖中的每一個(gè)藍(lán)點(diǎn)代表原始隱空間的一個(gè)單詞。紅點(diǎn)表示注意力機(jī)制將這個(gè)單詞投影到一個(gè)新空間。同樣,我們發(fā)現(xiàn)類(lèi)似的概念在投射之后變得更近了。

圖4(d)給出了經(jīng)過(guò)注意力機(jī)制的操作后詞向量的分布。與圖4(a)對(duì)比發(fā)現(xiàn),使用注意力機(jī)制之后,類(lèi)似的概念(標(biāo)注)有了更好的聚類(lèi)和區(qū)分度。

主動(dòng)學(xué)習(xí)

用保留測(cè)試集進(jìn)行主動(dòng)學(xué)習(xí):

?

?

 

圖5

為了對(duì)主動(dòng)學(xué)習(xí)框架進(jìn)行嚴(yán)格的評(píng)估,我們使用一個(gè)保留測(cè)試集來(lái)驗(yàn)證主動(dòng)學(xué)習(xí)的效果。我們以少量的標(biāo)注實(shí)例(50個(gè)隨機(jī)采樣的實(shí)例)作為初始標(biāo)注集L。圖5給出了兩個(gè)任務(wù)的結(jié)果:(1)從調(diào)味品的產(chǎn)品標(biāo)題中提取氣味屬性值;(2)從狗糧產(chǎn)品標(biāo)題中提取多屬性值(品牌、容量和味道)。采用標(biāo)注跳躍采樣策略的OpenTag將單屬性值提取的精度從59.5%提高到91.7%,召回率從70.7%提高到91.5%。我們也發(fā)現(xiàn),標(biāo)注跳躍方法比最小置信度方法對(duì)于單屬性值提取的F分?jǐn)?shù)提高了5.6%,對(duì)于多屬性值提取的F分?jǐn)?shù)提高了2.2%。

沒(méi)有保留數(shù)據(jù)的主動(dòng)學(xué)習(xí):

??

 

圖6

下面我們探索主動(dòng)學(xué)習(xí)在多大程度上可以減輕人為標(biāo)注的負(fù)擔(dān)。我們用很少的標(biāo)注實(shí)例(50個(gè))作為初始訓(xùn)練集L。我們想發(fā)現(xiàn)需要多少輪主動(dòng)學(xué)習(xí)才能匹配初始訓(xùn)練集大小為500的OpenTag的表現(xiàn)。如圖6所示,我們僅用了大概150個(gè)訓(xùn)練實(shí)例就達(dá)到了類(lèi)似的表現(xiàn)水平。這一結(jié)果表明,OpenTag結(jié)合采用TF策略的主動(dòng)學(xué)習(xí)可以大量減少對(duì)標(biāo)注數(shù)據(jù)的需求。

總結(jié)

這篇論文介紹了OpenTag——一個(gè)端到端的標(biāo)注模型,利用了BiLSTM、CRF和注意力機(jī)制,從產(chǎn)品配置信息例如標(biāo)題、描述和重點(diǎn)內(nèi)容中提取缺失屬性值。OpenTag不使用任何字典或者手工提取的特征。它對(duì)數(shù)據(jù)結(jié)構(gòu)也不做任何預(yù)估,因此可以用于任意一種文本數(shù)據(jù)。

OpenTag其他的優(yōu)勢(shì)在于:

(1)開(kāi)放式估測(cè)(OWA):它可以發(fā)現(xiàn)系統(tǒng)未見(jiàn)過(guò)的新屬性,并且可以提取多詞屬性值以及多屬性提取;

(2)不規(guī)則結(jié)構(gòu)和稀疏文本:它可以處理非結(jié)構(gòu)文本,例如產(chǎn)品配置信息這種缺乏規(guī)則語(yǔ)法結(jié)構(gòu)、只是屬性值堆疊的文本,以及稀疏文本;

(3)有限標(biāo)注數(shù)據(jù):與其他有監(jiān)督模型和神經(jīng)網(wǎng)絡(luò)不同,OpenTag所需訓(xùn)練數(shù)據(jù)較少。它利用主動(dòng)學(xué)習(xí)來(lái)減輕人工標(biāo)注的負(fù)擔(dān);

(4)可解釋性:OpenTag利用注意力機(jī)制來(lái)解釋它的決定。論文在不同領(lǐng)域的真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)證明OpenTag可以?xún)H從150個(gè)標(biāo)注樣本中發(fā)現(xiàn)新的屬性值(降低了3.3倍的人工標(biāo)注量),F(xiàn)分?jǐn)?shù)高達(dá)83%,超過(guò)了當(dāng)前最先進(jìn)的模型。

論文原文鏈接:

https://arxiv.org/abs/1806.01264v1

標(biāo)簽: 電子商務(wù) 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:聊聊本屆世界杯里的新玩意兒、新科技

下一篇:ICML 2018大獎(jiǎng)出爐:伯克利、MIT獲最佳論文,復(fù)旦大學(xué)榜上有名