中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一款用于改進(jìn)圖片搜索效果的標(biāo)注游戲

2019-03-21    來(lái)源:百度搜索研發(fā)部官方博客

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

【摘要】:

圖片搜索由于在搜索目標(biāo)上的特殊性,往往依賴于圖片所在網(wǎng)頁(yè)的文本來(lái)判斷圖片的內(nèi)容(我們成為圖片周邊文本)。而周邊文本往往不能很好的表達(dá)圖片的內(nèi)容,并且一張圖片往往在多個(gè)網(wǎng)頁(yè)中被引用,圖片周邊文本也不太一致,甚至于很多圖片并沒(méi)有周邊文本,因此給圖片搜索算法提出了更高挑戰(zhàn)。

通過(guò)“眾包”的方式(百度眾測(cè)平臺(tái))為圖片進(jìn)行信息標(biāo)注,從而提高搜索引擎的準(zhǔn)確性和召回率往往是一個(gè)比較有效的方法,并且標(biāo)注的數(shù)據(jù)可以作為圖片機(jī)器學(xué)習(xí)的樣本數(shù)據(jù),對(duì)于提高圖片機(jī)器學(xué)習(xí)的準(zhǔn)確率也有很大的效果;但是在圖片標(biāo)注的過(guò)程中也有很多問(wèn)題需要解決,例如:

(1)用戶作弊問(wèn)題:在“眾包”平臺(tái)中,有因?yàn)榕d趣愛(ài)好參與標(biāo)注的,也有因?yàn)槠脚_(tái)激勵(lì)機(jī)制而參與標(biāo)注的,因此會(huì)存在部分用戶為了獲取獎(jiǎng)勵(lì)而進(jìn)行作弊的行為,這些作弊行為會(huì)給標(biāo)注數(shù)據(jù)的準(zhǔn)確率帶來(lái)很大的影響;

(2)如何對(duì)用戶的標(biāo)注進(jìn)行引導(dǎo),使得標(biāo)注的信息更為準(zhǔn)確,讓用戶的標(biāo)注成本更低,標(biāo)注過(guò)程更為有趣味性,從而提高標(biāo)注的效率;

本文所提到的就是一種帶有防作弊功能的,能夠?qū)τ脩舻臉?biāo)注信息進(jìn)行細(xì)分引導(dǎo),從而使得標(biāo)注數(shù)據(jù)越來(lái)越精確的圖片標(biāo)注方法。

在本文所描述的圖片標(biāo)注游戲中,用戶被區(qū)分為兩種類型:

(1)描述者:對(duì)系統(tǒng)展現(xiàn)的一張圖片用一段文字或者幾組關(guān)鍵字進(jìn)行描述,表達(dá)出圖片的內(nèi)容和特點(diǎn);

(2)判斷者:系統(tǒng)向其展現(xiàn)多張圖片(一般情況下為4張)以及一段描述文字,這段描述文字所對(duì)應(yīng)的圖片也包含在所展現(xiàn)的圖片當(dāng)中,判斷者根據(jù)“描述文字”挑選出對(duì)應(yīng)的圖片;

用戶可以隨時(shí)在“描述者”和“判斷者”之間切換身份,但是不會(huì)出現(xiàn)用戶自己判斷自己所描述的圖片的情況。系統(tǒng)將“描述者”描述的圖片分配給“判斷者”的時(shí)候有一套算法確保不會(huì)分配給“原描述者”,并且也不會(huì)分配給距離“描述者”較近或者可能認(rèn)識(shí)的“判斷者”。我們?cè)谖恼潞竺鏁?huì)描述這個(gè)分配算法。

一、“描述者”描述圖片的過(guò)程

圖1: 圖片標(biāo)注系統(tǒng)

如圖1,當(dāng)用戶點(diǎn)擊“圖片標(biāo)注系統(tǒng)”的“描述圖片”按鈕之后,系統(tǒng)會(huì)從圖片數(shù)據(jù)集(圖片URL集合)中隨機(jī)挑選出100個(gè)圖片URL,然后逐個(gè)給用戶展示圖片(如圖2和3)。

圖2:描述圖片(甲殼蟲(chóng)昆蟲(chóng))

圖3:描述圖片(甲殼蟲(chóng)汽車)

圖4:描述圖片(甲殼蟲(chóng)樂(lè)隊(duì))

二、“判斷者”判斷圖片的過(guò)程

圖5:判斷圖片

當(dāng)用戶選擇“判斷圖片”的時(shí)候,系統(tǒng)也會(huì)選擇隨機(jī)選擇100個(gè)已經(jīng)有標(biāo)注(就是有用戶描述)的圖片,每次展示一段標(biāo)注文字以及相應(yīng)的4張圖片(可以是更多張,系統(tǒng)可以配置)。如圖5,最上面藍(lán)色框里面是已有用戶標(biāo)注“甲殼蟲(chóng)汽車”,中間是系統(tǒng)挑選出來(lái)的4張圖片,挑選的算法后面會(huì)有詳細(xì)介紹。挑選的圖片當(dāng)中包含用戶標(biāo)注對(duì)應(yīng)的圖片,例如圖5中就是對(duì)應(yīng)中間的紅色甲殼蟲(chóng)汽車。

當(dāng)用戶判斷出圖片之后,只要用鼠標(biāo)點(diǎn)擊相應(yīng)的圖片就會(huì)在圖片周邊有紅色的方框?qū)D片圈住,用戶點(diǎn)擊繼續(xù)判斷即可提交判斷結(jié)果并進(jìn)入到下一個(gè)標(biāo)注文字的判斷。

三、“判斷者”的選取方法

為了防止作弊,系統(tǒng)有一套“判斷者”選取方法,主要避免如下的作弊行為:

(1)“描述者”判斷自己所標(biāo)注的圖片;

(2)“描述者”和“判斷者”之間協(xié)同作弊;

系統(tǒng)的處理方法如下:

(1)“描述者”在標(biāo)注圖片的時(shí)候,系統(tǒng)會(huì)記錄描述者的賬號(hào)和IP地址;

(2)系統(tǒng)在挑選“判斷者”的時(shí)候會(huì)選擇不同的賬號(hào),并且對(duì)IP地址進(jìn)行位置轉(zhuǎn)換,選擇一個(gè)距離“描述者”較遠(yuǎn)的“判斷者”;

(3)系統(tǒng)會(huì)記錄“標(biāo)注文字”的分配歷史記錄,不會(huì)將同一個(gè)“標(biāo)注文字”重復(fù)分配給同一個(gè)“判斷者”,“描述者”和“判斷者”之間的持續(xù)作弊成本很高;

標(biāo)簽: 圖片搜索 搜索引擎算法 圖片描述優(yōu)化 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:關(guān)鍵詞爆破的概念 旅游網(wǎng)站關(guān)鍵詞爆破策略

下一篇:全民SEO時(shí)代 如何從SEO肉搏戰(zhàn)中突出重圍