中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一款用于改進圖片搜索效果的標注游戲

2019-03-21    來源:百度搜索研發(fā)部官方博客

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

【摘要】:

圖片搜索由于在搜索目標上的特殊性,往往依賴于圖片所在網(wǎng)頁的文本來判斷圖片的內容(我們成為圖片周邊文本)。而周邊文本往往不能很好的表達圖片的內容,并且一張圖片往往在多個網(wǎng)頁中被引用,圖片周邊文本也不太一致,甚至于很多圖片并沒有周邊文本,因此給圖片搜索算法提出了更高挑戰(zhàn)。

通過“眾包”的方式(百度眾測平臺)為圖片進行信息標注,從而提高搜索引擎的準確性和召回率往往是一個比較有效的方法,并且標注的數(shù)據(jù)可以作為圖片機器學習的樣本數(shù)據(jù),對于提高圖片機器學習的準確率也有很大的效果;但是在圖片標注的過程中也有很多問題需要解決,例如:

(1)用戶作弊問題:在“眾包”平臺中,有因為興趣愛好參與標注的,也有因為平臺激勵機制而參與標注的,因此會存在部分用戶為了獲取獎勵而進行作弊的行為,這些作弊行為會給標注數(shù)據(jù)的準確率帶來很大的影響;

(2)如何對用戶的標注進行引導,使得標注的信息更為準確,讓用戶的標注成本更低,標注過程更為有趣味性,從而提高標注的效率;

本文所提到的就是一種帶有防作弊功能的,能夠對用戶的標注信息進行細分引導,從而使得標注數(shù)據(jù)越來越精確的圖片標注方法。

在本文所描述的圖片標注游戲中,用戶被區(qū)分為兩種類型:

(1)描述者:對系統(tǒng)展現(xiàn)的一張圖片用一段文字或者幾組關鍵字進行描述,表達出圖片的內容和特點;

(2)判斷者:系統(tǒng)向其展現(xiàn)多張圖片(一般情況下為4張)以及一段描述文字,這段描述文字所對應的圖片也包含在所展現(xiàn)的圖片當中,判斷者根據(jù)“描述文字”挑選出對應的圖片;

用戶可以隨時在“描述者”和“判斷者”之間切換身份,但是不會出現(xiàn)用戶自己判斷自己所描述的圖片的情況。系統(tǒng)將“描述者”描述的圖片分配給“判斷者”的時候有一套算法確保不會分配給“原描述者”,并且也不會分配給距離“描述者”較近或者可能認識的“判斷者”。我們在文章后面會描述這個分配算法。

一、“描述者”描述圖片的過程

圖1: 圖片標注系統(tǒng)

如圖1,當用戶點擊“圖片標注系統(tǒng)”的“描述圖片”按鈕之后,系統(tǒng)會從圖片數(shù)據(jù)集(圖片URL集合)中隨機挑選出100個圖片URL,然后逐個給用戶展示圖片(如圖2和3)。

圖2:描述圖片(甲殼蟲昆蟲)

圖3:描述圖片(甲殼蟲汽車)

圖4:描述圖片(甲殼蟲樂隊)

二、“判斷者”判斷圖片的過程

圖5:判斷圖片

當用戶選擇“判斷圖片”的時候,系統(tǒng)也會選擇隨機選擇100個已經有標注(就是有用戶描述)的圖片,每次展示一段標注文字以及相應的4張圖片(可以是更多張,系統(tǒng)可以配置)。如圖5,最上面藍色框里面是已有用戶標注“甲殼蟲汽車”,中間是系統(tǒng)挑選出來的4張圖片,挑選的算法后面會有詳細介紹。挑選的圖片當中包含用戶標注對應的圖片,例如圖5中就是對應中間的紅色甲殼蟲汽車。

當用戶判斷出圖片之后,只要用鼠標點擊相應的圖片就會在圖片周邊有紅色的方框將圖片圈住,用戶點擊繼續(xù)判斷即可提交判斷結果并進入到下一個標注文字的判斷。

三、“判斷者”的選取方法

為了防止作弊,系統(tǒng)有一套“判斷者”選取方法,主要避免如下的作弊行為:

(1)“描述者”判斷自己所標注的圖片;

(2)“描述者”和“判斷者”之間協(xié)同作弊;

系統(tǒng)的處理方法如下:

(1)“描述者”在標注圖片的時候,系統(tǒng)會記錄描述者的賬號和IP地址;

(2)系統(tǒng)在挑選“判斷者”的時候會選擇不同的賬號,并且對IP地址進行位置轉換,選擇一個距離“描述者”較遠的“判斷者”;

(3)系統(tǒng)會記錄“標注文字”的分配歷史記錄,不會將同一個“標注文字”重復分配給同一個“判斷者”,“描述者”和“判斷者”之間的持續(xù)作弊成本很高;

標簽: 圖片搜索 搜索引擎算法 圖片描述優(yōu)化 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:關鍵詞爆破的概念 旅游網(wǎng)站關鍵詞爆破策略

下一篇:全民SEO時代 如何從SEO肉搏戰(zhàn)中突出重圍