中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

騰訊開源ML-Images,超越谷歌成業(yè)內(nèi)最大多標(biāo)簽圖像數(shù)據(jù)集

2018-09-20    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

騰訊 AI Lab 此次公布的圖像數(shù)據(jù)集 ML-Images,包含了 1800 萬圖像和 1.1 萬多種常見物體類別,在業(yè)內(nèi)已公開的多標(biāo)簽圖像數(shù)據(jù)集中規(guī)模最大,足以滿足一般科研機(jī)構(gòu)及中小企業(yè)的使用場景。此外,騰訊 AI Lab 還將提供基于 ML-Images 訓(xùn)練得到的深度殘差網(wǎng)絡(luò) ResNet-101。該模型具有優(yōu)異的視覺表示能力和泛化性能,在當(dāng)前業(yè)內(nèi)同類模型中精度最高,將為包括圖像、視頻等在內(nèi)的視覺任務(wù)提供強(qiáng)大支撐,并助力圖像分類、物體檢測、物體跟蹤、語義分割等技術(shù)水平的提升。

以深度神經(jīng)網(wǎng)絡(luò)為典型代表的深度學(xué)習(xí)技術(shù)已經(jīng)在很多領(lǐng)域充分展現(xiàn)出其優(yōu)異的能力,尤其是計算機(jī)視覺領(lǐng)域,包括圖像和視頻的分類、理解和生成等重要任務(wù)。然而,要充分發(fā)揮出深度學(xué)習(xí)的視覺表示能力,必須建立在充足的高質(zhì)量訓(xùn)練數(shù)據(jù)、優(yōu)秀的模型結(jié)構(gòu)和模型訓(xùn)練方法,以及強(qiáng)大的的計算資源等基礎(chǔ)能力之上。

各大科技公司都非常重視人工智能基礎(chǔ)能力的建設(shè),都建立了僅面向其內(nèi)部的大型圖像數(shù)據(jù)集,例如谷歌的 JFT-300M 和 Facebook 的 Instagram 數(shù)據(jù)集。但這些數(shù)據(jù)集及其訓(xùn)練得到的模型都沒有公開,對于一般的科研機(jī)構(gòu)和中小企業(yè)來說,這些人工智能基礎(chǔ)能力有著非常高的門檻。

當(dāng)前業(yè)內(nèi)公開的最大規(guī)模的多標(biāo)簽圖像數(shù)據(jù)集是谷歌公司的 Open Images, 包含 900 萬訓(xùn)練圖像和 6000 多物體類別。騰訊 AI Lab 此次開源的 ML-Images 數(shù)據(jù)集包括 1800 萬訓(xùn)練圖像和 1.1 萬多常見物體類別,或?qū)⒊蔀樾碌男袠I(yè)基準(zhǔn)數(shù)據(jù)集。除了數(shù)據(jù)集,騰訊 AI Lab 團(tuán)隊還將在此次開源項目中詳細(xì)介紹:

大規(guī)模的多標(biāo)簽圖像數(shù)據(jù)集的構(gòu)建方法,包括圖像的來源、圖像候選類別集合、類別語義關(guān)系和圖像的標(biāo)注。在 ML-Images 的構(gòu)建過程中,團(tuán)隊充分利用了類別語義關(guān)系來幫助對圖像的精準(zhǔn)標(biāo)注。

基于 ML-Images 的深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法。團(tuán)隊設(shè)計的損失函數(shù)和訓(xùn)練方法,可以有效抑制大規(guī)模多標(biāo)簽數(shù)據(jù)集中類別不均衡對模型訓(xùn)練的負(fù)面影響。

基于 ML-Images 訓(xùn)練得到的 ResNet-101 模型,具有優(yōu)異的視覺表示能力和泛化性能。通過遷移學(xué)習(xí),該模型在 ImageNet 驗證集上取得了 80.73% 的 top-1 分類精度,超過谷歌同類模型(遷移學(xué)習(xí)模式)的精度,且值得注意的是,ML-Images 的規(guī)模僅為 JFT-300M 的約 1/17。

據(jù)了解,“Tencent ML-Images”項目的深度學(xué)習(xí)模型,目前已在騰訊多項業(yè)務(wù)中發(fā)揮重要作用,如“天天快報”的圖像質(zhì)量評價與推薦功能。

以下是對 ML-images 團(tuán)隊的專訪內(nèi)容:

Q:騰訊這次開源的“Tencent ML-Images”圖像數(shù)據(jù)集,與此前谷歌的 Open Images 圖像數(shù)據(jù)集相比,除了數(shù)據(jù)量變得更大,還有哪些不同之處?

A:相比于 Open Images, 除了圖像數(shù)據(jù)量更大,ML-Images 圖像數(shù)據(jù)集還有兩個主要不同之處:

1)更多的可訓(xùn)練物體類別,達(dá)到 1 萬多種類別,而 Open Images 的可訓(xùn)練類別只有約 7200 種;

2)ML-Images 的圖像標(biāo)注質(zhì)量更高,因為在標(biāo)注過程中我們充分利用了類別語義關(guān)系(見問題 4 詳細(xì)介紹),而 Open Images 的訓(xùn)練圖像標(biāo)注來源于已有分類器的自動生成。

Q:騰訊此次開源的圖像數(shù)據(jù)集對于學(xué)術(shù)界和工業(yè)界的意義分別是什么?為什么大規(guī)模圖像數(shù)據(jù)集對于行業(yè)來說非常重要?

A:利用 ML-Images 的圖像,科研人員可以設(shè)計,訓(xùn)練,驗證新的模型和算法;工程師可以利用此次開源的高精度 ResNet-101 模型,快速遷移到其他視覺任務(wù)。數(shù)據(jù)是深度神經(jīng)網(wǎng)絡(luò)的燃料,只有充足的高質(zhì)量訓(xùn)練圖像,才能充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的視覺學(xué)習(xí)能力。

Q:以“Tencent ML-Images”圖像數(shù)據(jù)集為例,詳細(xì)談?wù)劥笠?guī)模多標(biāo)簽圖像數(shù)據(jù)集的構(gòu)建方法,主要包含哪些步驟,每個步驟的難點是什么?分別有哪些解決思路?

A:大規(guī)模圖像數(shù)據(jù)集的構(gòu)建主要包含圖像來源,物體類別集合,圖像標(biāo)注三個步驟。圖像來源一般有兩種形式,一種是利用圖像搜索引擎(例如 Flickr)來爬取, 另一種是融合已有圖像數(shù)據(jù)集。

我們選擇利用 ImageNet 和 Open Images 提供的部分圖像 URL 進(jìn)行融合。我們稱之為多源數(shù)據(jù)集融合,其最大難點在于物體類別集合的融合。我們采取的方法是利用 WordNet,將所有數(shù)據(jù)源中的類別,規(guī)范化成統(tǒng)一的 WordID。如果不同類別的 WordID 相同,則可以將它們進(jìn)行融合成一個類別,即類別去重;如果不同類別的 WordID 在 WordNet 中是同義關(guān)系,同樣可以將它們進(jìn)行融合成一個類別,即類別去冗余。

在完成類別的去重和去冗余后,剩下的 WordID 對應(yīng)的都是含義相對獨(dú)立的類別。它們的語義關(guān)系結(jié)構(gòu)可以從 WordNet 中提取, 從而形成一個完整的、無冗余的、具有統(tǒng)一語義關(guān)系結(jié)構(gòu)的物體類別集合,進(jìn)而完成訓(xùn)練圖像的融合與標(biāo)注。

Q:你們提到,“在 ML-Images 的構(gòu)建過程中利用類別語義關(guān)系來幫助對圖像的精準(zhǔn)標(biāo)注”,能否介紹一下類別語義關(guān)系,以及具體是如何實現(xiàn)圖像精準(zhǔn)標(biāo)注的?

A:如上述回答中所介紹的,ML-Images 中的類別語義關(guān)系來源于 WordNet。常見的語義關(guān)系有:

(1)屬種關(guān)系,比如“馬”是一種“動物”,因此“馬”是“動物”的子類;

(2)整部關(guān)系,比如 “樹葉”是“樹”的一部分,因此 “葉”是“樹”的子類。

從語義關(guān)系中可知,如果子類別存在于一幅圖像中,其父類別也應(yīng)該存在。利用這種約束關(guān)系,我們可以對自動標(biāo)注的結(jié)果進(jìn)行快速甄別、矯正,從而得到更精準(zhǔn)的標(biāo)注。另外,類別語義關(guān)系還將用來篩選類別共現(xiàn)關(guān)系(即不同物體類別同時出現(xiàn)在一幅圖像中),而類別共現(xiàn)關(guān)系也將為精準(zhǔn)標(biāo)注提供重要幫助。

Q:大規(guī)模多標(biāo)簽數(shù)據(jù)集中很容易出現(xiàn)類別不均衡的問題,從而對模型訓(xùn)練產(chǎn)生負(fù)面影響,你們是如何解決這個問題的?

A:大規(guī)模多標(biāo)簽數(shù)據(jù)集中的類別不均衡主要有兩種形式:

(1)同一類別中正負(fù)圖像的不均衡,即對于一種特定類別而言,其正圖像(即該類別存在的圖像)在整個數(shù)據(jù)集中所占的比例往往很小,遠(yuǎn)小于其負(fù)圖像的比例。

(2)不同類別間的正圖像不均衡。例如,常見大類別(比如“動物”、“植物”)的正圖像的比例有可能超過整個圖像數(shù)據(jù)集的 10%,而罕見小類別的正圖像比例往往不到千分之一。

針對以上兩種不均衡,我們設(shè)計了:

a) 帶有權(quán)重交叉熵?fù)p失函數(shù),

b) 損失函數(shù)權(quán)重的自適應(yīng)衰減,

c) 負(fù)圖像降采樣,可以有效抑制類別不均衡對模型訓(xùn)練的不利影響。

Q:基于 ML-Images 訓(xùn)練得到的 ResNet-101 模型與之前谷歌、微軟的 ResNet-101 模型相比,有什么優(yōu)勢?你們從哪些方面對其進(jìn)行了優(yōu)化和改進(jìn)?

A:對比谷歌、微軟所公布的 ResNet-101 模型,我們此次開源的 ResNet-101 模型具有更強(qiáng)的視覺表示能力和泛化性能,這一點通過遷移學(xué)習(xí)在 ImageNet 驗證集上精度可以體現(xiàn)。之所以能得到這么優(yōu)秀的模型,主要原因包括 ML-Images 提供的高質(zhì)量訓(xùn)練圖像,和我們設(shè)計的損失函數(shù)、訓(xùn)練算法。詳情可參見下表:

 

 

注:微軟 ResNet-101 模型為非遷移學(xué)習(xí)模式下訓(xùn)練得到,即 1.2M 預(yù)訓(xùn)練圖像為原始數(shù)據(jù)集 ImageNet 的圖像。

Q:這個圖像數(shù)據(jù)集可以應(yīng)用于哪些不同的行業(yè)和領(lǐng)域?目前這個圖像數(shù)據(jù)集以及所包含的 ResNet-101 模型是否有在騰訊的實際業(yè)務(wù)中落地應(yīng)用?主要用在了哪些場景?效果如何?(最好有實際案例和數(shù)據(jù))

A:“Tencent ML-Images”項目的 ResNet-101 模型,目前已在騰訊多項業(yè)務(wù)中發(fā)揮重要作用,如“天天快報”的圖像質(zhì)量評價與推薦功能,顯著提高了圖像推薦的效果,如下圖所示:

 

 

左側(cè)為優(yōu)化前,右側(cè)為優(yōu)化后

騰訊 ML-Images 團(tuán)隊在采訪最后表示,他們將持續(xù)擴(kuò)充數(shù)據(jù)集的圖像數(shù)量和物體類別范圍。團(tuán)隊還將基于 Tencent ML-Images 的 ResNet-101 模型遷移到很多其他視覺任務(wù),包括圖像物體檢測,圖像語義分割,視頻物體分割,視頻物體跟蹤等。這些視覺遷移任務(wù)進(jìn)一步驗證了該模型的強(qiáng)大視覺表示能力和優(yōu)異的泛化性能。“Tencent ML-Images”項目未來還將在更多視覺相關(guān)的產(chǎn)品中發(fā)揮重要作用。

該數(shù)據(jù)集將于本月底正式開源,感興趣的讀者屆時可訪問此鏈接:https://github.com/Tencent

標(biāo)簽: 谷歌 搜索 搜索引擎 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2018年值得擁有的十大大數(shù)據(jù)挖掘工具

下一篇:Spark、Flink、CarbonData技術(shù)實踐最佳案例解析