中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

你的食物變質(zhì)沒?用AI算法來檢測一下吧

2018-09-27    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

最近一條幼兒園采用過期食物的新聞引起了社會的強烈關(guān)注,對于食品安全而言,國家一直是嚴格要求的,尤其是對于嬰幼兒食品安全的標(biāo)準(zhǔn),部分已經(jīng)超越了國際上的標(biāo)準(zhǔn)。但可能是由于無法嚴格地執(zhí)行到每一個地方且檢測周期較長,造成這一現(xiàn)象的出現(xiàn),著實有些令人憤怒。程序員,用代碼改變世界的一群人,今天向大家介紹用AI算法來檢測食物是否過期,希望能夠在以后普及應(yīng)用到食物安全的初步檢測之中,下面以披薩為例。

 

 

在俄羅斯最大的披薩連鎖店“Dodo Pizza”的最新Dbrain用例中,首席數(shù)據(jù)科學(xué)家Arthur Kuzin解釋了開發(fā)的AI算法如何通過短信控制披薩質(zhì)量,將披薩面團打分1到10分。下面詳細解釋如何教AI算法來評估披薩質(zhì)量!

本文重點關(guān)注以下內(nèi)容:i)僅從少數(shù)標(biāo)記樣本中獲取完整數(shù)據(jù)集的標(biāo)記; ii)將方框拉伸到對象的分割掩模(將方框的方形掩模應(yīng)用于任何形狀)。

想法

Dodo pizza有許多活躍的客戶,在完成訂單后,他們同意分享他們對披薩質(zhì)量的看法。為了簡化反饋環(huán)節(jié)及其處理過程,Dbrain開發(fā)了一個AI算法驅(qū)動的應(yīng)用程序來檢查披薩質(zhì)量。此應(yīng)用程序類似于聊天機器人,客戶上傳照片后可以獲得得分為1到10的等級評分。

 

 

問題陳述

當(dāng)程序員收到開發(fā)請求時,就著手開發(fā)一種可以客觀地確定面團質(zhì)量的算法。問題在于確定披薩烘焙過程是何時停止的,披薩外皮上的白色氣泡與產(chǎn)品的變質(zhì)相關(guān)。

數(shù)據(jù)挖掘

該數(shù)據(jù)集收集了披薩烘焙的照片,還包括了一些不相關(guān)的圖像。如果配方不正確,披薩外皮上就會出現(xiàn)白色氣泡。此外,專家還對面團質(zhì)量進行了二元標(biāo)記。因此,得到數(shù)據(jù)集之后,算法的開發(fā)就只是時間問題了。

這些數(shù)據(jù)集的照片是在不同的手機上、在不同的光線條件下以及從不同的角度拍攝得到的。整個數(shù)據(jù)集有17k張的披薩標(biāo)本圖像,而整個數(shù)據(jù)集的圖片總數(shù)為60k張。

由于該任務(wù)需求非常簡單明了,因此用不同的方法來處理數(shù)據(jù)是一個很好的操練場。那么,以下就是我們解決任務(wù)所需要的:

1.選擇能夠看到披薩外殼的照片;

2.區(qū)分所選照片中的披薩外皮與背景區(qū)域;

3.在選定區(qū)域訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

數(shù)據(jù)過濾

此外,我自己標(biāo)記了一小部分照片,而不是向其他人解釋我真正需要的東西,因為,如果你想要做得好,自己就需要對數(shù)據(jù)進行處理,以下就是我所做的:

1.標(biāo)記了50張有披薩外皮圖像,標(biāo)記了50張沒有披薩外皮圖像:

 

 

2.使用resnet-152網(wǎng)絡(luò)在imagenet11k上預(yù)訓(xùn)練權(quán)重等參數(shù),在全連接層后提取特征;

 

 

3.將兩個類別的特征的平均值作為基準(zhǔn)點;

4.計算從該基準(zhǔn)點與剩余的60k圖片的所有特征之間的距離;

5.確定前300個與正類別相關(guān)的樣本,后500個與負類別相關(guān)的樣本;

 

 

6.基于這些樣本的特征訓(xùn)練LightGBM;

7.使用此模型在整個數(shù)據(jù)集上預(yù)測出標(biāo)簽;

 

 

這與我在kaggle比賽中用作基線的方法大致相同。

前傳

大約一年前,我和Evgeny Nizhibitsky一起參加了“海獅” kaggle比賽。任務(wù)是從無人機拍攝的圖像上統(tǒng)計海豹的個數(shù)。標(biāo)記只是給出了尸體的坐標(biāo),但在某些時候, Vladimir Iglovikov用方框標(biāo)記了它們,并在社區(qū)慷慨地進行了分享。

我決定通過分割來解決這個任務(wù),在第一階段只將海豹方框作為目標(biāo)。經(jīng)過幾次訓(xùn)練迭代后,很容易找到一些硬樣品,但是效果不好。

 

 

對于此示例,可以選擇沒有海豹的大區(qū)域,手動將蒙版設(shè)置為零,還可以添加到訓(xùn)練集。因此,Evgeny和我訓(xùn)練了一個模型,該模型已經(jīng)學(xué)會了分割大型海豹鰭。

 

 

披薩外皮檢測和提取

再次回到主題披薩,為了識別所選和過濾后的圖像上的外殼,最佳選在標(biāo)簽上做文章。通常,一些貼標(biāo)機工作對同一樣本的工作方式是不同的,但當(dāng)時我們已經(jīng)對這種情況應(yīng)用了一致性算法并將其用于方框中。這就是為什么我只是做了幾個例子就把它交給了貼標(biāo)機。最后,獲得了500個樣本,這些樣本特別突出了披薩外皮區(qū)域。

為了識別所選過濾照片上的外殼,我為貼標(biāo)機做了幾個例子。

第一次迭代模型訓(xùn)練的結(jié)果仍然是錯誤的,預(yù)測的可信度定義如下:

1 ——(灰色區(qū)域的面積)/(掩膜的面積)

 

 

接下來,為了完成獲得接近掩模方框的下一次迭代,在小的樣本集上用TTA預(yù)測掩模。這在某種程度上可以被認為是WAAAAGH式的知識蒸餾,但更為正確地將其稱之為偽標(biāo)簽。

 

 

然后,我人為地確定某個閾值,用于形成新訓(xùn)練集的置信度,還可以選擇出標(biāo)記出集成失敗的最復(fù)雜樣本。我認為這將是有用的,并在自己休息時標(biāo)記了20張圖片。

 

 

最終模型訓(xùn)練

最后——模型的訓(xùn)練。為了準(zhǔn)備樣品,我用掩膜提取了披薩外皮區(qū)域。此外,我通過擴大掩膜并將其應(yīng)用于圖片以去除背景來略微充氣掩膜,因為它不包含有關(guān)面團質(zhì)量的任何信息。然后我從Imagenet中調(diào)整了幾個模型。我總共收集了大約14k張合適的樣本,此外,沒有訓(xùn)練整個神經(jīng)網(wǎng)絡(luò),而只訓(xùn)練最后一組全連接層層以防止過擬合。

 

 

最終發(fā)現(xiàn)模型為Inception-Resnet-v2時效果最好,其ROC-AUC達到0.700。如果沒有進行處理并在沒有掩膜的原始圖像上訓(xùn)練模型的話,那么得到的ROC-AUC將為0.58左右。

驗證

在開發(fā)解決方案時,DODO披薩回傳了下一批數(shù)據(jù),并且使用這些數(shù)據(jù)測試了整個模型,結(jié)果ROC-AUC達到了0.83。

上述結(jié)果表明,我們?nèi)匀粺o法完全保證在沒有錯誤的情況下管理披薩的質(zhì)量?紤]到錯誤出現(xiàn)的原因,我再一次訓(xùn)練了模型并取得了積極的成果。我們現(xiàn)在看一下錯誤:

 

 

從上圖可以看出,它們與披薩外皮標(biāo)簽的錯誤有關(guān),因為有些標(biāo)記為正常的披薩有明顯的變質(zhì)跡象。

 

 

這里的誤差是由于第一個模型未能選擇正確的樣本,這導(dǎo)致難以確定正常披薩的關(guān)鍵特征。解決這個問題后,模型的性能會有所提升。

結(jié)論

我的同事有時會取笑我?guī)缀跛械姆指钊蝿?wù)都是通過使用Unet完成,但我仍然希望他們會喜歡它,因為Unet網(wǎng)絡(luò)是一種相當(dāng)強大和方便的方法,它可以使得模型誤差可視化,且表現(xiàn)優(yōu)異,可以節(jié)省處理數(shù)據(jù)集的時間。此外,整個模型看起來非常簡單,應(yīng)用十分方便。

以上是整個算法流程及實驗記錄,現(xiàn)在是時候吃一塊比薩餅放松一下了,干杯!

文章原標(biāo)題《Your Pizza is Good: How to Teach AI to Evaluate Food Quality》,譯者:海棠

標(biāo)簽: 安全 代碼 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:野蠻數(shù)據(jù)時代,企業(yè)和從業(yè)者如何應(yīng)對變革焦慮?

下一篇:從算力到半導(dǎo)體供應(yīng)鏈,硬件如何決定機器學(xué)習(xí)的研究趨勢