中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

稀疏 & 集成的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)

2018-07-20    來(lái)源:編程學(xué)習(xí)網(wǎng)

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

       今天主要和大家說(shuō)的是分類檢測(cè)過(guò)程中,一些稀疏和集成學(xué)習(xí)的相關(guān)知識(shí),首先和大家說(shuō)下圖像目標(biāo)定位與檢測(cè)的方法分類。

       眾所周知,當(dāng)前是信息時(shí)代,信息的獲得、加工、處理以及應(yīng)用都有了飛躍發(fā)展。人們認(rèn)識(shí)世界的重要知識(shí)來(lái)源就是圖像信息,在很多場(chǎng)合,圖像所傳送的信息比其他形式的信息更豐富、真切和具體。人眼與大腦的協(xié)作使得人們可以獲取、處理以及理解視覺(jué)信息,人類利用視覺(jué)感知外界環(huán)境信息的效率很高。事實(shí)上,據(jù)一些國(guó)外學(xué)者所做的統(tǒng)計(jì),人類所獲得外界信息有 80% 左右是來(lái)自眼睛攝取的圖像。由此可見(jiàn),視覺(jué)作為人類獲取外界信息的主要載體,計(jì)算機(jī)要實(shí)現(xiàn)智能化,就必須能夠處理圖像信息。尤其是近年來(lái),以圖形、圖像、視頻等大容量為特征的圖像數(shù)據(jù)處理廣泛應(yīng)用于醫(yī)學(xué)、交通、工業(yè)自動(dòng)化等領(lǐng)域。

       自然界的一切圖像都是連續(xù)變化的模擬圖像,在日常生活中,這些圖像中的運(yùn)動(dòng)目標(biāo)往往是我們比較關(guān)心的,如:行人、行駛的交通工具以及其他的物體。目標(biāo)檢測(cè)和識(shí)別是計(jì)算機(jī)視覺(jué)和數(shù)字圖像處理的一個(gè)熱門(mén)方向,廣泛應(yīng)用于機(jī)器人導(dǎo)航、智能視頻監(jiān)控、工業(yè)檢測(cè)、航空航天等諸多領(lǐng)域。因此,目標(biāo)識(shí)別也就成為了近年來(lái)理論和應(yīng)用的研究熱點(diǎn),它是圖像處理和計(jì)算機(jī)視覺(jué)學(xué)科的重要分支,也是智能監(jiān)控系統(tǒng)的核心部分。它的目的就是如何快速、準(zhǔn)確地檢測(cè)出監(jiān)控視頻中的目標(biāo),即從序列圖像中將目標(biāo)提取出來(lái)。

       隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,城市化步伐的不斷加速,城市的工作、生活秩序顯得越來(lái)越紊亂,實(shí)時(shí)的人數(shù)統(tǒng)計(jì)有著重要意義。如:可以通過(guò)統(tǒng)計(jì)等候電梯的人數(shù)來(lái)優(yōu)化調(diào)度電梯,以此提高電梯的利用率,減少用戶的等待時(shí)間。可以通過(guò)統(tǒng)計(jì)經(jīng)過(guò)十字路口、丁字路口人群流動(dòng)繁忙的交通場(chǎng)合的人數(shù),可以合理安排交通警察或保安人員的工作時(shí)間和工作額度。

       目標(biāo)識(shí)別 是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺(jué)功能,它的研究目標(biāo)就是使計(jì)算機(jī)具有從一幅或多幅圖像或者是視頻中認(rèn)知周?chē)h(huán)境的能力(包括對(duì)客觀世界三維環(huán)境的感知、識(shí)別與理解)。目標(biāo)識(shí)別作為視覺(jué)技術(shù)的一個(gè)分支,就是對(duì)視場(chǎng)內(nèi)的物體進(jìn)行識(shí)別,如人或交通工具,先進(jìn)行檢測(cè),檢測(cè)完后進(jìn)行識(shí)別,然后分析他們的行為。目前,國(guó)際上許多高校和研究所,如麻省理工學(xué)學(xué)院、牛津大學(xué)等都專門(mén)設(shè)立了針對(duì)目標(biāo)檢測(cè)和識(shí)別的研究組或者研究實(shí)驗(yàn)室。美英等國(guó)家已經(jīng)研究了大量的相關(guān)項(xiàng)目。一些著名公司和研究機(jī)構(gòu),如 IBM 、 Microsoft 、麻省理工學(xué)院等近幾年來(lái)投入了大量的人力物力來(lái)進(jìn)行智能監(jiān)控系統(tǒng)的研究,部分成果已經(jīng)轉(zhuǎn)化為產(chǎn)品投入了市場(chǎng)。

       目前在國(guó)內(nèi)的研究機(jī)構(gòu)中,中國(guó)科學(xué)院自動(dòng)化研究所下屬的模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室視覺(jué)監(jiān)控研究處于領(lǐng)先地位。自動(dòng)化所在交通場(chǎng)景視覺(jué)監(jiān)控、人的運(yùn)動(dòng)視覺(jué)監(jiān)控和行為模式識(shí)別方面進(jìn)行了深入研究。另外他們也總結(jié)了英國(guó)雷丁大學(xué) VIEWS 的車(chē)輛交通監(jiān)控原型系統(tǒng)的研究經(jīng)驗(yàn),在之前的理論研究的基礎(chǔ)上,自行設(shè)計(jì)并初步實(shí)現(xiàn)了一個(gè)擁有完全自主知識(shí)產(chǎn)權(quán)的交通監(jiān)控原型系統(tǒng) vstart(Visual surveillance star) 。國(guó)內(nèi)其他高校如上海交通大學(xué)、北京航空航天大學(xué)也對(duì)這方面進(jìn)行了研究。

目標(biāo)識(shí)別

目標(biāo)識(shí)別的任務(wù)

       識(shí)別出圖像中有什么物體,并報(bào)告出這個(gè)物體在圖像表示的場(chǎng)景中的位置和方向。對(duì)一個(gè)給定的圖片進(jìn)行目標(biāo)識(shí)別,首先要判斷目標(biāo)有沒(méi)有,如果目標(biāo)沒(méi)有,則檢測(cè)和識(shí)別結(jié)束,如果有目標(biāo),就要進(jìn)一步判斷有幾個(gè)目標(biāo),目標(biāo)分別所在的位置,然后對(duì)目標(biāo)進(jìn)行分割,判斷哪些像素點(diǎn)屬于該目標(biāo)。

目標(biāo)識(shí)別的過(guò)程

      目標(biāo)的識(shí)別大體框架:

       目標(biāo)識(shí)別往包含以下幾個(gè)階段:預(yù)處理,特征提取,特征選擇,建模,匹配,定位。目前物體識(shí)別方法可以歸為兩類:一類是基于模型的或者基于上下文識(shí)別的方法,另一類是二維物體識(shí)別或者三維物體識(shí)別方法。對(duì)于物體識(shí)別方法的評(píng)價(jià)標(biāo)準(zhǔn), Grimson 總結(jié)出了大多數(shù)研究者主要認(rèn)可的 4 個(gè)標(biāo)準(zhǔn):健壯性( robustness )、正確性( correctness )、效率( efficiency )和范圍( scope )。

訓(xùn)練分類器所需訓(xùn)練樣本的創(chuàng)建

      訓(xùn)練樣本包括正樣本和負(fù)樣本;其中正例樣本是指待檢目標(biāo)樣本 ( 例如人臉或汽車(chē)等 ) ,負(fù)樣本指其它不包含目標(biāo)的任意圖片(如背景等),所有的樣本圖片都被歸一化為同樣的尺寸大小 ( 例如, 20x20) 。

預(yù)處理

      預(yù)處理是盡可能在不改變圖像承載的本質(zhì)信息的前提下,使得每張圖像的表觀特性(如顏色分布,整體明暗,尺寸大小等)盡可能的一致,以便于之后的處理過(guò)程。預(yù)處理有生物學(xué)的對(duì)應(yīng)。瞳孔,虹膜和視網(wǎng)膜上的一些細(xì)胞的行為類似于某些預(yù)處理步驟,如自適應(yīng)調(diào)節(jié)入射光的動(dòng)態(tài)區(qū)域等等。預(yù)處理和特征提取之間的界線不完全分明。有時(shí)兩者交叉在一起。它主要完成模式的采集、模數(shù)轉(zhuǎn)換、濾波、消除模糊、減少噪聲、糾正幾何失真等預(yù)處理操作。因此也要求相應(yīng)的設(shè)備來(lái)實(shí)現(xiàn)。

       預(yù)處理經(jīng)常與具體的采樣設(shè)備和所處理的問(wèn)題有關(guān)。例如,從圖象中將汽車(chē)車(chē)牌的號(hào)碼識(shí)別出來(lái),就需要先將車(chē)牌從圖像中找出來(lái),再對(duì)車(chē)牌進(jìn)行劃分,將每個(gè)數(shù)字分別劃分開(kāi)。做到這一步以后,才能對(duì)每個(gè)數(shù)字進(jìn)行識(shí)別。以上工作都應(yīng)該在預(yù)處理階段完成。

       從理論上說(shuō),像預(yù)處理這種先驗(yàn)式的操作是不應(yīng)該有的。因?yàn)樗⒉粸槿魏文康姆⻊?wù),所以完全可以隨意為之而沒(méi)有 “ 應(yīng)該怎么做 ” 的標(biāo)準(zhǔn),大部分情況下預(yù)處理是看著實(shí)驗(yàn)結(jié)果說(shuō)話。這是因?yàn)橛?jì)算機(jī)視覺(jué)目前沒(méi)有一個(gè)整體的理論框架,無(wú)法從全局的高度來(lái)指導(dǎo)每一個(gè)步驟應(yīng)該如何進(jìn)行。在物體識(shí)別中所用到的典型的預(yù)處理方法不外乎直方圖均衡及濾波幾種。像高斯模糊可以用來(lái)使得之后的梯度計(jì)算更為準(zhǔn)確;而直方圖均衡可以克服一定程度的光照影響。值得注意的是,有些特征本身已經(jīng)帶有預(yù)處理的屬性,因此不需要再進(jìn)行預(yù)處理操作。

預(yù)處理通常包括五種基本運(yùn)算:

(1) 編碼:實(shí)現(xiàn)模式的有效描述,適合計(jì)算機(jī)運(yùn)算。

(2) 閥值或者濾波運(yùn)算:按需要選出某些函數(shù),抑制另一些。

(3) 模式改善:排除或修正模式中的錯(cuò)誤,或不必要的函數(shù)值。

(4) 正規(guī)化:使某些參數(shù)值適應(yīng)標(biāo)準(zhǔn)值,或標(biāo)準(zhǔn)值域。

(5) 離散模式運(yùn)算:離散模式處理中的特殊運(yùn)算。

特征提取

由圖像或波形所獲得的數(shù)據(jù)量是相當(dāng)大的。例如,一個(gè)文字圖像可以有幾千個(gè)數(shù)據(jù),一個(gè)心電圖波形也可能有幾千個(gè)數(shù)據(jù)。為了有效地實(shí)現(xiàn)分類識(shí)別,就要對(duì)原始數(shù)據(jù)進(jìn)行變換,得到最能反映分類本質(zhì)的特征。這就是特征選擇和提取的過(guò)程。一般我們把原始數(shù)據(jù)組成的空間叫測(cè)量空間,把分類識(shí)別賴以進(jìn)行的空間叫做特征空間,通過(guò)變換,可把在維數(shù)較高的測(cè)量空間中表示的模式變?yōu)樵诰S數(shù)較低的特征空間中表示的模式。特征提取是物體識(shí)別的第一步,也是識(shí)別方法的一個(gè)重要組成部分,好的圖像特征使得不同的物體對(duì)象在高維特征空間中有著較好的分離性,從而能夠有效地減輕識(shí)別算法后續(xù)步驟的負(fù)擔(dān),達(dá)到事半功倍的效果,下面是對(duì)一些常用的特征提取方法:

( 1 )顏色特征。顏色特征描述了圖像或圖像區(qū)域所對(duì)應(yīng)的景物的表面性質(zhì),常用的顏色特征有圖像片特征、顏色通道直方圖特征等。

( 2 )紋理特征。紋理通常定義為圖像的某種局部性質(zhì),或是對(duì)局部區(qū)域中像素之間關(guān)系的一種度量。紋理特征提取的一種有效方法是以灰度級(jí)的空間相關(guān)矩陣即共生矩陣為基礎(chǔ)的,其他方法還有基于圖像友度差值直方圖的特征提取和基于圖像灰度共生矩陣的特征提取。

( 3 )形狀特征。形狀是刻畫(huà)物體的基本特征之一,用形狀特征區(qū)別物體非常直觀,利用形狀特征檢索圖像可以提高檢索的準(zhǔn)確性和效率,形狀特征分析在模式識(shí)別和視覺(jué)檢測(cè)中具有重要的作用。通常情況下,形狀特征有兩類表示方法,一類是形狀輪廓特征描述,另一類是形狀區(qū)域特征。形狀輪廓特征主要有:直線段描述、樣條擬合曲線、博立葉描述子、內(nèi)角直方圖以及高斯參數(shù)曲線等等,形狀區(qū)域特征主要有:形狀的無(wú)關(guān)矩、區(qū)域的面積、形狀的縱橫比等。

( 4 )空間特征?臻g特征是指圖像中分割出來(lái)的多個(gè)目標(biāo)之間的相互的空間位置或者相對(duì)方向關(guān)系,有相對(duì)位置信息,比如上下左右,也有絕對(duì)位置信息,常用的提取空間特征的方法的基本思想為對(duì)圖像進(jìn)行分割后,提取出特征后,對(duì)這些特征建立索引。

目標(biāo)比較盛行的有: Haar 特征、 LBP 特征、 HOG 特征和 Shif 特征等;他們各有千秋,得視你要檢測(cè)的目標(biāo)情況而定。

特征選擇

再好的機(jī)器學(xué)習(xí)算法,沒(méi)有良好的特征都是不行的 ; 然而有了特征之后,機(jī)器學(xué)習(xí)算法便開(kāi)始發(fā)揮自己的優(yōu)勢(shì)。在提取了所要的特征之后,接下來(lái)的一個(gè)可選步驟是特征選擇。特別是在特征種類很多或者物體類別很多,需要找到各自的最適應(yīng)特征的場(chǎng)合。嚴(yán)格地來(lái)說(shuō),任何能夠在被選出特征集上工作正常的模型都能在原特征集上工作正常,反過(guò)來(lái)進(jìn)行了特征選擇則可能會(huì)丟掉一些有用的特征;不過(guò)由于計(jì)算上的巨大開(kāi)銷(xiāo),在把特征放進(jìn)模型里訓(xùn)練之前進(jìn)行特征選擇仍然是相當(dāng)重要的。

建模

       一般物體識(shí)別系統(tǒng)賴以成功的關(guān)鍵基礎(chǔ)在于,屬于同一類的物體總是有一些地方是相同的。而給定特征集合,提取相同點(diǎn),分辨不同點(diǎn)就成了模型要解決的問(wèn)題。因此可以說(shuō)模型是整個(gè)識(shí)別系統(tǒng)的成敗之所在。對(duì)于物體識(shí)別這個(gè)特定課題,模型主要建模的對(duì)象是特征與特征之間的空間結(jié)構(gòu)關(guān)系;主要的選擇準(zhǔn)則,一是模型的假設(shè)是否適用于當(dāng)前問(wèn)題;二是模型所需的計(jì)算復(fù)雜度是否能夠承受,或者是否有盡可能高效精確或者近似的算法。

       模型表示涉及到物體具有那些重要屬性或特征以及這些特征如何在模型庫(kù)中表示,有些物體模型定義為一系列局部的統(tǒng)計(jì)特征,即 generative 模型,有些是采用物體的特征以及物體特征之間的相互關(guān)系定義的,比如位置關(guān)系等,即 discriminative 模型,或者是二者的混合模型。對(duì)于大多數(shù)物體來(lái)說(shuō),幾何特征描述是可以很有效的;但對(duì)于另外一些物體,可能需要更一般的特征或函數(shù)來(lái)表示。物體的表示應(yīng)該包含所有相關(guān)信息,但沒(méi)用任何冗余信息,并且將這些信息以某種方式組織起來(lái),使得物體識(shí)別系統(tǒng)的不同組元能夠容易訪問(wèn)這些信息。

用訓(xùn)練樣本來(lái)訓(xùn)練分類器

       這得先明白分類器是什么?百度百科的解釋是: “ 使待分對(duì)象被劃歸某一類而使用的分類裝置或數(shù)學(xué)模型。 ” 可以這樣理解,舉個(gè)例子:人腦本身也算一個(gè)分類器,只是它強(qiáng)大到超乎想象而已,人對(duì)事物的識(shí)別本身也是一個(gè)分類的過(guò)程。人在成長(zhǎng)或者學(xué)習(xí)過(guò)程中,會(huì)通過(guò)觀察 A 類事物的多個(gè)具體事例來(lái)得到對(duì) A 類事物性質(zhì)和特點(diǎn)的認(rèn)識(shí),然后以后遇到一個(gè)新的物體時(shí),人腦會(huì)根據(jù)這個(gè)事物的特征是否符合 A 類事物性質(zhì)和特點(diǎn),而將其分類為 A 類或者非 A 類。(這里只是用簡(jiǎn)單的二分類問(wèn)題來(lái)說(shuō)明)。那么訓(xùn)練分類器可以理解為分類器(大腦)通過(guò)對(duì)正樣本和負(fù)樣本的觀察(學(xué)習(xí)),使其具有對(duì)該目標(biāo)的檢測(cè)能力(未來(lái)遇到該目標(biāo)能認(rèn)出來(lái))。

       分類器按特征類型分為數(shù)值型分類器和符號(hào)型兩大類。數(shù)值型分類器包括統(tǒng)計(jì)分類器(統(tǒng)計(jì)理論為基礎(chǔ))、模糊分類器(模糊集理論為基礎(chǔ))、人工神經(jīng)元網(wǎng)絡(luò)(模擬生物神經(jīng)系統(tǒng)的電子系統(tǒng),也可以用軟件在計(jì)算機(jī)上實(shí)現(xiàn))、人工智能分類器(基于邏輯推理或?qū)<蚁到y(tǒng)結(jié)構(gòu))。符號(hào)型分類器包括句法分類器(基于句法分析和自動(dòng)機(jī)理論)、人工智能分類器(基于邏輯推理或?qū)<蚁到y(tǒng)結(jié)構(gòu))。其中符號(hào)型分類器具有更大的靈活性,所以能處理較為復(fù)雜的模式分類問(wèn)題。但是目前對(duì)符號(hào)型分類器的研究遠(yuǎn)沒(méi)有數(shù)值型分類器成熟。為了使分類檢測(cè)準(zhǔn)確率較好,訓(xùn)練樣本一般都是成千上萬(wàn)的,然后每個(gè)樣本又提取出了很多個(gè)特征,這樣就產(chǎn)生了很多的的訓(xùn)練數(shù)據(jù),所以訓(xùn)練的過(guò)程一般都很耗時(shí)的。

      目標(biāo)比較盛行的分類器有: SVM 支持向量機(jī)、 AdaBoost 算法等。 其中:

  • 檢測(cè)行人的一般是 HOG 特征 +SVM ;

  • OpenCV 中檢測(cè)人臉的一般是 Haar+AdaBoost ;

  • OpenCV 中檢測(cè)拳頭一般是 LBP+ AdaBoost 。

隨著深度學(xué)習(xí)的興起,現(xiàn)在深度學(xué)習(xí)在物體識(shí)別上取得了相當(dāng)好的成果。

匹配

       在得到訓(xùn)練結(jié)果之后(在描述、生成或者區(qū)分模型中常表現(xiàn)為一簇參數(shù)的取值,在其它模型中表現(xiàn)為一組特征的獲得與存儲(chǔ)),接下來(lái)的任務(wù)是運(yùn)用目前的模型去識(shí)別新的圖像屬于哪一類物體,并且有可能的話,給出邊界,將物體與圖像的其它部分分割開(kāi)。一般當(dāng)模型取定后,匹配算法也就自然而然地出現(xiàn)。在描述模型中,通常是對(duì)每類物體建模,然后使用極大似然或是貝葉斯推理得到類別信息;生成模型大致與此相同,只是通常要先估出隱變量的值,或者將隱變量積分,這一步往往導(dǎo)致極大的計(jì)算負(fù)荷;區(qū)分模型則更為簡(jiǎn)單,將特征取值代入分類器即得結(jié)果。

        一般匹配過(guò)程是這樣的:用一個(gè)掃描子窗口在待檢測(cè)的圖像中不斷的移位滑動(dòng),子窗口每到一個(gè)位置,就會(huì)計(jì)算出該區(qū)域的特征,然后用我們訓(xùn)練好的分類器對(duì)該特征進(jìn)行篩選,判定該區(qū)域是否為目標(biāo)。然后因?yàn)槟繕?biāo)在圖像的大小可能和你訓(xùn)練分類器時(shí)使用的樣本圖片大小不一樣,所以就需要對(duì)這個(gè)掃描的子窗口變大或者變。ɑ蛘邔D像變。,再在圖像中滑動(dòng),再匹配一遍。

目標(biāo)識(shí)別方法

       物體識(shí)別方法就是使用各種匹配算法,根據(jù)從圖像已提取出的特征,尋找出與物體模型庫(kù)中最佳的匹配,它的輸入為圖像與要識(shí)別物體的模型庫(kù),輸出為物體的名稱、姿態(tài)、位置等等。大多數(shù)情況下,為了能夠識(shí)別出圖像中的一個(gè)物體,物體識(shí)別方法一般由 5 個(gè)步驟組成:特征提;知覺(jué)組織;索引;匹配;驗(yàn)證。

經(jīng)典的物體識(shí)別方法:

       1 ) Bag of words ( BoW )方法 。 BoW 方法主要是采用分類方法來(lái)識(shí)別物體, BoW 方法是來(lái)自于自然語(yǔ)言處理,在自然語(yǔ)言處理中是用來(lái)表示一篇文檔是有一袋子詞語(yǔ)組成的,在計(jì)算機(jī)視覺(jué)的物體識(shí)別方法中,將圖像比作文檔,將從圖像中提取的特征比作詞語(yǔ),即一幅圖像是有一袋子特征組成的,如圖 1 所示。 BoW 方法首先需要一個(gè)特征庫(kù),特征庫(kù)中的特征之間是相互獨(dú)立的,然后圖像可以表示為特征庫(kù)中所有特征的一個(gè)直方圖,最后采用一些生成性( generative )方法的學(xué)習(xí)與識(shí)別來(lái)識(shí)別物體。

        2 ) Partsand structure 方法 。 BoW 方法的一個(gè)主要缺點(diǎn)為特征之間是相互獨(dú)立的,丟失了位置信息, Parts and structure 方法采用了特征之間的關(guān)系,比如位置信息和底層的圖像特征,將提取出的特征聯(lián)系起來(lái)。 Pictorial Structure ( PS )提出的彈簧模型,物體部件之間的關(guān)系用伸縮的彈簧表示,對(duì)于特征之間的關(guān)系的模型表示,還有星型結(jié)構(gòu)、層次結(jié)構(gòu)、樹(shù)狀結(jié)構(gòu)等。

       3 ) 生成性( generative )方法與鑒別性( Discriminative )方法 。生成性方法檢查在給定物體類別的條件下,圖像中出現(xiàn)物體的可能性,并以此判定作為檢測(cè)結(jié)果的得分,鑒別性方法檢查圖像中包含某個(gè)類別出現(xiàn)的可能性與其他類的可能性之比,從而將物體歸為某一類。

分割

一旦在圖像中潛在目標(biāo)的位置找到了,就要從背景中盡可能準(zhǔn)確的將目標(biāo)提取出來(lái),即將目標(biāo)從背景中分割出來(lái)。當(dāng)存在噪聲和雜波干擾時(shí),信噪比可能很低,這是將會(huì)給分割造成困難。

目標(biāo)的分割算法有很多。每個(gè)分割算法都要解決兩個(gè)問(wèn)題:分割準(zhǔn)則和執(zhí)行方法。

( 1 ) MeanShift 聚類

Meanshift 聚類也可以用在邊緣檢測(cè)、圖像規(guī)則化、跟蹤等方面; meanshift 的分割需要精密的參數(shù)調(diào)整以得到較好的分割效果,如顏色和空間核帶寬的選擇,區(qū)域尺寸最小值的閾值設(shè)定。

( 2 ) Graph-cut

圖像分割可以建模為 graph-cut 問(wèn)題。圖 G 的頂點(diǎn) V 由圖像像素點(diǎn)構(gòu)成;通過(guò)剪除加權(quán)的邊分割為 N 個(gè)不相連的子圖。兩個(gè)子圖間被剪除的邊的權(quán)和稱為 cut 。權(quán)值由顏色、光照、紋理等因素計(jì)算得到。通常應(yīng)用在跟蹤目標(biāo)輪廓上;與 MeanShift 相比,它所需要參數(shù)較少,但計(jì)算開(kāi)銷(xiāo)和內(nèi)存開(kāi)銷(xiāo)較大。

( 3 )主動(dòng)輪廓

主動(dòng)輪廓曲線將一個(gè)閉合輪廓曲線推演為目標(biāo)邊界,從而實(shí)現(xiàn)圖像分割。這個(gè)過(guò)程由輪廓的能量函數(shù)來(lái)操縱。這個(gè)問(wèn)題需要解決三個(gè)方面問(wèn)題:一是能量函數(shù)的確定,二是輪廓曲線的初始化,三是輪廓表達(dá)方式的選擇。

存在問(wèn)題

雖然目標(biāo)識(shí)別已經(jīng)被廣泛研究了很多年,研究出大量的技術(shù)和算法,識(shí)別方法的健壯性、正確性、效率以及范圍得到了很大的提升,但在目標(biāo)檢測(cè)和識(shí)別這方面仍然存在著許多不足,體現(xiàn)在一下幾個(gè)方面。

( 1 )目標(biāo)之間互遮擋和人體自遮擋問(wèn)題,尤其是在擁擠狀態(tài)下,多人的檢測(cè)更是難處理。  

( 2 )獲取物體的觀測(cè)數(shù)據(jù)時(shí)會(huì)受到多方面的影響。在不同的視角對(duì)同一物體也會(huì)得到不同的圖像,物體所處的場(chǎng)景的背景以及物體會(huì)被遮擋,背景雜物一直是影響物體識(shí)別性能的重要因素,場(chǎng)景中的諸多因素,如光源、表面顏色、攝像機(jī)等也會(huì)影響到圖像的像素灰度,要確定各種因素對(duì)像素灰度的作用大小是很困難的,這些使得圖像本身在很多時(shí)候并不能提供足夠的信息來(lái)恢復(fù)景物。

( 3 )同樣的圖像在不同的知識(shí)導(dǎo)引下,會(huì)產(chǎn)生不同的識(shí)別結(jié)果,知識(shí)庫(kù)的建立不僅要使用物體的自身知識(shí),如顏色、紋理、形狀等,也需要物體間關(guān)系的知識(shí),知識(shí)庫(kù)的有效性與準(zhǔn)備性直接影響了物體識(shí)別的準(zhǔn)確性。

( 4 )物體本身是一個(gè)高維信息的載體,但是圖像中的物體只是物體的一個(gè)二維呈現(xiàn),并且在人類目前對(duì)自己如何識(shí)別物體尚未了解清楚,也就無(wú)法給物體識(shí)別的研究提供直接的指導(dǎo)。

( 5 )目前人們所建立的各種視覺(jué)系統(tǒng)絕大多數(shù)是只適用于某一特定環(huán)境或應(yīng)用場(chǎng)合的專用系統(tǒng),而要建立一個(gè)可與人的視覺(jué)系統(tǒng)相比的通用視覺(jué)系統(tǒng)是非常困難的,雖然存在著很多困難。

( 6 )目標(biāo)之間互遮擋,尤其是在擁擠狀態(tài)下,目標(biāo)檢測(cè)很不穩(wěn)定,檢測(cè)結(jié)果也很不理想,這個(gè)問(wèn)題還需要進(jìn)一步的研究解決。

未來(lái)研究思路

目標(biāo)檢測(cè)和識(shí)別仍然存在著諸多的問(wèn)題,以后目標(biāo)識(shí)別可以從以下幾個(gè)方面改進(jìn):

( 1 )形狀特征的研究。目前大部分的形狀特征仍然是基于有向梯度,這是否是足夠的,形狀是否應(yīng)該有更高一層的抽象表示,還值得進(jìn)一步的研究。

( 2 )物體的表示與描述。如何描述物體,物體不應(yīng)該是獨(dú)立的,物體與物體之間的交互應(yīng)該考慮進(jìn)來(lái)。物體不應(yīng)該是一組獨(dú)立的特征的集合,物體識(shí)別應(yīng)該放在一個(gè)更大的上下文環(huán)境中來(lái)重新考察。

*注:參考http://blog.csdn.net/liuheng0111/article/details/52348874

本次分享的主要分類方案: (中國(guó)科學(xué)院計(jì)算技術(shù)研究所多媒體計(jì)算研究組——唐勝 副研究員)

稀疏化的卷積神經(jīng)網(wǎng)絡(luò)(SP-CNN)

  • 神經(jīng)科學(xué)研究表明[1] :神經(jīng)元之間

– 稀疏激活(Sparse Activity)
– 稀疏連接(Sparse Connectivity)

  • 一個(gè)類別可以用類別基元稀疏表達(dá)

  • 在全連接層中自適應(yīng)地?cái)嚅_(kāi)不重要的連接,僅保留重要連接

– 去除不重要的連接引入的干擾噪聲
– 精簡(jiǎn)模型,更適合于移動(dòng)終端和嵌入式設(shè)備

注:[1] Thom M, Palm G. Sparse activity and sparse connectivity in supervised learning[J].
The Journal of Machine Learning Research, 2013, 14(1): 1091-1143.

SP-CNN:驗(yàn)證集結(jié)果

在最后一個(gè)全連接層參數(shù)數(shù)量?jī)H為原模型 9.12% 的情況下:Top-1和Top-5準(zhǔn)確率分別提高了 0.72% 、 0.32% 。

CNN-SEL:Motivation

語(yǔ)義多態(tài)性

  • 類內(nèi)差異大,需要大量樣本,以盡可能囊括可能的樣本情況

全局分類方法

  • 訓(xùn)練復(fù)雜度高, 訓(xùn)練RBF核SVM復(fù)雜度O(n2)-O(n3)

  • 分類面復(fù)雜,模型大,識(shí)別效率低

CNN-SEL:系統(tǒng)框架

基于CNN特征的稀疏集成學(xué)習(xí)[2]

  • 稀疏劃分:訓(xùn)練時(shí)用稀疏編碼劃分子空間,大幅提高訓(xùn)練效率

  • 稀疏融合:測(cè)試時(shí)用稀疏編碼進(jìn)行多分類器融合,提高測(cè)試效率

  • 子分類面簡(jiǎn)單、激發(fā)的子分類器個(gè)數(shù)少、 互為補(bǔ)充、提高分類精度

[2] Sheng Tang, Yan-Tao Zheng, Yu Wang, Tat-Seng Chua, “Sparse Ensemble Learning for Concept
13 Detection”, IEEE Transactions on Multimedia, 14 (1): 43-54, February 2012

CNN-SEL:稀疏劃分

CNN-SEL:稀疏融合

CNN-SEL:驗(yàn)證集實(shí)驗(yàn)

在CaffeNet能明顯提高準(zhǔn)確率,在VGG上因?yàn)橛?xùn)練SVM子分類器只用了5個(gè)不同位置的Crop,沒(méi)有考慮更為復(fù)雜的數(shù)據(jù)擴(kuò)增方法,如多尺度、鏡像翻轉(zhuǎn)、對(duì)比度和顏色變化等,因而提高不明顯。

模型融合結(jié)果

目標(biāo)定位方案

候選區(qū)域 :多種候選區(qū)域(Region Proposals)融合

密集區(qū)域融合 :利用最終結(jié)果的密集區(qū)域?qū)δ繕?biāo)位置進(jìn)行回歸

類別聚類 :提出了使用CNN特征類別聚類的目標(biāo)定位方法

目標(biāo)定位: 多候選區(qū)域融合

多候選區(qū)域融合驗(yàn)證集實(shí)驗(yàn)

  • 為快速驗(yàn)證,從1000個(gè)類別隨機(jī)選取50個(gè)類別

  • 為避免分類影響,假設(shè)分類準(zhǔn)確度為100%,即取驗(yàn)證集上的真實(shí)類別標(biāo)簽(Ground truth)

  • 多候選區(qū)域融合有效提高了目標(biāo)定位任務(wù)的準(zhǔn)確率

密集區(qū)域融合:Motivation

白框?yàn)闃?biāo)注窗口;紅框?yàn)槊芗诤洗翱;綠色框得分大于等于0.6;黃色框得分低于0.6大于0.3

LOC: 密集區(qū)域融合

  • 密集區(qū)域指在同一個(gè)目標(biāo)附近大量類似的候選區(qū)域,可以看作同一目標(biāo)位置的偏移。

  • 密集區(qū)域的判別函數(shù)通過(guò)計(jì)算兩個(gè)窗口的中心點(diǎn)距離和窗口之間的IoU來(lái)確定。

? 密集區(qū)域融合(DRF)

Dense Region Fusion

? 區(qū)域融合:將兩個(gè)區(qū)域的坐標(biāo)取平均值。
? 得分融合:高得分窗口分?jǐn)?shù)加上低得分窗口分?jǐn)?shù)的一半。

LOC: 密集區(qū)域融合實(shí)驗(yàn)結(jié)果

1.準(zhǔn)確率提高,排除了高得分非目標(biāo)窗口
2.重疊率提高,目標(biāo)位置的偏移得到回歸

LOC: 基于CNN聚類的目標(biāo)定位

將聚類后的類別作為一個(gè)大類訓(xùn)練Fast R-CNN模型得到定位結(jié)果

目標(biāo)定位系統(tǒng)框架-訓(xùn)練

訓(xùn)練:

1. 多區(qū)域模型:基于多候選區(qū)域融合的定位方法
2. 聚類定位模型:基于CNN特征特征類別聚類的定位方法

目標(biāo)定位系統(tǒng)框架-測(cè)試

測(cè)試:

1. 模型融合:兩個(gè)模型在不同類別上準(zhǔn)確率不同,根據(jù)驗(yàn)證集上圖片類別的結(jié)果,選用準(zhǔn)確度高的模型
2. 窗口融合:使用密集區(qū)域融合對(duì)定位位置進(jìn)行回歸

 

來(lái)自:http://mp.weixin.qq.com/s/0E4VpN9z2sNvsGCvOI5RVA

 

 

標(biāo)簽: 媒體 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:直擊阿里雙11神秘技術(shù):PB級(jí)大規(guī)模文件分發(fā)系統(tǒng)“蜻蜓”

下一篇:Java在線問(wèn)題排查利器之Btrace&Greys