中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

賦能人機交互——讓機器學(xué)會手勢識別

2019-12-05    來源:多智時代

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

直播簡介

直播干貨放送  關(guān)鍵詞:人機交互、曠視科技、手勢識別

直播內(nèi)容

內(nèi)容看點:

1.生活中的交互手勢及手勢識別的應(yīng)用

2.深度學(xué)習(xí)下的識別手勢

3.手勢識別中的關(guān)鍵點估計

4.手勢識別中的挑戰(zhàn)

一、生活中的交互手勢及手勢識別的應(yīng)用

我們在生活當(dāng)中經(jīng)常會和身邊的人去交流,除了語言,肢體語言也是非常重要的一部分,比如手勢就傳遞了很多重要的信息。生活中手勢的識別,可能是靠當(dāng)事人自己去理解,如果這種把這種識別技術(shù)應(yīng)用到工業(yè)、醫(yī)學(xué)或其他方面,我們要怎么做?

首先是醫(yī)學(xué)領(lǐng)域的手勢識別應(yīng)用,醫(yī)生在手術(shù)過程中為了看一些內(nèi)部影像,他們不用直接用手去觸摸屏幕,而只需要用手和屏幕進(jìn)行交互,就可以隨意的進(jìn)行上下左右切換以及對圖片進(jìn)行放大縮小的操作。

其實這個只屬于眾多應(yīng)用中很小的一部分,因為人機交互的應(yīng)用場景實在是太廣泛了。比如日常生活當(dāng)中有很多人是近視眼,經(jīng)常會遇到一個很尷尬的問題:在路上如果有人向你打招呼,你看不見別人還以為你很高調(diào)。如果以后有某種增強機器能夠告訴你某個人向你打招呼了,可以識別出別人的手勢,就可以解決我們生活中的尷尬。

二、深度學(xué)習(xí)下的識別手勢

我們今天直播的干貨,就是分享怎么去求解手勢。

在這里我先把問題簡化一下,因為大家都知道可能有一些手勢不是一個靜態(tài)的手,比如說投籃,肯定是一個連續(xù)的動作。如果把它認(rèn)為是一個手勢,那我們今天的主題就是僅限于靜態(tài)圖片中的手勢,其實動態(tài)手勢和靜態(tài)手勢有很多類似的地方。

對于靜態(tài)手勢,首先我們怎么去謀劃?即數(shù)學(xué)里面的建模概念。首先我們input所謂的輸入,手勢識別的輸入肯定就是一張圖片,然后會經(jīng)過我們所碼出的模型。這個模型就是機器學(xué)習(xí)的模型,它會告訴你這個圖片是“比心”,我們最主要的問題就是去求解我們目前所碼出的模型。

這就是手勢識別在深度學(xué)習(xí)下的問題定義:我們輸入一張圖片,這張圖片會經(jīng)過我們建立的模型,然后這個模型會告訴我們這張圖片的手勢含義。

除了這種深度學(xué)習(xí),也可以用傳統(tǒng)機器學(xué)習(xí),譬如說SVM。如果是深度學(xué)習(xí),大概就是把一張圖片輸入到一個分類網(wǎng)絡(luò)里面去,接著它會做兩件事情,第一件是特征的處理。在這里加一句,如果是傳統(tǒng)的機器學(xué)模型,還要面臨的一個問題是如何去抽取顯著特征,對于手勢識別而言每一種任務(wù)都有不同特征。

因此這種分類網(wǎng)絡(luò)它會有一個很大的問題,我們從這個圖片就可以看出,其實這個手它占整張圖片的比例不是非常大,而且我們截取的圖片中手的比例本就大小不一,在圖中的位置也是隨機的,這對所謂的分類網(wǎng)絡(luò)來說極具挑戰(zhàn)性。雖然這種 Classification work 有一些平移不變性的屬性,但是在實際模型組沒法達(dá)到這種理論層面上的“不變”。

直播干貨放送  關(guān)鍵詞:人機交互、曠視科技、手勢識別

那我們應(yīng)該怎么去改進(jìn)?

手部在整個input image里面的位置、比例都有對應(yīng)的信息,我們可以先capture圖片中手的這部分,之后再去做這種classification,可能就會簡單很多。大家在實際的項目或者研究當(dāng)中可以選擇直接去用現(xiàn)有的網(wǎng)絡(luò),也可以根據(jù)自己的任務(wù)去自己設(shè)計,因為有些網(wǎng)絡(luò)適用于特定的場景。

如果這張圖片經(jīng)過Hand Detection網(wǎng)絡(luò)之后它會輸出,這個輸出的我們肯定是希望它找了這個“手”的部分,如果手部檢測模塊能夠檢測出出來,之后我們就可以把這部分capture,之前提到的位置和比例問題就得到了很大的改善,不再是以人臉為主體,而是變成了手為主體。接著,手這部分就會被放到之前的手勢識別模塊中,即Gesture Classification(手勢分類)。

我們再去回想一下這個問題,把手的特性全部整合到一個模型中解決了手部位置和比例的變化,這是因為手的形態(tài)太多,且過于靈活,因此同樣的手勢在不同的圖片中出現(xiàn)不同的反應(yīng)。譬如下面的這個視頻,同一個拍照的手勢不用的角度就發(fā)生了很大變化。

這里面臨的一個問題就是你只有手部的檢測,在放入手勢識別的這種模塊里面去也會面臨所謂的拍攝角度或者手姿態(tài)變化的一些影響,這就比較難的部分。

如何解決?

三、手勢識別中的關(guān)鍵點估計

手雖然很靈活,但是可以把它看作是鋼鐵交鏈的結(jié)合,那肯定有一些比較核心的關(guān)鍵點,比如說指尖或者關(guān)節(jié),這樣的信息就已經(jīng)幾乎可以把一個手的姿態(tài)給固定下來或者描述清楚。如果我們能拿到這種關(guān)鍵首部、關(guān)鍵點的信息,可能就更加有利于我們做手勢識別,這樣也能夠保證我們整個模型算法的魯棒性。

接下來我們就講講手勢識別當(dāng)中的一些關(guān)鍵點,這個pipeline到目前為止我覺得很成熟,而且魯棒性也非常好。這里額外強調(diào)一下大家可以去構(gòu)建適用于自己的業(yè)務(wù)場景模型。之前說到手部檢測做出來后,首先不要急著放入Gesture Classification(手勢分類) 中,應(yīng)該先放入到Hand Keypoint Estimation(手部關(guān)鍵點估計)模塊。目前為止我們這邊是估計了21個關(guān)鍵點,比如說手腕是一個點,每一個手指是四個點,這個是比較符合醫(yī)學(xué)上面的一些定義。

直播干貨放送  關(guān)鍵詞:人機交互、曠視科技、手勢識別

去年我們設(shè)計了一個類似于SUN的一個網(wǎng)絡(luò),這個可能還沒有公布出來,后面也會有對它有一些改進(jìn),因為大家都知道Hourglass Module 和 Cascaded Pyramid Network對關(guān)鍵點的估計都有很好的效果,但我們發(fā)現(xiàn)其實把他們兩個合在一起效果也會更好。

直播干貨放送  關(guān)鍵詞:人機交互、曠視科技、手勢識別

直播干貨放送  關(guān)鍵詞:人機交互、曠視科技、手勢識別

四、手勢識別中的挑戰(zhàn)

可以看下圖中,對于機器來說它要學(xué)習(xí)的不僅是手的形狀,可能還有紋理信息,比如識別出這是不是人的手之類的,圖一戴手套的這種圖片的識別就具有一定挑戰(zhàn)性,還有圖二這種手部遮擋的識別也是一個很大的問題。

下面我們看一下曠視這邊手勢識別當(dāng)中關(guān)鍵點的一些工作視頻,模型設(shè)計得足夠合理,所謂的挑戰(zhàn)挑的比較合適。這其實只是表象,主要是大家怎么去構(gòu)建這個數(shù)學(xué)問題,因為它這里面直接涉及到一些數(shù)學(xué)問題,怎么去把這個點給找出來,怎么去去謀劃和keep這個東西都是比較重要的。

問答環(huán)節(jié)

Q:基于RGB頭像和基于深度頭像哪種應(yīng)用比較多?

A:說實話,目前基于這兩種的圖像的都不多,而基于紅外的比較多,紅外的這種頭像應(yīng)用場景會多一點。

Q:人機交互目前是什么樣發(fā)展趨勢和進(jìn)程?

A:人機交互的發(fā)展前景是非常大的,以后可能隨著這種VR或者AR的繼續(xù)發(fā)展,肯定手勢識別是其中最核心的一塊,對以后的話很多東西不需要去我們?nèi)祟惾ジ鰧嶓w的接觸就可以去控制,這也是一個很重要的場景,這個可應(yīng)用的范圍就太廣了,大家剛剛看到的醫(yī)學(xué)層面的應(yīng)用,這已經(jīng)是這里面展現(xiàn)出來的東西,已經(jīng)是很有想象力。我覺著就是大家去解放自己,解放我們?nèi)祟惖碾p手。

Q:怎么確定不同手勢代表的意義?

A:這個問題問得很好,每個國家和地區(qū)的手勢都是不一樣的,所以大家做手勢識別要多加注意,因為有些手勢可能在我我們看來是比較中規(guī)中矩,可能在西方或者在一些其他的有信仰的國家的話,手勢的含義不一樣。這個確實要考慮一下你的應(yīng)用的人群,這個東西很重要,意義確實是不一樣的。但是雖然每個國家或者每個地區(qū)人民對手勢的理解啊有一些差別,但這不影響我們?nèi)プ鰬?yīng)用。站在計算機的角度,它只需要去識別這些手勢,這對我們來說很重要。具體這些手勢要賦予它們什么意義,這都是我們可以后面去定義的,就比如說你已經(jīng)識別出來了這個OK的這個手勢,但他具體是個什么定義,這可以是我們來定義的,對吧?這個算法研究的工作量其實沒有想象中的那么大。 


標(biāo)簽: 深度學(xué)習(xí) 人機交互 應(yīng)用場景 機器學(xué)習(xí) 業(yè)務(wù)場景 計算機 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:網(wǎng)絡(luò)直播系統(tǒng)帶來的教育變革

下一篇:什么是IT運維自動化