站長資訊平臺

騰訊優(yōu)圖實(shí)驗室AI手語識別研究白皮書

2019-05-22 來源：raincent

前言

據(jù)2017年北京聽力協(xié)會預(yù)估數(shù)據(jù)，我國聽障人群數(shù)量約達(dá)到7200萬。放眼世界，世界衛(wèi)生組織發(fā)布的最新數(shù)據(jù)顯示，全世界有共計約4.66億人患有殘疾性聽力損失。盡管聽障人群能夠憑借手語進(jìn)行交流，但在機(jī)場、民政等公共服務(wù)環(huán)境中仍然面臨溝通障礙等一些亟待解決的問題。

秉承“科技向善”的技術(shù)價值觀，騰訊一直致力于通過AI等技術(shù)手段解決人類面臨的社會問題。我們相信，科技能夠造福人類，人類應(yīng)該善用科技，努力去解決自身發(fā)展帶來的社會問題。作為國內(nèi)計算機(jī)視覺人工智能領(lǐng)域的領(lǐng)先研究團(tuán)隊，騰訊優(yōu)圖實(shí)驗室近日攻堅AI手語識別并取得突破性進(jìn)展，自研出一套基于結(jié)構(gòu)化特征學(xué)習(xí)的端到端手語識別算法，能夠識別日常手語并快速運(yùn)算出結(jié)果并把手語翻譯成為文字，有望為聽障人群正常交流提供更多便利。

目前，騰訊優(yōu)圖實(shí)驗室已經(jīng)與深圳市信息無障礙研究會達(dá)成合作，并于近日正式發(fā)布“優(yōu)圖AI手語翻譯機(jī)”，探索在機(jī)場、高鐵、民政等公共服務(wù)場所提供手語翻譯服務(wù)。未來，騰訊優(yōu)圖希望能通過與聽障者或手語使用者的深入接觸，擴(kuò)充數(shù)據(jù)容量，完善數(shù)據(jù)規(guī)范，根據(jù)不同的場景優(yōu)化識別算法，搭建出通過手語與聽障人士無障礙溝通的完整系統(tǒng)和平臺，用AI消除障礙，做有溫度的科技、無差別的科技。

一、潛在需求分析

(一)聽障人士數(shù)量已達(dá)7200萬

信息的接收與傳遞是包括人類在內(nèi)的任何有機(jī)體與世界最為基本的溝通方式，而對于聽障人士來說，他們失去了聽力這個認(rèn)識世界最為重要的感知途徑。世界衛(wèi)生組織最新數(shù)據(jù)顯示[1]，目前全球約有4.66億人患有殘疾性聽力損失，超過全世界人口的5%，估計到2050年將有9億多人(約十分之一)出現(xiàn)殘疾性聽力損失。據(jù)北京聽力協(xié)會2017年公開數(shù)據(jù)，估計中國殘疾性聽力障礙人士已達(dá)7200萬[2]，相當(dāng)于北京市常住人口(約2200萬，2015年數(shù)據(jù))的3倍多，是我國少數(shù)民族人口中最多的民族壯族(約1500萬，2015年數(shù)據(jù))的近5倍，這其中還不包括輕中度聽損的人口。

(數(shù)據(jù)來源：世界衛(wèi)生組織官網(wǎng))

(數(shù)據(jù)來源：2017年北京聽力協(xié)會預(yù)估)

(二)無障礙普及率有待提升，聽障人群需求被忽視

《2017年百城無障礙設(shè)施調(diào)查體驗報告》顯示，我國無障礙設(shè)施整體普及率僅為40.6%[3]，除了普及率較低，還存在部分無障礙設(shè)施被占用、維護(hù)不到位、設(shè)計存在問題等情況。而與其他殘障人士不同的是，在現(xiàn)實(shí)生活中，聽障者除了使用手語交流以外，與普通人幾乎沒有區(qū)別，這也正是聽障者容易被忽視的原因之一。目前的公共環(huán)境設(shè)施、產(chǎn)品設(shè)計等往往忽略了聽障者的特殊需求。聽障者面臨的不僅僅是日常交流上的障礙，更多的是溝通障礙所衍生的諸多不便。

(聽障人群痛點(diǎn)分析)

《光明日報》的一篇報道曾指出[4]，因為溝通障礙，絕大部分的聽障者都生活在自己封閉的小世界里，社會活動參與度極低的他們往往會感到孤獨(dú)。雖然受過教育的聽障者也能夠使用文字進(jìn)行交流，但是對于他們來說，手語是更易于使用和接受的交流方式，而我國目前致力于聽障者專業(yè)服務(wù)的人士只有大約一萬名，大部分公共服務(wù)并沒有配備專門的便利設(shè)施，這些都是聽障者長久以來面臨的迫切需求。

科技的進(jìn)步為大眾生活帶來諸多便捷，而對于愈發(fā)龐大的聽障人群，他們的生存狀態(tài)需要得到社會的更多關(guān)注，他們迫切需要前沿科技為他們解決交流障礙帶來的諸多不便。

二、手語表達(dá)與AI技術(shù)結(jié)合的行業(yè)探索

(一)各研究機(jī)構(gòu)展開探索嘗試，技術(shù)落地存在諸多因素限制

手語翻譯的核心技術(shù)是手語識別(SLR)。這個技術(shù)就是指通過計算機(jī)算法，自動區(qū)分手語表達(dá)中的各類手勢、動作以及這些手勢和動作之間的切換，最后將表達(dá)的手語翻譯成文字。傳統(tǒng)的方法通常會針對特定的數(shù)據(jù)集設(shè)計合理的特征，再利用這些特征進(jìn)行動作和手勢的分類。受限于人工的特征設(shè)計和數(shù)據(jù)量大小，這些方法在適應(yīng)性、泛化性和魯棒性上都非常有限。

近年來，大數(shù)據(jù)和深度學(xué)習(xí)極大推動了人工智能算法的發(fā)展，尤其體現(xiàn)在計算機(jī)視覺、自然語言處理和音頻處理等領(lǐng)域，這助推了AI算法在許多應(yīng)用和場景中實(shí)現(xiàn)落地，許多研究員和工程師也開始嘗試運(yùn)用深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動的算法來解決SLR的問題。然而不同于大部分的計算機(jī)問題，手語特有的地域性、復(fù)雜性和多樣性，不僅增加了數(shù)據(jù)采集和清洗的難度和成本，也使得這門技術(shù)哪怕在深度學(xué)習(xí)的幫助下也依然存在很大的挑戰(zhàn)，難以被實(shí)際應(yīng)用。

目前，有研究機(jī)構(gòu)或單位針對解決聽障人群溝通問題的技術(shù)研究，但研究方向多集中在將文字轉(zhuǎn)化成手語方向，而“針對聽障人群的手語識別轉(zhuǎn)化成文字”的方向因為技術(shù)難度極大，尚鮮有技術(shù)方案落地。

(二)騰訊優(yōu)圖自研手語識別算法，推出“優(yōu)圖AI手語翻譯機(jī)”

騰訊優(yōu)圖結(jié)合聽障人士手語表達(dá)的習(xí)慣采集了手語數(shù)據(jù)，利用前沿的圖像序列分析技術(shù)自研了一套手語識別算法，推出“優(yōu)圖AI手語翻譯機(jī)”。AI手語翻譯機(jī)以普通攝像頭作為手語采集裝置，依托高性能計算機(jī)進(jìn)行后臺運(yùn)算，能夠?qū)崟r地將手語表達(dá)翻譯成文字。對于用戶而言，不需要攜帶任何額外裝置，只要面對攝像頭完成正常的手語表達(dá)，就能從翻譯機(jī)中得到反饋回來的識別結(jié)果。

(優(yōu)圖AI手語翻譯機(jī)界面截圖)

三、優(yōu)圖AI手語翻譯技術(shù)解讀

(一)算法優(yōu)勢

相比于此前的手語識別相關(guān)的產(chǎn)品和技術(shù)方案，我們的手語識別算法主要能夠?qū)崿F(xiàn)以下幾點(diǎn)優(yōu)勢：

1. 基于純RGB圖像序列

手語表達(dá)極具復(fù)雜性，一個手勢或者動作幅度的小變化就可能會造成表達(dá)意思上很大的不同。因此，之前的很多產(chǎn)品或方法往往需要借助于一些額外的設(shè)備，例如使用Kinect攝像機(jī)的多種傳感器來提前獲取手語表達(dá)者的肢體關(guān)節(jié)點(diǎn)信息，又例如在手上攜帶傳感器手套、或配備EMG、IMU傳感器的手環(huán)來獲取手臂和手掌的活動信息。這些額外的設(shè)備無形之中增加了使用的門檻，同時也帶來了一定的不便利性。

與此不同，我們的翻譯機(jī)不需要任何額外設(shè)備的幫助，用戶只需要一個普通的攝像頭(如手機(jī)攝像頭或普通網(wǎng)絡(luò)攝像頭)對手語表達(dá)者的表達(dá)過程進(jìn)行拍攝，翻譯機(jī)就可以完成識別翻譯的過程。

2. 支持多樣性表達(dá)

手語極具地域性和多樣性。地域性即指不同地區(qū)(如深圳和廣州)對同一個詞可能存在不同的表達(dá)方式，同時由于個人習(xí)慣，即便是在同一個標(biāo)準(zhǔn)下，動作的呈現(xiàn)也可能不盡相同。多樣性則體現(xiàn)在手語表達(dá)中，同一個動作在不同的語境之中可能有著非常不一樣的意義，而同一個詞在不同的語境中又可以使用不同的動作進(jìn)行表達(dá)。盡管這些情況非常常見，多樣性的問題在之前的產(chǎn)品或方法中是沒有被考慮進(jìn)去的。

我們首次將多樣性的問題考慮到了算法識別的過程中，支持常見的多樣性表達(dá)，用戶不需要針對翻譯機(jī)學(xué)習(xí)某種特定的詞與動作之間的映射，根據(jù)自己平時的表達(dá)習(xí)慣進(jìn)行表達(dá)即可。

3. 靈活的整句識別

聽障人士進(jìn)行手語表達(dá)往往以句子為單位，表達(dá)完一個完整的句子之后才會出現(xiàn)停頓，在一個句子的不同詞之間很少會做停頓。然而之前的許多產(chǎn)品或算法實(shí)際上是以詞為單位進(jìn)行識別的，需要在詞與詞之間做出明顯的停頓。另外為了能夠?qū)⒄Z句進(jìn)行劃分，還可能需要設(shè)定特定的起始動作和結(jié)束動作，在每次表達(dá)開始和結(jié)束時作為信號語句劃分的信號。這限制了使用的靈活性和流暢度。

與此不同，優(yōu)圖AI手語翻譯機(jī)能夠?qū)崿F(xiàn)整句的識別和翻譯，用戶表達(dá)的時候可以連貫將整個句子表達(dá)完。也不需要設(shè)定特定的結(jié)束或起始動作，而是直接對用戶的動作與否進(jìn)行判斷。

(二)實(shí)現(xiàn)方法

與聽障人士手語表達(dá)高度符合的數(shù)據(jù)集、先進(jìn)的手語識別算法是翻譯機(jī)得以實(shí)現(xiàn)的有力支撐。

(手語識別算法總體框架圖)

1. 更大更全的手語識別數(shù)據(jù)集

我們通過與社會相關(guān)機(jī)構(gòu)和聽障人士的接觸了解了手語表達(dá)的特點(diǎn)，并根據(jù)這些特點(diǎn)采集了自己的手語識別數(shù)據(jù)集。同時對數(shù)據(jù)進(jìn)行進(jìn)一步的分析和歸納，目前，AI手語翻譯機(jī)的數(shù)據(jù)集覆蓋了近千句日常表達(dá)，900個常用詞匯，是最大的中文手語識別數(shù)據(jù)集。

不僅如此，采集數(shù)據(jù)集還考慮了手語的地域性和多樣性表達(dá)，包含了不同的表達(dá)習(xí)慣和速度。這為進(jìn)一步提升我們算法的泛化能力提供了很好的基礎(chǔ)。

2. 更強(qiáng)大的特征提取器

為了能夠在手語極具復(fù)雜性的表達(dá)中充分提起識別所需要的特征信息，我們結(jié)合了普通2D卷積網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)的優(yōu)勢，通過2D卷積網(wǎng)絡(luò)來提取手語中的手勢和身體姿勢等靜態(tài)信息，同時通過3D卷積網(wǎng)絡(luò)來提取手語中普遍存在的細(xì)微而快速的變換動作的動態(tài)信息，最后將這兩個信息相結(jié)合，產(chǎn)生我們最后的特征表達(dá)。

靜態(tài)和動態(tài)信息的結(jié)合形成了很好的互補(bǔ)，同時避免了信息過早的流失，在我們的實(shí)驗中對我們識別效果的提升很有幫助。在充分利用了視頻中的動、靜兩種信息之后，我們的算法也得以能夠利用單純的RGB視頻圖像就達(dá)到識別的目的，不需要借助額外的傳感器設(shè)備。

3. 句子表達(dá)中挖掘詞級信息

雖然聽障人士在進(jìn)行手語表達(dá)的時候是以句子為單位的，但是句子又是由不同的詞語組合而成的，因此從語法上來說，詞才是手語的最小表達(dá)單元。與此同時，一個詞語的表達(dá)往往不是一個單一的動作和手勢，而是一些手勢和動作的變換，這個過程有長有短，之間也沒有刻意的停頓，因此往往掩蓋在了整個句子的表達(dá)之中。

為了將這些詞語表達(dá)的信息挖掘出來，我們的算法在視頻幀與最后的輸出之間加入了詞級信息提取單元，詞級信息提取單元利用長短時網(wǎng)絡(luò)充分考慮特征提取器所提取出的信息，并結(jié)合視頻中相鄰的信息計算出詞級的特征表達(dá)。這個單元幫助我們的算法能夠更好地在句子中找到詞語表達(dá)的邊界，并提升對各種地域性表達(dá)的總結(jié)能力。

4. 單句切分并充分考慮句中上下文信息

我們的算法在提取詞級信息的基礎(chǔ)上還會充分將整句中的上下文信息進(jìn)行綜合考慮，然后再輸出最后的識別結(jié)果。這對識別手語中的多樣性表達(dá)非常重要，因為同樣的動作只有放在上下文的語境中才能最后確定它的意思。

同時，為了減少用戶在使用過程中的限制，我們在手語識別之前加入了人臉檢測和動作檢測兩個模塊，用人臉檢測確定手語表達(dá)者的位置，然后用動作檢測判斷他是否在做手語表達(dá)。三個模塊協(xié)同合作，最后讓翻譯機(jī)能夠自適應(yīng)地找到用戶的位置，并連貫識別用戶的一系列表達(dá)。

(與其他算法在兩個公開手語識別數(shù)據(jù)集上的性能對比，數(shù)據(jù)顯示的是詞錯率(WER)，越低越好)

(三)落地條件限制及應(yīng)用方向

就目前來說，優(yōu)圖AI手語翻譯機(jī)仍處于實(shí)際應(yīng)用探索階段。主要受三個問題限制，一是需要高性能計算機(jī)，二是復(fù)雜環(huán)境背景的適應(yīng)性，三是語料庫進(jìn)一步拓展。

因此，我們將進(jìn)一步探索在一些公共事務(wù)場所如機(jī)場、民政等公共服務(wù)領(lǐng)域等提供無障礙溝通解決方案，方便聽障人日常交流提供便利。

四、意義和愿景

優(yōu)圖AI手語翻譯機(jī)是騰訊優(yōu)圖基于先進(jìn)的動作識別和視頻分析算法對手語識別技術(shù)的一次擴(kuò)展和優(yōu)化。我們始終相信，作為AI技術(shù)的探索者，解決和優(yōu)化技術(shù)難題是團(tuán)隊?wèi)?yīng)肩負(fù)的責(zé)任和擔(dān)當(dāng)，創(chuàng)造和傳播AI的價值和溫暖是團(tuán)隊?wèi)?yīng)秉持的使命和信仰。

我們將在未來對我們的AI手語翻譯機(jī)進(jìn)行持續(xù)的升級和優(yōu)化，讓AI手語翻譯機(jī)走進(jìn)聽障人士的生活，在日常服務(wù)窗口、手語教育等場景中為聽障人士帶來實(shí)實(shí)在在的便利。我們希望以手語翻譯機(jī)為媒介，深入接觸聽障群體，進(jìn)一步了解手語和優(yōu)化我們的數(shù)據(jù)和識別算法，使我們的翻譯機(jī)能夠覆蓋更多的表達(dá)和場景。我們更希望我們的AI手語翻譯機(jī)能夠助力手語的普及和規(guī)范，增加社會對這個群體的關(guān)注度，幫助聽障人士更好地融入社會，讓他們能夠和我們一樣，更好地享受和體驗技術(shù)創(chuàng)新和科技發(fā)展所帶來的紅利。

實(shí)際上，這并不是騰訊在AI+無障礙建設(shè)上的首次嘗試，騰訊一直在堅持推動“一個都不能少”和“信息無障礙”理念的傳播與落地。2018年12月3日，騰訊獲得了“聯(lián)合國教科文組織數(shù)字技術(shù)增強(qiáng)殘疾人權(quán)能獎”。

騰訊自 2009 年起在信息無障礙方面率先展開探索，截至目前，旗下QQ、QQ空間、微信、騰訊網(wǎng)、騰訊新聞、應(yīng)用寶、企鵝FM等大部分產(chǎn)品已針對障礙用戶實(shí)現(xiàn)專門優(yōu)化。騰訊旗下各類產(chǎn)品從社交、娛樂、新聞等多維度出發(fā)，共同努力，為障礙人士構(gòu)建友好的信息社會。

感謝深圳市信息無障礙研究會及所有參與此次優(yōu)圖AI手語研究項目的團(tuán)隊和個人。

[1] 世界衛(wèi)生組織官網(wǎng)最新數(shù)據(jù)

[2] 北京聽力協(xié)會2017年預(yù)估數(shù)據(jù)

[3] 數(shù)據(jù)來源：《2017年百城無障礙設(shè)施調(diào)查體驗報告》

[4] 報道內(nèi)容來源：光明日報

http://epaper.gmw.cn/gmrb/html/2015-01/17/nw.D110000gmrb_20150117_1-10.htm

標(biāo)簽： [db:TAGG]

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:開源界會否面臨「華為之劫」？

下一篇:以FIFA球員數(shù)據(jù)集為例，詳解3大酷炫可視化技巧

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗 IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

騰訊優(yōu)圖實(shí)驗室AI手語識別研究白皮書