站長資訊平臺

云知聲梁家恩：面向移動互聯(lián)網(wǎng)的智能語音云

2019-02-26 來源：多智時代

第五屆中國云計算大會于2013年6月5-7日在北京國家會議中心拉開帷幕。本次大會以國際視野，洞悉全球云計算發(fā)展趨勢，并從應(yīng)用出發(fā)，探討云計算與大數(shù)據(jù)、云計算與移動互聯(lián)網(wǎng)、云安全及云計算行業(yè)應(yīng)用等焦點話題。大會還特別設(shè)立了云計算服務(wù)展示區(qū)域，交流國際云計算最新研究成果，展示國內(nèi)云計算試點城市發(fā)展成就，分享云計算發(fā)展經(jīng)驗，促進全球云計算創(chuàng)新合作。

北京云知聲創(chuàng)始人、CEO 梁家恩

以下是演講實錄：

梁家恩：謝謝大家。非常高興有機會在云計算大會上跟大家分享一個云計算比較特定的應(yīng)用案例，也就是語音云的應(yīng)用方式，以及我們的云知聲平臺如何共享給廣大的開發(fā)者。我的報告主要分幾個方面的內(nèi)容——移動互聯(lián)網(wǎng)爆發(fā)的背景下研究語音平臺、語音識別技術(shù)的突破、云知聲開放語音云平臺、互聯(lián)網(wǎng)應(yīng)用案例、應(yīng)用開發(fā)指南。

移動互聯(lián)網(wǎng)的爆發(fā)具有三大特點：

第一，帶寬增加，費用降低。移動通信技術(shù)的快速發(fā)展，從以前的模擬時代到后來的2G、3G，甚至到4G、Wi-Fi，使我們的寬帶不斷加寬、費用不斷降低，使終端和云平臺的溝通質(zhì)量非常高，同時成本越來越低。

第二，移動終端智能化。在十年前上網(wǎng)的機器都是PC機，它不方便攜帶。到現(xiàn)在為止有很多的智能設(shè)備，最簡單的就是智能手機。現(xiàn)在還有一些電視設(shè)備、車載設(shè)備、穿戴設(shè)備，像谷歌眼鏡，還有一些玩具，也可以通過語言進行溝通交流。

第三，云計算平臺及虛擬化技術(shù)帶動生產(chǎn)力發(fā)展。云計算的平臺，包括虛擬化的技術(shù)，以及CPU、GPU的發(fā)展，使得平臺的生產(chǎn)力越來越強大。

有這三個條件，我們可以用一個非常小的移動終端，通過移動通信的手段與強大的云計算平臺建立起關(guān)系，得到非常好的線上互動服務(wù)。這是移動互聯(lián)網(wǎng)的硬件發(fā)展趨勢。

在這種條件下，我們還迎來了更大的爆發(fā)。首先是移動終端，在2013年的預測可以達到3.9億的出貨量。還有一些海量的用戶，2012年底移動互聯(lián)網(wǎng)的用戶數(shù)量已經(jīng)超過4億。在移動語音搜索方面，百度去年有10%的搜索來自語音搜索，谷歌的數(shù)據(jù)是超過25%。移動產(chǎn)品更加注重交互的體驗，現(xiàn)在招聘一個好的產(chǎn)品經(jīng)理的薪資已經(jīng)不亞于架構(gòu)師。

這張圖是從2005年到2012年以來的網(wǎng)民增長數(shù)量以及互聯(lián)網(wǎng)的普及率。2005年只有1億的互聯(lián)網(wǎng)用戶，現(xiàn)在已經(jīng)發(fā)展到將近6億，增長了將近6倍�；ヂ�(lián)網(wǎng)的普及率也從8.5%提高到42.1%。其中有一個重要的比例就是通過手機上網(wǎng)，從07年的5千萬到2012年突破4億，過去在4個人里面只有1個人通過手機上網(wǎng)，現(xiàn)在4個人里面已經(jīng)有3個人通過手機上網(wǎng)。

全世界主流的語音識別系統(tǒng)均基于以下5個框架：

1. 要將捕捉的聲音信號變成特征序列，叫做特征提取。它需要解決環(huán)境噪聲、通道的問題，通道就是我們是通過麥克風，還是通過手機或者是電話將語音采集下來。第三點是消除說話人因素，像我這樣具有一定口音，要把這個因素消除掉。

2. 統(tǒng)計聲學模型。我們必須要得到足夠多的人的說話發(fā)音狀況。比如大家發(fā)“啊”這個音的時候，不同的人發(fā)出的聲音是不一樣的，以及分布狀況是什么樣的。最近深度神經(jīng)網(wǎng)絡(luò)學習的改進點是用在這個領(lǐng)域，當初是用混合高速模式建這個模型，但建模能力是比較弱的。發(fā)音準確的話就像拼音輸入法，其實干擾最大的還是前面這一層，不同的人說話有不同的口音、不同的背景和不同的通道，如果把它變成一個拼音串，它跟普通的拼音輸入法是一樣的。

3. 發(fā)音詞典。發(fā)音詞典是將音映射到一個詞，這個詞典也非常講究。漢語的詞語量非常大，大概有7萬個漢字，最常用的是2萬多字。還有一些領(lǐng)域?qū)Ｓ迷~典，比如在餐飲、地圖領(lǐng)域用的詞是不一樣的。還有熱詞表，在互聯(lián)網(wǎng)領(lǐng)域非常明顯，在一定時間就會出現(xiàn)一個新的詞，以前從來沒聽說過，現(xiàn)在它有了新的含義。還有個性化的詞表，它就像每個人的通訊錄。

4. 統(tǒng)計語言模型。不同詞串出現(xiàn)的頻率是不一樣的，它是詞串的概率統(tǒng)計分析。我們做的越大，搜索的可能性就越大。

5. 識別編碼器。它實際上是一個搜索引擎，當我們得到一個特殊序列以后，可以快速找到匹配的句子。

語音識別看上去是人工智能，看上去是非常神奇的事情。我們經(jīng)常舉一個例子就是魔術(shù)師，對魔術(shù)師來說是通過各種手法和道具來操作，看上去是不可思議的，但都是通過扎實的基本功實現(xiàn)的。語音識別本身就是猜測的問題，當我看到一個語音的特征信號，我會想你最想說的是哪句話，如果我十有八九都猜對的話，你會覺得這個系統(tǒng)的準確性非常好。

最近取得的技術(shù)突破，最應(yīng)該歸結(jié)的是統(tǒng)計語音識別架構(gòu)的成熟，我們可以通過越來越多的數(shù)據(jù)讓系統(tǒng)變得越來越好，因為我們完全是靠人工規(guī)則根本做不到這么好的應(yīng)用。整個學術(shù)界在最近十年來的進展很多，這些技術(shù)在大數(shù)據(jù)的場合下，哪些技術(shù)是真正有效的，能夠把它們非常有效地整合在一起做一個精確的系統(tǒng)，這就要看團隊的實力和理解能力。

DNN深度神經(jīng)網(wǎng)絡(luò)建模

這里標成紅色的是DNN深度神經(jīng)網(wǎng)絡(luò)建模，這是從2009年開始爆發(fā)的應(yīng)用，但在學界從06年就開始應(yīng)用。

在技術(shù)方面的發(fā)展確實有突破，更重要的是計算能力以及海量數(shù)據(jù)的建模能力已經(jīng)變得非常強大，在這種情況下可以做到實用化。

對于語音識別技術(shù)來說，關(guān)鍵的指標怎么樣評估呢？有兩點是非常重要的。第一，準確率。如果識別不準確，再快也沒有價值。識別準確率應(yīng)該怎樣衡量？就是當我說一句話的時候，如果里面有100個字，能識別多少個字，我們還要減掉錯字、多字或者漏字。在業(yè)界實用的系統(tǒng)的準確率要達到90%。十年前在實驗室的時候可能會做到，但我們要在實用場合做到90%的準確率是很困難的。第二，實時系數(shù)。我們每處理一秒鐘語音需要多長的計算時間做到這一點。如果實時系數(shù)小于1的情況下才可以做線上服務(wù)，如果是1的話線上服務(wù)就非常困難，現(xiàn)在是越快越好。

它最點的難點在什么地方呢？語音的工具都是開源的，非常成熟的，搭建起一個識別系統(tǒng)并不是非常困難的事情。困難的是當我們把這個系統(tǒng)用到一個大規(guī)模系統(tǒng)中的時候是參數(shù)系統(tǒng)的綜合優(yōu)化，我們能不能達到非常優(yōu)秀的性能？這個并不是非常嚴謹?shù)臄?shù)學表述方式。我前面提到一共有5個環(huán)節(jié)，如果每個環(huán)節(jié)都做到99%的準確率，整個系統(tǒng)的綜合準確率就能做到95%。如果每個環(huán)節(jié)只能做到95%的準確率，總體的準確率只能達到77%。所以最大的難點是能不能對每個環(huán)節(jié)做到極致。

語音識別的速度當然是越來越好，響應(yīng)非�？旖�，體驗非常好。作為大規(guī)模部署來說，可以降低成本。每提高1倍，機器就可以縮小一半。語音識別的利用可以分為語音操控和語音輸入，就類似與樂視的這種方案，可以通過聲音切換臺。語音輸入就像云輸入法。還有語音查詢、問答和對話，需要加入語義理解和數(shù)據(jù)服務(wù)。

云知聲開放免費SDK 不到5分鐘開發(fā)一款語音識別App

這就要講到我們的使命和服務(wù)，我們正處在市場需求爆發(fā)與語音技術(shù)突破的結(jié)合點上，我們希望提供精準、實時、專業(yè)、完整的智能語音服務(wù)。我們的服務(wù)理念是專業(yè)、創(chuàng)新、開放、共贏。希望我們的專業(yè)技術(shù)構(gòu)建出來的平臺可以為廣大開發(fā)者服務(wù)，讓我們共享這個移動語音的時代。

我們的語音云的發(fā)展速度比較快，我們在去年9月29號發(fā)布了公測，邀請業(yè)界相關(guān)的團隊和開發(fā)者進行測試。到11月21號主持搜狗語音助手發(fā)布，分別在去年的12月和今年4月份進行了兩次顯著的性能提升，其中就包括深度神經(jīng)建模的構(gòu)建。在今天5月15日我們向開發(fā)者宣布完全開放和永久免費。只要在我們的網(wǎng)站上注冊SDK，不管是什么樣的應(yīng)用和盈利模式，我們都沒有保留的態(tài)度。如果覺得這樣的應(yīng)用已經(jīng)滿足大家的要求，我們會永久免費服務(wù)下去。

我們的平臺首先是語音識別，將聲音轉(zhuǎn)化成文字。語義理解是當我們收到文字串以后，怎樣知道用戶真正的意圖，比如他是想查天氣、看電視，還是查股票、購物，這需要語義理解的功能。第三點是知識圖譜，將所有的知識通過類似于數(shù)據(jù)庫和圖的方式聯(lián)系起來，跟語義理解聯(lián)系起來，就可以滿足用戶的意圖。

在這個平臺上支持了幾類應(yīng)用，一類是應(yīng)用開發(fā)者，可以做很多方面的應(yīng)用，像語音操作、查詢，還包括醫(yī)療、教育、電影查詢、微信路況、出門問問等等。智能客服針對的是企業(yè)信息，企業(yè)的數(shù)據(jù)是可以掛在我們的知識圖譜上的，用戶可以通過客服平臺向企業(yè)進行咨詢企業(yè)發(fā)展規(guī)劃、價格、定單等等信息。還有就是廣告商，企業(yè)如果想進行營銷的話會推一些廣告，廣告商可以通過平臺上的應(yīng)用服務(wù)于各種終端客戶。大家可以到我們的官方網(wǎng)站上注冊下載SDK。

我們之所以敢做這樣的平臺，是因為我們這個創(chuàng)業(yè)公司有超過十年的技術(shù)積累，我們這個平臺在業(yè)界可以達到領(lǐng)先的水平。速度是最快的，我們每說一秒鐘的語音計算時間只需要0.2秒，因為是流式的傳輸碼，在這種情況下很難感覺到識別速度的差異。比如在微信上錄下一段聲音，發(fā)過去再返回的時候，這個差異就非常大。包括我們的服務(wù)平臺，現(xiàn)在已經(jīng)持續(xù)無故障服務(wù)半年以上，非常穩(wěn)定，而且可以按照需要擴展平臺。我們的平臺支持能力已經(jīng)超過2千萬次/天的服務(wù)能力。線上的引擎更新和系統(tǒng)迭代都可以在我們的平臺完成，用戶不需要做任何的更新，用戶可以直接體驗到更新的效果。

這里是線上性能的發(fā)展歷程，在去年9月份，我們的平臺可以達到85%的準確率。到2012年底，我們通過很多的測試和線上優(yōu)化將準確率提高到90%以上。最近4個月，通過引擎的優(yōu)化以及線上數(shù)據(jù)的迭代，準確率已經(jīng)超過了93%。下一個版本的準確率應(yīng)該可以達到95%的準確率。

我們的識別實時系數(shù)可以達到0.55倍，去年年底可以做到0.45倍的支持。這個提升的幅度很小，但如果從整個系統(tǒng)來說，DNN的計算量要比傳統(tǒng)的高很多倍，當我們把計算復雜度提高的情況下，仍然可以提升系統(tǒng)性能，這是非常大的進步。這3個月來的進步更大，直接將速度提升了1倍以上。這是在非常普通的服務(wù)器上就可以做到的，并不需要強大的計算資源。

這是我們的開發(fā)者平臺，公測開發(fā)者的增長情況。去年我們邀請了5家開發(fā)者進行測試，在這之前沒有進行任何的推廣，只是通過不同的用戶給我們帶來的影響力，包括去年年初的時候搜狗語音助手幫助我們進行了推廣。目前我們的平臺上已經(jīng)擁有超過400個開發(fā)者。我們的客戶像搜狗語音助手、樂視云電視、小i機器人、丁丁網(wǎng)、觸寶、啪啪。

下面我介紹一下經(jīng)典的應(yīng)用案例：使用我們這個平臺可以把邏輯結(jié)構(gòu)變得非常簡單，開發(fā)者只需要智能終端的APP，我們提供一個SDK植入在APP上面，與云平臺進行交流。云平臺包括負載均衡、用戶數(shù)據(jù)的數(shù)據(jù)庫、聲學模型、語音模型等方面。用戶通過客戶端發(fā)布聲音，極大的簡化了語音識別的工作。

這是在去年11月21號支持搜狗語音助手發(fā)布應(yīng)用。語音助手在11月初找到我們，我們只用了2周的時間就讓語音助手順利發(fā)布。搜狗語音助手只是用到了語音識別的功能，它把聲音發(fā)回到我們的服務(wù)器上，我們把識別信息反饋回來，語義理解和搜索服務(wù)都是搜狗公司完成的，因為他們是非常強大的搜索工具，擁有強大的語義理解團隊和搜索平臺。

這個是我們云知聲做的語音助手，這里面的數(shù)據(jù)服務(wù)跟搜狗相比差距很大，重要的還是在垂直行業(yè)的服務(wù)，包括開放的服務(wù)，我們都是通過百度和搜狗這樣的平臺實現(xiàn)的。像問天氣、問電影、問電視節(jié)目，目前已經(jīng)服務(wù)了超過30個領(lǐng)域。

第二個案例是我們自己開發(fā)的App，它非常簡單，就是將我們的一段話變成文字，點確定就可以發(fā)到微信里面去。這是在今年年初做的，當時只是想讓用戶體驗到云知聲的識別率究竟有多快、多準。在我們發(fā)布的一周就在App Store免費工具排行榜排到了第一位。在觸寶輸入法里面可以看到我們的這種輸入性能。

第三個案例是樂視超級電視，5月7號在萬事達中心進行了全球首發(fā)。這是我們的語音助手在樂視超級電視上的解決方案。

開發(fā)者應(yīng)該怎么使用這樣一個SDK，是不是非常復雜呢？其實它非常簡單，在3、4分鐘之內(nèi)就可以做一個語音識別的App。首先是要在注冊網(wǎng)站上下載我們的SDK，首先是注冊賬號，通過郵件激活，再申請App key，可以下載相應(yīng)版本的SDK�，F(xiàn)在Android平臺和iOS平臺都可以下載。以Android開發(fā)為例，首先是導入SDK。第二點是需要在Manifest中配置一些權(quán)限。

這是一個非常簡單的代碼，一頁PPT就可以寫下來。有這樣一個代碼就可以做一個非常簡單的語音輸入識別的應(yīng)用。在創(chuàng)建語音內(nèi)容的時候可以把識別器加入進來，對話框中要輸入申請的App key，加個show函數(shù)就可以把這個框彈出來。這個SDK是流式的處理過程，我一邊說話，這個錄音設(shè)備一邊錄音。API索引有五個最主要的函數(shù)，將SDK放在里面，第二是將識別對象設(shè)定好。第三是回調(diào)對象。第四是顯示識別框。

謝謝大家，我的介紹就到這里。

在不久的將來，云計算一定會徹底走入我們的生活，有興趣入行未來前沿產(chǎn)業(yè)的朋友，可以收藏云計算，及時獲取人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識，讓我們一起攜手，引領(lǐng)人工智能的未來！

標簽：安全大數(shù)據(jù) 代碼服務(wù)器谷歌互聯(lián)網(wǎng) 開發(fā)者權(quán)限數(shù)據(jù)庫搜索搜索工具搜索平臺搜索引擎通信推廣網(wǎng)絡(luò) 移動互聯(lián) 移動互聯(lián)網(wǎng) 云計算云計算發(fā)展

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:優(yōu)化您的云計算基礎(chǔ)架構(gòu)

下一篇:推進云戰(zhàn)略甲骨文發(fā)布全新IaaS服務(wù)

相關(guān)文章

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

云知聲梁家恩：面向移動互聯(lián)網(wǎng)的智能語音云