中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一家「?jìng)鹘y(tǒng)」IT上市公司的人工智能「新路」

2018-09-03    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

來(lái)源:機(jī)器之心

智慧城市是什么?國(guó)內(nèi)一直沒有一個(gè)清晰的定義。業(yè)內(nèi)各方從自身角度出發(fā)都做過一些嘗試,但目前還沒有形成一個(gè)共識(shí)。

我們希望通過多角度轉(zhuǎn)述業(yè)內(nèi)專家的觀點(diǎn),呈現(xiàn)出一個(gè)目前中國(guó)在「智慧城市」領(lǐng)域的發(fā)展現(xiàn)狀及所遇困難的全貌,以供各方參考。

我們認(rèn)為,智慧城市不應(yīng)是高房大瓦與電子版「千里眼順風(fēng)耳」的簡(jiǎn)單堆砌。而應(yīng)從體驗(yàn)出發(fā),在軟性環(huán)境中體現(xiàn)出一個(gè)城市對(duì)居民的人文關(guān)懷。

要做到這一點(diǎn),第一步便是能感知市民的整體真實(shí)需求。其中,讓機(jī)器理解人的語(yǔ)言以及「數(shù)據(jù)打通」的能力必不可少。

作為「智慧城市深度訪談」的第一站,我們有幸采訪了一家在自然語(yǔ)言處理以及大數(shù)據(jù)領(lǐng)域已有多年項(xiàng)目經(jīng)驗(yàn),并有自己獨(dú)特工程化思考的上市公司。與人們的印象不同,神州泰岳通過多年的兼并重組,已經(jīng)陸續(xù)發(fā)展出人工智能、物聯(lián)網(wǎng)板塊,成為了一家多板塊綜合性企業(yè)。

本次訪談的嘉賓,神州泰岳人工智能研究院院長(zhǎng)晉耀紅博士,與 AI 大數(shù)據(jù)副總裁張瑞飛,共同向我們介紹了神州泰岳與眾不同的基于語(yǔ)言學(xué)知識(shí)構(gòu)建的 NLP 語(yǔ)義分析平臺(tái),及以「數(shù)據(jù)高速通道」取代「動(dòng)遷式」做法的智慧城市大數(shù)據(jù)新思路,還介紹了神州泰岳如何通過工程化的思路,讓人工智能算法真正結(jié)合到實(shí)際智慧公安場(chǎng)景中的經(jīng)驗(yàn)。

以下為對(duì)話原文:

需求驅(qū)動(dòng)的語(yǔ)義分析工程特色

問:神州泰岳人工智能聚焦自然語(yǔ)言處理技術(shù),業(yè)界對(duì)神州泰岳人工智能業(yè)務(wù)最起初的認(rèn)識(shí)也是從「DINFO-OEC 非結(jié)構(gòu)化文本分析挖掘平臺(tái)」這個(gè)語(yǔ)義分析產(chǎn)品開始的,該平臺(tái)是如何設(shè)計(jì)并建設(shè)起來(lái)的?

晉耀紅:我之前在中科院主要做「HNC(Hierarchical Network of Concepts)概念層次網(wǎng)絡(luò)理論」的研究,這是一套涉及詞語(yǔ)、句子到篇章之間的關(guān)系全框架理論。

當(dāng)時(shí)希望設(shè)計(jì)一套語(yǔ)義網(wǎng)絡(luò)把語(yǔ)義給符號(hào)化,比如「高興」和「?jìng)摹故且粚?duì)反義詞,但把這對(duì)詞直接輸入到計(jì)算機(jī),計(jì)算機(jī)是無(wú)法理解這對(duì)詞之間的反義關(guān)系,我們希望通過用符號(hào)的語(yǔ)言描述讓計(jì)算機(jī)能理解這種關(guān)系。

后來(lái)在北師大時(shí)做的國(guó)家課題——「針對(duì)海量文本的知識(shí)表示和計(jì)算」,也是基于 HNC 理論上的擴(kuò)充研究,是十二五國(guó)家 863 項(xiàng)目中中文信息處理語(yǔ)義相關(guān)的唯一課題。

再后來(lái)創(chuàng)辦了中科鼎富,做企業(yè)以后才發(fā)現(xiàn)一個(gè)個(gè)零散算法的研究,在面對(duì)客戶的具體需求時(shí)是遠(yuǎn)遠(yuǎn)不夠的,對(duì)方更希望直接看到產(chǎn)品在他們的業(yè)務(wù)場(chǎng)景下能產(chǎn)生什么效果。后來(lái)在市場(chǎng)上慢慢打開局面的方法,就是推出「DINFO-OEC 語(yǔ)義分析平臺(tái)」。

DINFO 為「鼎富」的英文名,OEC 代表「Ontology-Element-Conception」,「OEC 模型」是由本體樹、要素樹和概念樹三棵樹組成。我們希望由本體樹、要素樹直接描述業(yè)務(wù),由概念樹來(lái)對(duì)剩下的復(fù)雜語(yǔ)言的語(yǔ)義進(jìn)行處理。

OEC 平臺(tái)主要做兩件事:1、把零散的算法按一定規(guī)則集成起來(lái);2、根據(jù)業(yè)務(wù)建模,即把客戶的業(yè)務(wù)知識(shí)系統(tǒng)性地通過符號(hào)化處理表達(dá)出來(lái),平臺(tái)底層算法自動(dòng)把數(shù)據(jù)進(jìn)行整理。平臺(tái)的定位就是把信息系統(tǒng)性地分類整理出來(lái),將非結(jié)構(gòu)化信息轉(zhuǎn)結(jié)構(gòu)化,根據(jù)算法自動(dòng)把信息進(jìn)行分類、提取標(biāo)簽。

比如在處理投訴業(yè)務(wù)的客服場(chǎng)景,客服系統(tǒng)接收到的是一條條非結(jié)構(gòu)化的投訴文本信息,OEC 平臺(tái)能將投訴的「對(duì)象」、「內(nèi)容」、「重要性」等結(jié)構(gòu)化信息從文本中分析出來(lái)。一條投訴文本可能有 1000 字,客服想要看的可能就是幾個(gè)信息點(diǎn),比如建議、表?yè)P(yáng),還是投訴等標(biāo)簽化的信息。

目前平臺(tái)底層中與 NLP 相關(guān)的算法有 200 多個(gè)。最簡(jiǎn)單的如 word2vec 這些訓(xùn)練的工具,在平臺(tái)底層都有集成。訓(xùn)練的時(shí)候可以自行選擇 SVM、LSTM 等算法。平臺(tái)在金融、公安業(yè)務(wù)中的分類、提取功能的正確率和召回率都能達(dá)到 95% 以上。

問:目前神州泰岳的 OEC 語(yǔ)義分析平臺(tái)在業(yè)內(nèi)有競(jìng)品嗎?

晉耀紅:我們?cè)跇I(yè)界暫時(shí)沒有競(jìng)品。

在算法技術(shù)路線上,我們更強(qiáng)調(diào)對(duì)語(yǔ)言本身的理解,堅(jiān)持以本體論為框架,把人的語(yǔ)言學(xué)知識(shí)符號(hào)化,局部結(jié)合機(jī)器學(xué)習(xí)的算法。從我們?cè)谥锌圃浩陂g研究的 HNC 概念層次網(wǎng)絡(luò)理論到現(xiàn)在的 OEC 平臺(tái),其實(shí)都是以本體論為核心。

我們?cè)谶@個(gè)技術(shù)路線下,希望在更高、更抽象的層次,用本體論的思想把理解相關(guān)的根本性的知識(shí)解決掉,剩下的適合交給算法的局部再交給算法處理。

國(guó)內(nèi)其他一些跟 NLP 相關(guān)的公司,目前主要還是在算法層面希望做的更精細(xì)。受到深度學(xué)習(xí)的影響,目前國(guó)內(nèi)其他公司研究的重點(diǎn)更多是 seq2seq 的這類跟語(yǔ)音相關(guān)的問題。輸入的是語(yǔ)音的 sequence,輸出的是文字流的 sequence,對(duì)句子與句子之間語(yǔ)義關(guān)聯(lián)性,以及篇章中段落之間的關(guān)聯(lián)性關(guān)注要少一些。

這種方法適用性可能會(huì)更好一些,但最根本的問題是沒有真正的理解語(yǔ)言。單獨(dú)基于深度學(xué)習(xí)的算法,在測(cè)試集上看上去效果很好,但是實(shí)際落地的場(chǎng)景中基本很少看到。因?yàn)樵趯?shí)際落地的場(chǎng)景中,訓(xùn)練的語(yǔ)料庫(kù)往往沒有那么大。

問:所以稱神州泰岳 NLP 技術(shù)「自成一派」的原因主要還是在選擇以本體論為核心的語(yǔ)義理解技術(shù)路徑上。能否再具體介紹一下你們的技術(shù)研發(fā)方法論?

晉耀紅:NLP 對(duì)于語(yǔ)義領(lǐng)域的研究現(xiàn)有兩大學(xué)派:一派堅(jiān)持用一定的語(yǔ)言學(xué)知識(shí)為基礎(chǔ)的研究方法;另一派是純計(jì)算機(jī)的,主張完全用計(jì)算機(jī)算法來(lái)拆解語(yǔ)言之間的關(guān)系,包括用統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法。這兩派暫時(shí)沒有孰優(yōu)孰劣之分,要靠實(shí)踐來(lái)檢驗(yàn)。

我們跟很多純計(jì)算機(jī)學(xué)派的研究者也是朋友,他們的觀點(diǎn)主要是,不管語(yǔ)言里是什么都標(biāo)注出來(lái)。但這有點(diǎn)像大海撈針,需要考量背后的計(jì)算力及付出的代價(jià);谡Z(yǔ)言學(xué)的研究者則希望教會(huì)計(jì)算機(jī)人類語(yǔ)言的規(guī)則和知識(shí)。在這一點(diǎn)上,兩個(gè)派別不能達(dá)成一致。

神州泰岳作為一家商業(yè)化運(yùn)營(yíng)的公司,主要服務(wù)企業(yè)客戶,目的是在有限的時(shí)間內(nèi)有效解決問題,不參加學(xué)術(shù)研究路線之間的爭(zhēng)論。

我們從歷史工程項(xiàng)目中總結(jié)的經(jīng)驗(yàn)出發(fā),把已有的人類語(yǔ)言學(xué)的知識(shí),通過語(yǔ)義庫(kù)告訴機(jī)器。在多年的積累下,我們的語(yǔ)義庫(kù)已積累了 80000 余個(gè)語(yǔ)義概念,主要是中文詞,包括上位詞、下位詞、同義、轉(zhuǎn)義等等,通過語(yǔ)義對(duì)一個(gè)詞在特定語(yǔ)境下的概念進(jìn)行描述。

語(yǔ)義庫(kù)是人對(duì)常識(shí)知識(shí)和語(yǔ)言知識(shí)的積累和表示,所以我們希望把它符號(hào)化。目前我們有一個(gè)由 30 余人的語(yǔ)義庫(kù)團(tuán)隊(duì)在做語(yǔ)義符號(hào)化的工作,他們大部分是語(yǔ)言學(xué)背景的。

除此之外,還有語(yǔ)料庫(kù),主要對(duì)客戶的文本數(shù)據(jù)進(jìn)行標(biāo)注,從中提取和分析出來(lái)其中包括的語(yǔ)言知識(shí)。前段時(shí)間神州泰岳跟北師大聯(lián)合發(fā)布的 Chinese Word Vector 語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)生成的 word2vec 基礎(chǔ)資源機(jī)器可以直接使用

從語(yǔ)料到語(yǔ)義存在一個(gè)知識(shí)的提煉過程,語(yǔ)義庫(kù)和語(yǔ)料庫(kù)是一個(gè)相輔相成的關(guān)系。

把人的語(yǔ)言學(xué)知識(shí)告訴機(jī)器的做法,一個(gè)最明顯的優(yōu)勢(shì)是在應(yīng)用場(chǎng)景下可以做到冷啟動(dòng)。比如公安、客服系統(tǒng),用已有的語(yǔ)義分析框架使系統(tǒng)先啟動(dòng)起來(lái)。雖然也許一開始效果并不一定特別理想,假設(shè)準(zhǔn)確率是 50%,但這部分準(zhǔn)確的語(yǔ)料就可以作為標(biāo)注語(yǔ)料,作為算法學(xué)習(xí)的樣本,去做擴(kuò)充,然后做一定的泛化。這樣形成一個(gè)良性循環(huán),不斷的逼近客戶要求。

目前很多深度學(xué)習(xí)應(yīng)用場(chǎng)景下,需要足夠的語(yǔ)料來(lái)訓(xùn)練。假如光訓(xùn)練預(yù)料就需要 1 個(gè)月,這 1 個(gè)月也許客戶就沒有耐心了。有些客戶就是想要兩天時(shí)間內(nèi)就看到效果。另外很多客戶數(shù)據(jù)也不可公開,無(wú)法準(zhǔn)備出符合要求規(guī)模的數(shù)據(jù)去讓機(jī)器訓(xùn)練。

張瑞飛:80-90% 的客戶都有這樣的問題,比如中國(guó)電信,客服的動(dòng)單分類有 2000 多項(xiàng)。電信自己整理了 3 個(gè)多月,每一個(gè)分類下的數(shù)據(jù)都很少,但電信也不可能在每一個(gè)細(xì)分小類都幫助我們訓(xùn)練出那么大量的數(shù)據(jù),提供給機(jī)器學(xué)習(xí)算法訓(xùn)練。

實(shí)踐過程中很多場(chǎng)景都有這個(gè)數(shù)據(jù)冷啟動(dòng)的問題。晉博士提出的方法是在沒語(yǔ)料的情況下能產(chǎn)生一定效果,然后在效果上進(jìn)行優(yōu)化迭代。

晉耀紅:再比如,我們最近在給工信部做一個(gè)公文寫作的研究課題,其中一個(gè)模塊就用到深度學(xué)習(xí)的方法來(lái)對(duì)句子進(jìn)行復(fù)述,把表達(dá)方式上弄得更豐富一些。但我們發(fā)現(xiàn)公文的語(yǔ)料就很少,我們把所有工信部的公文全部搜集起來(lái)才 18000 篇。18000 篇對(duì)于公文來(lái)說已經(jīng)很多了,但是對(duì)于機(jī)器 seq2seq 的算法還是很少,這樣用深度學(xué)習(xí)訓(xùn)練出來(lái)的算法還不可用。

所以我們就結(jié)合人的經(jīng)驗(yàn)知識(shí),讓機(jī)器在 18000 篇里面自動(dòng)學(xué)習(xí)每一種公文類型,或者每一個(gè)發(fā)文對(duì)象寫作的規(guī)范或者寫作的格式。利用學(xué)習(xí)的結(jié)果去摘取或者自動(dòng)寫一些句子,所以在這種場(chǎng)景中我們還是把人的知識(shí)結(jié)合起來(lái)。

工程經(jīng)驗(yàn)幫助平臺(tái)完善底層算法

問:在面對(duì)自然語(yǔ)言理解的問題時(shí),很多訓(xùn)練語(yǔ)料都需要人工提前標(biāo)注。但也是因?yàn)檎Z(yǔ)言的范疇很大,語(yǔ)義特征定義起來(lái)很困難。那語(yǔ)義模型的泛化能力的根本,是否取決于人們花多少時(shí)間去標(biāo)注出多大規(guī)模的語(yǔ)料?

晉耀紅:這里面其實(shí)涉及兩大類知識(shí)。

第一類是需要人工定義,用于理解基本詞匯語(yǔ)義的「常識(shí)性知識(shí)」。比如我們這個(gè)對(duì)話的場(chǎng)景下,很多關(guān)于人工智能的知識(shí)都算是常識(shí),開始對(duì)話前對(duì)話雙方就都理解了,這就建立在雙方都互相了解一些特定詞匯的概念的基礎(chǔ)上。在我們這個(gè)平臺(tái)模型里,主要體現(xiàn)在常用詞匯的語(yǔ)義和語(yǔ)義關(guān)聯(lián)性,比如「高興」和「?jìng)摹惯@兩個(gè)詞在各個(gè)行業(yè)場(chǎng)景中的意思基本不會(huì)變。這類常識(shí)性語(yǔ)義的知識(shí)基本靠人工來(lái)構(gòu)建。目前我們已經(jīng)構(gòu)建了 80000 多個(gè)資源的語(yǔ)義庫(kù),覆蓋了大部分的中文詞匯。

另一類是可以人工給的,但也可以通過人工標(biāo)注讓機(jī)器自動(dòng)學(xué)的「非常識(shí)性知識(shí)」。比如特定領(lǐng)域的分類體系,需要人工給定義,機(jī)器可以進(jìn)行一定程度的學(xué)習(xí),但主要還是靠人工。但也有一些領(lǐng)域可以通過語(yǔ)料標(biāo)注來(lái)自動(dòng)學(xué)的。比如司法領(lǐng)域里,一些收集不全的專業(yè)法律術(shù)語(yǔ)就可以通過算法、語(yǔ)料讓機(jī)器自動(dòng)學(xué)習(xí)。

張瑞飛:深度學(xué)習(xí)的方法要有泛化的能力,一定需要數(shù)據(jù)去驅(qū)動(dòng)。

舉一個(gè)實(shí)際情況例子,我們對(duì) A 市公安案事件的學(xué)習(xí),模型對(duì)案件分類、要素提取的準(zhǔn)確率,直接用深度學(xué)習(xí)的方法可能能到 70-80%,但是一放到 B 市、C 市公安案事件,準(zhǔn)確率就會(huì)降到 50% 以下。因?yàn)楸热缫恍?B 市、C 市的方言語(yǔ)料,系統(tǒng)在 A 市的文本中沒有見過。

那么解決的方法,第一種就是疊加使用晉博士基于本體論的方法。因?yàn)楸倔w論是可以通過小語(yǔ)料用符號(hào)規(guī)則來(lái)表示的,注入先驗(yàn)知識(shí)。我們通過這個(gè)方法把深度學(xué)習(xí)模型 70-80% 的準(zhǔn)確率提升到 90% 以上。

第二種是通過遷移學(xué)習(xí)的方法。

第三就是使用大量標(biāo)注語(yǔ)料。我們對(duì)整個(gè)公安 400 萬(wàn)個(gè)案事件進(jìn)行了標(biāo)注,提取了該領(lǐng)域的詞向量 20000 個(gè)。通過上面多種方法的疊加,最終準(zhǔn)確率達(dá)到 99%。達(dá)到這樣的水平,我們才能說有泛化能力。

這個(gè)過程付出的成本還是挺大的,因?yàn)楣簿W(wǎng)不允許連外網(wǎng),一定要駐場(chǎng)標(biāo)注。同時(shí)還需要通過一線業(yè)務(wù)人員的反饋,才能知道提取的特征的準(zhǔn)確性。而且在模型黑箱訓(xùn)練的過程中,還沒法進(jìn)行修改。

所以不結(jié)合晉博士的先驗(yàn)知識(shí)的能力,我們是沒有辦法在公安落地的。如果準(zhǔn)確率只有 75%,肯定不夠,平臺(tái)就沒法用了。

問: 就上述公安的項(xiàng)目,標(biāo)注的成本和效率大概是怎樣?

張瑞飛:我們駐場(chǎng)了 50 多個(gè)人,標(biāo)注了一年半,標(biāo)注了 400 萬(wàn)個(gè)案事件,基本覆蓋了國(guó)內(nèi)至少 30、40 個(gè)地市級(jí)城市在過去十年的所有案事件。

案事件有一些特征,就是例子特別少,數(shù)量跟新聞根本沒辦法比。另外案事描述一般特別短小,幾乎沒有統(tǒng)計(jì)的特征,沒法根據(jù)詞頻統(tǒng)計(jì)重復(fù)出現(xiàn)的詞匯。

如果我們單純靠深度學(xué)習(xí),其實(shí)效果并不好,就必須結(jié)合的晉博士的理論進(jìn)行結(jié)合,當(dāng)然結(jié)合方式有深淺之分。

問:在公安場(chǎng)景中,每個(gè)刑警基于自己的斷案經(jīng)驗(yàn),可能都會(huì)有一套專屬的斷案方法論,比如需要搜集哪些線索、哪些線索最有價(jià)值。OEC 平臺(tái)在建設(shè)過程中是如何使用人的經(jīng)驗(yàn)?并且在實(shí)際應(yīng)用中如何與人的研判信息相結(jié)合、交互?

張瑞飛:我們的「神州泰岳智腦 2」的系統(tǒng)里,研判路徑是自學(xué)習(xí)的一個(gè)過程。

每個(gè)刑警在斷案的時(shí)候的確都有自己的思維規(guī)律,但是這些思維規(guī)律主要可以歸納為四種——圖譜、時(shí)間軸、地圖、標(biāo)簽分類,這是我們總結(jié)的基本的研判模式。

對(duì)每一個(gè)研判路徑,我們定義了需要輸入的準(zhǔn)確的數(shù)據(jù)類型,在界面上會(huì)要求業(yè)務(wù)人員輸入相關(guān)信息,系統(tǒng)在后臺(tái)就能形成一個(gè)參數(shù)。

也許在訓(xùn)練半年以后,系統(tǒng)就可以根據(jù)案件自動(dòng)分類,在沒有人工干預(yù)前,沿著以前的研判路徑進(jìn)行判斷。做到這種程度就可以減少反應(yīng)時(shí)間,這種預(yù)處理在需要時(shí)就可以馬上針對(duì)大批量案件計(jì)算出來(lái)路徑,比以前可能要算 48 小時(shí)效率高很多。

另外,這個(gè)系統(tǒng)可以替代人對(duì)已有線索的遺忘。人在專注于一個(gè)焦點(diǎn)問題時(shí),可能會(huì)忽略之前的線索,這時(shí)系統(tǒng)可以幫助人去處理一些背景信息線索,讓人可以把精力聚焦在最需要關(guān)注的問題上,而又不會(huì)忽略掉重要的背景聯(lián)系。

這是我們倡導(dǎo)的一個(gè)人機(jī)交互的模型,做到這一步后,我們希望后續(xù)可以幫助公安去自動(dòng)地發(fā)布作戰(zhàn)指令,甚至去建設(shè)一個(gè)真正的「公安大腦」。

在這個(gè)平臺(tái)的幫助下,當(dāng)遇到重大案子而派出所沒有足夠研判的警力時(shí),就可以申請(qǐng)技偵、現(xiàn)場(chǎng)勘查、刑偵等資源,像會(huì)診一樣,多個(gè)部門一起形成一個(gè)指揮方案;或者突發(fā)一些重要事件時(shí),公安需要馬上將各種信息結(jié)合起來(lái)的時(shí)候,人工智能的威力就能很好體現(xiàn)。合作作戰(zhàn)平臺(tái)帶來(lái)的應(yīng)急和同步上案能力的提升是傳統(tǒng)的合作作戰(zhàn)方案給予不了的。

「數(shù)據(jù)打通」的新思路

問:神州泰岳除了語(yǔ)義分析 OEC 平臺(tái),還開發(fā)了一系列大數(shù)據(jù)產(chǎn)品。自然語(yǔ)義處理技術(shù)要在實(shí)踐中落地,底層的數(shù)據(jù)打通是否必不可少?

張瑞飛:數(shù)據(jù)是實(shí)現(xiàn)人工智能技術(shù)應(yīng)用的必要前提。在未來(lái)的五年,我們覺得數(shù)據(jù)打通和共享是常態(tài)。

公安現(xiàn)在建大數(shù)據(jù)中心,就是想解決公安部?jī)?nèi)部信息打通、融合的問題。

政府最高層是有意要打破這個(gè)數(shù)據(jù)壁壘的。比如,公安部部長(zhǎng)趙克志在深圳講:「要大力推進(jìn)公安數(shù)據(jù)智能化建設(shè),堅(jiān)決打破部門警種壁壘,推進(jìn)數(shù)據(jù)融合共享,加強(qiáng)高端集成應(yīng)用,助推警務(wù)流程再造!

我們覺得,我們目前在做的事情跟趙部長(zhǎng)提的理念非常接近了。

為了幫助企業(yè)管理數(shù)據(jù),我們做了三種數(shù)據(jù)打通:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)打通——「Dinfo-OEC 語(yǔ)義分析平臺(tái)」、互聯(lián)網(wǎng)外網(wǎng)數(shù)據(jù)和企業(yè)內(nèi)網(wǎng)數(shù)據(jù)的打通——「蜂鳥信息采集系統(tǒng)」、企業(yè)各類應(yīng)用系統(tǒng)和第三方系統(tǒng)之間的高速數(shù)據(jù)共享——「Buffer 數(shù)據(jù)流水線」。

問:能否具體介紹一下「Buffer 數(shù)據(jù)流水線」是如何幫助機(jī)構(gòu)內(nèi)部和機(jī)構(gòu)之間實(shí)現(xiàn)「數(shù)據(jù)打通」?

張瑞飛:傳統(tǒng)大數(shù)據(jù)公司做智慧城市的數(shù)據(jù)打通通常是「動(dòng)遷式做法」,建一個(gè)大數(shù)據(jù)平臺(tái)把所有現(xiàn)有分布在機(jī)構(gòu)內(nèi)部各處的數(shù)據(jù)收上來(lái)。但我們做的是建高速的數(shù)據(jù)共享通道——「Buffer 數(shù)據(jù)流水線」,將企業(yè)內(nèi)部各類應(yīng)用系統(tǒng)和第三方系統(tǒng)之間建立連接。

我們認(rèn)為,通道的方式比動(dòng)遷的方式更好。如果把通道的做法比喻為修路,原來(lái)的數(shù)據(jù)庫(kù)比喻成村子或者樓也好,通過通道我們可以把它連成一個(gè)虛擬的數(shù)據(jù)資源池,就是數(shù)字的虛擬化。同時(shí)數(shù)據(jù)高速通道加速了數(shù)據(jù)處理速度,打通的過程中就可以開始服務(wù)客戶,而不是等建成后才服務(wù)客戶。比如運(yùn)算速度不夠,就提高運(yùn)算力;如果客戶把數(shù)據(jù)輸給我,我會(huì)把更多的數(shù)據(jù)接入進(jìn)來(lái)幫你碰撞,然后把結(jié)果還給大家。這樣就避免了一些人為的壁壘。

另外,這背后其實(shí)有深刻的計(jì)算理論,我們認(rèn)為傳統(tǒng)的 ETL(數(shù)據(jù)倉(cāng)庫(kù)技術(shù),Extract-Transform-Load,抽取-轉(zhuǎn)換-加載)應(yīng)該要被顛覆掉了。這個(gè)說法也不是我們提出的,是 16 年 Kafka 的創(chuàng)始人在舊金山 Qcon 會(huì)議做了一個(gè)「?jìng)鹘y(tǒng) ETL 已死,而實(shí)時(shí)流長(zhǎng)存」演講。

兩年前,我們跟公安探討過如何替代掉大數(shù)據(jù) Lambda 架構(gòu)的方式!窧uffer 數(shù)據(jù)流水線」是我們當(dāng)年理念的一個(gè)落地。

在 Lambda 架構(gòu)里,實(shí)時(shí)要寫一條程序,批量處理時(shí)要再寫一條程序,這樣就沒法維護(hù)數(shù)據(jù)的一致性,而且程序開發(fā)特別復(fù)雜。我們必須有一個(gè)通道去把實(shí)時(shí)數(shù)據(jù)和批量數(shù)據(jù)做在一起,然后就能處理近乎無(wú)限的數(shù)據(jù)源。

比如,亞馬遜今天可以在一個(gè)通道里不區(qū)分實(shí)時(shí)、批量地去處理 50 萬(wàn)以上的數(shù)據(jù)源。我們需要這樣的方法來(lái)適應(yīng)大數(shù)據(jù)今天的變化速度,這樣我們才能在交換和共享的過程中去加載一些像深度學(xué)習(xí)這樣的算法,能在通道里把數(shù)據(jù)都連接起來(lái)。

當(dāng)然在這個(gè)過程當(dāng)中,我們認(rèn)為傳統(tǒng)的 Oracle GoldenGate 或者 Dell Shareplex 就沒有必要存在了,因?yàn)槲覀冊(cè)谶m配這層當(dāng)中就把這個(gè)傳統(tǒng)的做法取代了。

「Buffer 數(shù)據(jù)流水線」系統(tǒng)其實(shí)是幾個(gè)技術(shù)的結(jié)合:第一,流式數(shù)據(jù)處理技術(shù),比如說像 Storm;第二,流數(shù)據(jù)和內(nèi)存數(shù)據(jù)庫(kù)(數(shù)據(jù)空間)的映射,在這里面可以處理事務(wù)和帶狀態(tài)的邏輯;第三,數(shù)據(jù)源端的適配,比如說 Hadoop 導(dǎo)到 GreenPlum,Oracle 9 到 Oracle 10,或者 Mysql。

國(guó)內(nèi)的公司很多做的是開源的封裝,主要在表層,但我們主要是在大數(shù)據(jù)底層去改代碼。當(dāng)然也會(huì)去借鑒一些開源的代碼,因?yàn)殚_源有好多豐富的場(chǎng)景因?yàn)殄N煉的成熟度比較高了,但是從底層去優(yōu)化跟封裝就產(chǎn)生了完全不同的兩個(gè)體系。

用開源的封裝方法存在一些問題,比如封裝好了,Spark 的更新,系統(tǒng)是跟不上的。另外,封裝解決的問題比較表層,一個(gè)看起來(lái)有很多類別的平臺(tái),但是遇到要如何分析這些大數(shù)據(jù)的問題時(shí),往往會(huì)卡在很基礎(chǔ)的技術(shù)上。

數(shù)據(jù)的交換與共享是大數(shù)據(jù)應(yīng)用的大趨勢(shì)。在底層去 Lambda 化和替代傳統(tǒng)的 ETL,以及打通數(shù)據(jù)流水線的高速公路,就是我們最近在技術(shù)上必做的事。

大數(shù)據(jù)+人工智能如何結(jié)合落地?

問:我們其實(shí)一直有意尋找在智慧城市中多元大數(shù)據(jù)結(jié)合分析語(yǔ)義的案例。之前提到神州泰岳還與云從科技這類做安防領(lǐng)域計(jì)算機(jī)視覺的公司合作,目的是將文本和視覺的語(yǔ)義信息進(jìn)行融合嗎?

張瑞飛:語(yǔ)義和圖像在將來(lái)是必須結(jié)合的東西。

貴陽(yáng)公安提出的「人像大數(shù)據(jù)」,所謂人像大數(shù)據(jù)其實(shí)就是人的大數(shù)據(jù)和像的大數(shù)據(jù),以及大數(shù)據(jù)平臺(tái)三合一。像的大數(shù)據(jù)就是圖像。人的大數(shù)據(jù)從哪來(lái)?只能從文本來(lái)。

在刻畫人物時(shí),公安主要是通過卷宗文本、DNA 檔案、現(xiàn)場(chǎng)勘查記錄、檔案、手機(jī)聊天信息、互聯(lián)網(wǎng)信息等,把大數(shù)據(jù)提取出來(lái)的線索串并起來(lái),使人的特征浮現(xiàn)出來(lái),再跟圖像進(jìn)行比對(duì)。這就是一個(gè)實(shí)際化的應(yīng)用場(chǎng)景。

其實(shí)視覺目前也有不成熟的地方,今天的視覺識(shí)別都還是從一個(gè)較窄的領(lǐng)域去做識(shí)別,有較大的局限性。比如說人臉,一旦被遮擋了,對(duì)人腦去識(shí)別是沒有什么區(qū)別的,但是對(duì)于機(jī)器就有區(qū)別。

應(yīng)用領(lǐng)域窄,就限制了視覺技術(shù)在公安領(lǐng)域的應(yīng)用。比如公安有一個(gè)億人臉的數(shù)據(jù)庫(kù),機(jī)器通過身份證照片識(shí)別出 95% 相似度的人臉照片可能會(huì)達(dá)到幾百?gòu)。幾百(gòu)埾嗨频娜四樔绻家仓苯尤咳ジ櫤Y選、分析,數(shù)量就太大了,在人力物力成本都不可行。

對(duì)于公安來(lái)說要達(dá)到可用的程度,就必須壓縮到十幾張的數(shù)量,怎么壓縮呢?一方面是案事件的串并,把人的線索提取出來(lái)。比如說戴眼鏡的,就從幾百?gòu)埨锩嬲{(diào)出戴眼鏡的幾十張;還有總穿牛仔褲或者總戴鴨舌帽的,走路姿態(tài)是右肩膀還是左肩膀比較高?這些特征都可以從視頻學(xué)習(xí)中提取出來(lái)。

我們通過這種方法使視覺算法在一個(gè)大的數(shù)據(jù)集中的應(yīng)用變得可行,通過平臺(tái)把算法和工程形成一個(gè)互補(bǔ),從而能把人準(zhǔn)確地從數(shù)據(jù)中挖掘出來(lái),這就不是一家創(chuàng)業(yè)公司可以單獨(dú)做到的事情了。

我們?cè)谫F陽(yáng)與云從的合作,創(chuàng)業(yè)公司偏向于只提供視覺識(shí)別技術(shù) API,不太喜歡駐場(chǎng)解決工程化的問題。因?yàn)閷?duì)于像云從這種創(chuàng)業(yè)公司來(lái)說,更重視的是短期內(nèi)占領(lǐng)更多的市場(chǎng),而不是在一個(gè)點(diǎn)做深。但是總要人去把這件事情做深,所以神州泰岳就集成整個(gè)應(yīng)用,提供工程化解決方案。

我們雖然是做語(yǔ)義的公司,但是神州泰岳在深圳公安是人工智能的組長(zhǎng),團(tuán)隊(duì)中包括騰訊、華為在內(nèi)。我們集成的人工智能就不能理解為語(yǔ)義本身了,而是整個(gè)人工智能和大數(shù)據(jù)應(yīng)用到底怎么結(jié)合起來(lái)的課題。

所以越是接觸這類項(xiàng)目,我們就越認(rèn)識(shí)到局部作坊式研究的一個(gè)個(gè)算法必須被聚集起來(lái),這就是我們要做一個(gè)平臺(tái)的原因。

歸根到底,人工智能就是個(gè)工程的事

問:神州泰岳做了那么多產(chǎn)品,什么時(shí)候決定要往工程化的路線去做人工智能?

張瑞飛:當(dāng)我們 16 年 8 月份啟動(dòng)「智享云平臺(tái)」的時(shí)候,對(duì)未來(lái)方向其實(shí)也還有點(diǎn)模糊,但是現(xiàn)在看來(lái)越來(lái)越清晰。

在未來(lái)我們認(rèn)為單一算法很難構(gòu)成競(jìng)爭(zhēng)力,因?yàn)闀?huì)有很多新的分支而且算法很容易被復(fù)制。比如 ITGCM,懂 GCM 算法的人如果要做 ITGCM 就很容易。我們考慮:?jiǎn)渭儗W⑺惴ㄑ芯磕軒?lái)的突破是不是太有限了?第一,單純的算法帶來(lái)的實(shí)際業(yè)務(wù)突破可能不會(huì)超過 2%;第二,算法太容易被拷貝了。

我們問過自己一個(gè)問題,企業(yè)在發(fā)展的過程中應(yīng)該沉淀的是什么?如果說是科學(xué)家和算法的話,那可能就錯(cuò)了,因?yàn)槠鋵?shí)沉淀不下來(lái)。

另外,我們也去真正思考成本的問題。比如神州泰岳有 600 人的人工智能團(tuán)隊(duì),這一年的人工成本如何解決。在人工智能這么火的時(shí)候,我們?nèi)绾尉S持三年以上工程團(tuán)隊(duì)的穩(wěn)定性。這些問題就切切實(shí)實(shí)擺在企業(yè)面前。這些問題解決好了,某種意義上講,我們的項(xiàng)目管理就做好了。同樣一個(gè)項(xiàng)目,如果我們的成本是 400 萬(wàn),別人的成本是 4000 萬(wàn),我們覺得他們沒法跟我們抗衡。

第三點(diǎn),人工智能不太可能走向「魔幻人工智能」,即算法不太可能輕易發(fā)生大躍進(jìn)。我們其實(shí)試過特別新的算法,除了某些算法我們覺得確實(shí)有提升之外,大部分算法其實(shí)還是一種理論嘗試,最后還是回歸到一些傳統(tǒng)的深度學(xué)習(xí)模型中。

這樣我們就想,是不是今天的人工智能走工程化的路線就是必然的選擇?

這個(gè)結(jié)論背后有兩個(gè)基礎(chǔ)理論:第一,人工智能是基于形式推理的而建立的,而形式推理是可以機(jī)械化的;第二,信息論和控制論的發(fā)展,導(dǎo)致了形式推理可以工程化。

包括深度學(xué)習(xí)或者 CNN 神經(jīng)網(wǎng)絡(luò)在 08 年以后逐漸發(fā)展,我認(rèn)為都是對(duì)這兩個(gè)理論的擴(kuò)充。在這兩個(gè)基礎(chǔ)理論不變的時(shí)候,我們不敢設(shè)想魔幻人工智能的產(chǎn)生,只能是沿著工程化的方法去做人工智能。

工程化的路線,就決定了我們要去做各種技術(shù)儲(chǔ)備,比如蜂鳥信息采集、Buffer 流水線、流程引擎(用于合成作戰(zhàn))、底層大數(shù)據(jù)平臺(tái)、DINFO-OEC 語(yǔ)義分析平臺(tái),智享云平臺(tái)等等。

這些工程化平臺(tái)都是為了實(shí)現(xiàn)技術(shù)落地。沒有平臺(tái),技術(shù)就落不了地。我們做了兩年,感覺到要實(shí)現(xiàn)產(chǎn)業(yè)化落地,這些付出是必須的。

我覺得我們這類面向大 B 的公司都可以嘗試:在原來(lái)在大 B 公司積累的資源和工程化的經(jīng)驗(yàn)的基礎(chǔ)上,再銳意突破一些深度學(xué)習(xí)的算法技術(shù),做出自己的算法特色來(lái),進(jìn)而打造出獨(dú)特的落地場(chǎng)景。這種落地是很難被取代的,這種工程化的投入會(huì)把公司差異開來(lái),而不是算法把大家差異開。

問:我們了解到中國(guó)中文信息學(xué)會(huì)和神州泰岳合作做了一個(gè)產(chǎn)學(xué)研平臺(tái)——「中文信息(深度處理)開放創(chuàng)新平臺(tái) China-NLP」,能否介紹一下創(chuàng)辦這個(gè)平臺(tái)的初衷及意義?

張瑞飛:這個(gè)平臺(tái)的出發(fā)點(diǎn)是人工智能需要從手工作坊的做法走向工業(yè)化的做法。

目前很多學(xué)校的老師做研究的方法依舊是手工作坊的作法,是在局部研究一個(gè)一個(gè)算法,對(duì)于全局的需求沒有明確的認(rèn)知。我們認(rèn)為,人工智能除了算法本身之外,有很多問題是在產(chǎn)業(yè)落地的過程中才能發(fā)現(xiàn)并解決的。

比如數(shù)據(jù)本身的交換和共享問題;怎么把 tensorflow,或者其他的深度學(xué)習(xí)工具,變成分布式的,或者極限化的一個(gè)資源池;能不能夠用最小的硬件,或者 CPU 的指令級(jí)去優(yōu)化現(xiàn)在的計(jì)算。這些都是工程化的過程中,一個(gè)平臺(tái)要考慮的問題。

又比如一位教授做了一個(gè)針對(duì)醫(yī)療領(lǐng)域的深度問答引擎,跟醫(yī)院對(duì)接的時(shí)候就會(huì)遇到這個(gè)引擎如何與已有的系統(tǒng)對(duì)接的問題;另外,這個(gè)系統(tǒng)跟已有的病人病例系統(tǒng)是什么關(guān)系?怎么來(lái)評(píng)估這套系統(tǒng)能不能上線?上線后需要什么框架?數(shù)據(jù)怎么來(lái)?

這些問題的出現(xiàn),就極大地阻礙了學(xué)術(shù)界的成果向工業(yè)界轉(zhuǎn)化,有時(shí)候基本意味著轉(zhuǎn)化不了。

我們推出這套平臺(tái),就是希望把神州泰岳在產(chǎn)業(yè)里積累的工程化經(jīng)驗(yàn),釋放給學(xué)術(shù)界的老師們,讓老師們依托這個(gè)平臺(tái)更好得把算法的應(yīng)用到實(shí)際需求中,向產(chǎn)業(yè)化轉(zhuǎn)化。

自然語(yǔ)言處理的未來(lái):語(yǔ)義終極特征

問:神州泰岳在自然語(yǔ)言處理領(lǐng)域的研究有什么未來(lái)的計(jì)劃?

晉耀紅:首先還是需要深入細(xì)化本體論設(shè)計(jì),不同的場(chǎng)景下對(duì)本體的要求是不斷變化的。本體業(yè)務(wù)建模這塊還有很大的發(fā)展空間。

另外自然語(yǔ)言的能力包括理解和生成,后續(xù)可能考慮增加語(yǔ)言生成的能力。如公文寫作能力。語(yǔ)言理解和生成是硬幣的兩面,目前平臺(tái)主要著重于分析的能力。先分析公文寫作,句子、段落之間怎么連接的,在這個(gè)基礎(chǔ)上分析文章框架,學(xué)習(xí)每一個(gè)詞、字的應(yīng)用。

公文寫作復(fù)雜,是未來(lái)研究的一個(gè)方向。其中有很多困難,目前像市面上一些寫詩(shī)的應(yīng)用屬于比較娛樂化的,但是公文寫作每一個(gè)字、每一句話都不能錯(cuò),不能有歧義。

我們希望做一個(gè)效果可控的公文自動(dòng)生成應(yīng)用。公文寫作有很多困難,有很多潛規(guī)則、隱知識(shí),但因?yàn)槭菄?yán)格的八股文,也有優(yōu)勢(shì)。根據(jù)我們的調(diào)研,一般寫公文都是先去研究原來(lái)的公文是怎么寫的,然后在以前的公文基礎(chǔ)上進(jìn)行修改。這個(gè)過程跟機(jī)器學(xué)習(xí)其實(shí)有相通之處。我們對(duì)于產(chǎn)品的設(shè)想是希望能讓公文寫作人員輸入感情色彩、表達(dá)方式、緊迫性等元素,讓機(jī)器自動(dòng)生成文章。

作為公文寫作研究的中間結(jié)果,我們也做了一個(gè)自動(dòng)寫詩(shī)的應(yīng)用。但是這個(gè)跟別的寫詩(shī)應(yīng)用的差別在于可以每一句話讓用戶輸入一個(gè)詞來(lái)表達(dá)整句詩(shī)的意境,比如鄉(xiāng)愁。

問:深度學(xué)習(xí)算法目前在自然語(yǔ)言處理還沒有實(shí)現(xiàn)大的突破,對(duì)于這一點(diǎn)神州泰岳有什么思考?

晉耀紅:我們認(rèn)為原因是語(yǔ)言的特征更抽象一些,不像圖像 RGB 三種元素就是它的終極特征,語(yǔ)言沒有終極的特征。

我們?cè)谥锌圃鹤龅?HNC 概念層次網(wǎng)絡(luò)的工作其實(shí)就是希望找到語(yǔ)言的終極特征。這里面有很多有意義的工作,但目前價(jià)值還沒有完全發(fā)揮出來(lái),可能還很少有人能認(rèn)識(shí)到語(yǔ)言終極特征的重要性。

目前各種算法比賽,我們做企業(yè)的也要從客觀角度去看待,可能有時(shí)候是在封閉的集合去刷分,發(fā)現(xiàn)了問題針對(duì)性的改一下就能提高。但其實(shí)很多情況下也許不能體現(xiàn)實(shí)際應(yīng)用過程的水平。

當(dāng)然,比賽也許能一定程度促進(jìn)算法的發(fā)展,對(duì)學(xué)術(shù)研究有用。但國(guó)內(nèi)一些公司通過比賽來(lái)提高知名度,如果這個(gè)過程不能提升算法在實(shí)際工作中的效果,在資源上可能造成了一定的浪費(fèi)。

現(xiàn)在的學(xué)術(shù)界更多的是在刷榜,做一個(gè)算法去刷分。國(guó)內(nèi)的學(xué)術(shù)研究,很多時(shí)候就像一個(gè)老前輩說的,就是在做習(xí)題,別人在英語(yǔ)里做了一個(gè),咱們把它拿過來(lái)漢語(yǔ)里做了一個(gè),就是創(chuàng)新。但是其實(shí)很少有去研究這背后終極的問題,或者說去研究一個(gè)新的算法。這種創(chuàng)新性的工作還是很少。

張瑞飛:在研究方向的話,我們希望恢復(fù)機(jī)器學(xué)習(xí)的本來(lái)面目。

邢波教授前一段時(shí)間說,在做人工智能模型算法梯隊(duì)里存在一個(gè)知識(shí)退化的趨勢(shì),因?yàn)槿藗冮_始把深度學(xué)習(xí)來(lái)代替整個(gè)機(jī)器學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)本來(lái)的分支,但還有其他的分支。

我們?cè)诠こ虒?shí)踐的時(shí)候,在做標(biāo)注的時(shí)候,不在乎是否一定要用深度學(xué)習(xí)。

工程化的任務(wù)應(yīng)該是去評(píng)估業(yè)務(wù)目標(biāo)如何分解,需要把整個(gè)算法能力框架搭建起來(lái),然后找最有效、最捷徑的算法。

也許對(duì)深度學(xué)習(xí)一個(gè)小的改變就是一篇論文了,但我們覺得這個(gè)沒有太大的意義。我們企業(yè)做人工智能考慮的是成本,追求的是成本和成效的平衡。

標(biāo)簽: Mysql 大數(shù)據(jù) 大數(shù)據(jù)公司 大數(shù)據(jù)平臺(tái) 大數(shù)據(jù)應(yīng)用 大數(shù)據(jù)中心 代碼 工信部 互聯(lián)網(wǎng) 金融 數(shù)據(jù)庫(kù) 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)中心機(jī)房監(jiān)控系統(tǒng)的重要性

下一篇:如何優(yōu)雅地從四個(gè)方面加深對(duì)深度學(xué)習(xí)的理解