中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

這是一份數(shù)據(jù)量達(dá)41.7萬開源表格數(shù)據(jù)集

2019-05-06    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

近年來,自然語言處理(NLP,Natural Language Processing)技術(shù)的快速發(fā)展大力推動了人工智能的整體進(jìn)展。尤其是在過去三年,機(jī)器學(xué)習(xí)給NLP所帶來的進(jìn)步,使計(jì)算機(jī)在機(jī)器翻譯、閱讀理解、語法檢查等任務(wù)上,都達(dá)到了可以媲美人類的水平。

不過相比現(xiàn)實(shí)世界中的實(shí)際應(yīng)用環(huán)境,研究中的NLP任務(wù)相對單純。事實(shí)上,在NLP已經(jīng)取得很多突破的今天,機(jī)器卻連企業(yè)文檔中最常見的Word、PDF也無法從頭“讀”到尾。如何能夠讓機(jī)器理解文檔中的標(biāo)題、段落、腳注、圖片、表格等內(nèi)容信息,是NLP能夠處理更多實(shí)際應(yīng)用場景的第一步。

最近,微軟亞洲研究院自然語言計(jì)算組發(fā)表了一篇論文——TableBank: Table Benchmark for Image-based Table Detection and Recognition,致力于解決文檔中的表格檢測與表格信息識別,并首次在業(yè)界同時(shí)開源表格檢測和表格結(jié)構(gòu)識別數(shù)據(jù)集,供研究人員使用。

TableBank:高質(zhì)量的標(biāo)注表格數(shù)據(jù)集

雖然人類在視覺上可以很容易地判斷出一個(gè)表格,但由于表格的布局、樣式多種多樣,對于機(jī)器而言判斷“何為表格”以及表格中內(nèi)容之間的關(guān)系卻并不容易。傳統(tǒng)的基于規(guī)則的表格識別方式,一旦換一份文檔就需要大量在文檔后臺的手工操作;而現(xiàn)有的機(jī)器學(xué)習(xí)方法,又無法獲得大量有效的標(biāo)注數(shù)據(jù),很難支持實(shí)際場景中的應(yīng)用。于是,TableBank應(yīng)運(yùn)而生。

TableBank是一個(gè)表格檢測與識別的數(shù)據(jù)集,基于公開的、大規(guī)模的Word文檔和LaTex文檔,通過弱監(jiān)督方法創(chuàng)建而來。與傳統(tǒng)的弱監(jiān)督訓(xùn)練集不同,TableBank不僅數(shù)據(jù)質(zhì)量高,而且數(shù)據(jù)規(guī)模比之前的人工標(biāo)記的表格分析數(shù)據(jù)集大幾個(gè)數(shù)量級,其表格數(shù)據(jù)量達(dá)到了41.7萬。

然而要讓機(jī)器讀懂表格,首先要能夠從文檔中識別哪些是表格,隨后再去識別表格區(qū)域內(nèi)的信息。因此TableBank的實(shí)現(xiàn)主要分兩步走:一,表格檢測(Table Detection);二,表格結(jié)構(gòu)識別(Table Structure Recognition)。

表格檢測

如何能自動檢測到文檔中的表格?

通常每個(gè)Word文檔都有一個(gè)對應(yīng)的Office XML源代碼文件,在代碼中對應(yīng)表格的位置,可以對其進(jìn)行修改,讓表格加上邊框,以此來區(qū)分表格與文檔的其他部分。對于LaTex文檔(由LaTex編輯器生成的文檔),則可以直接使用特殊命令將邊界框添加到表格中,以此來確定表格在文檔中的位置。

然后再將Word和LaTex文檔中的表格轉(zhuǎn)化為相對應(yīng)的PDF頁面(如下圖所示),便可獲得帶有表格信息的PDF頁面,且該文檔對表格的位置已經(jīng)進(jìn)行了標(biāo)注。這些標(biāo)注過的表格,都可以放到訓(xùn)練數(shù)據(jù)集中,并且越來越多。目前,該表格檢測模型采用了計(jì)算機(jī)視覺研究中常用的Faster R-CNN 算法。

 

 

表格結(jié)構(gòu)識別

表格結(jié)構(gòu)識別的目的是識別表格文檔中的文字信息、表格中行和列的布局信息,以及理解行與列之間的關(guān)系。從PDF或圖像中識別出文字,大家的第一反應(yīng)都是使用OCR(光學(xué)字符識別)技術(shù),確實(shí)OCR技術(shù)可以識別出文字,但它只能將其轉(zhuǎn)換成文本格式,再按照在圖像中出現(xiàn)的先后順序依次填入到可編輯的文檔中,而無法確定文字之間的邏輯關(guān)系,更難于理解表格的行、列信息。

在TableBank的論文里,研究員們一方面結(jié)合OCR技術(shù),識別出表格里每個(gè)單元格中的文本內(nèi)容,另一方面,使用了創(chuàng)新方法去自動識別出表格在文檔中的位置,以及行與列的布局,明確表格中行列交叉所形成的單元格之間的關(guān)系。

 

 

對于形式、來源不同的表格,研究員們給出了相應(yīng)的方法來實(shí)現(xiàn)表格結(jié)構(gòu)的識別。Word文檔中的表格可直接將XML源代碼文件轉(zhuǎn)換為HTML標(biāo)記序列;LaTex文檔則先生成XML再轉(zhuǎn)換為HTML,然后框定表格中行和列的位置。這樣表格中的行、列信息也就有了標(biāo)注數(shù)據(jù)。

目前,TableBank數(shù)據(jù)集已經(jīng)在GitHub社區(qū)開源,其中表格檢測數(shù)據(jù)有41.7萬個(gè),表格結(jié)構(gòu)識別數(shù)據(jù)有14.5萬個(gè)。

數(shù)據(jù)集地址:https://github.com/doc-analysis/TableBank。

表格檢測與識別: 文檔智能分析的第一步

高質(zhì)量、大規(guī)模、帶有標(biāo)注的表格數(shù)據(jù)集的建立,意味著表格識別相關(guān)的機(jī)器學(xué)習(xí)訓(xùn)練可大規(guī)模開展,并將逐步提升表格識別的準(zhǔn)確率。集成了計(jì)算機(jī)視覺、OCR等跨領(lǐng)域技術(shù)的TableBank為NLP在實(shí)際場景中的應(yīng)用,做好了智能分析表格數(shù)據(jù)的前期準(zhǔn)備。

未來,在企業(yè)文檔分析中,無論是掃描件還是紙質(zhì)文件中的表格識別,都可以基于TableBank訓(xùn)練的模型進(jìn)行。同樣的場景也可以延伸到由PDF轉(zhuǎn)成Word的文檔中的表格轉(zhuǎn)換,企業(yè)年報(bào)、員工報(bào)銷發(fā)票中的表格信息提取等等。

當(dāng)然,表格只是各類文檔中的一小部分,表格檢測與識別是NLP在文檔分析研究領(lǐng)域的第一步,文檔中的標(biāo)題、段落、腳注、圖片等其他非結(jié)構(gòu)化數(shù)據(jù)的檢測與識別,也是微軟亞洲研究院自然語言計(jì)算組的研究范疇。要想真正實(shí)現(xiàn)對文檔里的內(nèi)容的智能分析和理解,還有很多研究課題亟待解決。

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:《經(jīng)濟(jì)學(xué)人》數(shù)據(jù)可視化編輯:錯(cuò)誤的圖表,我們也畫了很多

下一篇:大數(shù)據(jù)開發(fā)常見的9種數(shù)據(jù)分析手段