中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

囊括歐亞非大陸多種語言的25個平行語料庫數(shù)據(jù)集(拿走不謝。

2018-11-07    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

與大部分機器學(xué)習模型一樣,有效的機器翻譯系統(tǒng)需要大量的訓(xùn)練數(shù)據(jù)才能產(chǎn)生可讀性強的結(jié)果。平行文本翻譯語料庫是兩種語言之間的結(jié)構(gòu)化翻譯文本集。此類平行語料庫對訓(xùn)練機器翻譯算法至關(guān)重要。但從哪里可以獲得這些外語數(shù)據(jù)集呢?請看下列清單↓↓↓

平行文本數(shù)據(jù)集

Aligned Hansards of the 36th Parliament of Canada:包含英語-法語句對。

地址:https://www.isi.edu/natural-language/download/hansard/

European Parliament Proceedings Parallel Corpus 1996-2011:包含 21 種歐洲語言句對。

地址:http://www.statmt.org/europarl/

Global Voices Parallel Corpus:新聞門戶網(wǎng)站 Global Voices 的內(nèi)容精選,包括 57 種語言的新聞文本。

地址:http://casmacat.eu/corpus/global-voices.html

RATS language identification:包含將近 5400 個小時的阿拉伯語、波斯語、達里語、普什圖語和烏爾都語電話會話語音,并附有語音分割標注。

地址:https://catalog.ldc.upenn.edu/LDC2018S10

Chinese-French Text:包含來自 Chinese Broadcast News 語料庫的大約 3 萬漢字子集的法語譯文。

地址:https://catalog.ldc.upenn.edu/LDC2018T17

Arabizi Text:自動檢測英語和阿拉伯語混合文本中語碼轉(zhuǎn)換的訓(xùn)練數(shù)據(jù),包含 522 條推特。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/

English-Vietnamese Text:包含 50 萬個英語-越南語句對的語料庫。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/

English-Persian Text:包含超過 20 萬個英語-波斯語對齊句對。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/

Chinese-English Emails:包含來自電子郵件的 15000 個漢字(相當于 10000 個英文單詞)及其英文參考譯文。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/

French-Arabic Newspapers:包含 10000 個阿拉伯語單詞和 2 個法語參考譯文的語料庫。源文本是 2013 年 5 月從阿拉伯版《Le Monde Diplomatique》中收集的文章。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/

Pashto-French Text:106 個小時的普什圖語錄音的文字記錄及其法語譯文。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/

German-English Text:手動詞對齊的德語-英語平行語料庫。

地址:https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip

Turkish-English Text:為 WMT 2018 準備的土耳其語-英語平行語料庫。

地址:https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534

UN translation text:6 種不同語言的聯(lián)合國翻譯文檔合集。

地址:http://opus.nlpl.eu/UN.php

XhosaNavy:南非海軍英語和科薩語平行語料庫。

地址:http://opus.nlpl.eu/XhosaNavy.php

Wikipedia:20 種語言的平行句子語料庫,句子來源于維基百科。

地址:http://opus.nlpl.eu/Wikipedia.php

English-Croatian:英語和克羅地亞語平行文本。

地址:http://opus.nlpl.eu/hrenWaC.php

Catalan-Spanish:從加泰羅尼亞政府官方刊物中收集的加泰羅尼亞語和西班牙語文檔合集。

地址:http://opus.nlpl.eu/DOGC.php

English-Japanese:Wikipedia』s Kyoto Articles 日英雙語語料庫,包含大約 50 萬個人工翻譯的句對。

地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

OntoNotes:包含英語、中文和阿拉伯語各類文本(新聞、電話會話、網(wǎng)絡(luò)日志、新聞組、廣播、脫口秀)的標注語料庫。

地址:https://catalog.ldc.upenn.edu/ldc2013t19

Central Europe Telephone Speech:包含約 44 小時的標注電話語音,捷克和斯洛伐克語。

地址:https://catalog.ldc.upenn.edu/LDC2018S08

South Asia Telephone Speech:包含約 118 小時的標注電話語音,孟加拉語、印地語、旁遮普語、泰米爾語和烏爾都語。

地址:https://catalog.ldc.upenn.edu/LDC2017S14

Turkish Telephone Speech:包含約 18 小時的土耳其語電話語音。

地址:https://catalog.ldc.upenn.edu/LDC2017S09

Chinese Treebank:來自 Chinese newswire、政府文件、雜志文章和各種廣播新聞的約 150 萬字標注和解析文本。

地址:https://catalog.ldc.upenn.edu/LDC2013T21

Arabic Broadcast News Transcripts:包含 2008 年和 2009 年收集的大約 37 小時阿拉伯廣播新聞文字記錄。

地址:https://catalog.ldc.upenn.edu/LDC2018T14

原文鏈接:https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/

標簽: 電子郵件 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:十年雙11:阿里數(shù)據(jù)庫變遷“三部曲”

下一篇:中國移動9.6億4G皮基站集采出爐:結(jié)果有點意外