從專利文本建立大型平行語料庫: 由雙語到多語 / CULTIVATING LARGE-SCALE PARALLEL CORPORA FROM COMPARABLE PATENTS: FROM BILINGUAL TO TRILINGUAL, AND BEYOND

平行語料庫是很多自然語言處理(NLP)應用的關鍵性資源,比如機器 翻譯(MT)或跨語言資訊檢索。本文探討一個新的、同時又很重要的領 域,即利用可比多語專利(Comparable Multilingual Patents)建設大規模 平行語料庫的可行性。其中,本文介紹我們已經建設的三個雙語平行 語料庫以及一個三語平行語料庫,並涉及兩個問題:(1)如何構建涉 及多種語言的大規模可比專利語料庫; (2) 如何從這些可比語料中挖 掘高品質的平行句對。另外,基於構建的平行專利語料,我們介紹一 些初步的統計機器翻譯實驗。而且,我們進一步分析了構建涉及更多 語言的大規模平行語料庫的可行性(例如中文、英文、日...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Journal of Chinese Linguistics Monograph Series 2015-01 (25), p.334-355
Hauptverfasser: 路斌, 鄒嘉彥, 周嘉寳, Lu, Bin, Tsou, Benjamin K., Chow, Ka Po
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!