System and method for improving in-domain training data using out-of-domain data
PURPOSE: A system and a method for reinforcing a domain subordinated training corpus using the corpus out of a domain are provided to improve a performance of a language model for the continuous speech recognition by using the training corpus out of the related domain. CONSTITUTION: The domain corpu...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Patent |
Sprache: | eng ; kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | PURPOSE: A system and a method for reinforcing a domain subordinated training corpus using the corpus out of a domain are provided to improve a performance of a language model for the continuous speech recognition by using the training corpus out of the related domain. CONSTITUTION: The domain corpus(205) has the language model data of a small size for a predetermined domain. A similar contents corpus(202) has the contents similar to the domain corpus but a form different from the domain corpus while having the language model data different from the domain corpus. A form standardization part(204) standardizes the form of the similar contents corpus to the same form as the domain corpus. An adder(209) generates the corpus reinforcing the language module by adding the corpus standardized in the form standardization part to the domain corpus.
영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강 시스템 및 그 방법이 개시된다. 본 발명에 따른 코퍼스 보강 시스템은 특정 영역에 대한 소규모의 언어모델 데이터를 갖는 영역 코퍼스, 영역 코퍼스와는 다른 영역에 대한 언어모델 데이터를 가지되, 영역 코퍼스와 내용은 유사하지만 형식이 다른 내용유사 코퍼스, 내용유사 코퍼스의 형식을 영역 코퍼스와 같은 형식으로 표준화시키는 형식 표준화부 및 형식 표준화부에서 표준화된 코퍼스를 영역 코퍼스에 추가하여 언어모델이 보강된 코퍼스를 생성하는 가산기를 포함하는 것을 특징으로 하며, 연속음성인식을 위한 통계적 언어모델의 성능 저하의 원인이 되는 영역 종속적 훈련 코퍼스 부족 문제 해결을 위하여 영역 외 훈련 코퍼스를 활용함으로써, 음성인식을 위한 언어모델이 보다 신뢰성 있고 강건해 질 수 있다. |
---|