METHOD FOR HANDLING OUT-OF-VOCABULARY PROBLEM IN HANGEUL WORD EMBEDDINGS RECORDING MEDIUM AND SYSTEM FOR PERFORMING THE SAME

The present invention provides a method for processing out-of-vocabulary word expressions performed by a system for processing out-of-vocabulary word expressions, which may include the steps of: generating a number of typos corresponding to a predetermined ratio of all training data and storing the...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KWEON OHJOON, LEE SANG KEUN, KIM DOHYUN
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present invention provides a method for processing out-of-vocabulary word expressions performed by a system for processing out-of-vocabulary word expressions, which may include the steps of: generating a number of typos corresponding to a predetermined ratio of all training data and storing the typos in a vocabulary dataset; if a word outside the vocabulary is input, generating a word embedding using a Korean word embedding model; and learning a word expression for the word outside the vocabulary. In this way, when learning Korean embedding, features for artificially made typos are extracted to create word embedding, and, by learning to be the same as the existing word embedding, even in a system with many typos, the method can work effectively. 본 발명의 어휘 밖 단어표현 처리하기 위한 시스템에 의해 수행되는 어휘 밖 단어표현 처리 방법은, 전체 학습 데이터의 기설정된 비율 내에 해당하는 수의 오타를 생성하여 어휘 데이터셋에 저장하는 단계; 어휘 밖 단어가 입력되면, 한글 단어임베딩 모델을 이용하여 단어임베딩을 생성하는 단계; 및 상기 어휘 밖 단어에 대한 단어 표현을 학습하는 단계를 포함할 수 있다. 이에 의해 한글 임베딩 학습 시 인위적으로 만든 오타들에 대한 특징을 추출하여 단어임베딩을 생성하고, 이를 기존의 단어 임베딩과 같아지도록 학습하면서 오타가 많은 시스템에서도 효과적으로 작동할 수 있게 된다.