SYSTEM AND METHOD FOR WORD CLASSIFICATION BASED ON HYPERLINK OF WEB TEXT

The present invention relates to a system which uses the hyperlink information of a web document consisting of hypertext to classify the type of natural language words in the web document based on the hyperlink classification. Hyperlinks are reference links representing videos, URLs, text, tags, mus...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: CHOI, KEY SUN, HAHM, YOUNG GYUN
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present invention relates to a system which uses the hyperlink information of a web document consisting of hypertext to classify the type of natural language words in the web document based on the hyperlink classification. Hyperlinks are reference links representing videos, URLs, text, tags, music, pictures, programs, and files for specific words and are implemented in markup languages of web documents such as HTML. Such information enables classifying the type of the object names for words configuring hyperlinks without using a high-level natural language processing model. Utilizing the metadata information of hyperlinks enables a large amount of information to be used more easily than by an analysis using natural language processing due to the properties of the web data built by the collaboration of users. 본 발명은 하이퍼텍스트로 구성된 웹 문서의 하이퍼링크 정보를 사용하여, 하이퍼링크에 대한 분류를 기반으로 해당 웹 문서의 자연어 단어에 대한 유형을 분류할 수 있는 시스템이다. 하이퍼링크란 특정 단어에 대하여 동영상, URL, 글, 태그, 음악, 그림, 프로그램, 파일 등의 정보를 나타내는 참조고리이며, HTML을 비롯한 웹 문서의 마크업 언어에서 구현되어 있다. 이러한 정보들은 고도의 자연언어처리 모델을 사용하지 않고서도 하이퍼링크가 된 단어들에 대한 개체명 유형을 분류하는 것을 가능하게 할 수 있다. 사람들의 협업에 의해 구축되는 웹 데이터의 특성상, 하이퍼링크의 메타데이터 정보를 활용하는 것은 자연어처리를 통한 분석에서 얻을 수 있는 것보다 방대한 정보를 쉽게 사용할 수 있다는데 그 이득이 있다.