APPARATUS FOR CONVERSATION CLUSTERING AND CONTROL METHOD THEREOF

The present invention relates to a chat contents clustering device and a control method thereof. According to the present invention, a control method of the chat contents clustering device comprises the steps of: generating a dependency tree by applying a dependency syntax parser to chat contents so...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KIM JIHYEON, JAESEUNG SIM, WOOJU KIM, JEONG HAE SUNG, KIM TAEKYOON, LEE JUNGHA, LEE DONG HWAN
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present invention relates to a chat contents clustering device and a control method thereof. According to the present invention, a control method of the chat contents clustering device comprises the steps of: generating a dependency tree by applying a dependency syntax parser to chat contents source data, and classifying text included in each node of the generated dependency tree into main words or auxiliary words based on the node's position on the tree; applying a sequential pattern analysis algorithm to the chat contents source data to extract frequent patterns that occur above a preset frequent reference value; determining a final frequent pattern by removing frequent patterns consisting only of the auxiliary words from among the extracted plurality of frequent patterns; and clustering the determined final frequent pattern using a community detection algorithm to generate at least one cluster. According to the present invention, clustering can be effectively performed for similar contents for discourse-type data. 본 발명은 대화내용 클러스터링 장치 및 그 제어방법에 관한 것이다. 본 발명에 따른 대화내용 클러스터링 장치의 제어방법은, 대화내용 클러스터링 장치의 제어방법에 있어서, 대화내용 소스 데이터에 의존 구문 파서를 적용하여 의존 관계 트리를 생성하고, 생성된 의존 관계 트리의 각 노드에 포함된 텍스트에 대해 해당 노드의 트리상 위치에 기초하여 주제어 또는 보조어로 구분하는 단계와; 대화내용 소스 데이터에 순차패턴분석 알고리즘을 적용하여 기 설정된 빈발 기준값 이상으로 발생하는 빈발패턴을 추출하는 단계와; 상기 추출된 복수 개의 빈발패턴 중에서 상기 보조어로만 이루어진 빈발패턴을 제거하여 최종 빈발패턴을 결정하는 단계와; 상기 결정된 최종 빈발패턴을 커뮤니티 탐지 알고리즘을 이용하여 클러스터링 처리하여 적어도 하나의 클러스터를 생성하는 단계를 포함하는 것을 특징으로 한다.