METHOD AND SYSTEM FOR DETECTING DUPLICATED DOCUMENT USING DOCUMENT SIMILARITY MEASURING MODEL BASED ON DEEP LEARNING

Disclosed are a method and a system for detecting duplicate documents using a document similarity measurement model based on deep learning. The duplicate document detection method according to one embodiment may include the steps of: extracting, from a document database, a similar document pair set...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HAN BYEONGHOON, KIM SUNG MIN
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Disclosed are a method and a system for detecting duplicate documents using a document similarity measurement model based on deep learning. The duplicate document detection method according to one embodiment may include the steps of: extracting, from a document database, a similar document pair set including a plurality of similar document pairs having the same attribute and a non-similar document pair set including a plurality of randomly extracted non-similar document pairs; calculating mathematical similarity using a mathematical measure with respect to each of the plurality of similar document pairs and each of the plurality of non-similar document pairs; calculating semantic similarity for each of the plurality of similar document pairs and each of the plurality of non-similar document pairs by increasing the mathematical similarity calculated for each of the plurality of similar document pairs and decreasing the mathematical similarity calculated for each of the plurality of non-similar document pairs; and learning a similarity model using the plurality of similar document pairs, the plurality of non-similar document pairs, and the semantic similarity; and detecting, by the at least one processor, a duplicate document using the similarity model. According to the present invention, it is possible to determine whether or not documents are duplicated based on the semantic similarity between the documents. 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템을 개시한다. 일실시예에 따른 중복 문서 탐지 방법은 문서 데이터베이스로부터 동일한 속성을 갖는 복수의 유사 문서쌍을 포함하는 유사 문서쌍 집합 및 랜덤하게 추출된 복수의 비유사 문서쌍을 포함하는 비유사 문서쌍 집합을 추출하는 단계, 상기 복수의 유사 문서쌍 각각 및 상기 복수의 비유사 문서쌍 각각에 대해 수학적 척도를 이용한 수학적 유사도를 계산하는 단계, 상기 복수의 유사 문서쌍 각각에 대해 계산된 수학적 유사도를 증가시키고 상기 복수의 비유사 문서쌍 각각에 대해 계산된 수학적 유사도를 감소시켜, 상기 복수의 유사 문서쌍 각각 및 상기 복수의 비유사 문서쌍 각각에 대한 의미적 유사도를 계산하는 단계, 상기 복수의 유사 문서쌍, 상기 복수의 비유사 문서쌍 및 상기 의미적 유사도를 이용하여 유사도 모델을 학습시키는 단계 및 상기 적어도 하나의 프로세서에 의해, 상기 유사도 모델을 이용하여 중복 문서를 탐지하는 단계를 포함할 수 있다.