METHOD AND SYSTEM FOR DETECTING DUPLICATE DOCUMENTS USING VECTOR QUANTIZATION

To provide a method, computer program, and computer device for detecting duplicate documents using vector quantization.SOLUTION: A duplicate document detection system 300 implemented by a computer device performs steps comprising: acquiring a vector expression for each of a plurality of documents us...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HAN BYEONGHOON, KIM SUNG MIN
Format: Patent
Sprache:eng ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:To provide a method, computer program, and computer device for detecting duplicate documents using vector quantization.SOLUTION: A duplicate document detection system 300 implemented by a computer device performs steps comprising: acquiring a vector expression for each of a plurality of documents using a similarity model 320 trained to output vector expressions for documents based on semantic similarity between documents; generating a key consisting of a binary character string by performing vector quantization on the vector expression; and detecting duplicate documents from among the plurality of documents using the key.SELECTED DRAWING: Figure 4 【課題】ベクトル量子化を利用して重複文書を探知する重複文書探知方法、コンピュータプログラム及びコンピュータ装置を提供する。【解決手段】コンピュータ装置によって実現された重複文書探知システム300は、文書間の意味的類似度に基づいて文書に対するベクトル表現を出力するように学習された類似度モデル320により、文書集合に含まれた文書それぞれに対するベクトル表現を取得する段階と、ベクトル表現をベクトル量子化して2進数の文字列で実現されるキーを生成する段階と、キーにより文書集合に含まれた文書のうちから重複文書を探知する段階と、を含む。【選択図】図4