SYNONYM EXTRACTION DEVICE, SYNONYM EXTRACTION METHOD, AND SYNONYM EXTRACTION PROGRAM

This synonym extraction device assesses, for individual compound words included in a document, whether the nouns constituting the compound word are of a sahen noun type or a noun type other than sahen nouns, and determines the pattern of arrangement of the types of the nouns constituting the compoun...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: SAITO, Tsunenari, SUNAGA, Satoshi, MIYAO, Hiroshi
Format: Patent
Sprache:eng ; fre ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:This synonym extraction device assesses, for individual compound words included in a document, whether the nouns constituting the compound word are of a sahen noun type or a noun type other than sahen nouns, and determines the pattern of arrangement of the types of the nouns constituting the compound word. The synonym extraction device extracts, from the document, a compound word group in which the pattern of arrangement of the types of nouns is identical, and extracts, from the extracted compound word group, compound words for which the first or the last word is identical. Next, for the compound word group in which the pattern of arrangement of nouns is identical and the first or the last word is identical, the synonym extraction device: creates a co-occurrence vector having, as a component, a noun appearing in the same text as the compound word; and outputs, as synonyms, a compound word group for which the degree of similarity between the co-occurrence vectors of the compound words is equal to or greater than a prescribed threshold value. La présente invention concerne un dispositif d'extraction de synonymes qui évalue, pour des mots composés individuels inclus dans un document, si les noms constituant le mot composé sont d'un type de nom sahen ou d'un type de nom autre que des noms sahen, et détermine le motif d'agencement des types des noms constituant le mot composé. Le dispositif d'extraction de synonymes extrait, à partir du document, un groupe de mots composés dans lequel le motif d'agencement des types de noms est identique, et extrait, à partir du groupe de mots composés extraits, des mots composés pour lesquels le premier ou le dernier mot est identique. Ensuite, pour le groupe de mots composés dans lequel le motif d'agencement de noms est identique et le premier ou le dernier mot est identique, le dispositif d'extraction de synonymes : crée un vecteur de co-occurrence ayant, en tant que composant, un nom apparaissant dans le même texte que le mot composé; et délivre, en tant que synonymes, un groupe de mots composés pour lequel le degré de similarité entre les vecteurs de co-occurrence des mots composés est supérieur ou égal à une valeur seuil prescrite. 同義語抽出装置は、文書に含まれる複合語それぞれについて、複合語を構成する名詞の種類がサ変名詞かサ変名詞以外の名詞かを判定し、複合語を構成する名詞の種類の並びのパターンを判断する。そして、同義語抽出装置は、文書から上記の名詞の種類の並びのパターンが同じ複合語群を抽出し、さらにその中から、先頭または末尾の単語が同じ複合語を抽出する。次に、同義語抽出装置は、名詞の並びのパターンが同じ、かつ、先頭または末尾の単語が同じ複合語群について、当該複合語と同じ文に登場する名詞を成分とする共起ベクトルを作成し、複合語の共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する。