A METHOD AND SYSTEM FOR DESCRIBING AND IDENTIFYING CONCEPTS IN NATURAL LANGUAGE TEXT FOR INFORMATION RETRIEVAL AND PROCESSING
A method for information retrieval that matches occurrences of concepts in natural language text documents against descriptions of concepts in user queries. Said method, implemented in a computer system, includes a preferred version of the method that comprises (1) annotating natural language text i...
Gespeichert in:
Hauptverfasser: | , , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A method for information retrieval that matches occurrences of concepts in natural language text documents against descriptions of concepts in user queries. Said method, implemented in a computer system, includes a preferred version of the method that comprises (1) annotating natural language text in documents and other text-forms with linguistic information and Concepts and Concept Rules expressed in a Concept Specification Language (CSL) for a particular domain, (2) pruning and optimizing synonyms for a particular domain, (3) defining and learning said CSL Concepts and Concept Rules, (4) checking user-defined descriptions of Concepts represented in CSL (including user queries), and (5) retrieval by matching said user-defined descriptions (and queries) against said annotated text. CSL is a language for expressing linguistically-based patterns. Said patterns can represent the linguistic manifestations of concepts in text. Said concepts may derive from the sublanguages used by experts to analyze specialized domains including, but not limited to, insurance claims, police incident reports, medical reports, and aviation incident reports.
L'invention concerne un procédé de récupération de l'information qui met en correspondance des occurrences de concepts dans des documents de texte en langage naturel et des descriptions de concepts dans des demandes d'utilisateur. Sur système informatique, le mode de réalisation préféré comprend les étapes suivantes: (1) annotation du texte en langage naturel dans les documents et autres formes de texte avec des informations linguistiques et sur la base de concepts et de règles conceptuelles propres à un langage de spécification de concept pour un domaine particulier, (2) élagage et optimisation des synonymes pour un domaine particulier, (3) définition et apprentissage des concepts et des règles en question, (4) vérification des descriptions établies par l'utilisateur pour les concepts ainsi représentés dans le langage de spécification de concept (y compris dans les demandes des utilisateurs), et (5) récupération à travers une mise en correspondance des descriptions établies par l'utilisateur (y compris les demandes émanant des utilisateurs) et du texte annoté. Ce langage permet d'exprimer des schémas linguistiques qui peuvent représenter les manifestations linguistiques des concepts dans le texte. Lesdits schémas peuvent être dérivés de langages secondaires utilisés par les experts pour l'analyse de domaines spécialisés, y co |
---|