METHOD AND SYSTEM OF RANKING AND CLUSTERING FOR DOCUMENT INDEXING AND RETRIEVAL

A relevancy ranking and clustering method and system that determines the relevance of a document relative to a user's query using a similarity comparison process. Input queries are parsed into one or more query predicate structures using an ontological parser. The ontological parser parses a se...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	CAUDILL, MAUREEN, TSENG, JASON, CHUN-MING, WANG, LEI
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	CALCULATING COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	A relevancy ranking and clustering method and system that determines the relevance of a document relative to a user's query using a similarity comparison process. Input queries are parsed into one or more query predicate structures using an ontological parser. The ontological parser parses a set of known documents to generate one or more document predicate structures. A comparison of each query predicate structure with each document predicate structure is performed to determine a matching degree, represented by a real number. A multilevel modifier strategy is implemented to assign different relevance values to the different parts of each predicate structure match to calculate the predicate structure's matching degree. The relevance of a document to a user's query is determined by calculating a similarity coefficient, based on the structures of each pair of query predicates and document predicates. Documents are autonomously clustered using a self-organizing neural network that provides a coordinate system that makes judgments in a non-subjective fashion. L'invention concerne un procédé et un système de classement et regroupement par pertinence qui détermine la pertinence d'un document par rapport à une demande d'utilisateur au moyen d'un processus de comparaison par similitude. Des demandes d'entrée sont analysées selon une ou plusieurs structures de prédicat d'interrogation au moyen d'un analyseur ontologique. Cet analyseur ontologique analyse un ensemble de documents connus afin de générer une ou plusieurs structures de prédicat de document. Une comparaison de chaque structure de prédicat d'interrogation avec chaque structure de prédicat de document est effectuée afin de déterminer un degré de correspondance, représenté par un nombre réel. Une stratégie de modification multiniveau est mise en oeuvre afin d'attribuer différentes valeurs de pertinence aux différentes parties de chaque correspondance de structure de prédicat et afin de calculer le degré de correspondance de la structure de prédicat. La pertinence d'un document pour une demande d'utilisateur est déterminée par le calcul d'un coefficient de similitude, sur la base des structures de chaque paire de prédicats de demande et de prédicats de document. Les documents sont regroupés de façon autonome au moyen d'un réseau neuronal auto-organisateur qui produit un système de coordonnées qui effectue des jugements de façon non subjective.