METHOD AND SYSTEM TO PERFORM TEXT-BASED SEARCH AMONG PLURALITY OF DOCUMENTS

Disclosed is method for training system to perform text-based search among plurality of documents. The method comprising receiving starting document, having at least one reference-identifier associated with the document; selecting reference-text from starting document; generating search-string by us...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: AALTONEN, Janne, MAJANIEMI, Jari
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Disclosed is method for training system to perform text-based search among plurality of documents. The method comprising receiving starting document, having at least one reference-identifier associated with the document; selecting reference-text from starting document; generating search-string by using a plurality of keywords using at least one first machine learning algorithm and at least one search-operator using at least one second machine learning algorithm; performing search among plurality of documents using search-string to fetch set of relevant documents; deriving reference-identifier distribution, corresponding to the at least one reference-identifier associated with document, for the set of relevant documents; and corelating at least one reference-identifier associated with starting document with reference-identifier distribution to determine performance-score for system. The steps of method are iteratively performed until performance-score exceeds a predetermined threshold, wherein at each iteration at least one of: different search-string is generated, different reference-text is obtained, different document is received. L'invention concerne un procédé permettant d'entraîner un système pour effectuer une recherche textuelle parmi une pluralité de documents. Le procédé comprend la réception d'un document de départ, ayant au moins un identifiant de référence associé au document ; la sélection d'un texte de référence à partir du document de départ ; la génération d'une chaîne de recherche à l'aide d'une pluralité de mots-clés à l'aide d'au moins un premier algorithme d'apprentissage machine et d'au moins un opérateur de recherche à l'aide d'au moins un second algorithme d'apprentissage machine ; la réalisation d'une recherche parmi une pluralité de documents à l'aide d'une chaîne de recherche pour extraire un ensemble de documents pertinents ; la déduction d'une distribution d'identifiant de référence, correspondant à l'identifiant de référence ou aux identifiants de référence associé(s) au document, pour l'ensemble de documents pertinents ; et l'association d'au moins un identifiant de référence associé au document de départ avec une distribution d'identifiant de référence pour déterminer un score de performance pour le système. Les étapes du procédé sont effectuées de manière itérative jusqu'à ce que le score de performance dépasse un seuil prédéterminé, où à chaque itération : une chaîne de recherche différente est générée, et/ou un texte de ré