PROCEDE ET SYSTEME D'APPRENTISSAGE ACTIF ET D'ANALYSE AUTOMATIQUE DE DOCUMENTS

Un système d'apprentissage actif et d'analyse automatique exécute en parallèle un mode d'apprentissage et un mode de production. En mode de production, il répond à des sollicitations d'analyse automatique de documents en utilisant un modèle d'apprentissage machine entraîné a...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GUELORGET, Paul, ZAHARIA, Titus, GRILHERES, Bruno
Format: Patent
Sprache:fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Un système d'apprentissage actif et d'analyse automatique exécute en parallèle un mode d'apprentissage et un mode de production. En mode de production, il répond à des sollicitations d'analyse automatique de documents en utilisant un modèle d'apprentissage machine entraîné avec des documents annotés. En mode d'apprentissage, il reçoit et stocke des documents non-annotés, met à jour un descripteur avec des informations de prédiction d'analyse automatique des documents non-annotés. Il échantillonne les documents non annotés stockés dont le descripteur a été mis à jour, et détermine un ordonnancement des documents non-annotés échantillonnés pour annotation par un oracle. Il répartit les documents annotés entre documents à utiliser en entraînement et documents à utiliser en validation. Il entraîne au moins un modèle d'apprentissage machine candidat de structure aléatoire qui, en cas de meilleures performances en validation, remplace le modèle utilisé en mode de production. Un nouvel entraînement est alors effectué en mettant à jour le descripteur selon le modèle remplaçant. Figure à publier avec l'abrégé : Fig. 1 An active learning and automatic analysis system executes a learning mode and a production mode in parallel. In production mode, it responds to requests for the automatic analysis of documents using a machine learning model trained with annotated documents. In learning mode, it receives and stores non-annotated documents, and updates a descriptor with information about the automatic analysis prediction for the non-annotated documents. It samples the stored non-annotated documents whose descriptor has been updated, and determines an order of the sampled non-annotated documents for annotation by an oracle. It distributes the annotated documents between documents to be used in either training mode or validation mode. It trains at least one randomly structured candidate machine learning model which, in the event of better performance in terms of validation, replaces the model used in production mode. New training is then performed while updating the descriptor in accordance with the replacement model.