METHODS, APPARATUS AND SYSTEMS FOR ANNOTATION OF TEXT DOCUMENTS
Methods and apparatus to facilitate annotation projects to extract structured information from free-form text using NLP techniques. Annotators explore text documents via automated preannotation functions, flexibly formulate annotation schemes and guidelines, annotate text, and adjust annotation labe...
Gespeichert in:
Hauptverfasser: | , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods and apparatus to facilitate annotation projects to extract structured information from free-form text using NLP techniques. Annotators explore text documents via automated preannotation functions, flexibly formulate annotation schemes and guidelines, annotate text, and adjust annotation labels, schemes and guidelines in real-time as a project evolves. NLP models are readily trained on iterative annotations of sample documents by domain experts in an active learning workflow. Trained models are then employed to automatically annotate a larger body of documents in a project dataset. Experts in a variety of domains can readily develop an annotation project for a specific use-case or business question. In one example, documents relating to the health care domain are effectively annotated and employed to train sophisticated NLP models that provide valuable insights regarding many facets of health care. In another example, annotation methods are enhanced by utilizing domain-specific information derived from a novel knowledge graph architecture.
L'invention concerne des procédés et un appareil pour faciliter des projets d'annotation afin d'extraire des informations structurées à partir d'un texte de forme libre à l'aide de techniques NLP. Des annotateurs explorent des documents de texte par l'intermédiaire de fonctions de pré-annotation automatisées, formulent de manière souple des schémas d'annotation et des lignes directrices, annotent un texte, et ajustent des étiquettes d'annotation, des schémas et des lignes directrices en temps réel à mesure qu'un projet évolue. Des modèles NLP sont entraînés facilement sur des annotations itératives de documents d'échantillon par des experts du domaine dans un flux de travail d'apprentissage actif. Des modèles entraînés sont ensuite utilisés pour annoter automatiquement un plus grand corps de documents dans un ensemble de données de projet. Des experts dans une diversité de domaines peuvent développer facilement un projet d'annotation pour une question commerciale ou un cas d'utilisation spécifique. Dans un exemple, des documents relatifs au domaine des soins de santé sont annotés et utilisés efficacement pour entraîner des modèles NLP sophistiqués qui fournissent des aperçus précieux concernant de nombreuses facettes de soins de santé. Dans un autre exemple, des procédés d'annotation sont améliorés en utilisant des informations spécifiques à un domaine dérivées d'une nouvelle architecture de graphe de connaissance |
---|