Structuration des critères histopronostiques tumoraux par traitement automatique du langage naturel - Une comparaison entre apprentissage machine et règles

Les critères histopronostiques fondent la démarche de pronostication en oncologie. Les méthodes d'extraction textuelle disponibles (règles et apprentissage machine) diffèrent en développement et ressources. Nous avons structuré les critères histopronostiques issus de comptes rendus médicaux en...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Journal of Epidemiology and Population Health 2024-03, Vol.72, p.202301, Article 202301
Hauptverfasser:	Kempf, E., Priou, S., Dura, B., Calderaro, J., Brones, C., Wasjbürt, P., Bennani, L., Tannier, X.
Format:	Artikel
Sprache:	eng
Schlagworte:	Apprentissage machine supervisé Biomarqueurs tumoraux Entrepôt de données Extraction d'information Traitement automatique du langage naturel
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Les critères histopronostiques fondent la démarche de pronostication en oncologie. Les méthodes d'extraction textuelle disponibles (règles et apprentissage machine) diffèrent en développement et ressources. Nous avons structuré les critères histopronostiques issus de comptes rendus médicaux en comparant ces deux méthodes d'extraction textuelle. Nous avons extrait les variables suivantes : envahissement tumoral ganglionnaire, vasculaire, périnerveux, de la marge chirurgicale, distance aux marges, stade pTNM, taille et différenciation tumorales, complétude de la résection microscopique, à partir de comptes rendus d'anatomopathologie (CRA) post-opératoires de cholangiocarcinomes nouvellement opérés de l'entrepôt de données de santé de l'AP-HP. Les visites correspondantes ont été identifiées par les codes CIM-10 C221 (DP, DR) et CCAM relatifs aux résections tumorales de cholangiocarcinome, les CRA vérifiés manuellement par un oncologue puis divisés en deux parts égales pour constituer les jeux de développement et de validation. Après annotation manuelle du corpus par un oncologue, les deux méthodes d'extraction textuelle ont été élaborées et leurs métriques de performances (valeur prédictive positive (VPP) et sensibilité) comparées pour chaque entité. L'effort de développement des règles a été évalué pour chaque entité. Entre 2017 et 2020, 290 CRA ont été identifiés et annotés. Sur le jeu de validation, la VPP variait entre 81 % et 99 % pour les règles et entre 79 % et 100 % pour l'apprentissage machine ; la sensibilité variait entre 92 % et 100 % pour les règles et entre 94 % et 100 % pour l'apprentissage machine. Pour toutes les entités, les différences des métriques de performance entre les deux méthodes n'ont pas dépassé 5 % (à l'exception de la VPP pour la variable « taille de la tumeur »). Pour développer les règles, deux entités ont nécessité l'analyse de cinq documents, cinq autres entités celle d'entre 29 et 45 CRA, et deux autres celle d'entre 74 et 117. Les critères histopronostiques tumoraux sont facilement structurés par traitement automatique du langage naturel, quelle que soit la méthode d'extraction textuelle. Les règles constituent une méthode efficiente dont le coût de développement varie en fonction des entités. L’évaluation de celui-ci en amont d'une tâche d'extraction textuelle permettrait d'en optimiser le développement.
ISSN:	2950-4333
DOI:	10.1016/j.jeph.2024.202301