P099 - PSEUDONYMISATOR - Un outil partageable de pseudonymisation automatique des comptes rendus médicaux
Dans les établissements de santé, environ 80 % des informations sur la prise en charge des patients sont stockées sous forme de données non structurées dans des comptes rendus médicaux textuels (CR). Ces CR contiennent de nombreux éléments permettant l'identification des patients, aussi il est...
Gespeichert in:
Veröffentlicht in: | Revue d'épidémiologie et de santé publique 2023-05, Vol.71, p.101743, Article 101743 |
---|---|
Hauptverfasser: | , , , |
Format: | Artikel |
Sprache: | fre |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Dans les établissements de santé, environ 80 % des informations sur la prise en charge des patients sont stockées sous forme de données non structurées dans des comptes rendus médicaux textuels (CR). Ces CR contiennent de nombreux éléments permettant l'identification des patients, aussi il est indispensable de disposer d'outil de pseudonymisation efficace pour pouvoir exploiter ces données. Il existe peu de solutions automatiques adaptées aux données cliniques textuelles et facilement utilisables. Afin de répondre à cette problématique, nous avons conçu un algorithme de pseudonymisation.
Cet algorithme développé en python récupère en entrée une liste des patients à pseudonymiser avec nom et prénom, numéro de dossier (IPP), date de naissance (DDN) associés, et ensuite recherche ces informations dans le titre et le texte des CR de consultation (CS), biopsie (BIO), chirurgie (CHIR) et anatomopathologiques (ANA). L'IPP est remplacé par un numéro pseudonymisé. La DDN est modifiée pour remplacer le jour par « 15 ». Le nom et le prénom des patients sont remplacés par [NOM_PATIENT] et [PRENOM_PATIENT] respectivement. Les noms des médecins et les noms des accompagnants, quand ils sont précédés d'un titre (Dr, Docteur, Pr, Mme, etc.) sont remplacés par [NOM]. L'algorithme utilise des expressions régulières autorisant des variations dans le nom et le prénom en remplaçant chaque voyelle par toutes les orthographes possibles, en autorisant également le doublement ou dédoublement de certaines consonnes. Nous avons pseudonymisé 6788 CR et évalué les performances sur 10 % de chaque catégorie de CR.
Les résultats obtenus sur 174 CS montent que 100 % des IPP, 94,89 % des noms, 95,70 % des prénoms et 98,63 % des DDN ont été pseudonymisés. Pour les BIO, 100 % des IPP, 96,15 % des noms, 95,65 % des prénoms ont été pseudonymisés. Pour les CHIR, 100 % des IPP, noms et prénoms ont été pseudonymisés. Pour les ANA, 100 % des IPP ont été pseudonymisés. Pour les noms des médecins/accompagnants, 84,66 %, 47,27 % et 67,28 %, respectivement dans les CS, BIO et CHIR, ont été pseudonymisés. Globalement, sur les variables directement identifiantes (IPP, Nom, Prénom, DDN) 98 % des informations ont été pseudonymisées. Pour les variables indirectement identifiantes, 66,4 % des informations ont été pseudonymisées. L'algorithme est exécuté en quelques secondes. Sur les 10 % de comptes rendus contrôlés après pseudonymisation, une seule erreur a été détectée, l'algorithme a remplacé un mot commun |
---|---|
ISSN: | 0398-7620 |
DOI: | 10.1016/j.respe.2023.101743 |