基于BiLSTM-CRF中文临床文本中受保护的健康信息识别

TP391; [目的]为保护临床文本中的隐私信息,有效地从非结构化文本中识别受保护的健康信息(PHI),提出利用BiLSTM-CRF模型从临床记录中删除隐私信息的自动化方案.[方法]选择一家区域卫生信息平台电子健康档案中的出院小结作为实验数据,根据《健康保险可携性与责任法案》(HIPAA)所规定的18项PHI结合实验数据特征确定7个PHI类别及其下包含的15个PHI类型.基于BiLSTM-CRF模型有效地从非结构化的临床记录中识别受保护的健康信息.[结果]对所有实体类别识别的准确率、召回率以及F值分别达98.66%、99.36%以及99.01%,并对识别错误的标签进行总结分析.[局限]结合语料...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数据分析与知识发现 2020, Vol.4 (10), p.124-133
Hauptverfasser: 刘婧茹, 宋阳, 贾睿, 张翼鹏, 罗勇, 马敬东
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391; [目的]为保护临床文本中的隐私信息,有效地从非结构化文本中识别受保护的健康信息(PHI),提出利用BiLSTM-CRF模型从临床记录中删除隐私信息的自动化方案.[方法]选择一家区域卫生信息平台电子健康档案中的出院小结作为实验数据,根据《健康保险可携性与责任法案》(HIPAA)所规定的18项PHI结合实验数据特征确定7个PHI类别及其下包含的15个PHI类型.基于BiLSTM-CRF模型有效地从非结构化的临床记录中识别受保护的健康信息.[结果]对所有实体类别识别的准确率、召回率以及F值分别达98.66%、99.36%以及99.01%,并对识别错误的标签进行总结分析.[局限]结合语料特征对模型性能的优化有待完善,并且对于自动识别PHI后的临床文本质量未进行评估.[结论]BiLSTM-CRF模型在不需要特征工程的情况下实现了命名实体自动化识别,有利于促进临床信息共享与利用.
ISSN:2096-3467
DOI:10.11925/infotech.2096-3467.2020.0167