融入词性的医疗命名实体识别研究

TP393%G250; [目的]针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断.[方法]基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置"软"嵌入,利用说话者角色嵌入引入对话文本信息.同时,引入加权多分类交叉熵解决实体类别不均衡问题.[结果]在春雨医生互联网在线问诊记录上开展实证研究,本文模型在命名实体识别任务上的F1值为74.35%,相比直接利用MacBERT模型提高近2个百分点.[局限]未设计专门对中文分词的模型.[结论]与直接利用MacBERT模型建模相比,融入词信息等更多维度特征能有效提升模型的识别能力....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数据分析与知识发现 2023-05, Vol.7 (5), p.123-132
Hauptverfasser: 本妍妍, 庞雪芹
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP393%G250; [目的]针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断.[方法]基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置"软"嵌入,利用说话者角色嵌入引入对话文本信息.同时,引入加权多分类交叉熵解决实体类别不均衡问题.[结果]在春雨医生互联网在线问诊记录上开展实证研究,本文模型在命名实体识别任务上的F1值为74.35%,相比直接利用MacBERT模型提高近2个百分点.[局限]未设计专门对中文分词的模型.[结论]与直接利用MacBERT模型建模相比,融入词信息等更多维度特征能有效提升模型的识别能力.
ISSN:2096-3467
DOI:10.11925/infotech.2096-3467.2022.0547