融入词性的医疗命名实体识别研究
TP393%G250; [目的]针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断.[方法]基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置"软"嵌入,利用说话者角色嵌入引入对话文本信息.同时,引入加权多分类交叉熵解决实体类别不均衡问题.[结果]在春雨医生互联网在线问诊记录上开展实证研究,本文模型在命名实体识别任务上的F1值为74.35%,相比直接利用MacBERT模型提高近2个百分点.[局限]未设计专门对中文分词的模型.[结论]与直接利用MacBERT模型建模相比,融入词信息等更多维度特征能有效提升模型的识别能力....
Gespeichert in:
Veröffentlicht in: | 数据分析与知识发现 2023-05, Vol.7 (5), p.123-132 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | TP393%G250; [目的]针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断.[方法]基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置"软"嵌入,利用说话者角色嵌入引入对话文本信息.同时,引入加权多分类交叉熵解决实体类别不均衡问题.[结果]在春雨医生互联网在线问诊记录上开展实证研究,本文模型在命名实体识别任务上的F1值为74.35%,相比直接利用MacBERT模型提高近2个百分点.[局限]未设计专门对中文分词的模型.[结论]与直接利用MacBERT模型建模相比,融入词信息等更多维度特征能有效提升模型的识别能力. |
---|---|
ISSN: | 2096-3467 |
DOI: | 10.11925/infotech.2096-3467.2022.0547 |