基于概率分布差异的医学命名实体识别方法
TP391; 医学命名实体识别是从医学文本中抽取出指代特定概念的医学实体,是医学信息抽取的基础性任务.当前主流的医学命名实体识别算法普遍基于深度学习技术,需要大量高质量的标注样本进行模型训练.然而医学领域的样本标注成本很高,严重限制了模型性能的提升.为了降低模型对标注样本的需求,一种重要的方法是基于主动学习思想,设计合理的样本采样策略,自动选取高价值样本优先标注,从而使模型提前收敛.现有算法普遍基于样本长度、样本识别的概率等特征来设计采样策略,忽视了样本类别分布这一深层次特征,导致命名实体识别召回率较低.提出了一种基于概率分布差异的主动学习算法,通过计算样本间的概率分布差异来评估样本的标注价值...
Gespeichert in:
Veröffentlicht in: | 大数据 2023-07, Vol.9 (4), p.159-171 |
---|---|
Hauptverfasser: | , , , , , , |
Format: | Artikel |
Sprache: | chi |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | TP391; 医学命名实体识别是从医学文本中抽取出指代特定概念的医学实体,是医学信息抽取的基础性任务.当前主流的医学命名实体识别算法普遍基于深度学习技术,需要大量高质量的标注样本进行模型训练.然而医学领域的样本标注成本很高,严重限制了模型性能的提升.为了降低模型对标注样本的需求,一种重要的方法是基于主动学习思想,设计合理的样本采样策略,自动选取高价值样本优先标注,从而使模型提前收敛.现有算法普遍基于样本长度、样本识别的概率等特征来设计采样策略,忽视了样本类别分布这一深层次特征,导致命名实体识别召回率较低.提出了一种基于概率分布差异的主动学习算法,通过计算样本间的概率分布差异来评估样本的标注价值,并在标注样本更新时动态优化模型.在真实的医学检查文本上的实验表明,相比已有算法,达到同等的模型性能,该算法所需要的标注数据可缩减10%以上;在相同标注样本量的情况下,本算法F1值提高5%以上. |
---|---|
ISSN: | 2096-0271 |
DOI: | 10.11959/j.issn.2096-0271.2023008 |