数字人文视域下典籍动物命名实体识别研究 ——以SikuBERT预训练模型为例

通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义.文章基于SikuBERT预训练模型,构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法.利用25部经人工标注动物命名实体的先秦典籍语料,对SikuBERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证SikuBERT预训练模型的识别性能.结果表明:基于SikuBERT经训练所构建的动物命名实体识别模型效果最优,十折交叉测试的平均调和平均值(F1)为85.46%,最...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:图书馆论坛 2022, Vol.42 (10), p.42-50
Hauptverfasser: 林立涛, 王东波, 刘江峰, 李斌, 冯敏萱
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:通用命名实体识别难以满足不同领域研究的需要,特定领域命名实体识别研究对于提升文本挖掘精度具有重要意义.文章基于SikuBERT预训练模型,构建用于典籍动物命名实体识别模型,为典籍动物知识挖掘提供有效方法.利用25部经人工标注动物命名实体的先秦典籍语料,对SikuBERT等由BERT预训练模型发展而来的系列模型以及CRF、Bi-LSTM-CRF进行训练,构建多种用于识别典籍中动物命名实体的模型,并对这些模型进行识别性能测试,比较验证SikuBERT预训练模型的识别性能.结果表明:基于SikuBERT经训练所构建的动物命名实体识别模型效果最优,十折交叉测试的平均调和平均值(F1)为85.46%,最高一次达86.29%,应用于《史记》动物命名实体识别准确率达91.6%.
ISSN:1002-1167
DOI:10.3969/j.issn.1002-1167.2022.10.007