面向数字人文的典籍语义词汇抽取研究 ——以SikuBERT预训练模型为例
利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义.文章以先秦两汉时期的"儒家""史书"数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能.实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%.实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考....
Gespeichert in:
Veröffentlicht in: | 图书馆论坛 2022, Vol.42 (10), p.31-41 |
---|---|
Hauptverfasser: | , , , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义.文章以先秦两汉时期的"儒家""史书"数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能.实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%.实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考. |
---|---|
ISSN: | 1002-1167 |
DOI: | 10.3969/j.issn.1002-1167.2022.10.006 |