面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例
古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节.文章利用Siku?BERT模型,以"中国哲学书电子化计划"古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型.实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上.文章验证了BERT模型在古籍文本自动标点中的可行性....
Gespeichert in:
Veröffentlicht in: | 图书馆论坛 2022, Vol.42 (12), p.120-137 |
---|---|
Hauptverfasser: | , , , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节.文章利用Siku?BERT模型,以"中国哲学书电子化计划"古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型.实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上.文章验证了BERT模型在古籍文本自动标点中的可行性. |
---|---|
ISSN: | 1002-1167 |
DOI: | 10.3969/j.issn.1002-1167.2022.12.020 |