面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例

古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节.文章利用Siku?BERT模型,以"中国哲学书电子化计划"古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型.实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上.文章验证了BERT模型在古籍文本自动标点中的可行性....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:图书馆论坛 2022, Vol.42 (12), p.120-137
Hauptverfasser: 赵连振, 张逸勤, 刘江峰, 王东波, 冯敏萱, 李斌
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 137
container_issue 12
container_start_page 120
container_title 图书馆论坛
container_volume 42
creator 赵连振
张逸勤
刘江峰
王东波
冯敏萱
李斌
description 古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节.文章利用Siku?BERT模型,以"中国哲学书电子化计划"古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型.实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上.文章验证了BERT模型在古籍文本自动标点中的可行性.
doi_str_mv 10.3969/j.issn.1002-1167.2022.12.020
format Article
fullrecord <record><control><sourceid>wanfang_jour</sourceid><recordid>TN_cdi_wanfang_journals_tsglt202212020</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><wanfj_id>tsglt202212020</wanfj_id><sourcerecordid>tsglt202212020</sourcerecordid><originalsourceid>FETCH-wanfang_journals_tsglt2022120203</originalsourceid><addsrcrecordid>eNpjYFAxNNAztjSz1M_SyywuztMzNDAw0jU0NDPXMzIwMtIzNNIzMDJgYeCEi3Mw8BYXZyYZGBgaGhiZWVpwMsS_nLvo6YSJz6ZueLp2-pNdu55Na38-q-Vpa8fz5cue7FjybGPn09Ydzzf2vmhf9bRrxbMF7c-bdj5fMOX5ym2PGqYA0ZPdS4Mzs0udXINCXi5qebFu7fPdzc9WLHw6r_vJjl1P9nXzMLCmJeYUp_JCaW4GNTfXEGcP3fLEvLTEvPT4rPzSojygTHxJcXpOCcjdhkDCwJhohQBVM2zG</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例</title><source>国家哲学社会科学学术期刊数据库 (National Social Sciences Database)</source><creator>赵连振 ; 张逸勤 ; 刘江峰 ; 王东波 ; 冯敏萱 ; 李斌</creator><creatorcontrib>赵连振 ; 张逸勤 ; 刘江峰 ; 王东波 ; 冯敏萱 ; 李斌</creatorcontrib><description>古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节.文章利用Siku?BERT模型,以"中国哲学书电子化计划"古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型.实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上.文章验证了BERT模型在古籍文本自动标点中的可行性.</description><identifier>ISSN: 1002-1167</identifier><identifier>DOI: 10.3969/j.issn.1002-1167.2022.12.020</identifier><language>chi</language><publisher>南京大学外国语学院%南京大学信息管理学院%南京农业大学信息管理学院%南京师范大学文学院</publisher><ispartof>图书馆论坛, 2022, Vol.42 (12), p.120-137</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://www.wanfangdata.com.cn/images/PeriodicalImages/tsglt/tsglt.jpg</thumbnail><link.rule.ids>314,780,784,4024,27923,27924,27925</link.rule.ids></links><search><creatorcontrib>赵连振</creatorcontrib><creatorcontrib>张逸勤</creatorcontrib><creatorcontrib>刘江峰</creatorcontrib><creatorcontrib>王东波</creatorcontrib><creatorcontrib>冯敏萱</creatorcontrib><creatorcontrib>李斌</creatorcontrib><title>面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例</title><title>图书馆论坛</title><description>古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节.文章利用Siku?BERT模型,以"中国哲学书电子化计划"古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型.实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上.文章验证了BERT模型在古籍文本自动标点中的可行性.</description><issn>1002-1167</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2022</creationdate><recordtype>article</recordtype><recordid>eNpjYFAxNNAztjSz1M_SyywuztMzNDAw0jU0NDPXMzIwMtIzNNIzMDJgYeCEi3Mw8BYXZyYZGBgaGhiZWVpwMsS_nLvo6YSJz6ZueLp2-pNdu55Na38-q-Vpa8fz5cue7FjybGPn09Ydzzf2vmhf9bRrxbMF7c-bdj5fMOX5ym2PGqYA0ZPdS4Mzs0udXINCXi5qebFu7fPdzc9WLHw6r_vJjl1P9nXzMLCmJeYUp_JCaW4GNTfXEGcP3fLEvLTEvPT4rPzSojygTHxJcXpOCcjdhkDCwJhohQBVM2zG</recordid><startdate>2022</startdate><enddate>2022</enddate><creator>赵连振</creator><creator>张逸勤</creator><creator>刘江峰</creator><creator>王东波</creator><creator>冯敏萱</creator><creator>李斌</creator><general>南京大学外国语学院%南京大学信息管理学院%南京农业大学信息管理学院%南京师范大学文学院</general><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>2022</creationdate><title>面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例</title><author>赵连振 ; 张逸勤 ; 刘江峰 ; 王东波 ; 冯敏萱 ; 李斌</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-wanfang_journals_tsglt2022120203</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2022</creationdate><toplevel>online_resources</toplevel><creatorcontrib>赵连振</creatorcontrib><creatorcontrib>张逸勤</creatorcontrib><creatorcontrib>刘江峰</creatorcontrib><creatorcontrib>王东波</creatorcontrib><creatorcontrib>冯敏萱</creatorcontrib><creatorcontrib>李斌</creatorcontrib><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>图书馆论坛</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>赵连振</au><au>张逸勤</au><au>刘江峰</au><au>王东波</au><au>冯敏萱</au><au>李斌</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例</atitle><jtitle>图书馆论坛</jtitle><date>2022</date><risdate>2022</risdate><volume>42</volume><issue>12</issue><spage>120</spage><epage>137</epage><pages>120-137</pages><issn>1002-1167</issn><abstract>古籍自动标点研究成为推动古籍研究在人文社科领域发展的关键环节.文章利用Siku?BERT模型,以"中国哲学书电子化计划"古籍数据库中的先秦两汉典籍为数据源,进行自动标点训练,探索基于深度学习技术的古文自动标点模型.实验结果表明:SikuBERT模型对先秦两汉典籍自动标点的整体效果比较优越,对书名号、冒号、句号以及逗号,预测表现良好,尤其是书名号与冒号标签的识别准确率、召回率与F1值均达到95%以上.文章验证了BERT模型在古籍文本自动标点中的可行性.</abstract><pub>南京大学外国语学院%南京大学信息管理学院%南京农业大学信息管理学院%南京师范大学文学院</pub><doi>10.3969/j.issn.1002-1167.2022.12.020</doi></addata></record>
fulltext fulltext
identifier ISSN: 1002-1167
ispartof 图书馆论坛, 2022, Vol.42 (12), p.120-137
issn 1002-1167
language chi
recordid cdi_wanfang_journals_tsglt202212020
source 国家哲学社会科学学术期刊数据库 (National Social Sciences Database)
title 面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-04T03%3A32%3A26IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=%E9%9D%A2%E5%90%91%E6%95%B0%E5%AD%97%E4%BA%BA%E6%96%87%E7%9A%84%E5%85%88%E7%A7%A6%E4%B8%A4%E6%B1%89%E5%85%B8%E7%B1%8D%E8%87%AA%E5%8A%A8%E6%A0%87%E7%82%B9%E7%A0%94%E7%A9%B6%E2%80%94%E2%80%94%E4%BB%A5SikuBERT%E9%A2%84%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B%E4%B8%BA%E4%BE%8B&rft.jtitle=%E5%9B%BE%E4%B9%A6%E9%A6%86%E8%AE%BA%E5%9D%9B&rft.au=%E8%B5%B5%E8%BF%9E%E6%8C%AF&rft.date=2022&rft.volume=42&rft.issue=12&rft.spage=120&rft.epage=137&rft.pages=120-137&rft.issn=1002-1167&rft_id=info:doi/10.3969/j.issn.1002-1167.2022.12.020&rft_dat=%3Cwanfang_jour%3Etsglt202212020%3C/wanfang_jour%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_wanfj_id=tsglt202212020&rfr_iscdi=true