基于表格检索和机器学习二阶段的文献表格相关文本自动识别
TP391; 学术文献中的表格以结构化的形式高度凝练地展示了文献中的核心知识.主流文献检索引擎中已逐步开始使用表格内容作为文字摘要的补充,以帮助科研人员快速掌握研究工作核心,提升科研工作效率.但是在仅展示表格而不提供表格的相关信息(对表格进行描述或解释的文本)的情况下,读者往往难以充分理解表格内容,阻碍文献阅读效率的进一步提升.本文提出一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一运用表格内容进行全文检索,获取潜在相关文本;阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别.以Text Retrieval Conference会议论文...
Gespeichert in:
Veröffentlicht in: | 数字图书馆论坛 2022 (11), p.34-42 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | 42 |
---|---|
container_issue | 11 |
container_start_page | 34 |
container_title | 数字图书馆论坛 |
container_volume | |
creator | 黄佳妮 于丰畅 |
description | TP391; 学术文献中的表格以结构化的形式高度凝练地展示了文献中的核心知识.主流文献检索引擎中已逐步开始使用表格内容作为文字摘要的补充,以帮助科研人员快速掌握研究工作核心,提升科研工作效率.但是在仅展示表格而不提供表格的相关信息(对表格进行描述或解释的文本)的情况下,读者往往难以充分理解表格内容,阻碍文献阅读效率的进一步提升.本文提出一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一运用表格内容进行全文检索,获取潜在相关文本;阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别.以Text Retrieval Conference会议论文数据集为例,验证本文所提出的方法的有效性,证明该方法能够快速抽取文献中与图表相关的文本,为现有的论文图表抽取式摘要相关研究提供借鉴,对提高科研人员文献调研效率具有重要的现实意义. |
doi_str_mv | 10.3772/j.issn.1673-2286.2022.11.009 |
format | Article |
fullrecord | <record><control><sourceid>wanfang_jour</sourceid><recordid>TN_cdi_wanfang_journals_sztsglt202211009</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><wanfj_id>sztsglt202211009</wanfj_id><sourcerecordid>sztsglt202211009</sourcerecordid><originalsourceid>FETCH-wanfang_journals_sztsglt2022110093</originalsourceid><addsrcrecordid>eNpjYFAxNNAzNjc30s_SyywuztMzNDM31jUysjDTMzIwMtIzNNQzMLBkYeCEi3Mw8BYXZxkYGBgaWJiamZpzMgQ-nb_rya6-FwtXPFuw59nihudbFj2d1PNszq6nM1c8Xbvsyc4FT3b1vJyx7dm6rc9ntTyb1v68Zx1E8fPZO562bgaKPJuz5kX7qqddK16sb3vasZqHgTUtMac4lRdKczNouLmGOHvolifmpSXmpcdn5ZcW5QFl4ourSorTc0pAbjU0BLrUmASlAM7HaCc</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>基于表格检索和机器学习二阶段的文献表格相关文本自动识别</title><source>国家哲学社会科学学术期刊数据库 (National Social Sciences Database)</source><creator>黄佳妮 ; 于丰畅</creator><creatorcontrib>黄佳妮 ; 于丰畅</creatorcontrib><description>TP391; 学术文献中的表格以结构化的形式高度凝练地展示了文献中的核心知识.主流文献检索引擎中已逐步开始使用表格内容作为文字摘要的补充,以帮助科研人员快速掌握研究工作核心,提升科研工作效率.但是在仅展示表格而不提供表格的相关信息(对表格进行描述或解释的文本)的情况下,读者往往难以充分理解表格内容,阻碍文献阅读效率的进一步提升.本文提出一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一运用表格内容进行全文检索,获取潜在相关文本;阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别.以Text Retrieval Conference会议论文数据集为例,验证本文所提出的方法的有效性,证明该方法能够快速抽取文献中与图表相关的文本,为现有的论文图表抽取式摘要相关研究提供借鉴,对提高科研人员文献调研效率具有重要的现实意义.</description><identifier>ISSN: 1673-2286</identifier><identifier>DOI: 10.3772/j.issn.1673-2286.2022.11.009</identifier><language>chi</language><publisher>武汉大学信息管理学院,武汉 430072</publisher><ispartof>数字图书馆论坛, 2022 (11), p.34-42</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://www.wanfangdata.com.cn/images/PeriodicalImages/sztsglt/sztsglt.jpg</thumbnail><link.rule.ids>314,780,784,4022,27922,27923,27924</link.rule.ids></links><search><creatorcontrib>黄佳妮</creatorcontrib><creatorcontrib>于丰畅</creatorcontrib><title>基于表格检索和机器学习二阶段的文献表格相关文本自动识别</title><title>数字图书馆论坛</title><description>TP391; 学术文献中的表格以结构化的形式高度凝练地展示了文献中的核心知识.主流文献检索引擎中已逐步开始使用表格内容作为文字摘要的补充,以帮助科研人员快速掌握研究工作核心,提升科研工作效率.但是在仅展示表格而不提供表格的相关信息(对表格进行描述或解释的文本)的情况下,读者往往难以充分理解表格内容,阻碍文献阅读效率的进一步提升.本文提出一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一运用表格内容进行全文检索,获取潜在相关文本;阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别.以Text Retrieval Conference会议论文数据集为例,验证本文所提出的方法的有效性,证明该方法能够快速抽取文献中与图表相关的文本,为现有的论文图表抽取式摘要相关研究提供借鉴,对提高科研人员文献调研效率具有重要的现实意义.</description><issn>1673-2286</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2022</creationdate><recordtype>article</recordtype><recordid>eNpjYFAxNNAzNjc30s_SyywuztMzNDM31jUysjDTMzIwMtIzNNQzMLBkYeCEi3Mw8BYXZxkYGBgaWJiamZpzMgQ-nb_rya6-FwtXPFuw59nihudbFj2d1PNszq6nM1c8Xbvsyc4FT3b1vJyx7dm6rc9ntTyb1v68Zx1E8fPZO562bgaKPJuz5kX7qqddK16sb3vasZqHgTUtMac4lRdKczNouLmGOHvolifmpSXmpcdn5ZcW5QFl4ourSorTc0pAbjU0BLrUmASlAM7HaCc</recordid><startdate>2022</startdate><enddate>2022</enddate><creator>黄佳妮</creator><creator>于丰畅</creator><general>武汉大学信息管理学院,武汉 430072</general><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>2022</creationdate><title>基于表格检索和机器学习二阶段的文献表格相关文本自动识别</title><author>黄佳妮 ; 于丰畅</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-wanfang_journals_sztsglt2022110093</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2022</creationdate><toplevel>online_resources</toplevel><creatorcontrib>黄佳妮</creatorcontrib><creatorcontrib>于丰畅</creatorcontrib><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>数字图书馆论坛</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>黄佳妮</au><au>于丰畅</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>基于表格检索和机器学习二阶段的文献表格相关文本自动识别</atitle><jtitle>数字图书馆论坛</jtitle><date>2022</date><risdate>2022</risdate><issue>11</issue><spage>34</spage><epage>42</epage><pages>34-42</pages><issn>1673-2286</issn><abstract>TP391; 学术文献中的表格以结构化的形式高度凝练地展示了文献中的核心知识.主流文献检索引擎中已逐步开始使用表格内容作为文字摘要的补充,以帮助科研人员快速掌握研究工作核心,提升科研工作效率.但是在仅展示表格而不提供表格的相关信息(对表格进行描述或解释的文本)的情况下,读者往往难以充分理解表格内容,阻碍文献阅读效率的进一步提升.本文提出一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一运用表格内容进行全文检索,获取潜在相关文本;阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别.以Text Retrieval Conference会议论文数据集为例,验证本文所提出的方法的有效性,证明该方法能够快速抽取文献中与图表相关的文本,为现有的论文图表抽取式摘要相关研究提供借鉴,对提高科研人员文献调研效率具有重要的现实意义.</abstract><pub>武汉大学信息管理学院,武汉 430072</pub><doi>10.3772/j.issn.1673-2286.2022.11.009</doi></addata></record> |
fulltext | fulltext |
identifier | ISSN: 1673-2286 |
ispartof | 数字图书馆论坛, 2022 (11), p.34-42 |
issn | 1673-2286 |
language | chi |
recordid | cdi_wanfang_journals_sztsglt202211009 |
source | 国家哲学社会科学学术期刊数据库 (National Social Sciences Database) |
title | 基于表格检索和机器学习二阶段的文献表格相关文本自动识别 |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-11T18%3A09%3A41IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=%E5%9F%BA%E4%BA%8E%E8%A1%A8%E6%A0%BC%E6%A3%80%E7%B4%A2%E5%92%8C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%BA%8C%E9%98%B6%E6%AE%B5%E7%9A%84%E6%96%87%E7%8C%AE%E8%A1%A8%E6%A0%BC%E7%9B%B8%E5%85%B3%E6%96%87%E6%9C%AC%E8%87%AA%E5%8A%A8%E8%AF%86%E5%88%AB&rft.jtitle=%E6%95%B0%E5%AD%97%E5%9B%BE%E4%B9%A6%E9%A6%86%E8%AE%BA%E5%9D%9B&rft.au=%E9%BB%84%E4%BD%B3%E5%A6%AE&rft.date=2022&rft.issue=11&rft.spage=34&rft.epage=42&rft.pages=34-42&rft.issn=1673-2286&rft_id=info:doi/10.3772/j.issn.1673-2286.2022.11.009&rft_dat=%3Cwanfang_jour%3Esztsglt202211009%3C/wanfang_jour%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_wanfj_id=sztsglt202211009&rfr_iscdi=true |