基于表格检索和机器学习二阶段的文献表格相关文本自动识别

TP391; 学术文献中的表格以结构化的形式高度凝练地展示了文献中的核心知识.主流文献检索引擎中已逐步开始使用表格内容作为文字摘要的补充,以帮助科研人员快速掌握研究工作核心,提升科研工作效率.但是在仅展示表格而不提供表格的相关信息(对表格进行描述或解释的文本)的情况下,读者往往难以充分理解表格内容,阻碍文献阅读效率的进一步提升.本文提出一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一运用表格内容进行全文检索,获取潜在相关文本;阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别.以Text Retrieval Conference会议论文...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数字图书馆论坛 2022 (11), p.34-42
Hauptverfasser: 黄佳妮, 于丰畅
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391; 学术文献中的表格以结构化的形式高度凝练地展示了文献中的核心知识.主流文献检索引擎中已逐步开始使用表格内容作为文字摘要的补充,以帮助科研人员快速掌握研究工作核心,提升科研工作效率.但是在仅展示表格而不提供表格的相关信息(对表格进行描述或解释的文本)的情况下,读者往往难以充分理解表格内容,阻碍文献阅读效率的进一步提升.本文提出一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一运用表格内容进行全文检索,获取潜在相关文本;阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别.以Text Retrieval Conference会议论文数据集为例,验证本文所提出的方法的有效性,证明该方法能够快速抽取文献中与图表相关的文本,为现有的论文图表抽取式摘要相关研究提供借鉴,对提高科研人员文献调研效率具有重要的现实意义.
ISSN:1673-2286
DOI:10.3772/j.issn.1673-2286.2022.11.009