融合语步和文本多特征的科技论文结构化摘要生成

在移动互联网时代,移动阅读、碎片化阅读已经成为人们阅读的主流方式.在用户阅读过程中,提供摘要内容以提高阅读效率是解决信息过载问题的重要途径之一.科技研究论文文本长、内容广且包含领域知识,其摘要生成任务相比于新闻等普通文本更具有挑战性.本文提出了一种科技论文结构化摘要方法.首先,将科技论文划分为不同的语步;其次,分别对不同语步文本进行抽取式摘要,将文本多特征按权重融入TextRank算法的迭代计算过程中,引入MMR(maximal marginal relevance)算法对预选摘要集进行冗余处理;最后,使用依存句法分析对文本进行语义分析,进一步精简摘要,并组合成结构化摘要.研究结果表明,相比于...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:情报学报 2023, Vol.42 (10), p.1176-1186
Hauptverfasser: 习海旭, 何胜, 黄纯国
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:在移动互联网时代,移动阅读、碎片化阅读已经成为人们阅读的主流方式.在用户阅读过程中,提供摘要内容以提高阅读效率是解决信息过载问题的重要途径之一.科技研究论文文本长、内容广且包含领域知识,其摘要生成任务相比于新闻等普通文本更具有挑战性.本文提出了一种科技论文结构化摘要方法.首先,将科技论文划分为不同的语步;其次,分别对不同语步文本进行抽取式摘要,将文本多特征按权重融入TextRank算法的迭代计算过程中,引入MMR(maximal marginal relevance)算法对预选摘要集进行冗余处理;最后,使用依存句法分析对文本进行语义分析,进一步精简摘要,并组合成结构化摘要.研究结果表明,相比于基准模型,该方法在不同语步的相关性、多样性和可读性指标提升上具有一定差异;结合人工评价发现,该方法在显著提升摘要多样性的同时,一定程度上提升了摘要的相关性和可读性.
ISSN:1000-0135
DOI:10.3772/j.issn.1000-0135.2023.10.004