融合语步和文本多特征的科技论文结构化摘要生成
在移动互联网时代,移动阅读、碎片化阅读已经成为人们阅读的主流方式.在用户阅读过程中,提供摘要内容以提高阅读效率是解决信息过载问题的重要途径之一.科技研究论文文本长、内容广且包含领域知识,其摘要生成任务相比于新闻等普通文本更具有挑战性.本文提出了一种科技论文结构化摘要方法.首先,将科技论文划分为不同的语步;其次,分别对不同语步文本进行抽取式摘要,将文本多特征按权重融入TextRank算法的迭代计算过程中,引入MMR(maximal marginal relevance)算法对预选摘要集进行冗余处理;最后,使用依存句法分析对文本进行语义分析,进一步精简摘要,并组合成结构化摘要.研究结果表明,相比于...
Gespeichert in:
Veröffentlicht in: | 情报学报 2023, Vol.42 (10), p.1176-1186 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 在移动互联网时代,移动阅读、碎片化阅读已经成为人们阅读的主流方式.在用户阅读过程中,提供摘要内容以提高阅读效率是解决信息过载问题的重要途径之一.科技研究论文文本长、内容广且包含领域知识,其摘要生成任务相比于新闻等普通文本更具有挑战性.本文提出了一种科技论文结构化摘要方法.首先,将科技论文划分为不同的语步;其次,分别对不同语步文本进行抽取式摘要,将文本多特征按权重融入TextRank算法的迭代计算过程中,引入MMR(maximal marginal relevance)算法对预选摘要集进行冗余处理;最后,使用依存句法分析对文本进行语义分析,进一步精简摘要,并组合成结构化摘要.研究结果表明,相比于基准模型,该方法在不同语步的相关性、多样性和可读性指标提升上具有一定差异;结合人工评价发现,该方法在显著提升摘要多样性的同时,一定程度上提升了摘要的相关性和可读性. |
---|---|
ISSN: | 1000-0135 |
DOI: | 10.3772/j.issn.1000-0135.2023.10.004 |