融入全局信息的抽取式摘要研究

TP391; 抽取式自动文本摘要旨在从原文中抽取最能表示全文语义的句子组成摘要,由于具有简单高效的特点被广泛地应用和研究.目前,抽取式摘要模型大多基于句子间的局部关系得到重要性得分,从而选择句子,这种方式忽略了原文的全局语义信息,模型更容易受到局部非重要关系的影响.因此,提出一种融入全局语义信息的抽取式摘要模型.该模型在得到句子和文章的表示后,通过句子级编码器和全局信息提取模块学习句间关系以及全局信息,再将提取到的全局信息融入句向量中,最后得到句子得分以决定其是否为摘要句子.所提模型可以实现端到端的训练,并且在全局信息提取模块采用了基于方面抽取和神经主题模型两种全局信息提取技术.在公开数据集C...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:计算机科学 2023, Vol.50 (4), p.188-195
Hauptverfasser: 张翔, 毛兴静, 赵容梅, 琚生根
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391; 抽取式自动文本摘要旨在从原文中抽取最能表示全文语义的句子组成摘要,由于具有简单高效的特点被广泛地应用和研究.目前,抽取式摘要模型大多基于句子间的局部关系得到重要性得分,从而选择句子,这种方式忽略了原文的全局语义信息,模型更容易受到局部非重要关系的影响.因此,提出一种融入全局语义信息的抽取式摘要模型.该模型在得到句子和文章的表示后,通过句子级编码器和全局信息提取模块学习句间关系以及全局信息,再将提取到的全局信息融入句向量中,最后得到句子得分以决定其是否为摘要句子.所提模型可以实现端到端的训练,并且在全局信息提取模块采用了基于方面抽取和神经主题模型两种全局信息提取技术.在公开数据集CNN/DailyMail上的实验结果验证了模型融入全局信息的有效性.
ISSN:1002-137X
DOI:10.11896/jsjkx.220200061