融合句法结构和词义信息的政策文本关联挖掘方法研究

【目的】进一步提高政策文本语义关联挖掘的深度,探索政策文本关联挖掘方法.【方法】融合依存句法分析和词嵌入模型,分别从句子信息和词义信息角度挖掘政策文本内容深层次语义关联,且在设置依存句法抽取规则时充分考虑政策文本的用语特征.【结果】在方法效果上,在政策文本关联程度区分相对较低的测试数据集中,所提方法F1值达到0.857,相较于融合TF-IDF和余弦相似度的算法,提升了22.78%;在方法功能上,可从文本用词的细微差异刻画政策文本关联.【局限】在语义信息挖掘上,方法目前采用开源模型,后续可自主训练特定政策领域词向量模型以进一步提高准确度;在句子信息挖掘上,方法依赖于现有依存句法分析工具的准确性....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数据分析与知识发现 2022-05, Vol.6 (5), p.20-33
Hauptverfasser: 武楷彪, 郎宇翔, 董瑜
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:【目的】进一步提高政策文本语义关联挖掘的深度,探索政策文本关联挖掘方法.【方法】融合依存句法分析和词嵌入模型,分别从句子信息和词义信息角度挖掘政策文本内容深层次语义关联,且在设置依存句法抽取规则时充分考虑政策文本的用语特征.【结果】在方法效果上,在政策文本关联程度区分相对较低的测试数据集中,所提方法F1值达到0.857,相较于融合TF-IDF和余弦相似度的算法,提升了22.78%;在方法功能上,可从文本用词的细微差异刻画政策文本关联.【局限】在语义信息挖掘上,方法目前采用开源模型,后续可自主训练特定政策领域词向量模型以进一步提高准确度;在句子信息挖掘上,方法依赖于现有依存句法分析工具的准确性.【结论】所提方法效果较好,功能较强,能有效揭示政策文本内容关联程度,可为政策文本量化研究提供新的研究视角和工具方法.
ISSN:2096-3467
DOI:10.11925/infotech.2096-3467.2021.0606