融合句法结构和词义信息的政策文本关联挖掘方法研究
【目的】进一步提高政策文本语义关联挖掘的深度,探索政策文本关联挖掘方法.【方法】融合依存句法分析和词嵌入模型,分别从句子信息和词义信息角度挖掘政策文本内容深层次语义关联,且在设置依存句法抽取规则时充分考虑政策文本的用语特征.【结果】在方法效果上,在政策文本关联程度区分相对较低的测试数据集中,所提方法F1值达到0.857,相较于融合TF-IDF和余弦相似度的算法,提升了22.78%;在方法功能上,可从文本用词的细微差异刻画政策文本关联.【局限】在语义信息挖掘上,方法目前采用开源模型,后续可自主训练特定政策领域词向量模型以进一步提高准确度;在句子信息挖掘上,方法依赖于现有依存句法分析工具的准确性....
Gespeichert in:
Veröffentlicht in: | 数据分析与知识发现 2022-05, Vol.6 (5), p.20-33 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 【目的】进一步提高政策文本语义关联挖掘的深度,探索政策文本关联挖掘方法.【方法】融合依存句法分析和词嵌入模型,分别从句子信息和词义信息角度挖掘政策文本内容深层次语义关联,且在设置依存句法抽取规则时充分考虑政策文本的用语特征.【结果】在方法效果上,在政策文本关联程度区分相对较低的测试数据集中,所提方法F1值达到0.857,相较于融合TF-IDF和余弦相似度的算法,提升了22.78%;在方法功能上,可从文本用词的细微差异刻画政策文本关联.【局限】在语义信息挖掘上,方法目前采用开源模型,后续可自主训练特定政策领域词向量模型以进一步提高准确度;在句子信息挖掘上,方法依赖于现有依存句法分析工具的准确性.【结论】所提方法效果较好,功能较强,能有效揭示政策文本内容关联程度,可为政策文本量化研究提供新的研究视角和工具方法. |
---|---|
ISSN: | 2096-3467 |
DOI: | 10.11925/infotech.2096-3467.2021.0606 |