基于SPO语义结构的关键词补充主题识别及演化分析

G353.1; 弥补基于SPO(Subject-Predication-Object)语义结构进行文本主题识别及演化分析方法中部分主题信息缺失、无法识别新兴领域主题、语义信息不够具体的缺陷,提升主题识别及演化分析的效果.首先,抽取科技文献标题和摘要中的SPO语义结构,使用关键词作为补充进一步丰富语义;然后,结合社会网络分析指标、新颖性和相对增长性指标分阶段进行核心主题、新兴主题识别;最后,基于文献引用及各阶段核心主题与新兴主题的变化情况进行主题演化趋势分析.分析发现,基于SPO语义结构的关键词补充主题识别及演化分析方法在以基因编辑领域为代表的较新的领域效果更佳,3个阶段的核心主题可从技术和应用...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数字图书馆论坛 2023, Vol.19 (6), p.13-21
Hauptverfasser: 于诗睿, 李爱花, 林紫洛, 唐小利
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:G353.1; 弥补基于SPO(Subject-Predication-Object)语义结构进行文本主题识别及演化分析方法中部分主题信息缺失、无法识别新兴领域主题、语义信息不够具体的缺陷,提升主题识别及演化分析的效果.首先,抽取科技文献标题和摘要中的SPO语义结构,使用关键词作为补充进一步丰富语义;然后,结合社会网络分析指标、新颖性和相对增长性指标分阶段进行核心主题、新兴主题识别;最后,基于文献引用及各阶段核心主题与新兴主题的变化情况进行主题演化趋势分析.分析发现,基于SPO语义结构的关键词补充主题识别及演化分析方法在以基因编辑领域为代表的较新的领域效果更佳,3个阶段的核心主题可从技术和应用2个维度概括为ZFN、TALEN,ZFN、TALEN和CRISPR/Cas9,CRISPR/Cas和碱基编辑在基因编辑系统优化、基础科学、临床疾病治疗和生物技术四大方向的应用,新兴主题主要包括疾病诊断、高通量功能基因组学、合成生物学代谢工程领域、精准医学精准编辑、基因编辑递送工具和基因编辑中的伦理问题六大方向.提出的方法可有效识别研究领域的核心和新兴主题,并把握其主题演化趋势,相较仅基于SPO语义结构的方法,效果得到提升.
ISSN:1673-2286
DOI:10.3772/j.issn.1673-2286.2023.06.002