基于TF/IDF多因素改进算法的知识单元抽取研究
深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以《半导体光电》期刊1999—2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性。...
Gespeichert in:
Veröffentlicht in: | 情报学报 2011, Vol.30 (10), p.1037-1043 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | chi |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以《半导体光电》期刊1999—2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性。 |
---|---|
ISSN: | 1000-0135 |