基于小样本数据增强的科技文档不平衡分类研究

TP391.1; 科学技术的飞速发展衍生出海量的科技文档,其有效管理与查询依赖于准确的文档自动化分类.然而,由于学科门类众多且发展各异,导致相关文档数量存在严重的不平衡现象,削弱了分类技术的有效性.虽然相关研究证实预训练语言模型在文本分类任务上能够取得很好的效果,但由于科技文档较强的领域性导致通用预训练模型难以取得良好效果.更重要的是,不同领域积累的文档数量存在显著差异,其不平衡分类问题仍未完善解决.针对上述问题,本文通过引入和改进多种数据增强策略,提升了小样本类别的数据多样性与分类鲁棒性,进而通过多组实验讨论了不同预训练模型下数据增强策略的最佳组合方式.结果显示,本文所提出的技术框架能够有效...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:工程管理科技前沿 2022, Vol.41 (3), p.23-30
Hauptverfasser: 黄金凤, 高岩, 徐童, 陈恩红
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391.1; 科学技术的飞速发展衍生出海量的科技文档,其有效管理与查询依赖于准确的文档自动化分类.然而,由于学科门类众多且发展各异,导致相关文档数量存在严重的不平衡现象,削弱了分类技术的有效性.虽然相关研究证实预训练语言模型在文本分类任务上能够取得很好的效果,但由于科技文档较强的领域性导致通用预训练模型难以取得良好效果.更重要的是,不同领域积累的文档数量存在显著差异,其不平衡分类问题仍未完善解决.针对上述问题,本文通过引入和改进多种数据增强策略,提升了小样本类别的数据多样性与分类鲁棒性,进而通过多组实验讨论了不同预训练模型下数据增强策略的最佳组合方式.结果显示,本文所提出的技术框架能够有效提升科技文档不平衡分类任务的精度,从而为实现科技文档自动化分类及智能应用奠定了基础.
ISSN:1003-5192
DOI:10.11847/fj.41.3.23