一种全面的少标签样本情形下的知识蒸馏方法

【目的】针对在自然语言处理中有标签样本稀缺和高性能的大规模参数量模型训练成本高的问题,本文在有标签样本不足情况下,通过知识蒸馏方法,提升在高性能大参数量模型指导下的小参数量模型性能。【方法】通过噪声提纯方法,从无标签数据中获取有价值的数据并赋予其伪标签,增加有标签样本数量;并在传统蒸馏模型基础上增加知识回顾机制和助教模型,实现从大参数量模型到小参数量模型的全面的知识迁移。【结果】在IMDB、AG_NEWS、Yahoo!Answers数据集的文本分类和情感分析任务上,使用原数据集规模的5%作为有标签数据,准确率表现与使用全部数据训练的传统蒸馏模型分别仅相差1.45%、2.75%、7.28%。【局...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数据分析与知识发现 2024-01, Vol.8 (1), p.104-113
Hauptverfasser: 刘彤, 任欣儒, 尹金辉, 倪维健
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:【目的】针对在自然语言处理中有标签样本稀缺和高性能的大规模参数量模型训练成本高的问题,本文在有标签样本不足情况下,通过知识蒸馏方法,提升在高性能大参数量模型指导下的小参数量模型性能。【方法】通过噪声提纯方法,从无标签数据中获取有价值的数据并赋予其伪标签,增加有标签样本数量;并在传统蒸馏模型基础上增加知识回顾机制和助教模型,实现从大参数量模型到小参数量模型的全面的知识迁移。【结果】在IMDB、AG_NEWS、Yahoo!Answers数据集的文本分类和情感分析任务上,使用原数据集规模的5%作为有标签数据,准确率表现与使用全部数据训练的传统蒸馏模型分别仅相差1.45%、2.75%、7.28%。【局限】仅针对自然语言处理中的文本分类以及情感分析任务进行实验研究,后续可进一步扩大任务覆盖面。【结论】本文所提方法在少量有标签样本的情形下,实现了较好的蒸馏效果,使得小参数量模型的性能得到显著提升。
ISSN:2096-3467
DOI:10.11925/infotech.2096-3467.2022.1155