基于改进文本表示的商品文本分类算法研究

TP391; [目的]解决传统文本分类中分类器容易将属于不同标签但拥有许多相似修饰词的商品标题文本错误分类的问题,提高分类器的表现.[方法]本文设计了文本判别器作为辅助任务,其损失函数为不同标签文本向量的归一化欧氏距离,并结合传统文本分类主任务的交叉熵损失函数,推动文本编码器为不同类别的商品文本生成有足够区分度的文本表示,构建了 ITR-BiLSTM-Attention模型.[结果]对比没有使用文本判别器的BiLSTM-Attention基础模型,ITR-BiLSTM-Attention模型在准确率、精确率、召回率和F1值4个指标上分别提高1.84百分点、2.31百分点、2.88百分点、2.8...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数据分析与知识发现 2022, Vol.6 (5), p.34-43
Hauptverfasser: 屠振超, 马静
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391; [目的]解决传统文本分类中分类器容易将属于不同标签但拥有许多相似修饰词的商品标题文本错误分类的问题,提高分类器的表现.[方法]本文设计了文本判别器作为辅助任务,其损失函数为不同标签文本向量的归一化欧氏距离,并结合传统文本分类主任务的交叉熵损失函数,推动文本编码器为不同类别的商品文本生成有足够区分度的文本表示,构建了 ITR-BiLSTM-Attention模型.[结果]对比没有使用文本判别器的BiLSTM-Attention基础模型,ITR-BiLSTM-Attention模型在准确率、精确率、召回率和F1值4个指标上分别提高1.84百分点、2.31百分点、2.88百分点、2.82百分点;对比文本判别器使用余弦相似度损失函数的Cos-BiLSTM-Attention模型,ITR-BiLSTM-Attention模型在4个指标上分别提高0.53百分点、0.54百分点、1.21百分点、1.01百分点.[局限]未测试不同采样方式对模型的影响,未在更广泛的数据集上进行实验.[结论]本文设计的文本判别器辅助任务确实能够改进文本编码器生成的文本表示;构建的基于改进文本表示的商品文本分类模型相比于传统的商品文本分类算法具有更好的表现.
ISSN:2096-3467
DOI:10.11925/infotech.2096-3467.2021.0958