一种融合知识与Res-ViT的特征增强多模态情感识别模型

G350%TP391; [目的]改善多模态特征提取的质量,提高对多模态舆情中用户情感的识别精度.[方法]针对文本模态,使用RoBERTa进行特征提取,并通过知识短语表征词典进行知识增强;针对图像模态,整合ResNet与视觉Transformer,提出Res-ViT模型;特征融合部分使用Transformer编码器,最后将多模态表示输入全连接层中进行情感识别.[结果]在MVSA-Multiple数据集上,情感识别的准确率、F,值分别为71.66%、69.42%,较基准方法的最高值分别提高2.22、0.59个百分点.[局限]未使用其他数据集进一步验证模型的泛化性与稳健性.[结论]本文模型能够更好地...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:数据分析与知识发现 2023-11, Vol.7 (11), p.14-25
Hauptverfasser: 杨茹芸, 马静
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:G350%TP391; [目的]改善多模态特征提取的质量,提高对多模态舆情中用户情感的识别精度.[方法]针对文本模态,使用RoBERTa进行特征提取,并通过知识短语表征词典进行知识增强;针对图像模态,整合ResNet与视觉Transformer,提出Res-ViT模型;特征融合部分使用Transformer编码器,最后将多模态表示输入全连接层中进行情感识别.[结果]在MVSA-Multiple数据集上,情感识别的准确率、F,值分别为71.66%、69.42%,较基准方法的最高值分别提高2.22、0.59个百分点.[局限]未使用其他数据集进一步验证模型的泛化性与稳健性.[结论]本文模型能够更好地提取并有效融合多模态特征,提升了多模态情感识别的能力.
ISSN:2096-3467
DOI:10.11925/infotech.2096-3467.2022.1020