采用语义一致性编码网络的跨模态语音关键词检索

TP391; 针对跨模态的语音-文本检索框架中的语义特征判别性不足问题,为了缩小语音和文本之间的异质性语义差距,提升检索精度,提出采用语义一致性编码神经网络(Semantics-Consistent Coding Network,SCCN)的跨模态语音关键词检索方法:分别利用梅尔倒谱系数特征(Mel-frequency cepstrum,MFCC)提取语音特征、利用BERT提取文本特征,搭建深度卷积神经网络,联合双重损失(语义一致性损失和检索损失)函数构造语义编码网络模型,提取语音和文本的共享特征获得一致性语义特征表达,同时考虑语音关键词检索任务的实时性需求,最后将检索任务视为多分类任务,通过...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:宜宾学院学报 2022, Vol.22 (12), p.6-13
Hauptverfasser: 齐梅, 刘则芬, 樊浩, 李升
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:TP391; 针对跨模态的语音-文本检索框架中的语义特征判别性不足问题,为了缩小语音和文本之间的异质性语义差距,提升检索精度,提出采用语义一致性编码神经网络(Semantics-Consistent Coding Network,SCCN)的跨模态语音关键词检索方法:分别利用梅尔倒谱系数特征(Mel-frequency cepstrum,MFCC)提取语音特征、利用BERT提取文本特征,搭建深度卷积神经网络,联合双重损失(语义一致性损失和检索损失)函数构造语义编码网络模型,提取语音和文本的共享特征获得一致性语义特征表达,同时考虑语音关键词检索任务的实时性需求,最后将检索任务视为多分类任务,通过余弦距离计算语义向量之间的距离,快速匹配检索结果.在公共数据集上的实验测试,取得了超过基线方法7%的精度,验证了SCCN方法有效性.
ISSN:1671-5365
DOI:10.19504/j.cnki.issn1671-5365.2022.12.02