CHUNK-WISE ATTENTION FOR LONGFORM ASR

A method (900) includes receiving training data including a corpus of multilingual unspoken textual utterances (320), a corpus of multilingual un-transcribed non-synthetic speech utterances (306), and a corpus of multilingual transcribed non-synthetic speech utterances (304). For each un-transcribed...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	HAN, Wei, ZHANG, Yu, HAGHANI, Parisa, WANG, Yongqiang, MENGIBAR, Pedro J. Moreno
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	A method (900) includes receiving training data including a corpus of multilingual unspoken textual utterances (320), a corpus of multilingual un-transcribed non-synthetic speech utterances (306), and a corpus of multilingual transcribed non-synthetic speech utterances (304). For each un-transcribed non-synthetic speech utterance, the method includes generating a target quantized vector token (221) and a target token index (222), generating contrastive context vectors (215) from corresponding masked audio features (211m), and deriving a contrastive loss term (316). The method also includes generating an alignment output (602) and generating a first probability distribution over possible speech recognition hypotheses (392) for the alignment output. The method also includes generating a second probability distribution over possible speech recognition hypotheses (394) and determining a non-synthetic speech loss term (344). The method also includes pre-training an audio encoder (210). Procédé (900) consiste à recevoir des données de formation comprenant un corpus d'énoncés textuels non prononcés multilingues (320), un corpus d'énoncés vocaux non synthétiques non transcrits multilingues (306) et un corpus d'énoncés vocaux non synthétiques transcrits multilingues (304). Pour chaque énoncé vocal non synthétique non transcrit, le procédé consiste à générer un jeton vectoriel quantifié cible (221) et un indice de jeton cible (222), à générer des vecteurs de contexte contrastifs (215) à partir de caractéristiques audio masquées (211m) correspondantes et à dériver un terme de perte contrastive (316). Le procédé consiste également à générer une sortie d'alignement (602) et à générer une première distribution de probabilité sur des hypothèses de reconnaissance vocale possibles (392) pour la sortie d'alignement. Le procédé consiste également à générer une seconde distribution de probabilité sur des hypothèses de reconnaissance vocale possibles (394) et à déterminer un terme de perte vocale non synthétique (344). Le procédé consiste également à pré-entraîner un codeur audio (210).