CONTEXTUAL BIASING WITH TEXT INJECTION

A method (600) includes receiving context biasing data (510) that includes a set of unspoken textual utterances (320) corresponding to a particular context (512). The method also includes obtaining a list of carrier phrases (520) associated with the particular context. For each respective unspoken t...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: RONDON, Patrick Maxim, PRABHAVALKAR, Rohit Prakash, SAINATH, Tara N, ALLAUZEN, Cyril, CASEIRO, Diamantino Antonio
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method (600) includes receiving context biasing data (510) that includes a set of unspoken textual utterances (320) corresponding to a particular context (512). The method also includes obtaining a list of carrier phrases (520) associated with the particular context. For each respective unspoken textual utterance, the method includes generating a corresponding training data pair (532) that includes the respective unspoken textual utterance and a carrier phrase. For each respective training data pair, the method includes tokenizing the respective training data pair into a sequence of sub-word units (402), generating a first higher order textual feature representation (203) for a corresponding sub-word unit, receiving the first higher order textual feature representation, and generating a first probability distribution (253) over possible text units. The method also includes training a speech recognition model (200) based on the first probability distribution over possible text units. Un procédé (600) consiste à recevoir des données de polarisation de contexte (510) qui comprennent un ensemble d'énoncés textuels non prononcés (320) correspondant à un contexte particulier (512). Le procédé consiste également à obtenir une liste de phrases porteuses (520) associées au contexte particulier. Pour chaque énoncé textuel non parlé respectif, le procédé consiste à générer une paire de données d'entraînement (532) correspondante qui comprend l'énoncé textuel non parlé respectif et une phrase porteuse. Pour chaque paire de données d'entraînement respective, le procédé consiste à segmenter la paire de données d'entraînement respective en une séquence d'unités de sous-mot (402), à générer une première représentation de caractéristique textuelle d'ordre supérieur (203) pour une unité de sous-mot correspondante, à recevoir la première représentation de caractéristique textuelle d'ordre supérieur, et à générer une première distribution de probabilité (253) sur d'éventuelles unités de texte. Le procédé comprend également l'entraînement d'un modèle de reconnaissance vocale (200) sur la base de la première distribution de probabilité sur des unités de texte possibles.