TRAINING AND/OR USING A LANGUAGE SELECTION MODEL FOR AUTOMATICALLY DETERMINING LANGUAGE FOR SPEECH RECOGNITION OF SPOKEN UTTERANCE
Methods and systems for training and/or using a language selection model for use in determining a particular language of a spoken utterance captured in audio data. Features of the audio data can be processed using the trained language selection model to generate a predicted probability for each of N...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods and systems for training and/or using a language selection model for use in determining a particular language of a spoken utterance captured in audio data. Features of the audio data can be processed using the trained language selection model to generate a predicted probability for each of N different languages, and a particular language selected based on the generated probabilities. Speech recognition results for the particular language can be utilized responsive to selecting the particular language of the spoken utterance. Many implementations are directed to training the language selection model utilizing tuple losses in lieu of traditional cross-entropy losses. Training the language selection model utilizing the tuple losses can result in more efficient training and/or can result in a more accurate and/or robust model - thereby mitigating erroneous language selections for spoken utterances.
La présente invention concerne des procédés et des systèmes d'apprentissage et/ou d'utilisation d'un modèle de sélection de langue pour une utilisation dans la détermination d'une langue particulière d'un énoncé parlé capturé dans des données audio. Des caractéristiques des données audio peuvent être traitées au moyen du modèle de sélection de langue entraîné pour générer une probabilité prédite pour chacune de N langues différentes, et une langue particulière sélectionnée sur la base des probabilités générées. Des résultats de reconnaissance de la parole pour la langue particulière peuvent être utilisés en réponse à la sélection de la langue particulière de l'énoncé parlé. De nombreux modes de réalisation concernent l'apprentissage du modèle de sélection de langue au moyen de pertes de tuple au lieu de pertes d'entropie croisée conventionnelles. L'apprentissage du modèle de sélection de langue au moyen des pertes de tuple peut conduire à un apprentissage plus efficace et/ou peut conduire à un modèle plus précis et/ou robuste, de façon à réduire les sélections de langue erronées pour des énoncés prononcés. |
---|