AUTOMATICALLY DETERMINING LANGUAGE FOR SPEECH RECOGNITION OF SPOKEN UTTERANCE RECEIVED VIA AN AUTOMATED ASSISTANT INTERFACE
Implementations relate to determining a language for speech recognition of a spoken utterance, received via an automated assistant interface, for interacting with an automated assistant. In various implementations, audio data indicative of a voice input that includes a natural language request from...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Implementations relate to determining a language for speech recognition of a spoken utterance, received via an automated assistant interface, for interacting with an automated assistant. In various implementations, audio data indicative of a voice input that includes a natural language request from a user may be applied as input across multiple speech-to-text ("STT") machine learning models to generate multiple candidate speech recognition outputs. Each STT machine learning model may trained in a particular language. For each respective STT machine learning model of the multiple STT models, the multiple candidate speech recognition outputs may be analyzed to determine an entropy score for the respective STT machine learning model. Based on the entropy scores, a target language associated with at least one STT machine learning model of the multiple STT machine learning models may be selected. The automated assistant may respond to the request using the target language.
La présente invention concerne, selon des modes de réalisation, la détermination d'une langue pour la reconnaissance de la parole d'un énoncé vocal, reçu par l'intermédiaire d'une interface d'assistant automatisé, pour entrer en interaction avec un assistant automatisé. Dans divers modes de réalisation, des données audio indicatives d'une entrée vocale qui comprend une demande en langage naturel provenant d'un utilisateur peuvent être appliquées en tant qu'entrée à travers de multiples modèles d'apprentissage machine de parole en texte ("STT") pour générer de multiples sorties de reconnaissance vocale candidates. Chaque modèle d'apprentissage machine STT peut être entraîné dans un langage particulier. Pour chaque modèle d'apprentissage machine STT respectif des multiples modèles STT, les multiples sorties de reconnaissance vocale candidates peuvent être analysées afin de déterminer un score d'entropie pour le modèle d'apprentissage machine STT respectif. Sur la base des scores d'entropie, une langue cible associée à au moins un modèle d'apprentissage machine STT parmi les multiples modèles d'apprentissage machine STT peut être sélectionnée. L'assistant automatisé peut répondre à la demande à l'aide de la langue cible. |
---|