VOICE SHORTCUT DETECTION WITH SPEAKER VERIFICATION

Techniques are disclosed herein for streaming keyphrase detection which can be customized to detect one or more particular keyphrases, without requiring retraining of any model(s) for those particular keyphrase(s). Implementations include processing audio data using a speaker separation model to gen...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HE, Yanzhang, LIANG, Qiao, RIKHYE, Rajeev, MCGRAW, Ian C, WANG, Quan
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Techniques are disclosed herein for streaming keyphrase detection which can be customized to detect one or more particular keyphrases, without requiring retraining of any model(s) for those particular keyphrase(s). Implementations include processing audio data using a speaker separation model to generate separated audio data which isolates an utterance spoken by a human speaker from one or more additional sounds not spoken by the human speaker, and processing the separated audio data using a text independent speaker identification model to determine whether a verified and/or registered user spoke a spoken utterance captured in the audio data. Implementations include processing the audio data and/or the separated audio data using an automatic speech recognition model to generate a text representation of the utterance. Additionally or alternatively, the text representation of the utterance can be processed to determine whether at least a portion of the text representation of the utterance captures a particular keyphrase. Sont divulgués des techniques de détection de phrases clés en continu qui peuvent être personnalisées pour détecter une ou plusieurs phrases clés particulières, sans nécessiter de ré-entraînement d'un/de modèle(s) quelconque(s) pour ladite ou lesdites phrases clés particulières. Des modes de réalisation comprennent le traitement de données audio à l'aide d'un modèle de séparation de locuteur pour générer des données audio séparées qui isolent un énoncé prononcé par un locuteur humain d'un ou de plusieurs sons supplémentaires non prononcés par le locuteur humain, et le traitement des données audio séparées à l'aide d'un modèle d'identification de locuteur indépendant du texte pour déterminer si un énoncé d'utilisateur vérifié et/ou enregistré est un énoncé vocal capturé dans les données audio. Des modes de réalisation comprennent le traitement des données audio et/ou des données audio séparées à l'aide d'un modèle de reconnaissance vocale automatique pour générer une représentation textuelle de l'énoncé. De plus ou en variante, la représentation textuelle de l'énoncé peut être traitée pour déterminer si au moins une partie de la représentation textuelle de l'énoncé capture une phrase clé particulière.