DIFFERENTIAL ACOUSTIC MODEL REPRESENTATION AND LINEAR TRANSFORM-BASED ADAPTATION FOR EFFICIENT USER PROFILE UPDATE TECHNIQUES IN AUTOMATIC SPEECH RECOGNITION
A computer-implemented method is described for speaker adaptation in automatic speech recognition. Speech recognition data from a particular speaker is used for adaptation of an initial speech recognition acoustic model to produce a speaker adapted acoustic model. A speaker dependent differential ac...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A computer-implemented method is described for speaker adaptation in automatic speech recognition. Speech recognition data from a particular speaker is used for adaptation of an initial speech recognition acoustic model to produce a speaker adapted acoustic model. A speaker dependent differential acoustic model is determined that represents differences between the initial speech recognition acoustic model and the speaker adapted acoustic model. In addition, an approach is also disclosed to estimate speaker-specific feature or model transforms over multiple sessions. This is achieved by updating the previously estimated transform using only adaptation statistics of the current session.
L'invention concerne un procédé mis en oeuvre par ordinateur pour une adaptation de haut-parleur dans une reconnaissance automatique de parole. Des données de reconnaissance de parole provenant d'un haut-parleur particulier sont utilisées pour l'adaptation d'un modèle acoustique de reconnaissance de parole initial pour produire un modèle acoustique adapté à un haut-parleur. Un modèle acoustique différentiel dépendant d'un haut-parleur est déterminé, lequel représente des différences entre le modèle acoustique de reconnaissance de parole initial et le modèle acoustique adapté à un haut-parleur. En outre, l'invention concerne également une approche pour estimer des transformations de caractéristique ou de modèle spécifique à un haut-parleur sur de multiples sessions. Ceci est obtenu par mise à jour de la transformation estimée précédemment à l'aide uniquement de statistiques d'adaptation de la session courante. |
---|