TRAINING SPEECH RECOGNITION SYSTEMS USING WORD SEQUENCES

A method may include obtaining first audio data of a communication session between a first device and a second device, obtaining a text string that is a transcription of the first audio data, and selecting a contiguous sequence of words from the text string as a first word sequence. The method may f...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	ADAMS, Jadie, THOMSON, David, BOEHME, Kenneth
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	ACOUSTICS CALCULATING COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	A method may include obtaining first audio data of a communication session between a first device and a second device, obtaining a text string that is a transcription of the first audio data, and selecting a contiguous sequence of words from the text string as a first word sequence. The method may further include comparing the first word sequence to multiple word sequences obtained before the communication session and in response to the first word sequence corresponding to one of the multiple word sequences, incrementing a counter of multiple counters associated with the one of the multiple word sequences. The method may also include deleting the text string and the first word sequence and training and after deleting the text string and the first word sequence, training a language model of an automatic transcription system using the multiple word sequences and the multiple counters. The method is for estimating n-gram statistics based on the communication and provides data protection mechanisms for private data. La présente invention concerne un procédé pouvant comprendre les étapes consistant à obtenir des premières données audio d'une session de communication entre un premier dispositif et un second dispositif, obtenir une chaîne de texte qui est une transcription des premières données audio, et sélectionner une séquence contiguë de mots à partir de la chaîne de texte comme première séquence de mots. Le procédé peut en outre comprendre les étapes consistant à comparer la première séquence de mots à de multiples séquences de mots obtenues avant la session de communication et, en réponse au fait que la première séquence de mots correspond à l'une des multiples séquences de mots, incrémenter un compteur parmi de multiples compteurs associés à l'une des multiples séquences de mots. Le procédé peut également comprendre les étapes consistant à supprimer la chaîne de texte et la première séquence de mots et à effectuer un apprentissage, puis après avoir supprimé la chaîne de texte et la première séquence de mots, à procéder à l'entraînement d'un modèle de langue d'un système de transcription automatique à l'aide des multiples séquences de mots et des multiples compteurs. Le procédé est conçu pour estimer des statistiques de n-gramme sur la base de la communication et fournit des mécanismes de protection de données pour des données privées.