METHOD AND SYSTEM FOR AUTOMATIC SPEECH RECOGNITION CORRECTION
Methods and systems for ASR error correction are provided. The method includes the following steps:Candidate text transcriptions associated with captured speech information from an automatic speech recognition (ASR) system are processed and image data and reference transcripts associated with a plur...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods and systems for ASR error correction are provided. The method includes the following steps:Candidate text transcriptions associated with captured speech information from an automatic speech recognition (ASR) system are processed and image data and reference transcripts associated with a plurality of image frames of a dataset of videos are extracted. The extracted image data is further filtered based on a similarity calculation between the image data and the reference transcripts to obtain a filtered dataset. A machine learning model is used to output corrected candidate text transcriptions based on the filtered dataset and the received candidate text transcriptions.
L'invention concerne des procédés et des systèmes de correction d'erreur de RAP. Le procédé comprend les étapes suivantes : des transcriptions textuelles candidates associées à des informations vocales capturées à partir d'un système de reconnaissance automatique de la parole (RAP) sont traitées et des données d'image et des transcriptions de référence associées à une pluralité de trames d'image d'un ensemble de données de vidéos sont extraites. Les données d'image extraites sont en outre filtrées sur la base d'un calcul de similarité entre les données d'image et les transcriptions de référence pour obtenir un ensemble de données filtrées. Un modèle d'apprentissage automatique est utilisé pour délivrer des transcriptions de texte candidates corrigées sur la base de l'ensemble de données filtrées et des transcriptions de texte candidates reçues. |
---|