INVERTED PROJECTION FOR ROBUST SPEECH TRANSLATION
The technology provides an approach to train translation models (608) that are robust to transcription errors and punctuation errors. The approach includes introducing errors from actual automatic speech recognition and automatic punctuation systems into the source side of the machine translation tr...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | The technology provides an approach to train translation models (608) that are robust to transcription errors and punctuation errors. The approach includes introducing errors from actual automatic speech recognition and automatic punctuation systems into the source side of the machine translation training data. A method for training a machine translation model includes performing automatic speech recognition on input source audio to generate a system transcript (802). The method aligns a human transcript of the source audio to the system transcript, including projecting system segmentation onto the human transcript (804). Then the method performs segment robustness training of a machine translation model according to the aligned human and system transcripts (806), and performs system robustness training of the machine translation model, e.g., by injecting token errors into training data (808).
La technologie adopte une approche pour former des modèles de traduction (608) qui sont robustes vis-à-vis d'erreurs de transcription et d'erreurs de ponctuation. L'approche consiste à introduire des erreurs à partir de systèmes de reconnaissance automatique de la parole et de systèmes de ponctuation automatique dans le côté source des données de formation de traduction automatique. Un procédé de formation d'un modèle de traduction automatique consiste à réaliser une reconnaissance automatique de la parole sur une source audio d'entrée pour générer une transcription de système (802). Le procédé aligne une transcription humaine de l'audio source sur la transcription du système comprenant la projection de la segmentation du système sur la transcription humaine (804). Le procédé réalise ensuite une formation de robustesse de segment d'un modèle de traduction automatique en fonction des transcriptions de système et humaines alignées (806) et réalise une formation de robustesse de système du modèle de traduction automatique, en injectant par exemple des erreurs de jeton dans les données de formation (808). |
---|