AUTOMATED VOICE TRANSLATION DUBBING FOR PRERECORDED VIDEOS

A method for aligning a translation of original caption data with an audio portion of a video is provided. The method includes identifying, by a processing device, original caption data for a video that includes a plurality of caption character strings. The processing device identifies speech recogn...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: COLONNA, Brian, MCCARTNEY Jr., Terrence Paul, NECHYBA, Michael
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method for aligning a translation of original caption data with an audio portion of a video is provided. The method includes identifying, by a processing device, original caption data for a video that includes a plurality of caption character strings. The processing device identifies speech recognition data that includes a plurality of generated character strings and associated timing information for each generated character string. The processing device maps the plurality of caption character strings to the plurality of generated character strings using assigned values indicative of semantic similarities between character strings. The processing device assigns timing information to the individual caption character strings based on timing information of mapped individual generated character strings. The processing device aligns a translation of the original caption data with the audio portion of the video using assigned timing information of the individual caption character strings. L'invention concerne un procédé d'alignement d'une traduction de données de sous-titres d'origine avec une partie audio d'une vidéo. Le procédé comprend l'identification, par un dispositif de traitement, de données de sous-titres d'origine pour une vidéo qui comprend une pluralité de chaînes de caractères de sous-titres. Le dispositif de traitement identifie des données de reconnaissance vocale qui comprennent une pluralité de chaînes de caractères générées et des informations de temporisation associées pour chaque chaîne de caractères générée. Le dispositif de traitement mappe la pluralité de chaînes de caractères de sous-titres à la pluralité de chaînes de caractères générées à l'aide de valeurs attribuées indiquant des similarités sémantiques entre des chaînes de caractères. Le dispositif de traitement attribue des informations de temporisation aux chaînes de caractères de sous-titres individuelles sur la base d'informations de temporisation de chaînes de caractères générées individuelles mappées. Le dispositif de traitement aligne une traduction des données de sous-titres d'origine avec la partie audio de la vidéo à l'aide d'informations de temporisation attribuées des chaînes de caractères de sous-titres individuelles.