미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
오리지널 캡션 데이터의 번역물을 비디오의 오디오 부분과 정렬시키기 위한 방법이 제공된다. 이 방법은, 프로세싱 디바이스에 의해, 복수의 캡션 문자열들을 포함하는 비디오에 대한 오리지널 캡션 데이터를 식별하는 단계를 포함한다. 프로세싱 디바이스는 복수의 생성된 문자열들 및 각각의 생성된 문자열에 대한 연관된 타이밍 정보를 포함하는 음성 인식 데이터를 식별한다. 프로세싱 디바이스는 문자열들 사이의 의미론적 유사성들을 표시하는 할당된 값들을 사용하여 복수의 캡션 문자열들을 복수의 생성된 문자열들에 매핑시킨다. 프로세싱 디바이스는 매핑된...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 오리지널 캡션 데이터의 번역물을 비디오의 오디오 부분과 정렬시키기 위한 방법이 제공된다. 이 방법은, 프로세싱 디바이스에 의해, 복수의 캡션 문자열들을 포함하는 비디오에 대한 오리지널 캡션 데이터를 식별하는 단계를 포함한다. 프로세싱 디바이스는 복수의 생성된 문자열들 및 각각의 생성된 문자열에 대한 연관된 타이밍 정보를 포함하는 음성 인식 데이터를 식별한다. 프로세싱 디바이스는 문자열들 사이의 의미론적 유사성들을 표시하는 할당된 값들을 사용하여 복수의 캡션 문자열들을 복수의 생성된 문자열들에 매핑시킨다. 프로세싱 디바이스는 매핑된 개별 생성된 문자열들의 타이밍 정보에 기초하여 개별 캡션 문자열들에 타이밍 정보를 할당한다. 프로세싱 디바이스는 개별 캡션 문자열들의 할당된 타이밍 정보를 사용하여 오리지널 캡션 데이터의 번역물을 비디오의 오디오 부분과 정렬시킨다.
A method for aligning a translation of original caption data with an audio portion of a video is provided. The method involves identifying original caption data for the video that includes caption character strings, identifying translated language caption data for the video that includes translated character strings associated with audio portion of the video, and mapping caption sentence fragments generated from the caption character strings to corresponding translated sentence fragments generated from the translated character strings based on timing associated with the original caption data and the translated language caption data. The method further involves estimating time intervals for individual caption sentence fragments using timing information corresponding to individual caption character strings, assigning time intervals to individual translated sentence fragments based on estimated time intervals of the individual caption sentence fragments, generating a set of translated sentences using consecutive translated sentence fragments, and aligning the set of translated sentences with the audio portion of the video using assigned time intervals of individual translated sentence fragments from corresponding translated sentences. |
---|