견고한 다이렉트 스피치-투-스피치 번역

다이렉트 스피치-투-스피치 번역(S2ST) 모델(200)은 소스 화자(104)에 의해 제1 언어로 발화된 발화(108)에 대한 입력 스피치 표현(102)을 수신하고 입력 스피치 표현을 히든(hidden) 피처 표현(215)으로 인코딩하도록 구성된 인코더(210)를 포함한다. S2ST 모델은 또한 인코딩된 히든 표현에 주의를 기울이는 컨텍스트 벡터(225)를 생성하도록 구성된 어텐션(attention) 모듈(220)을 포함한다. S2ST 모델은 또한 어텐션 모듈에 의해 생성된 컨텍스트 벡터를 수신하고 상이한 제2 언어로 된 발화의 번...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	JIA YE, REMEZ TAL, POMERANTZ ROI, RAMANOVICH MICHELLE TADMOR
Format:	Patent
Sprache:	kor
Schlagworte:	ACOUSTICS CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	다이렉트 스피치-투-스피치 번역(S2ST) 모델(200)은 소스 화자(104)에 의해 제1 언어로 발화된 발화(108)에 대한 입력 스피치 표현(102)을 수신하고 입력 스피치 표현을 히든(hidden) 피처 표현(215)으로 인코딩하도록 구성된 인코더(210)를 포함한다. S2ST 모델은 또한 인코딩된 히든 표현에 주의를 기울이는 컨텍스트 벡터(225)를 생성하도록 구성된 어텐션(attention) 모듈(220)을 포함한다. S2ST 모델은 또한 어텐션 모듈에 의해 생성된 컨텍스트 벡터를 수신하고 상이한 제2 언어로 된 발화의 번역에 대응하는 음소 표현(235)을 예측하도록 구성된 디코더(230)를 포함한다. S2ST 모델은 또한 컨텍스트 벡터 및 음소 표현을 수신하고 상이한 제2 언어로 발화된 발화의 번역에 대응하는 번역된 합성 스피치 표현(355)을 생성하도록 구성된 합성기(300)를 포함한다. A direct speech-to-speech translation (S2ST) model includes an encoder configured to receive an input speech representation that to an utterance spoken by a source speaker in a first language and encode the input speech representation into a hidden feature representation. The S2ST model also includes an attention module configured to generate a context vector that attends to the hidden representation encoded by the encoder. The S2ST model also includes a decoder configured to receive the context vector generated by the attention module and predict a phoneme representation that corresponds to a translation of the utterance in a second different language. The S2ST model also includes a synthesizer configured to receive the context vector and the phoneme representation and generate a translated synthesized speech representation that corresponds to a translation of the utterance spoken in the different second language.