디코더
오디오 신호를 디코딩 및/또는 생성하고, 오디오 디코더 및/또는 생성기를 훈련하기 위한 기술이 개시된다. 오디오 디코더(10)는 비트스트림(3)으로부터 오디오 신호(16)를 생성하도록 구성되고, 상기 비트스트림(3)은 상기 오디오 신호(16)를 나타내고, 상기 오디오 신호는 연속하는 프레임들로 세분화 된다. 상기 오디오 디코더(10)는 다음을 포함한다: 복수의 채널들을 가지는 제1 데이터(15)를 제공하기 위한 제1 데이터 제공기(702); 복수의 채널들(47)을 갖는 제1 출력 데이터(69)를 출력하기 위한 제1 처리 블록(40,...
Gespeichert in:
Hauptverfasser: | , , , , , , |
---|---|
Format: | Patent |
Sprache: | kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | |
---|---|
container_issue | |
container_start_page | |
container_title | |
container_volume | |
creator | PIA NICOLA MULTRUS MARKUS FUCHS GUILLAUME AHMED AHMED MUSTAFA MAHMOUD GUPTA KISHAN BUETHE JAN KORSE SRIKANTH |
description | 오디오 신호를 디코딩 및/또는 생성하고, 오디오 디코더 및/또는 생성기를 훈련하기 위한 기술이 개시된다. 오디오 디코더(10)는 비트스트림(3)으로부터 오디오 신호(16)를 생성하도록 구성되고, 상기 비트스트림(3)은 상기 오디오 신호(16)를 나타내고, 상기 오디오 신호는 연속하는 프레임들로 세분화 된다. 상기 오디오 디코더(10)는 다음을 포함한다: 복수의 채널들을 가지는 제1 데이터(15)를 제공하기 위한 제1 데이터 제공기(702); 복수의 채널들(47)을 갖는 제1 출력 데이터(69)를 출력하기 위한 제1 처리 블록(40,50,50a-50h); 및 제2 처리 블록(45). 상기 제1 처리 블록(50)은 다음을 포함한다: 상기 비트스트림(3)을 수신하고, 상기 주어진 프레임에 대한 복수의 샘플들 및 복수의 채널들을 갖는 상기 주어진 프레임 내의 상기 오디오 신호(16)를 나타내는 타겟 데이터(12)를 출력하는 학습가능한 레이어(710); 상기 주어진 프레임에 대한 컨디셔닝 특징 파라미터들(74, 75)을 얻기 위하여 상기 주어진 프레임에 대해, 상기 타겟 데이터(12)를 처리하는 컨디셔닝 학습가능한 레이어(71, 72, 73); 및 상기 컨디셔닝 특징 파라미터들(74, 75)을 상기 제1 데이터(15, 59a)에 적용하는 스타일링 요소(77). 상기 제2 처리 블록(45)은 상기 제2 데이터(69)의 상기 복수의 채널들(47)을 결합하여 상기 오디오 신호(16)를 획득한다.
There are disclosed techniques for decoding and/or generating an audio signal and training an audio decoder and/or generator. An audio decoder (10), configured to generate an audio signal (16) from a bitstream (3), the bitstream (3) representing the audio signal (16), the audio signal being subdivided in a sequence of frames. The audio decoder (10) comprises: a first data provisioner (702) to provide first data (15), the first data (15) having mul- tiple channels; a first processing block (40, 50, 50a-50h) to output first output data (69) having mul- tiple channels (47), and a second processing block (45). The first processing block (50) comprises: a learnable layer (710) to receive the bitstream (3) and, for the given frame, output target data (12) representing the audio signal (16) in the given frame with multiple channels and multiple samples for the given frame; a conditioning learnable layer (71, 72, 73) to process the target data (12) to obtain conditioning feature parameters (74, 75) for the given frame; and a styling element (77) applying the conditioning feature parameters (74, 75) to the first data (15, 59a). The second processing block (45) combines the plurality of channels (47) of the second data (69) to obtain the audio signal (16). |
format | Patent |
fullrecord | <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_KR20240012407A</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>KR20240012407A</sourcerecordid><originalsourceid>FETCH-epo_espacenet_KR20240012407A3</originalsourceid><addsrcrecordid>eNrjZOB8PWXKm71TXvdO4WFgTUvMKU7lhdLcDMpuriHOHrqpBfnxqcUFicmpeakl8d5BRgZGJgYGhkDC3NGYOFUAFEwgFA</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>디코더</title><source>esp@cenet</source><creator>PIA NICOLA ; MULTRUS MARKUS ; FUCHS GUILLAUME ; AHMED AHMED MUSTAFA MAHMOUD ; GUPTA KISHAN ; BUETHE JAN ; KORSE SRIKANTH</creator><creatorcontrib>PIA NICOLA ; MULTRUS MARKUS ; FUCHS GUILLAUME ; AHMED AHMED MUSTAFA MAHMOUD ; GUPTA KISHAN ; BUETHE JAN ; KORSE SRIKANTH</creatorcontrib><description>오디오 신호를 디코딩 및/또는 생성하고, 오디오 디코더 및/또는 생성기를 훈련하기 위한 기술이 개시된다. 오디오 디코더(10)는 비트스트림(3)으로부터 오디오 신호(16)를 생성하도록 구성되고, 상기 비트스트림(3)은 상기 오디오 신호(16)를 나타내고, 상기 오디오 신호는 연속하는 프레임들로 세분화 된다. 상기 오디오 디코더(10)는 다음을 포함한다: 복수의 채널들을 가지는 제1 데이터(15)를 제공하기 위한 제1 데이터 제공기(702); 복수의 채널들(47)을 갖는 제1 출력 데이터(69)를 출력하기 위한 제1 처리 블록(40,50,50a-50h); 및 제2 처리 블록(45). 상기 제1 처리 블록(50)은 다음을 포함한다: 상기 비트스트림(3)을 수신하고, 상기 주어진 프레임에 대한 복수의 샘플들 및 복수의 채널들을 갖는 상기 주어진 프레임 내의 상기 오디오 신호(16)를 나타내는 타겟 데이터(12)를 출력하는 학습가능한 레이어(710); 상기 주어진 프레임에 대한 컨디셔닝 특징 파라미터들(74, 75)을 얻기 위하여 상기 주어진 프레임에 대해, 상기 타겟 데이터(12)를 처리하는 컨디셔닝 학습가능한 레이어(71, 72, 73); 및 상기 컨디셔닝 특징 파라미터들(74, 75)을 상기 제1 데이터(15, 59a)에 적용하는 스타일링 요소(77). 상기 제2 처리 블록(45)은 상기 제2 데이터(69)의 상기 복수의 채널들(47)을 결합하여 상기 오디오 신호(16)를 획득한다.
There are disclosed techniques for decoding and/or generating an audio signal and training an audio decoder and/or generator. An audio decoder (10), configured to generate an audio signal (16) from a bitstream (3), the bitstream (3) representing the audio signal (16), the audio signal being subdivided in a sequence of frames. The audio decoder (10) comprises: a first data provisioner (702) to provide first data (15), the first data (15) having mul- tiple channels; a first processing block (40, 50, 50a-50h) to output first output data (69) having mul- tiple channels (47), and a second processing block (45). The first processing block (50) comprises: a learnable layer (710) to receive the bitstream (3) and, for the given frame, output target data (12) representing the audio signal (16) in the given frame with multiple channels and multiple samples for the given frame; a conditioning learnable layer (71, 72, 73) to process the target data (12) to obtain conditioning feature parameters (74, 75) for the given frame; and a styling element (77) applying the conditioning feature parameters (74, 75) to the first data (15, 59a). The second processing block (45) combines the plurality of channels (47) of the second data (69) to obtain the audio signal (16).</description><language>kor</language><subject>ACOUSTICS ; CALCULATING ; COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS ; COMPUTING ; COUNTING ; MUSICAL INSTRUMENTS ; PHYSICS ; SPEECH ANALYSIS OR SYNTHESIS ; SPEECH OR AUDIO CODING OR DECODING ; SPEECH OR VOICE PROCESSING ; SPEECH RECOGNITION</subject><creationdate>2024</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20240129&DB=EPODOC&CC=KR&NR=20240012407A$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,780,885,25563,76318</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20240129&DB=EPODOC&CC=KR&NR=20240012407A$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>PIA NICOLA</creatorcontrib><creatorcontrib>MULTRUS MARKUS</creatorcontrib><creatorcontrib>FUCHS GUILLAUME</creatorcontrib><creatorcontrib>AHMED AHMED MUSTAFA MAHMOUD</creatorcontrib><creatorcontrib>GUPTA KISHAN</creatorcontrib><creatorcontrib>BUETHE JAN</creatorcontrib><creatorcontrib>KORSE SRIKANTH</creatorcontrib><title>디코더</title><description>오디오 신호를 디코딩 및/또는 생성하고, 오디오 디코더 및/또는 생성기를 훈련하기 위한 기술이 개시된다. 오디오 디코더(10)는 비트스트림(3)으로부터 오디오 신호(16)를 생성하도록 구성되고, 상기 비트스트림(3)은 상기 오디오 신호(16)를 나타내고, 상기 오디오 신호는 연속하는 프레임들로 세분화 된다. 상기 오디오 디코더(10)는 다음을 포함한다: 복수의 채널들을 가지는 제1 데이터(15)를 제공하기 위한 제1 데이터 제공기(702); 복수의 채널들(47)을 갖는 제1 출력 데이터(69)를 출력하기 위한 제1 처리 블록(40,50,50a-50h); 및 제2 처리 블록(45). 상기 제1 처리 블록(50)은 다음을 포함한다: 상기 비트스트림(3)을 수신하고, 상기 주어진 프레임에 대한 복수의 샘플들 및 복수의 채널들을 갖는 상기 주어진 프레임 내의 상기 오디오 신호(16)를 나타내는 타겟 데이터(12)를 출력하는 학습가능한 레이어(710); 상기 주어진 프레임에 대한 컨디셔닝 특징 파라미터들(74, 75)을 얻기 위하여 상기 주어진 프레임에 대해, 상기 타겟 데이터(12)를 처리하는 컨디셔닝 학습가능한 레이어(71, 72, 73); 및 상기 컨디셔닝 특징 파라미터들(74, 75)을 상기 제1 데이터(15, 59a)에 적용하는 스타일링 요소(77). 상기 제2 처리 블록(45)은 상기 제2 데이터(69)의 상기 복수의 채널들(47)을 결합하여 상기 오디오 신호(16)를 획득한다.
There are disclosed techniques for decoding and/or generating an audio signal and training an audio decoder and/or generator. An audio decoder (10), configured to generate an audio signal (16) from a bitstream (3), the bitstream (3) representing the audio signal (16), the audio signal being subdivided in a sequence of frames. The audio decoder (10) comprises: a first data provisioner (702) to provide first data (15), the first data (15) having mul- tiple channels; a first processing block (40, 50, 50a-50h) to output first output data (69) having mul- tiple channels (47), and a second processing block (45). The first processing block (50) comprises: a learnable layer (710) to receive the bitstream (3) and, for the given frame, output target data (12) representing the audio signal (16) in the given frame with multiple channels and multiple samples for the given frame; a conditioning learnable layer (71, 72, 73) to process the target data (12) to obtain conditioning feature parameters (74, 75) for the given frame; and a styling element (77) applying the conditioning feature parameters (74, 75) to the first data (15, 59a). The second processing block (45) combines the plurality of channels (47) of the second data (69) to obtain the audio signal (16).</description><subject>ACOUSTICS</subject><subject>CALCULATING</subject><subject>COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>MUSICAL INSTRUMENTS</subject><subject>PHYSICS</subject><subject>SPEECH ANALYSIS OR SYNTHESIS</subject><subject>SPEECH OR AUDIO CODING OR DECODING</subject><subject>SPEECH OR VOICE PROCESSING</subject><subject>SPEECH RECOGNITION</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2024</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNrjZOB8PWXKm71TXvdO4WFgTUvMKU7lhdLcDMpuriHOHrqpBfnxqcUFicmpeakl8d5BRgZGJgYGhkDC3NGYOFUAFEwgFA</recordid><startdate>20240129</startdate><enddate>20240129</enddate><creator>PIA NICOLA</creator><creator>MULTRUS MARKUS</creator><creator>FUCHS GUILLAUME</creator><creator>AHMED AHMED MUSTAFA MAHMOUD</creator><creator>GUPTA KISHAN</creator><creator>BUETHE JAN</creator><creator>KORSE SRIKANTH</creator><scope>EVB</scope></search><sort><creationdate>20240129</creationdate><title>디코더</title><author>PIA NICOLA ; MULTRUS MARKUS ; FUCHS GUILLAUME ; AHMED AHMED MUSTAFA MAHMOUD ; GUPTA KISHAN ; BUETHE JAN ; KORSE SRIKANTH</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_KR20240012407A3</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>kor</language><creationdate>2024</creationdate><topic>ACOUSTICS</topic><topic>CALCULATING</topic><topic>COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>MUSICAL INSTRUMENTS</topic><topic>PHYSICS</topic><topic>SPEECH ANALYSIS OR SYNTHESIS</topic><topic>SPEECH OR AUDIO CODING OR DECODING</topic><topic>SPEECH OR VOICE PROCESSING</topic><topic>SPEECH RECOGNITION</topic><toplevel>online_resources</toplevel><creatorcontrib>PIA NICOLA</creatorcontrib><creatorcontrib>MULTRUS MARKUS</creatorcontrib><creatorcontrib>FUCHS GUILLAUME</creatorcontrib><creatorcontrib>AHMED AHMED MUSTAFA MAHMOUD</creatorcontrib><creatorcontrib>GUPTA KISHAN</creatorcontrib><creatorcontrib>BUETHE JAN</creatorcontrib><creatorcontrib>KORSE SRIKANTH</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>PIA NICOLA</au><au>MULTRUS MARKUS</au><au>FUCHS GUILLAUME</au><au>AHMED AHMED MUSTAFA MAHMOUD</au><au>GUPTA KISHAN</au><au>BUETHE JAN</au><au>KORSE SRIKANTH</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>디코더</title><date>2024-01-29</date><risdate>2024</risdate><abstract>오디오 신호를 디코딩 및/또는 생성하고, 오디오 디코더 및/또는 생성기를 훈련하기 위한 기술이 개시된다. 오디오 디코더(10)는 비트스트림(3)으로부터 오디오 신호(16)를 생성하도록 구성되고, 상기 비트스트림(3)은 상기 오디오 신호(16)를 나타내고, 상기 오디오 신호는 연속하는 프레임들로 세분화 된다. 상기 오디오 디코더(10)는 다음을 포함한다: 복수의 채널들을 가지는 제1 데이터(15)를 제공하기 위한 제1 데이터 제공기(702); 복수의 채널들(47)을 갖는 제1 출력 데이터(69)를 출력하기 위한 제1 처리 블록(40,50,50a-50h); 및 제2 처리 블록(45). 상기 제1 처리 블록(50)은 다음을 포함한다: 상기 비트스트림(3)을 수신하고, 상기 주어진 프레임에 대한 복수의 샘플들 및 복수의 채널들을 갖는 상기 주어진 프레임 내의 상기 오디오 신호(16)를 나타내는 타겟 데이터(12)를 출력하는 학습가능한 레이어(710); 상기 주어진 프레임에 대한 컨디셔닝 특징 파라미터들(74, 75)을 얻기 위하여 상기 주어진 프레임에 대해, 상기 타겟 데이터(12)를 처리하는 컨디셔닝 학습가능한 레이어(71, 72, 73); 및 상기 컨디셔닝 특징 파라미터들(74, 75)을 상기 제1 데이터(15, 59a)에 적용하는 스타일링 요소(77). 상기 제2 처리 블록(45)은 상기 제2 데이터(69)의 상기 복수의 채널들(47)을 결합하여 상기 오디오 신호(16)를 획득한다.
There are disclosed techniques for decoding and/or generating an audio signal and training an audio decoder and/or generator. An audio decoder (10), configured to generate an audio signal (16) from a bitstream (3), the bitstream (3) representing the audio signal (16), the audio signal being subdivided in a sequence of frames. The audio decoder (10) comprises: a first data provisioner (702) to provide first data (15), the first data (15) having mul- tiple channels; a first processing block (40, 50, 50a-50h) to output first output data (69) having mul- tiple channels (47), and a second processing block (45). The first processing block (50) comprises: a learnable layer (710) to receive the bitstream (3) and, for the given frame, output target data (12) representing the audio signal (16) in the given frame with multiple channels and multiple samples for the given frame; a conditioning learnable layer (71, 72, 73) to process the target data (12) to obtain conditioning feature parameters (74, 75) for the given frame; and a styling element (77) applying the conditioning feature parameters (74, 75) to the first data (15, 59a). The second processing block (45) combines the plurality of channels (47) of the second data (69) to obtain the audio signal (16).</abstract><oa>free_for_read</oa></addata></record> |
fulltext | fulltext_linktorsrc |
identifier | |
ispartof | |
issn | |
language | kor |
recordid | cdi_epo_espacenet_KR20240012407A |
source | esp@cenet |
subjects | ACOUSTICS CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION |
title | 디코더 |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-11T17%3A53%3A02IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=PIA%20NICOLA&rft.date=2024-01-29&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3EKR20240012407A%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true |