SCALABLE AND EMBEDDED CODEC FOR SPEECH AND AUDIO SIGNALS

A system and method for processing audio or speech signals into digital code which is scalable to different digital sampling rates or transmitted bit rates. The input signal spectrum is split by band splitter (5) into portions based on selected frequencies, Bi, as shown on Fig. 1B. Each portion of t...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	WANG, WEI, CAMPANA, DAVID, A, CHEN, RAYMOND, ZOPF, ROBERT, W, AGUILAR, JOSEPH, G, SUN, XIAOQUIN, WATKINS, CRAIG, DUNN, ROBERT, B, MCAULAY, ROBERT, J
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	A system and method for processing audio or speech signals into digital code which is scalable to different digital sampling rates or transmitted bit rates. The input signal spectrum is split by band splitter (5) into portions based on selected frequencies, Bi, as shown on Fig. 1B. Each portion of the split spectrum is separately inputted to embedded encoders (2) to be packetized for particular applications by packet assembler (7) as shown in the general case of embedded coding by Fig. 1A; for windowed FFT octave bands by Fig. 2A; and for the corresponding inverse process at the receiver end by Fig. 2B. Fig. 2B shows packet extraction of coded signal by (9) and inputting of extracted code into corresponding embedded decoders (4) wherein the separate windows required for an application are assembled by (3) to produce an output signal at the desired sampling rate. A sinusoidal transform coder is shown by Fig. 3A where embeddedness is performed by reconstructions based on selected parameters such as pitch, voicing probability, sinusoid amplitudes and phase measurements for higher-bit-rate applications. On décrit un système et un procédé permettant de traiter des signaux de parole et de son sous forme de code numérique qui peut être mis à l'échelle pour des vitesses d'échantillonnage numérique différentes ou des débits binaires transmis différents. Le spectre du signal d'entrée est divisé par un découpeur (5) de bande en différentes parties en fonction de fréquences sélectionnées, Bi, comme l'indique la figure 1B. Chaque partie du spectre divisé est entrée séparément dans des codeurs (2) intégrés pour être conditionnée en paquets pour des applications particulières au moyen d'un assembleur (7) de paquets comme il est indiqué dans le cas général de codage intégré représenté par la figure 1A; pour des bandes d'octave TRF à fenêtres représentées dans la figure 2A; et pour le processus inverse correspondant au niveau de l'extrémité récepteur représenté par la figure 2B. La figure 2B représente l'extraction des paquets du signal codé par (9) et l'entrée du code extrait dans des décodeurs (4) intégrés correspondants dans lesquels les fenêtres séparées nécessaires pour une application sont assemblées par (3) pour produire un signal de sortie à la vitesse d'échantillonnage désirée. Un codeur par transformation sinusoïdale est représenté dans la figure 3A, dans ce dernier l'intégration est réalisée au moyen de reconstructions fondées sur des paramètres sélectionnés tel