Signal Subspace Decompostions for Perceptual Speech and Audio Processing (Signaal subruimte ontbindingen voor perceptuele spraak- en audioverwerking)

Dit doctoraat levert een bijdrage aan het onderzoeksdomein van digitale spraak- en audioverwerking. Meer specifiek worden subruimte ontbindingen uitgevoerd op observatiematrices die worden geconstrueerd uit korte spraak- en audiosegmenten, met een tweeledig doel : signaalmodellering (of compressie)...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Hermus, K
Format: Dissertation
Sprache:dut
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Dit doctoraat levert een bijdrage aan het onderzoeksdomein van digitale spraak- en audioverwerking. Meer specifiek worden subruimte ontbindingen uitgevoerd op observatiematrices die worden geconstrueerd uit korte spraak- en audiosegmenten, met een tweeledig doel : signaalmodellering (of compressie) en signaalverbetering. De signaalverwerking wordt hierbij gestuurd door een psycho-akoestisch model om de beperkingen van het menselijk gehoor optimaal te kunnen benutten. Het eerste deel van dit werk handelt over perceptuele spraak- en audiomodellering. Het objectief van dit onderzoek is de transformatie van digitale signalen naar een compacte set van beschrijvende parameters die - in combinatie met het aangenomen signaalmodel - toelaten om een signaal te construeren dat perceptueel niet te onderscheiden valt van het originele signaal. Algoritmen voor de analyse, codering en resynthese van digitale spraak- en audiosignalen vereenvoudigen de efficiente opslag en verspreiding van deze signalen (bv. de MP3-standaard voor perceptuele audiocodering). Onze belangrijkste bijdrage is de ontwikkeling van een nieuw model voor de ontbinding van spraak- en audiosignalen in een eindige som van gedempte sinusoiden. Deze ontbinding is gebaseerd op een projectie van het originele signaal op een lagerdimensionale subruimte met behulp van totale kleinste kwadraten (TKK) algoritmen. Dankzij de invoeging van een psycho-akoestisch model slagen we erin om het aantal benodigde modelleringsparameters minimaal te houden, aangezien enkel de perceptueel relevante gedempte sinusoiden uit het signaal worden geextraheerd. Door het gebruik van een subband schema wordt daarenboven de benodigde rekentijd drastisch gereduceerd. Het exponentieel sinusoidaal model (ESM) is een veralgemening van het traditionele sinusoidaal model (SM) en is geschikt voor de representatie van zowel tonale als transitionele geluidssegmenten. Computersimulaties bevestigen de doeltreffendheid van het perceptueel TKK-ESM model, hetgeen perspectieven biedt voor de aanwending van dit model in het veelbelovende domein van parametrische audiocodering aan erg lage bitsnelheden. In het tweede deel van dit werk onderzoeken we het potentieel van subruimte technieken voor de verwijdering van additieve ruis uit spraaksignalen. Door het wijdverspreide gebruik van lage-kost en/of hardware-gelimiteerde communicatietoestellen in ongecontroleerde omgevingen (bv. mobiele telefoon, hoorapparaten), is spraakverbetering een belangrijke c