SPEECH ENHANCEMENT USING CLUSTERING OF CUES

A method for speech enhancement, the method may include receiving or generating sound samples that represent sound signals that were received during a given time period by an array of microphones; frequency transforming the sound samples to provide frequency-transformed samples; clustering the frequ...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: CHERKASSKY, Dani, SLAPAK, Alon
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method for speech enhancement, the method may include receiving or generating sound samples that represent sound signals that were received during a given time period by an array of microphones; frequency transforming the sound samples to provide frequency-transformed samples; clustering the frequency-transformed samples to speakers to provide speaker related clusters, wherein the clustering is based on (i) spatial cues related to the received sound signals and (ii) acoustic cues related to the speakers; determining a relative transfer function for each speaker of the speakers to provide speakers related relative transfer functions; applying a multiple input multiple output (MIMO) beamforming operation on the speakers related relative transfer functions to provide beamformed signals; and inverse-frequency transforming the beamformed signals to provide speech signals. La présente invention concerne un procédé d'amélioration de la qualité de la parole. Le procédé peut consister à recevoir ou à générer des échantillons sonores qui représentent des signaux sonores qui ont été reçus pendant une période de temps donnée par un réseau de microphones ; à transformer en fréquence des échantillons sonores afin de fournir des échantillons transformés en fréquence ; à regrouper les échantillons transformés en fréquence en locuteurs afin de fournir des groupes associés aux locuteurs, le regroupement étant fondé sur (i) des repères spatiaux associés aux signaux sonores reçus et (ii) des repères acoustiques associés aux locuteurs ; à déterminer une fonction de transfert relative pour chaque locuteur afin de fournir des fonctions de transfert relatives associées aux locuteurs ; à appliquer une opération de formation de faisceaux à entrées multiples et sorties multiples (MIMO) aux fonctions de transfert relatives associées aux locuteurs afin de fournir des signaux mis en forme de faisceaux ; et à transformer en fréquence inverse des signaux mis en forme de faisceaux afin de fournir des signaux de parole.