SPEECH ENHANCEMENT AND NOISE SUPPRESSION SYSTEMS AND METHODS

Example speech enhancement and noise suppression systems and methods are described. In one implementation, a method receives an audio file comprising a combination of voice data and noise data, and divides the audio file into multiple frames. The method performs a discrete Fourier transform on each...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	SARGSYAN, Stepan, MINASYAN, Artavazd
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Example speech enhancement and noise suppression systems and methods are described. In one implementation, a method receives an audio file comprising a combination of voice data and noise data, and divides the audio file into multiple frames. The method performs a discrete Fourier transform on each frame of a first subset of the multiple frames to provide a plurality of frequency-domain outputs, which are input to a neural network. A ratio mask is obtained as an output from the neural network and clean voice coefficients are computed using the ratio mask. The method outputs an audio file having enhanced speech based on the computed clean voice coefficients. L'invention concerne, par exemple, des systèmes et des procédés d'amélioration de la qualité vocale et de suppression de bruit. Dans un mode de réalisation, un procédé consiste à recevoir un fichier audio comprenant une combinaison de données vocales et de données de bruit et à diviser le fichier audio en de multiples trames. Le procédé met en œuvre une transformée de Fourier discrète sur chaque trame d'un premier sous-ensemble des multiples trames pour fournir une pluralité de données de sortie de domaine fréquentiel, qui sont entrées dans un réseau neuronal. Un masque de rapport est obtenu à la sortie du réseau neuronal et des coefficients de voix nettoyée sont calculés à l'aide du masque de rapport. Le procédé fournit un fichier audio présentant une qualité vocale améliorée sur la base des coefficients de voix nettoyée calculés.