TARGET SPEAKER MODE

Methods, systems, and apparatus, including computer programs encoded on computer storage media relate to a method for target speaker extraction. A target speaker extraction system receives an audio frame of an audio signal. A multi-speaker detection model analyzes the audio frame to determine whethe...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	WEI, Zhengwei, CHEN, Yuhui, ZENG, Yangbin, LIU, Qiyong
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	ACOUSTICS MUSICAL INSTRUMENTS PHYSICS SPEECH ANALYSIS OR SYNTHESIS SPEECH OR AUDIO CODING OR DECODING SPEECH OR VOICE PROCESSING SPEECH RECOGNITION
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Methods, systems, and apparatus, including computer programs encoded on computer storage media relate to a method for target speaker extraction. A target speaker extraction system receives an audio frame of an audio signal. A multi-speaker detection model analyzes the audio frame to determine whether the audio frame includes only a single-speaker or multiple speakers. When the audio frame includes only a single-speaker, the system inputs the audio frame to a target speaker VAD model to suppress speech in the audio frame from a non-target speaker based on comparing the audio frame to a voiceprint of a target speaker. When the audio frame includes multiple speakers, the system inputs the audio frame to a speech separation model to separate the voice of the target speaker from a voice mixture in the audio frame. Des procédés, des systèmes, et un appareil, comprenant des programmes informatiques codés sur des supports de stockage informatiques, concernent un procédé d'extraction d'orateur cible. Un système d'extraction d'orateur cible reçoit une trame audio d'un signal audio. Un modèle de détection multi-orateur analyse la trame audio pour déterminer si la trame audio comprend seulement un orateur unique ou de multiples orateurs. Lorsque la trame audio comprend seulement un orateur unique, le système entre la trame audio dans un modèle VAD d'orateur cible pour supprimer la parole dans la trame audio provenant d'un orateur non cible sur la base de la comparaison de la trame audio à une empreinte vocale d'un orateur cible. Lorsque la trame audio comprend de multiples orateurs, le système entre la trame audio dans un modèle de séparation de parole pour séparer la voix de l'orateur cible vis-à-vis d'un mélange de voix dans la trame audio.