METHOD FOR DETECTING AN AUDIO ADVERSARIAL ATTACK WITH RESPECT TO A VOICE INPUT PROCESSED BY AN AUTOMATIC SPEECH RECOGNITION SYSTEM, CORRESPONDING DEVICE, COMPUTER PROGRAM PRODUCT AND COMPUTER-READABLE CARRIER MEDIUM

The disclosure relates to a method and device for detecting an audio adversarial attack with respect to a voice input (VI) processed by an automatic speech recognition system (ASR). The method includes: obtaining (12) a transcript (T) resulting from the processing, by the automatic speech recognitio...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GAUTIER, Eric, NADEAU, Pascal, DELAUNAY, Christophe, GILBERTON, Philippe
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The disclosure relates to a method and device for detecting an audio adversarial attack with respect to a voice input (VI) processed by an automatic speech recognition system (ASR). The method includes: obtaining (12) a transcript (T) resulting from the processing, by the automatic speech recognition system, of an input audio signal of a voice input; converting (13) the transcript (T) into a synthesized audio signal (SAS); extracting (15, 15'), from the input audio signal and from the synthesized audio signal, acoustic features and converting them into sequences of feature vectors (sFV1, sFV2); computing (17) a dynamic time warping distance (D) between the sequences of converted features vectors; and delivering (18) a piece of data representative of a detection of an audio adversarial attack, as a function of a result of a comparison between the dynamic time warping distance and a predetermined threshold. La divulgation concerne un procédé et un dispositif de détection d'attaque audio antagoniste par rapport à une entrée vocale (VI) traitée par un système de reconnaissance automatique de la parole (ASR). Le procédé consiste à : obtenir (12) une transcription (T) obtenue du traitement, par le système de reconnaissance automatique de la parole, d'un signal audio d'entrée d'une entrée vocale ; convertir (13) la transcription (T) en un signal audio synthétisé (SAS) ; extraire (15, 15'), du signal audio d'entrée et du signal audio synthétisé, des caractéristiques acoustiques et les convertir en séquences de vecteurs de caractéristiques (sFV1, sFV2) ; calculer (17) une distance d'alignement temporel dynamique (D) entre les séquences de vecteurs de caractéristiques converties ; et délivrer (18) un élément de données indiquant une détection d'une attaque audio antagoniste, en fonction d'un résultat d'une comparaison entre la distance d'alignement temporel dynamique et un seuil prédéfini.