SEQUENCE PROCESSING USING ATTENTION AND SUB-SAMPLING

A computer-implemented method that comprises obtaining an input sequence of network inputs, processing each network input in the input sequence using a recurrent neural network to generate a sequence of recurrent outputs that includes a respective recurrent output for each network input in the input...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GREGOR, Karol, BAUMLI, Kate Alexandra, BAUER, Jakob Elias, SCHROECKER, Yannick, BHOOPCHAND, Avishkar Ajay, BEHBAHANI, Feryal, HUGHES, Edward Fauchon
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A computer-implemented method that comprises obtaining an input sequence of network inputs, processing each network input in the input sequence using a recurrent neural network to generate a sequence of recurrent outputs that includes a respective recurrent output for each network input in the input sequence, generating a sub-sampled sequence that includes a proper subset of the respective recurrent outputs, and processing the sub-sampled sequence using a self-attention neural network to generate a network output for the input sequence. The self-attention neural network comprises a self-attention subnetwork configured to apply self-attention over the sub-sampled sequence to generate a respective updated output for each recurrent output in the sub-sampled sequence and an output neural network configured to process one or more of the updated outputs to generate the network output for the input sequence. Est divulgué un procédé mis en œuvre par ordinateur, consistant : à obtenir une séquence d'entrées de réseau ; à traiter chaque entrée de réseau de la séquence d'entrées au moyen d'un réseau neuronal récurrent (RNN) pour générer une séquence de sorties récurrentes qui comprend une sortie récurrente respective pour chaque entrée de réseau de la séquence d'entrées ; à générer une séquence sous-échantillonnée qui comprend un sous-ensemble approprié des sorties récurrentes respectives ; et à traiter la séquence sous-échantillonnée au moyen d'un réseau neuronal auto-attentif pour générer une sortie de réseau pour la séquence d'entrées. Le réseau neuronal auto-attentif comprend un sous-réseau auto-attentif configuré pour appliquer une auto-attention sur la séquence sous-échantillonnée afin de générer une sortie mise à jour respective pour chaque sortie récurrente de la séquence sous-échantillonnée, et un réseau neuronal de sortie configuré pour traiter au moins une des sorties mises à jour afin de générer la sortie de réseau pour la séquence d'entrées.