ATTENTION NEURAL NETWORKS WITH CONDITIONAL COMPUTATION
Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for performing a machine learning task on a network input to generate a network output. In one aspect, one of the systems includes an attention neural network configured to perform the machine learning...
Gespeichert in:
Hauptverfasser: | , , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for performing a machine learning task on a network input to generate a network output. In one aspect, one of the systems includes an attention neural network configured to perform the machine learning task, the attention neural network including one or more attention layers, each attention layer comprising an attention sub-layer and a feed-forward sub-layer. Some or all of the attention layers have a feed-forward sub-layer that applies conditional computation to the inputs to the sub-layer.
L'invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques codés sur un support de stockage informatique, pour effectuer une tâche d'apprentissage automatique sur une entrée de réseau pour générer une sortie de réseau. Selon un aspect, un des systèmes comprend un réseau neuronal d'attention configuré pour effectuer la tâche d'apprentissage automatique, le réseau neuronal d'attention comprenant une ou plusieurs couches d'attention, chaque couche d'attention comprenant une sous-couche d'attention et une sous-couche à propagation avant. Une partie ou la totalité des couches d'attention ont une sous-couche à propagation avant qui applique un calcul conditionnel aux entrées à la sous-couche. |
---|