STRUCTURAL ENCODING AND ATTENTION PARADIGMS FOR SEQUENCE MODELING

Systems and methods for providing a structure-aware sequence model that can interpret a document's text without first inferring the proper reading order of the document. In some examples, the model may use a graph convolutional network to generate contextualized "supertoken" embedding...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: LEE, Chen-Yu, FUJII, Yasuhisa, LI, Chun-Liang, SU, Guolong, PEROT, Vincent, AINSLIE, Joshua, WANG, Renshen, DOZAT, Timothy, PFISTER, Tomas, HUA, Nan
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Systems and methods for providing a structure-aware sequence model that can interpret a document's text without first inferring the proper reading order of the document. In some examples, the model may use a graph convolutional network to generate contextualized "supertoken" embeddings for each token, which are then fed to a transformer that employs a sparse attention paradigm in which attention weights for at least some supertokens are modified based on differences between predicted and actual values of the order and distance between the attender and attendee supertokens. Systèmes et procédés destinés à fournir un modèle de séquence sensible à la structure qui peut interpréter un texte d'un document sans inférer d'abord l'ordre de lecture approprié du document. Dans certains exemples, le modèle peut utiliser un réseau de convolution de graphe pour générer des incorporations de "super-jeton" contextualisées pour chaque jeton, qui sont ensuite fournies à un transformateur qui utilise un paradigme d'attention parcimonieux dans lequel des poids d'attention pour au moins certains super-jetons sont modifiés sur la base de différences entre des valeurs prédites et réelles de l'ordre et de la distance entre les super-jetons d'assistant et de participant.