DISCRETE TOKEN PROCESSING USING DIFFUSION MODELS

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for generating an output sequence of discrete tokens using a diffusion model. In one aspect, a method includes generating, by using the diffusion model, a final latent representation of the sequence of di...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: DU, Yilun, SAVINOV, Nikolay, MENSCH, Arthur, SIFRE, Laurent, GRATHWOHL, Will S, STRUDEL, Robin, LEBLOND, Rémi, TALLEC, Corentin, GANIN, Iaroslav, ALTCHÉ, Florent, DIELEMAN, Sander Etienne Lea
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on computer storage media, for generating an output sequence of discrete tokens using a diffusion model. In one aspect, a method includes generating, by using the diffusion model, a final latent representation of the sequence of discrete tokens that includes a determined value for each of a plurality of latent variables; applying a de-embedding matrix to the final latent representation of the output sequence of discrete tokens to generate a de-embedded final latent representation that includes, for each of the plurality of latent variables, a respective numeric score for each discrete token in a vocabulary of multiple discrete tokens; selecting, for each of the plurality of latent variables, a discrete token from among the multiple discrete tokens in the vocabulary that has a highest numeric score; and generating the output sequence of discrete tokens that includes the selected discrete tokens. L'invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques codés sur des supports de stockage informatiques, pour la génération d'une séquence de sortie de jetons discrets à l'aide d'un modèle de diffusion. Selon un aspect, un procédé consiste à générer, en utilisant le modèle de diffusion, une représentation latente finale de la séquence de jetons discrets qui comprend une valeur déterminée pour chacune d'une pluralité de variables latentes ; appliquer une matrice de désintégration à la représentation latente finale de la séquence de sortie de jetons discrets pour générer une représentation latente finale désintégrée qui comprend, pour chacune de la pluralité de variables latentes, un score numérique respectif pour chaque jeton discret dans un vocabulaire de multiples jetons discrets ; sélectionner, pour chacune de la pluralité de variables latentes, un jeton discret parmi les multiples jetons discrets dans le vocabulaire qui possède un score numérique le plus élevé ; et générer la séquence de sortie de jetons discrets qui comprend les jetons discrets sélectionnés.