REWARD-MODEL BASED REINFORCEMENT LEARNING FOR PERFORMING REASONING TASKS

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for A training a language model for performing a reasoning task. The system obtains a plurality of training examples. Each training example includes a respective sample query text sequence characterizing...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HIGGINS, Irina, UESATO, Jonathan Ken, KUMAR, Ramana, KUSHMAN, Nathaniel Arthur
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer programs encoded on computer storage media, for A training a language model for performing a reasoning task. The system obtains a plurality of training examples. Each training example includes a respective sample query text sequence characterizing a respective sample query and a respective reference response text sequence that includes a reference final answer to the respective sample query. The system trains a reward model on the plurality of training examples. The reward model is configured to receive an input including a query text sequence characterizing a query and one or more reasoning steps that have been generated in response to the query and process the input to compute a reward score indicating how successful the one or more reasoning steps are in yielding a correct final answer to the query. The system trains the language model using the trained reward model. L'invention concerne des procédés, des systèmes et des appareils, y compris des programmes informatiques codés sur des supports de stockage informatiques, pour l'entraînement d'un modèle de langage destiné à effectuer une tâche de raisonnement. Le système obtient une pluralité d'exemples d'entraînement. Chaque exemple d'entraînement comprend une séquence de texte de requête échantillon respective caractérisant une requête échantillon respective et une séquence de texte de réponse de référence respective qui comprend une réponse finale de référence à la requête échantillon respective. Le système entraîne un modèle de récompense sur la pluralité d'exemples d'entraînement. Le modèle de récompense est configuré pour recevoir une entrée comprenant une séquence de texte de requête caractérisant une requête et une ou plusieurs étapes de raisonnement qui ont été générées en réponse à la requête, et traiter l'entrée afin de calculer un score de récompense indiquant dans quelle mesure la ou les étapes de raisonnement réussissent à donner une réponse finale correcte à la requête. Le système entraîne le modèle de langage à l'aide du modèle de récompense entraîné.