METHODS AND SYSTEMS FOR SELECTING ACTIONS FROM A SET OF ACTIONS TO BE PERFORMED IN AN ENVIRONMENT AFFECTED BY DELAYS

A method of selecting an action from a plurality of actions to be performed in an environment comprises maintaining, for each action, count data indicative of a number of times the action has been performed and a difference between the number of times and a number of observed resulting rewards for t...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: VARRO, DANIEL, PILARSKI, SEBASTIAN, PILARSKI, SLAWOMIR
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method of selecting an action from a plurality of actions to be performed in an environment comprises maintaining, for each action, count data indicative of a number of times the action has been performed and a difference between the number of times and a number of observed resulting rewards for the action, each reward being a numeric value that measures an outcome of a given action, determining, from the count data and a bandit score provided by a bandit model, an expected score for each action, the bandit score provided by the bandit model for a given history of performed actions and observed rewards, and the expected score determined by determining an expected value of the bandit score given a likelihood of some of the actions having unobserved pending rewards, and selecting the action from the actions and based on the expected score for each action. L'invention concerne un procédé de sélection d'une action parmi une pluralité d'actions à effectuer dans un environnement, consistant : à entretenir, pour chaque action, des données de comptage indiquant le nombre de fois où l'action a été effectuée et une différence entre le nombre de fois et le nombre de récompenses résultantes observées pour l'action, chaque récompense étant une valeur numérique mesurant le résultat d'une action donnée ; à déterminer, à partir des données de comptage et d'un score de bandit fourni par un modèle de bandit, un score attendu pour chaque action, le score de bandit étant fourni par le modèle de bandit pour un historique donné d'actions effectuées et de récompenses observées, et le score attendu étant déterminé par détermination d'une valeur attendue du score de bandit tenant compte de la probabilité de certaines des actions ayant des récompenses en attente non observées ; et à sélectionner l'action parmi les actions et en fonction du score attendu pour chaque action.