TUNABLE AGENT BEHAVIORS THROUGH CONTINUOUS REWARD WEIGHT-BASED GOAL SPACES

A single policy can be trained to handle the user selection of parameters across a predetermined range for each component of an artificial intelligent agent within a domain. The agent can be trained across a number of weights within the desired range for each component. These weights determine how m...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: SUBRAMANIAN, Kaushik, DU, Yunshu, MACALPINE, Patrick, DEVLIC, Alisa, SHERSTAN, Craig, SENO, Takuma, WURMAN, Peter, FUCHS, Florian
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A single policy can be trained to handle the user selection of parameters across a predetermined range for each component of an artificial intelligent agent within a domain. The agent can be trained across a number of weights within the desired range for each component. These weights determine how much of a reward portion for each component should be considered by the agent during training. Thus, an improved formulation can be realized for UVFA-like goals based on compositional reward functions parameterized by their components' weights. Additionally, a set of reward components has been determined for the domain of autonomous racing games that, when combined with the improved UVFA formulation, allows training a single racing agent that generalizes over continuous behaviors in multiple dimensions. This can be used by game designers to tune the skill and personality of a trained agent. Une seule politique peut être entraînée pour gérer la sélection par l'utilisateur de paramètres sur une plage prédéterminée pour chaque composant d'un agent intelligent artificiel dans un domaine. L'agent peut être entraîné sur un certain nombre de poids dans la plage souhaitée pour chaque composant. Ces poids déterminent la quantité d'une partie de récompense pour chaque composant devant être considérée par l'agent pendant l'apprentissage. Ainsi, une formulation améliorée peut être réalisée pour des objectifs de type UVFA à partir de fonctions de récompense de composition paramétrées par leurs poids de composants. De plus, un ensemble de composants de récompense a été déterminé pour le domaine de jeux de course autonomes qui, lorsqu'ils sont combinés à la formulation d'UVFA améliorée, permettent d'entraîner un agent de course unique qui généralise sur des comportements continus dans de multiples dimensions. Ceci peut être utilisé par des concepteurs de jeu pour régler la compétence et la personnalité d'un agent entraîné.