REINFORCEMENT LEARNING WITH QUANTUM ORACLE

A computing device is provided, including a processor configured to transmit, to a quantum coprocessor, instructions to encode a Markov decision process (MDP) model as a quantum oracle. The processor may be further configured to train a reinforcement learning model at least in part by transmitting a...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: WANG, Daochen, KOTHARI, Robin Ashok, MEENAKSHI SUNDARAM, Aarthi, ROETTELER, Martin Henri, KAPOOR, Ashish
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A computing device is provided, including a processor configured to transmit, to a quantum coprocessor, instructions to encode a Markov decision process (MDP) model as a quantum oracle. The processor may be further configured to train a reinforcement learning model at least in part by transmitting a plurality of superposition queries to the quantum oracle encoded at the quantum coprocessor. Training the reinforcement learning model may further include receiving, from the quantum coprocessor, one or more measurement results in response to the plurality of superposition queries. Training the reinforcement learning model may further include updating a policy function of the reinforcement learning model based at least in part on the one or more measurement results. L'invention concerne un dispositif informatique, comprenant un processeur configuré pour transmettre, à un coprocesseur quantique, des instructions permettant de coder un modèle de processus de décision de Markov (MDP) en tant qu'oracle quantique. Le processeur peut en outre être configuré pour former un modèle d'apprentissage par renforcement au moins en partie par transmission d'une pluralité d'interrogations de superposition à l'oracle quantique codé au niveau du coprocesseur quantique. La formation du modèle d'apprentissage par renforcement peut en outre comprendre la réception, à partir du coprocesseur quantique, d'un ou de plusieurs résultats de mesure en réponse à la pluralité d'interrogations de superposition. La formation du modèle d'apprentissage par renforcement peut en outre comprendre la mise à jour d'une fonction de politique du modèle d'apprentissage par renforcement sur la base, au moins en partie, dudit ou des résultats de mesure.