MANAGING SENSOR ENTITIES ON A RADIO STRIPE
A method (200) is disclosed for using Reinforcement Learning to manage sensor entities on a radio stripe, wherein the sensor entities are operable to perform a task. The method comprises obtaining a representation of a current state of the radio stripe (210), and, for sensor entities on the radio st...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A method (200) is disclosed for using Reinforcement Learning to manage sensor entities on a radio stripe, wherein the sensor entities are operable to perform a task. The method comprises obtaining a representation of a current state of the radio stripe (210), and, for sensor entities on the radio stripe (260), using the current state of the radio stripe and a selection policy to select an action to be carried out on the sensor entity (220) and causing the action to be carried out on the sensor entity (230). The method further comprises obtaining an updated representation of a current state of the radio stripe and a value of a reward function that measures impact of the selected actions on performance of the task (240), updating the selection policy using at least the obtained reward function value (250). A sensor entity comprises at least one sensor device mounted on the radio stripe, and each sensor device of the sensor entity is exposed as a LwM2M object instance (270).
L'invention concerne un procédé (200) visant à utiliser l'apprentissage par renforcement afin de gérer des entités de capteur sur une bande radio, les entités de capteur servant à effectuer une tâche. Le procédé consiste à obtenir une représentation d'un état actuel de la bande radio (210) et, pour des entités de capteur sur la bande radio (260), à utiliser l'état actuel de la bande radio et une politique de sélection afin de sélectionner une action à effectuer sur l'entité de capteur (220) et à provoquer l'exécution de l'action sur l'entité de capteur (230). Le procédé consiste en outre à obtenir une représentation mise à jour d'un état actuel de la bande radio et une valeur d'une fonction de récompense qui mesure l'impact des actions sélectionnées sur l'exécution de la tâche (240), à mettre à jour la politique de sélection à l'aide d'au moins la valeur de fonction de récompense obtenue (250). Une entité de capteur comprend au moins un dispositif de capteur monté sur la bande radio, et chaque dispositif de capteur de l'entité de capteur est exposé en tant qu'instance d'objet LwM2M (270). |
---|