JOINT DISTRIBUTED LEARNING OF SIGNALING AND POLICIES FOR RADIO RESOURCE ALLOCATION

This disclosure relates to allocating radio resources and a distributed learning approach therefor. A network device comprises a policy processor and a training processor. The policy processor determines an initial local state based on a current state of associated terminal devices, generates a firs...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GIANNAKAS, Theodoros, TSILIMANTOS, Dimitrios, DESTOUNIS, Apostolos
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:This disclosure relates to allocating radio resources and a distributed learning approach therefor. A network device comprises a policy processor and a training processor. The policy processor determines an initial local state based on a current state of associated terminal devices, generates a first message according to the initial local state, exchanges first messages with neighboring network devices, determines a radio resource allocation configuration based on the initial local state and the first messages, and allocates resources accordingly. The training processor generates a second message indicating a local reward from allocating the resources, exchanges second messages with the neighboring network devices, calculates a global reward based on the second messages, generates a third message indicating gradients based on radio resource allocation configurations, local state changes and global rewards from earlier time slots, exchanges third messages with the neighboring network devices, and updates the policy processor based on the third messages. La divulgation porte sur l'attribution de ressources radio et une approche d'apprentissage distribuée associée. Un dispositif réseau comprend un processeur de politique et un processeur d'entraînement. Le processeur de politique détermine un état local initial sur la base d'un état actuel de dispositifs terminaux associés, génère un premier message selon l'état local initial, échange des premiers messages avec des dispositifs réseaux voisins, détermine une configuration d'attribution de ressources radio sur la base de l'état local initial et des premiers messages, et attribue des ressources en conséquence. Le processeur d'entraînement génère un deuxième message indiquant une récompense locale à partir de l'attribution des ressources, échange des deuxièmes messages avec les dispositifs réseaux voisins, calcule une récompense globale sur la base des deuxièmes messages, génère un troisième message indiquant des gradients sur la base de configurations d'attribution des ressources radio, de changements d'état local et de récompenses globales à partir de créneaux temporels antérieurs, échange des troisièmes messages avec les dispositifs réseaux voisins, et met à jour le processeur de politique sur la base des troisièmes messages.