Procedimiento implementado por ordenador, dispositivo para el procesamiento de datos y sistema informático para controlar un equipo de regulación de un sistema de transporte

La aplicación de métodos de aprendizaje por refuerzo a sistemas transportadores (2) para mercancías por piezas (4) alcanza rápidamente sus límites debido al elevado número de elementos transportadores individuales (12), que determina la dimensionalidad de los vectores de acción (a(t)). La invención...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: PFEIFFER, Dr. Frank, OTTE, Dr. Clemens, SCHALL, Martin, ZETTLER, Michael, HEIN, Dr. Daniel, WEBER, Dr. Marc Christian
Format: Patent
Sprache:spa
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:La aplicación de métodos de aprendizaje por refuerzo a sistemas transportadores (2) para mercancías por piezas (4) alcanza rápidamente sus límites debido al elevado número de elementos transportadores individuales (12), que determina la dimensionalidad de los vectores de acción (a(t)). La invención describe un método implementado por ordenador, un dispositivo para el procesamiento de datos y un sistema informático para controlar un dispositivo de control de un sistema transportador (2) con elementos transportadores (12) controlables individualmente, para conseguir una alineación y/o una distancia definida. de los artículos por pieza (4), el control del dispositivo de control (14) está determinado por un agente que actúa según métodos de aprendizaje por refuerzo. Utilizando una imagen, se crea un vector de estado local individual sn(t) de dimensiones predeterminadas para cada uno de los bienes por pieza (4n) y la dimensión es la misma para todos los bienes por pieza (4). Individualmente para cada bien (4n), se selecciona un vector de acción (an(t)) de un espacio de acción de acuerdo con una estrategia (política) que es la misma para todos los bienes (4, 4n) para el período actual. vector de estado (sn(t)) de este bien (4). . Estos vectores de acción (an(t)) se proyectan sobre los elementos transportadores (12), con lo que se resuelven los conflictos (por ejemplo, varios vectores de acción (an(t)) se asignan al mismo elemento transportador (12)). Una vez transcurrido un tiempo de ciclo (Δt), se crean nuevamente vectores de estado (sn(t+Δt)) para cada pieza de bien (4n) y se evalúan con recompensas y se ajusta la estrategia. (Traducción automática con Google Translate, sin valor legal) A computer-implemented method, a device for data processing and a computer system for controlling a control device of a conveyor system to achieve an alignment and/or a defined spacing of piece goods, wherein the control of the control device is determined by an agent acting according to Reinforcement Learning methods. An individual, local state vector of predefined dimension that is the same for all the piece goods is created for each of the piece goods and an action vector is selected from an action space according to a strategy that is the same for all piece goods for the current state vector of this piece good. These action vectors are projected onto the conveying elements, wherein conflicts are resolved. After a cycle time has elapsed, state vectors are created again for e