A reinforcement learning approach for scheduling problems

El problema de secuenciacion de tareas es un problema clasico de la programacion de trabajos que puede presentarse en diferentes situaciones reales. La solucion de este problema consiste en encontrar una secuencia de tareas que emplee un tiempo minimo de procesamiento (makespan). El mismo esta inclu...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Investigación operacional 2015-09, Vol.36 (3), p.225
Hauptverfasser: Fonseca Reyna, Yunior Cesar, Ma, Bermudez Cabrera, Juan Manuel, Mendez Hernandez, Beatriz M
Format: Artikel
Sprache:eng ; spa
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:El problema de secuenciacion de tareas es un problema clasico de la programacion de trabajos que puede presentarse en diferentes situaciones reales. La solucion de este problema consiste en encontrar una secuencia de tareas que emplee un tiempo minimo de procesamiento (makespan). El mismo esta incluido dentro de la gran variedad de problemas de planificacion de recursos, el cual como muchos otros en este campo, es de dificil solucion y esta clasificado tecnicamente como de solucion en un tiempo no polinomial (NP-hard). Este problema es tipico de la optimizacion combinatoria y se presenta en talleres con tecnologia de maquinado donde existen maquinas-herramientas convencionales y se fabrican diferentes tipos de piezas que pueden, en dependencia del escenario, presentar una misma ruta o no. Considerando lo anterior, en este trabajo se presenta una alternativa de solucion a problemas de secuenciacion, especificamente a problemas tipos Job Shop y Flow Shop utilizando el algoritmo Q-Learning del Aprendizaje Reforzado. Finalmente, se realiza un estudio experimental utilizando instancias de problemas que se encuentran disponibles en la libreria de investigacion de operaciones. Los resultados obtenidos son comparados con los resultados optimos reportados. Scheduling problems are an important class of sequencing problems that can be found in many real life situations, especially in the field of production planning. The problem considered in this work is to find a permutation of operations to be sequentially processed on a number of machines under the restriction that the processing of each job has to be continuous with respect to the objective of minimizing the completion time of all jobs, known in literature as makespan or [C.sub.max]. This problem is as NP-hard, it is typical of combinatorial optimization and can be found in manufacturing environments, where there are conventional machines-tools and different types of pieces which can, in some scenarios, share the same route or not. The following research presents a Reinforcement Learning algorithm known as Q-Learning to solve scheduling problems, specifically Job Shop and Flow Shop. This algorithm is based on learning an action-value function that gives the expected utility of taking a given action in a given state, where an agent is associated to each of the resources. To validate the quality of the solutions, test cases of the specialized literature are used and the results obtained were compared with the repo
ISSN:0257-4306