This thesis describes the development and benchmarking of a deep reinforcement learning architecture using a pointer generation neural network with an Actor-Critic Monte-Carlo Policy Gradient training algorithm. The model is tested by solving real-world data-based combinatorial optimization problems for Fleet Dispatching and Minimum Weighted Bipartite Matching graphs by learning a competitive near-optimal and efficient heuristic automatically.
Translated abstract:
Diese Dissertation beschreibt die Entwicklung und den Leistungsvergleich einer „Deep Reinforcement Learning“ Architektur mit Zeiger-Generations-Netzwerk, das mit einem „Actor-Critic Monte-Carlo Policy Gradient“ Algorithmus antrainiert wird. Das Modell wird mit echten Daten anhand kombinatorischer Optimierungsprobleme für Flottenlogistik und gewichteten bipartiten Zuweisungsgraphen getestet. Das Modell erlernt hierbei automatisiert eine kompetitive nah-optimale und sehr effiziente Heuristik.