Skalierbares Reinforcement Learning für industrielle Anwendungen
von Heiko Hoppe
Während Deep Reinforcement Learning (DRL) in Bereichen wie der Steuerung von Robotern oder der Verarbeitung von Sprache bereits zu beachtlichen Erfolgen geführt hat, wird es in industriellen Anwendungen, wie der Inventarplanung, der Fahrzeugdisposition oder der Produktionsplanung, noch mit großen Herausforderungen konfrontiert. Diese Herausforderungen ergeben sich hauptsächlich aus dem großen und kombinatorisch strukturierten Lösungsraum industrieller Probleme, der ein effektives Training von DRL-Algorithmen verhindert. Zum Beispiel skaliert der Lösungsraum eines Inventarplanungsproblems exponentiell mit der Anzahl der betrachteten Artikel und der zulässigen Lagerbestände.
Um diese Herausforderungen zu meistern, kombinieren wir DRL und kombinatorische Optimierung (CO) in hybriden Architekturen. Der DRL-Teil einer solchen Pipeline ermöglicht ihre Anwendbarkeit in verschiedenen Situationen und ist ein leistungsfähiger Prädiktor für zukünftige Dynamiken. Der CO-Teil der Pipeline berücksichtigt die kombinatorische Struktur des Lösungsraumes und ermöglicht eine Reduktion seiner Dimensionalität. Die CO-Komponente generiert damit eine Abbildung der niedrigdimensionalen DRL-Ausgabe auf den höherdimensionalen kombinatorischen Lösungsraum.
Wir untersuchen mehrere neue Algorithmen für das Training dieser Pipelines: Erstens, Multi-Agent DRL als anpassungsfähige Methode für verschiedene kombinatorische Lösungsräume, die diskrete und kontinuierliche Komponenten enthalten können. Zweitens, Structured DRL als Algorithmus zur Differenzierung durch CO-Layer unter Verwendung von Fenchel-Young-Losses, wobei die Dynamik des CO-Layers im DRL-Algorithmus einbezogen wird, um die Trainingsstabilität und -Leistung zu verbessern. Drittens: Action Space Mappings für DRL als Methode zur Verbesserung der Skalierbarkeit von DRL in hochdimensionalen Lösungsräumen. Mit Hilfe dieser Methoden werden wir skalierbare DRL-Algorithmen für eine Vielzahl industrieller Probleme konstruieren.
Hoppe H., Enders T., Cappart Q., Schiffer M. (2024): Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems. In Proceedings of the 6th Annual Learning for Dynamics & Control Conference (L4DC), Proceedings of Machine Learning Research (PMLR), 242, pp. 260–272.
6th Annual Learning for Dynamics & Control Conference (L4DC), 15.07.2024–17.07.2024, Oxford, United Kingdom, conference paper
OR 2024 – International Conference on Operations Research 2024, 03.09.2024–06.09.2024, Munich, Germany, conference presentation