Neural networks and Monte-Carlo method usage in multi-agent systems for sudoku problem solving

Katerina Poloziuk; Vadym Yaremenko

doi:10.15587/2706-5448.2020.218427

Автор(и)

Katerina Poloziuk Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056, Україна https://orcid.org/0000-0002-9892-5196
Vadym Yaremenko Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056, Україна https://orcid.org/0000-0001-8557-6938

DOI:

https://doi.org/10.15587/2706-5448.2020.218427

Ключові слова:

DQN, DDQN, TD, PPO, нейронна мережа, глибинне навчання, навчання з підкріпленням, мультиагентна система, MCTS, Q-Learning.

Анотація

Об’єктом дослідження в даній роботі є мультиагентні системи, засновані на алгоритмах Глибинного навчання з підкріпленням та аналізі способів встановлення взаємодії в системі на основі інтелектуальних агентів. Крім того, частина матеріалу в цій роботі охоплює способи організації управління та адміністрування агентів на метарівні: зовнішні контролери та інструменти для оптимізації їх роботи, описуючи при цьому архітектурні рішення, які повинні прискорити навчання агентів. Досліджувана повноцінна мультиагентна система буде сприйнятливою до розширення та дасть ефективне прискорення у навчанні агентів та якості вирішення задач.

В даній роботі були розглянуті наступні моделі нейронних мереж: DQN, DDQN, PPO, TD (методи, що базуються на використанні Q-Learning) та підхід з використанням нейронної мережі з пошуком Монте-Карло по дереву. Дані моделі було перевірено на задачі судоку з набором даних розміром 5039 комбінацій, розмірності 2х2, 4х4 та 9х9. Було використано декілька наборів нагород для агентів. Описано спосіб представлення даних під час процесу навчання та вирішення задачі. Також було побудовано мультиагентну систему на основі моделі з використанням пошуку Монте-Карло по дереву.

За результатами дослідження було виявлено, що для задач в комплексному просторі, моделі, котрі базуються на Q-Learning, є практично не ефективними (твердження підкріплені графіками). Процес навчання цих моделей є досить вимогливим до характеристик апаратного забезпечення робочої станції. Також було виявлено, що метод на основі пошуку Монте-Карло чудово справляється з задачею. Навіть при малій кількості ітерацій він показує результати, кращі за інші методи Глибинного навчання (точність 45–50 % для 9х9). Проте суттєвим недоліком є складність навчання моделі, а вимоги до апаратного забезпечення є занадто великими в рамках дослідження такого роду.

Біографії авторів

Katerina Poloziuk, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056

Кафедра системного проектування

Vadym Yaremenko, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056

Аспірант, асистент

Кафедра системного проектування

Посилання

Wang, Y., Wu, F. (2019). Multi-Agent Deep Reinforcement Learning with Adaptive Policies. ArXiv, abs/1912.00949. Available at: https://arxiv.org/abs/1912.00949
Tampuu, A., Matiisen, T., Kodelja, D., Kuzovkin, I., Korjus, K., Aru, J. et. al. (2017). Multiagent cooperation and competition with deep reinforcement learning. PLOS ONE, 12 (4), e0172395. doi: http://doi.org/10.1371/journal.pone.0172395
Simoes, D., Lau, N., Reis, L. P. (2019). Multi-Agent Deep Reinforcement Learning with Emergent Communication. 2019 International Joint Conference on Neural Networks (IJCNN). doi: http://doi.org/10.1109/ijcnn.2019.8852293
Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G. et. al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529 (7587), 484–489. doi: http://doi.org/10.1038/nature16961
Nguyen, T. T., Nguyen, N. D., Nahavandi, S. (2020). Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications. IEEE Transactions on Cybernetics, 50 (9), 3826–3839. doi: http://doi.org/10.1109/tcyb.2020.2977374
Kumar, S., Hakkani-Tür, D., Shah, P., Heck, L. (2017). Federated control with hierarchical multi-agent deep reinforcement learning. ArXiv. Available at: https://arxiv.org/abs/1712.08266v1
Hernandez-Leal, P., Kartal, B., Taylor, M. E. (2019). A survey and critique of multiagent deep reinforcement learning. Autonomous Agents and Multi-Agent Systems, 33 (6), 750–797. doi: http://doi.org/10.1007/s10458-019-09421-1
Foerster, J. N., Assael, Y. M., De Freitas, N., Whiteson, S. (2016). Learning to communicate with deep multi-agent reinforcement learning. Advances in Neural Information Processing Systems. Neural information processing systems foundation, 2145–2153.
Gupta, J. K., Egorov, M., Kochenderfer, M. (2017). Cooperative Multi-agent Control Using Deep Reinforcement Learning. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) Vol. 10642 LNAI. Springer Verlag, 66–83. Available at: http://doi.org/10.1007/978-3-319-71682-4_5
Nguyen, N. D., Nguyen, T., Nahavandi, S. (2019). Multi-agent behavioral control system using deep reinforcement learning. Neurocomputing, 359, 58–68. doi: http://doi.org/10.1016/j.neucom.2019.05.062
Da Silva, F. L., Glatt, R., Costa, A. H. R. (2017). Simultaneously learning and advising in multiagent reinforcement learning. Proceedings of the International Joint Conference on Autonomous Agents and Multiagent Systems, AAMAS. Vol. 2. International Foundation for Autonomous Agents and Multiagent Systems (IFAAMAS), 1100–1108