Використання штучних нейронних мереж та методу монте-карло в мультиагентних системах для вирішення задачі судоку

Автор(и)

  • Katerina Poloziuk Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056, Україна https://orcid.org/0000-0002-9892-5196
  • Vadym Yaremenko Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056, Україна https://orcid.org/0000-0001-8557-6938

DOI:

https://doi.org/10.15587/2706-5448.2020.218427

Ключові слова:

DQN, DDQN, TD, PPO, нейронна мережа, глибинне навчання, навчання з підкріпленням, мультиагентна система, MCTS, Q-Learning.

Анотація

Об’єктом дослідження в даній роботі є мультиагентні системи, засновані на алгоритмах Глибинного навчання з підкріпленням та аналізі способів встановлення взаємодії в системі на основі інтелектуальних агентів. Крім того, частина матеріалу в цій роботі охоплює способи організації управління та адміністрування агентів на метарівні: зовнішні контролери та інструменти для оптимізації їх роботи, описуючи при цьому архітектурні рішення, які повинні прискорити навчання агентів. Досліджувана повноцінна мультиагентна система буде сприйнятливою до розширення та дасть ефективне прискорення у навчанні агентів та якості вирішення задач.

В даній роботі були розглянуті наступні моделі нейронних мереж: DQN, DDQN, PPO, TD (методи, що базуються на використанні Q-Learning) та підхід з використанням нейронної мережі з пошуком Монте-Карло по дереву. Дані моделі було перевірено на задачі судоку з набором даних розміром 5039 комбінацій, розмірності 2х2, 4х4 та 9х9. Було використано декілька наборів нагород для агентів. Описано спосіб представлення даних під час процесу навчання та вирішення задачі. Також було побудовано мультиагентну систему на основі моделі з використанням пошуку Монте-Карло по дереву.

За результатами дослідження було виявлено, що для задач в комплексному просторі, моделі, котрі базуються на Q-Learning, є практично не ефективними (твердження підкріплені графіками). Процес навчання цих моделей є досить вимогливим до характеристик апаратного забезпечення робочої станції. Також було виявлено, що метод на основі пошуку Монте-Карло чудово справляється з задачею. Навіть при малій кількості ітерацій він показує результати, кращі за інші методи Глибинного навчання (точність 45–50 % для 9х9). Проте суттєвим недоліком є складність навчання моделі, а вимоги до апаратного забезпечення є занадто великими в рамках дослідження такого роду.

Біографії авторів

Katerina Poloziuk, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056

Кафедра системного проектування

Vadym Yaremenko, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056

Аспірант, асистент

Кафедра системного проектування

Посилання

  1. Wang, Y., Wu, F. (2019). Multi-Agent Deep Reinforcement Learning with Adaptive Policies. ArXiv, abs/1912.00949. Available at: https://arxiv.org/abs/1912.00949
  2. Tampuu, A., Matiisen, T., Kodelja, D., Kuzovkin, I., Korjus, K., Aru, J. et. al. (2017). Multiagent cooperation and competition with deep reinforcement learning. PLOS ONE, 12 (4), e0172395. doi: http://doi.org/10.1371/journal.pone.0172395
  3. Simoes, D., Lau, N., Reis, L. P. (2019). Multi-Agent Deep Reinforcement Learning with Emergent Communication. 2019 International Joint Conference on Neural Networks (IJCNN). doi: http://doi.org/10.1109/ijcnn.2019.8852293
  4. Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G. et. al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529 (7587), 484–489. doi: http://doi.org/10.1038/nature16961
  5. Nguyen, T. T., Nguyen, N. D., Nahavandi, S. (2020). Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications. IEEE Transactions on Cybernetics, 50 (9), 3826–3839. doi: http://doi.org/10.1109/tcyb.2020.2977374
  6. Kumar, S., Hakkani-Tür, D., Shah, P., Heck, L. (2017). Federated control with hierarchical multi-agent deep reinforcement learning. ArXiv. Available at: https://arxiv.org/abs/1712.08266v1
  7. Hernandez-Leal, P., Kartal, B., Taylor, M. E. (2019). A survey and critique of multiagent deep reinforcement learning. Autonomous Agents and Multi-Agent Systems, 33 (6), 750–797. doi: http://doi.org/10.1007/s10458-019-09421-1
  8. Foerster, J. N., Assael, Y. M., De Freitas, N., Whiteson, S. (2016). Learning to communicate with deep multi-agent reinforcement learning. Advances in Neural Information Processing Systems. Neural information processing systems foundation, 2145–2153.
  9. Gupta, J. K., Egorov, M., Kochenderfer, M. (2017). Cooperative Multi-agent Control Using Deep Reinforcement Learning. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) Vol. 10642 LNAI. Springer Verlag, 66–83. Available at: http://doi.org/10.1007/978-3-319-71682-4_5
  10. Nguyen, N. D., Nguyen, T., Nahavandi, S. (2019). Multi-agent behavioral control system using deep reinforcement learning. Neurocomputing, 359, 58–68. doi: http://doi.org/10.1016/j.neucom.2019.05.062
  11. Da Silva, F. L., Glatt, R., Costa, A. H. R. (2017). Simultaneously learning and advising in multiagent reinforcement learning. Proceedings of the International Joint Conference on Autonomous Agents and Multiagent Systems, AAMAS. Vol. 2. International Foundation for Autonomous Agents and Multiagent Systems (IFAAMAS), 1100–1108

##submission.downloads##

Опубліковано

2020-12-30

Як цитувати

Poloziuk, K., & Yaremenko, V. (2020). Використання штучних нейронних мереж та методу монте-карло в мультиагентних системах для вирішення задачі судоку. Technology Audit and Production Reserves, 6(2(56), 38–41. https://doi.org/10.15587/2706-5448.2020.218427

Номер

Розділ

Звіт про науково-дослідні роботи