Використання штучних нейронних мереж та методу монте-карло в мультиагентних системах для вирішення задачі судоку
DOI:
https://doi.org/10.15587/2706-5448.2020.218427Ключові слова:
DQN, DDQN, TD, PPO, нейронна мережа, глибинне навчання, навчання з підкріпленням, мультиагентна система, MCTS, Q-Learning.Анотація
Об’єктом дослідження в даній роботі є мультиагентні системи, засновані на алгоритмах Глибинного навчання з підкріпленням та аналізі способів встановлення взаємодії в системі на основі інтелектуальних агентів. Крім того, частина матеріалу в цій роботі охоплює способи організації управління та адміністрування агентів на метарівні: зовнішні контролери та інструменти для оптимізації їх роботи, описуючи при цьому архітектурні рішення, які повинні прискорити навчання агентів. Досліджувана повноцінна мультиагентна система буде сприйнятливою до розширення та дасть ефективне прискорення у навчанні агентів та якості вирішення задач.
В даній роботі були розглянуті наступні моделі нейронних мереж: DQN, DDQN, PPO, TD (методи, що базуються на використанні Q-Learning) та підхід з використанням нейронної мережі з пошуком Монте-Карло по дереву. Дані моделі було перевірено на задачі судоку з набором даних розміром 5039 комбінацій, розмірності 2х2, 4х4 та 9х9. Було використано декілька наборів нагород для агентів. Описано спосіб представлення даних під час процесу навчання та вирішення задачі. Також було побудовано мультиагентну систему на основі моделі з використанням пошуку Монте-Карло по дереву.
За результатами дослідження було виявлено, що для задач в комплексному просторі, моделі, котрі базуються на Q-Learning, є практично не ефективними (твердження підкріплені графіками). Процес навчання цих моделей є досить вимогливим до характеристик апаратного забезпечення робочої станції. Також було виявлено, що метод на основі пошуку Монте-Карло чудово справляється з задачею. Навіть при малій кількості ітерацій він показує результати, кращі за інші методи Глибинного навчання (точність 45–50 % для 9х9). Проте суттєвим недоліком є складність навчання моделі, а вимоги до апаратного забезпечення є занадто великими в рамках дослідження такого роду.
Посилання
- Wang, Y., Wu, F. (2019). Multi-Agent Deep Reinforcement Learning with Adaptive Policies. ArXiv, abs/1912.00949. Available at: https://arxiv.org/abs/1912.00949
- Tampuu, A., Matiisen, T., Kodelja, D., Kuzovkin, I., Korjus, K., Aru, J. et. al. (2017). Multiagent cooperation and competition with deep reinforcement learning. PLOS ONE, 12 (4), e0172395. doi: http://doi.org/10.1371/journal.pone.0172395
- Simoes, D., Lau, N., Reis, L. P. (2019). Multi-Agent Deep Reinforcement Learning with Emergent Communication. 2019 International Joint Conference on Neural Networks (IJCNN). doi: http://doi.org/10.1109/ijcnn.2019.8852293
- Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G. et. al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529 (7587), 484–489. doi: http://doi.org/10.1038/nature16961
- Nguyen, T. T., Nguyen, N. D., Nahavandi, S. (2020). Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications. IEEE Transactions on Cybernetics, 50 (9), 3826–3839. doi: http://doi.org/10.1109/tcyb.2020.2977374
- Kumar, S., Hakkani-Tür, D., Shah, P., Heck, L. (2017). Federated control with hierarchical multi-agent deep reinforcement learning. ArXiv. Available at: https://arxiv.org/abs/1712.08266v1
- Hernandez-Leal, P., Kartal, B., Taylor, M. E. (2019). A survey and critique of multiagent deep reinforcement learning. Autonomous Agents and Multi-Agent Systems, 33 (6), 750–797. doi: http://doi.org/10.1007/s10458-019-09421-1
- Foerster, J. N., Assael, Y. M., De Freitas, N., Whiteson, S. (2016). Learning to communicate with deep multi-agent reinforcement learning. Advances in Neural Information Processing Systems. Neural information processing systems foundation, 2145–2153.
- Gupta, J. K., Egorov, M., Kochenderfer, M. (2017). Cooperative Multi-agent Control Using Deep Reinforcement Learning. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) Vol. 10642 LNAI. Springer Verlag, 66–83. Available at: http://doi.org/10.1007/978-3-319-71682-4_5
- Nguyen, N. D., Nguyen, T., Nahavandi, S. (2019). Multi-agent behavioral control system using deep reinforcement learning. Neurocomputing, 359, 58–68. doi: http://doi.org/10.1016/j.neucom.2019.05.062
- Da Silva, F. L., Glatt, R., Costa, A. H. R. (2017). Simultaneously learning and advising in multiagent reinforcement learning. Proceedings of the International Joint Conference on Autonomous Agents and Multiagent Systems, AAMAS. Vol. 2. International Foundation for Autonomous Agents and Multiagent Systems (IFAAMAS), 1100–1108
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2020 Vadym Yaremenko, Katerina Poloziuk, Katerina Poloziuk
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.