Modeling of adaptive UAV route control based on reinforcement learning algorithms

Максим Єна; Ольга Погудіна

doi:10.30837/2522-9818.2026.1.028

Автор(и)

Максим Єна Національний аерокосмічний університет ім. М. Є. Жуковського "Харківський авіаційний інститут", Україна https://orcid.org/0009-0006-0664-3244
Ольга Погудіна Національний аерокосмічний університет "Харківський авіаційний інститут", Україна https://orcid.org/0000-0001-5689-2552

DOI:

https://doi.org/10.30837/2522-9818.2026.1.028

Ключові слова:

адаптивне управління; Proximal Policy Optimization; навчання з підкріпленням; імітаційне моделювання; маршрутизація; 3D-навігація

Анотація

Предмет дослідження – функція винагороди, політика дій та динаміка навчання алгоритму PPO у задачі адаптивної навігації БпЛА в умовах динамічного повітряного простору та обмежених енергетичних ресурсів. Мета – створення симуляційного середовища та розроблення модифікованої моделі Proximal Policy Optimization (PPO) для адаптивного управління маршрутом одиночного БпЛА у 2D та 3D просторах із урахуванням відстані до цілі, ризику зіткнень і енергоспоживання. Завдання: розробити 2D та 3D симуляційні середовища з різною структурою перешкод і параметрами руху БПЛА; сформувати комбіновану функцію винагороди PPO, що враховує відстань до цілі, зіткнення та енергоспоживання; Реалізувати та навчити алгоритми PPO, DQN і A2C у стандартизованих сценаріях навігації.; провести порівняльний аналіз ефективності алгоритмів за ключовими метриками (довжина маршруту, кількість зіткнень, винагорода, енергоспоживання; виконати статистичну перевірку результатів за допомогою t-тесту та довірчих інтервалів; проаналізувати вплив гіперпараметрів PPO на стабільність політики та збіжність навчання у 2D і 3D середовищах. Методи: використано алгоритми глибинного навчання з підкріпленням (PPO, DQN, A2C). Розроблено дві симуляційні моделі (2D та 3D) із випадковими статичними перешкодами. Сформовано комбіновану функцію винагороди, що включає динамічну компоненту зближення до цілі, штрафи за зіткнення та енергетичний термін. Ефективність моделей оцінювалася за середньою винагородою, довжиною маршруту, кількістю зіткнень та енергетичними витратами. Статистичну достовірність перевірено за допомогою t-тесту та 95% довірчих інтервалів. Результати: модифікована PPO-модель у 2D середовищі зменшила кількість зіткнень на 94,8% та довжину маршруту на 94,3% у порівнянні з базовою PPO, при цьому спостерігалося збільшення енергоспоживання через складніші маневри ухилення. У 3D середовищі підтверджено аналогічні тенденції: підвищення безпеки навігації, стабілізація політики та статистично значущі покращення ключових метрик (p < 0,05). Висновки: розроблено уніфіковане 2D/3D симуляційне середовище адаптивної маршрутизації БпЛА та модифіковану PPO-модель з комбінованою функцією винагороди, що враховує зближення до цілі, зіткнення та енергоспоживання. У 2D-середовищі досягнуто зменшення кількості зіткнень на ≈94,8%, скорочення довжини маршруту на ≈94,3% та зростання середньої винагороди на ≈92,5% порівняно з базовою PPO. У 3D-середовищі підтверджено аналогічні тенденції та статистично значущі покращення (p < 0,05). Встановлено залежність між агресивністю ухилення та енергоспоживанням, що дозволяє вибирати оптимальну політику для сценаріїв BVLOS.

Біографії авторів

Максим Єна, Національний аерокосмічний університет ім. М. Є. Жуковського "Харківський авіаційний інститут"

аспірант, кафедра «Інформаційних технологій проєктування»

Ольга Погудіна, Національний аерокосмічний університет "Харківський авіаційний інститут"

кандидат технічних наук, доцент, доцент кафедри інформаційних технологій проєктування

Посилання

References

Debnath, D., Vanegas, F., Sandino, J., Hawary, A. F., Gonzalez, F. (2024), "A review of UAV path-planning algorithms and obstacle avoidance methods for remote sensing applications", Remote Sensing, Vol. 16 (21), 4019 р. DOI: https://doi.org/10.3390/rs16214019

Martins, F. G., Coelho, M. A. N. (2000), "Application of feedforward artificial neural networks to improve process control of PID-based control algorithms", Computers & Chemical Engineering, Vol. 24 (2-7). рр. 853-858. DOI: https://doi.org/10.1016/S0098-1354(00)00339-2

Liu, X., Peng, Z.R., Zhang, L.Y. (2019), "Real-time UAV rerouting for traffic monitoring with decomposition based multi-objective optimization", Journal of Intelligent & Robotic Systems, Vol. 94, рр. 491–501. DOI: https://doi.org/10.1007/s10846-018-0806-8

Almeida, E. N., Campos, R., Ricardo, M. (2022), "Traffic-aware UAV placement using a generalizable deep reinforcement learning methodology", 2022 IEEE Symposium on Computers and Communications (ISCC), рр. 1–6. DOI: https://doi.org/10.48550/arXiv.2203.08924

Madani, A., Engelbrecht, A. Ombuki-Berman, B., (2023), "Cooperative coevolutionary multi-guide particle swarm optimization algorithm for large-scale multi-objective optimization problems", Swarm and Evolutionary Computation. Vol. 82. 101262 р. DOI: https://doi.org/10.1016/j.swevo.2023.101262

Luo, J., Tian, Y., Wang, Z. (2024), "Research on unmanned aerial vehicle path planning". Drones, Vol. 8(2). 51 р. DOI: https://doi.org/10.3390/drones8020051

Li, C., Lian, J., (2007), "The Application of Immune Genetic Algorithm in PID Parameter Optimization for Level Control System", Proceedings of the 2007 IEEE International Conference on Automation and Logistics (ICAL), Jinan, China, рр. 2670–2674. DOI: https://doi.org/10.1109/ICAL.2007.4338670

Yang, F., Lu, Q., Li, R., Xu, Y., Yuan, W., Wu, X. (2023), "Real-time optimal path planning and fast autonomous flight for UAV in unknown environments", IEEE. DOI: https://doi.org/10.23919/CCC58697.2023.10240971

Li, Q., Li, R., Ji, K., Dai, W. (2015), "Kalman filter and its application", IEEE. DOI: https://doi.org/10.1109/ICINIS.2015.35

Hooshyar, M., Huang, Y. (2023), "Meta-heuristic algorithms in UAV path planning optimization: A systematic review (2018–2022)", Drones, Vol. 7(12), 687 р. DOI: https://doi.org/10.3390/drones7120687

Li, H., Zhang, Z.-yu. (2012), "The application of immune genetic algorithm in main steam temperature of PID control of BP network", Physics Procedia, Vol. 25, рр. 80-86. DOI: https://doi.org/10.1016/j.phpro.2012.02.013

Zhang, M., Liu, Y., Wang, Y., Li, F., Chen, L. (2023), "Real-time path planning algorithms for autonomous UAV", IEEE. DOI: https://doi.org/10.1109/CAC57257.2022.10054770

Kim, D. H. (2003), "Comparison of PID controller tuning of power plant using immune and genetic algorithms", The 3rd International Workshop on Scientific Use of Submarine Cables and Related Technologies, Lugano, Switzerland, рр. 358-363. DOI: https://doi.org/10.1109/CIMSA.2003.1227222 14. Yena, M. (2024), "Optimizing air traffic control: Innovative approaches to collision avoidance in UAV operations", Integrated Computer Technologies in Mechanical Engineering - 2023 (ICTM 2023). рр. 543–553. DOI: https://doi.org/10.1007/978-3-031-60549-9_41 15. Yena, M., & Pohudina, O. (2025), "Integrated simulation model of swarm control and adaptive routeing of UAVS in a changing air environment", Innovative technologies and scientific solutions for industries, (4(34), рр. 32-43. DOI: https://doi.org/10.30837/2522-9818.2025.4.032

Моделювання адаптивного управління маршрутами БпЛА на основі алгоритмів навчання з підкріпленням

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Максим Єна, Національний аерокосмічний університет ім. М. Є. Жуковського "Харківський авіаційний інститут"

Ольга Погудіна, Національний аерокосмічний університет "Харківський авіаційний інститут"

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Подати статтю