Моделювання адаптивного управління маршрутами БпЛА на основі алгоритмів навчання з підкріпленням
DOI:
https://doi.org/10.30837/2522-9818.2026.1.028Ключові слова:
адаптивне управління; Proximal Policy Optimization; навчання з підкріпленням; імітаційне моделювання; маршрутизація; 3D-навігаціяАнотація
Предмет дослідження – функція винагороди, політика дій та динаміка навчання алгоритму PPO у задачі адаптивної навігації БпЛА в умовах динамічного повітряного простору та обмежених енергетичних ресурсів. Мета – створення симуляційного середовища та розроблення модифікованої моделі Proximal Policy Optimization (PPO) для адаптивного управління маршрутом одиночного БпЛА у 2D та 3D просторах із урахуванням відстані до цілі, ризику зіткнень і енергоспоживання. Завдання: розробити 2D та 3D симуляційні середовища з різною структурою перешкод і параметрами руху БПЛА; сформувати комбіновану функцію винагороди PPO, що враховує відстань до цілі, зіткнення та енергоспоживання; Реалізувати та навчити алгоритми PPO, DQN і A2C у стандартизованих сценаріях навігації.; провести порівняльний аналіз ефективності алгоритмів за ключовими метриками (довжина маршруту, кількість зіткнень, винагорода, енергоспоживання; виконати статистичну перевірку результатів за допомогою t-тесту та довірчих інтервалів; проаналізувати вплив гіперпараметрів PPO на стабільність політики та збіжність навчання у 2D і 3D середовищах. Методи: використано алгоритми глибинного навчання з підкріпленням (PPO, DQN, A2C). Розроблено дві симуляційні моделі (2D та 3D) із випадковими статичними перешкодами. Сформовано комбіновану функцію винагороди, що включає динамічну компоненту зближення до цілі, штрафи за зіткнення та енергетичний термін. Ефективність моделей оцінювалася за середньою винагородою, довжиною маршруту, кількістю зіткнень та енергетичними витратами. Статистичну достовірність перевірено за допомогою t-тесту та 95% довірчих інтервалів. Результати: модифікована PPO-модель у 2D середовищі зменшила кількість зіткнень на 94,8% та довжину маршруту на 94,3% у порівнянні з базовою PPO, при цьому спостерігалося збільшення енергоспоживання через складніші маневри ухилення. У 3D середовищі підтверджено аналогічні тенденції: підвищення безпеки навігації, стабілізація політики та статистично значущі покращення ключових метрик (p < 0,05). Висновки: розроблено уніфіковане 2D/3D симуляційне середовище адаптивної маршрутизації БпЛА та модифіковану PPO-модель з комбінованою функцією винагороди, що враховує зближення до цілі, зіткнення та енергоспоживання. У 2D-середовищі досягнуто зменшення кількості зіткнень на ≈94,8%, скорочення довжини маршруту на ≈94,3% та зростання середньої винагороди на ≈92,5% порівняно з базовою PPO. У 3D-середовищі підтверджено аналогічні тенденції та статистично значущі покращення (p < 0,05). Встановлено залежність між агресивністю ухилення та енергоспоживанням, що дозволяє вибирати оптимальну політику для сценаріїв BVLOS.
Посилання
References
Debnath, D., Vanegas, F., Sandino, J., Hawary, A. F., Gonzalez, F. (2024), "A review of UAV path-planning algorithms and obstacle avoidance methods for remote sensing applications", Remote Sensing, Vol. 16 (21), 4019 р. DOI: https://doi.org/10.3390/rs16214019
Martins, F. G., Coelho, M. A. N. (2000), "Application of feedforward artificial neural networks to improve process control of PID-based control algorithms", Computers & Chemical Engineering, Vol. 24 (2-7). рр. 853-858. DOI: https://doi.org/10.1016/S0098-1354(00)00339-2
Liu, X., Peng, Z.R., Zhang, L.Y. (2019), "Real-time UAV rerouting for traffic monitoring with decomposition based multi-objective optimization", Journal of Intelligent & Robotic Systems, Vol. 94, рр. 491–501. DOI: https://doi.org/10.1007/s10846-018-0806-8
Almeida, E. N., Campos, R., Ricardo, M. (2022), "Traffic-aware UAV placement using a generalizable deep reinforcement learning methodology", 2022 IEEE Symposium on Computers and Communications (ISCC), рр. 1–6. DOI: https://doi.org/10.48550/arXiv.2203.08924
Madani, A., Engelbrecht, A. Ombuki-Berman, B., (2023), "Cooperative coevolutionary multi-guide particle swarm optimization algorithm for large-scale multi-objective optimization problems", Swarm and Evolutionary Computation. Vol. 82. 101262 р. DOI: https://doi.org/10.1016/j.swevo.2023.101262
Luo, J., Tian, Y., Wang, Z. (2024), "Research on unmanned aerial vehicle path planning". Drones, Vol. 8(2). 51 р. DOI: https://doi.org/10.3390/drones8020051
Li, C., Lian, J., (2007), "The Application of Immune Genetic Algorithm in PID Parameter Optimization for Level Control System", Proceedings of the 2007 IEEE International Conference on Automation and Logistics (ICAL), Jinan, China, рр. 2670–2674. DOI: https://doi.org/10.1109/ICAL.2007.4338670
Yang, F., Lu, Q., Li, R., Xu, Y., Yuan, W., Wu, X. (2023), "Real-time optimal path planning and fast autonomous flight for UAV in unknown environments", IEEE. DOI: https://doi.org/10.23919/CCC58697.2023.10240971
Li, Q., Li, R., Ji, K., Dai, W. (2015), "Kalman filter and its application", IEEE. DOI: https://doi.org/10.1109/ICINIS.2015.35
Hooshyar, M., Huang, Y. (2023), "Meta-heuristic algorithms in UAV path planning optimization: A systematic review (2018–2022)", Drones, Vol. 7(12), 687 р. DOI: https://doi.org/10.3390/drones7120687
Li, H., Zhang, Z.-yu. (2012), "The application of immune genetic algorithm in main steam temperature of PID control of BP network", Physics Procedia, Vol. 25, рр. 80-86. DOI: https://doi.org/10.1016/j.phpro.2012.02.013
Zhang, M., Liu, Y., Wang, Y., Li, F., Chen, L. (2023), "Real-time path planning algorithms for autonomous UAV", IEEE. DOI: https://doi.org/10.1109/CAC57257.2022.10054770
Kim, D. H. (2003), "Comparison of PID controller tuning of power plant using immune and genetic algorithms", The 3rd International Workshop on Scientific Use of Submarine Cables and Related Technologies, Lugano, Switzerland, рр. 358-363. DOI: https://doi.org/10.1109/CIMSA.2003.1227222 14. Yena, M. (2024), "Optimizing air traffic control: Innovative approaches to collision avoidance in UAV operations", Integrated Computer Technologies in Mechanical Engineering - 2023 (ICTM 2023). рр. 543–553. DOI: https://doi.org/10.1007/978-3-031-60549-9_41 15. Yena, M., & Pohudina, O. (2025), "Integrated simulation model of swarm control and adaptive routeing of UAVS in a changing air environment", Innovative technologies and scientific solutions for industries, (4(34), рр. 32-43. DOI: https://doi.org/10.30837/2522-9818.2025.4.032
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












