Розробка моделі динамічного рецептивного поля для зображень дистанційного зондування

Автор(и)

  • Юрій Валерійович Пушкаренко Київський національний університет ім. Тараса Шевченка, Україна https://orcid.org/0009-0007-2560-2971
  • Володимир Анатолійович Заславський Київський національний університет ім. Тараса Шевченка, Україна https://orcid.org/0000-0001-6225-1313

DOI:

https://doi.org/10.15587/2706-5448.2025.323698

Ключові слова:

рецептивні поля, згорткові нейронні мережі, Swin трансформер, дистанційне зондування, локалізація сцен, семантична сегментація

Анотація

Обєктом дослідження є інтеграція модуля Dynamic Receptive Field Attention Module (DReAM) у Swin Transformers з метою покращення локалізації сцен та семантичної сегментації для зображень дистанційного зондування високої роздільної здатності. Дослідження зосереджено на розробці моделі, яка динамічно налаштовує своє рецептивне поле та інтегрує механізми уваги для покращення багатомасштабного виділення ознак у даних дистанційного зондування високої роздільної здатності.

Традиційні підходи, зокрема Convolutional Neural Networks (CNNs), мають фіксовані рецептивні поля, що обмежує їхню здатність одночасно вловлювати як дрібні деталі, так і далекі просторові залежності у великомасштабних зображеннях дистанційного зондування. Це обмеження знижує ефективність традиційних моделей при обробці просторово складних та багатомасштабних об'єктів, що призводить до неточностей у сегментації об'єктів і трактуванні сцен.

Модель DReAM-CAN включає механізм динамічного масштабування рецептивного поля та комплексну архітектуру уваги, яка поєднує екстракцію ознак на основі CNN із самоувагою Swin Transformer. Такий підхід дозволяє моделі динамічно налаштовувати рецептивне поле, ефективно обробляти об'єкти різних розмірів та краще захоплювати як локальні текстури, так і глобальний контекст сцени. У результаті модель суттєво покращує точність сегментації та просторову адаптивність у задачах дистанційного зондування.

Отримані результати пояснюються здатністю моделі динамічно змінювати рецептивні поля залежно від складності сцени та розподілу об'єктів. Механізм самоуваги додатково оптимізує процес виділення ознак, вибірково посилюючи релевантні просторові залежності, зменшуючи рівень шуму та покращуючи точність меж сегментації. Гібридна архітектура CNN-Transformer забезпечує оптимальний баланс між обчислювальною ефективністю та точністю.

Модель DReAM-CAN є особливо ефективною для аналізу супутникових і аерофотознімків високої роздільної здатності, що робить її корисною для екологічного моніторингу, класифікації землекористування, оцінки стану лісових масивів, точного землеробства та аналізу наслідків катастроф. Її здатність адаптуватися до різних масштабів і просторових складнощів робить її ідеальним рішенням для задач дистанційного зондування в реальному часі та великомасштабної обробки сцен із високими вимогами до точності локалізації та сегментації.

Біографії авторів

Юрій Валерійович Пушкаренко, Київський національний університет ім. Тараса Шевченка

Аспірант

Кафедра математичної інформатики

Володимир Анатолійович Заславський, Київський національний університет ім. Тараса Шевченка

Доктор технічних наук, професор

Кафедра математичної інформатики

Посилання

  1. Pushkarenko, Y., Zaslavskyi, V. (2024). Research on the state of areas in Ukraine affected by military actions based on remote sensing data and deep learning architectures. Radioelectronic and Computer Systems, 2024 (2), 5–18. https://doi.org/10.32620/reks.2024.2.01
  2. Li, W., Liu, H., Wang, Y., Li, Z., Jia, Y., Gui, G. (2019). Deep Learning-Based Classification Methods for Remote Sensing Images in Urban Built-Up Areas. IEEE Access, 7, 36274–36284. https://doi.org/10.1109/access.2019.2903127
  3. Wenjie, L., Li, Y., Urtasun, R., Zemel, R. (2016). Understanding the effective receptive field in deep convolutional neural networks. 29th Conference on Neural Information Processing Systems. https://doi.org/10.48550/arXiv.1701.04128
  4. Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y. (2017). Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV), 764–773. https://doi.org/10.1109/iccv.2017.89
  5. Jensen, J. R. (2015). Introductory Digital Image Processing: A Remote Sensing Perspective. Upper Saddle River: Prentice-Hall.
  6. Yu, X., Lu, D., Jiang, X., Li, G., Chen, Y., Li, D., Chen, E. (2020). Examining the Roles of Spectral, Spatial, and Topographic Features in Improving Land-Cover and Forest Classifications in a Subtropical Region. Remote Sensing, 12 (18), 2907. https://doi.org/10.3390/rs12182907
  7. Blaschke, T., Strobl, J. (2001). What’s Wrong with Pixels? Some Recent Developments Interfacing Remote Sensing and GIS. Proceedings of GIS-Zeitschrift Fur Geoinformationssysteme, 14 (6), 12–17.
  8. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR). https://doi.org/10.48550/arXiv.2010.11929
  9. Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., Luo, P. (2021). SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. Advances in Neural Information Processing Systems, 34, 12077–12090. https://doi.org/10.48550/arXiv.2105.15203
  10. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z. et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 9992–10002. https://doi.org/10.1109/iccv48922.2021.00986
  11. You, J., Zhang, R., Lee, J. (2021). A Deep Learning-Based Generalized System for Detecting Pine Wilt Disease Using RGB-Based UAV Images. Remote Sensing, 14 (1), 150. https://doi.org/10.3390/rs14010150
  12. Wang, W., Xie, E., Li, X., Fan, D.-P., Song, K., Liang, D. et al. (2022). PVT v2: Improved baselines with Pyramid Vision Transformer. Computational Visual Media, 8 (3), 415–424. https://doi.org/10.1007/s41095-022-0274-8
  13. Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J. (2017). Pyramid Scene Parsing Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2881–2890. https://doi.org/10.1109/cvpr.2017.660
  14. Chen, L.-C., Papandreou, G., Schroff, F., Hartwig, A. (2017). Rethinking Atrous Convolution for Semantic Image Segmentation. https://doi.org/10.48550/arXiv.1706.05587
  15. Strudel, R., Garcia, R., Laptev, I., Schmid, C. (2021). Segmenter: Transformer for Semantic Segmentation. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 7262–7272. https://doi.org/10.1109/iccv48922.2021.00717
  16. Lin, T.-Y., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2017). Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 936–944. https://doi.org/10.1109/cvpr.2017.106
  17. Melamed, D., Cameron, J., Chen, Z., Blue, R., Morrone, P., Hoogs, A., Clipp, B. (2022). xFBD: Focused Building Damage Dataset and Analysis. https://doi.org/10.48550/arXiv.2212.13876
  18. DOTA dataset. Available at: https://captain-whu.github.io/DOTA/dataset.html
Розробка моделі динамічного рецептивного поля для зображень дистанційного зондування

##submission.downloads##

Опубліковано

2025-02-27

Як цитувати

Пушкаренко, Ю. В., & Заславський, В. А. (2025). Розробка моделі динамічного рецептивного поля для зображень дистанційного зондування. Technology Audit and Production Reserves, 1(2(81), 20–25. https://doi.org/10.15587/2706-5448.2025.323698

Номер

Розділ

Інформаційні технології