Model development of dynamic receptive field for remote sensing imageries

Юрій Валерійович Пушкаренко; Володимир Анатолійович Заславський

doi:10.15587/2706-5448.2025.323698

Автор(и)

Юрій Валерійович Пушкаренко Київський національний університет ім. Тараса Шевченка, Україна https://orcid.org/0009-0007-2560-2971
Володимир Анатолійович Заславський Київський національний університет ім. Тараса Шевченка, Україна https://orcid.org/0000-0001-6225-1313

DOI:

https://doi.org/10.15587/2706-5448.2025.323698

Ключові слова:

рецептивні поля, згорткові нейронні мережі, Swin трансформер, дистанційне зондування, локалізація сцен, семантична сегментація

Анотація

Об’єктом дослідження є інтеграція модуля Dynamic Receptive Field Attention Module (DReAM) у Swin Transformers з метою покращення локалізації сцен та семантичної сегментації для зображень дистанційного зондування високої роздільної здатності. Дослідження зосереджено на розробці моделі, яка динамічно налаштовує своє рецептивне поле та інтегрує механізми уваги для покращення багатомасштабного виділення ознак у даних дистанційного зондування високої роздільної здатності.

Традиційні підходи, зокрема Convolutional Neural Networks (CNNs), мають фіксовані рецептивні поля, що обмежує їхню здатність одночасно вловлювати як дрібні деталі, так і далекі просторові залежності у великомасштабних зображеннях дистанційного зондування. Це обмеження знижує ефективність традиційних моделей при обробці просторово складних та багатомасштабних об'єктів, що призводить до неточностей у сегментації об'єктів і трактуванні сцен.

Модель DReAM-CAN включає механізм динамічного масштабування рецептивного поля та комплексну архітектуру уваги, яка поєднує екстракцію ознак на основі CNN із самоувагою Swin Transformer. Такий підхід дозволяє моделі динамічно налаштовувати рецептивне поле, ефективно обробляти об'єкти різних розмірів та краще захоплювати як локальні текстури, так і глобальний контекст сцени. У результаті модель суттєво покращує точність сегментації та просторову адаптивність у задачах дистанційного зондування.

Отримані результати пояснюються здатністю моделі динамічно змінювати рецептивні поля залежно від складності сцени та розподілу об'єктів. Механізм самоуваги додатково оптимізує процес виділення ознак, вибірково посилюючи релевантні просторові залежності, зменшуючи рівень шуму та покращуючи точність меж сегментації. Гібридна архітектура CNN-Transformer забезпечує оптимальний баланс між обчислювальною ефективністю та точністю.

Модель DReAM-CAN є особливо ефективною для аналізу супутникових і аерофотознімків високої роздільної здатності, що робить її корисною для екологічного моніторингу, класифікації землекористування, оцінки стану лісових масивів, точного землеробства та аналізу наслідків катастроф. Її здатність адаптуватися до різних масштабів і просторових складнощів робить її ідеальним рішенням для задач дистанційного зондування в реальному часі та великомасштабної обробки сцен із високими вимогами до точності локалізації та сегментації.

Біографії авторів

Юрій Валерійович Пушкаренко, Київський національний університет ім. Тараса Шевченка

Аспірант

Кафедра математичної інформатики

Володимир Анатолійович Заславський, Київський національний університет ім. Тараса Шевченка

Доктор технічних наук, професор

Кафедра математичної інформатики

Посилання

Pushkarenko, Y., Zaslavskyi, V. (2024). Research on the state of areas in Ukraine affected by military actions based on remote sensing data and deep learning architectures. Radioelectronic and Computer Systems, 2024 (2), 5–18. https://doi.org/10.32620/reks.2024.2.01
Li, W., Liu, H., Wang, Y., Li, Z., Jia, Y., Gui, G. (2019). Deep Learning-Based Classification Methods for Remote Sensing Images in Urban Built-Up Areas. IEEE Access, 7, 36274–36284. https://doi.org/10.1109/access.2019.2903127
Wenjie, L., Li, Y., Urtasun, R., Zemel, R. (2016). Understanding the effective receptive field in deep convolutional neural networks. 29th Conference on Neural Information Processing Systems. https://doi.org/10.48550/arXiv.1701.04128
Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y. (2017). Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV), 764–773. https://doi.org/10.1109/iccv.2017.89
Jensen, J. R. (2015). Introductory Digital Image Processing: A Remote Sensing Perspective. Upper Saddle River: Prentice-Hall.
Yu, X., Lu, D., Jiang, X., Li, G., Chen, Y., Li, D., Chen, E. (2020). Examining the Roles of Spectral, Spatial, and Topographic Features in Improving Land-Cover and Forest Classifications in a Subtropical Region. Remote Sensing, 12 (18), 2907. https://doi.org/10.3390/rs12182907
Blaschke, T., Strobl, J. (2001). What’s Wrong with Pixels? Some Recent Developments Interfacing Remote Sensing and GIS. Proceedings of GIS-Zeitschrift Fur Geoinformationssysteme, 14 (6), 12–17.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR). https://doi.org/10.48550/arXiv.2010.11929
Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., Luo, P. (2021). SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. Advances in Neural Information Processing Systems, 34, 12077–12090. https://doi.org/10.48550/arXiv.2105.15203
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z. et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 9992–10002. https://doi.org/10.1109/iccv48922.2021.00986
You, J., Zhang, R., Lee, J. (2021). A Deep Learning-Based Generalized System for Detecting Pine Wilt Disease Using RGB-Based UAV Images. Remote Sensing, 14 (1), 150. https://doi.org/10.3390/rs14010150
Wang, W., Xie, E., Li, X., Fan, D.-P., Song, K., Liang, D. et al. (2022). PVT v2: Improved baselines with Pyramid Vision Transformer. Computational Visual Media, 8 (3), 415–424. https://doi.org/10.1007/s41095-022-0274-8
Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J. (2017). Pyramid Scene Parsing Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2881–2890. https://doi.org/10.1109/cvpr.2017.660
Chen, L.-C., Papandreou, G., Schroff, F., Hartwig, A. (2017). Rethinking Atrous Convolution for Semantic Image Segmentation. https://doi.org/10.48550/arXiv.1706.05587
Strudel, R., Garcia, R., Laptev, I., Schmid, C. (2021). Segmenter: Transformer for Semantic Segmentation. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 7262–7272. https://doi.org/10.1109/iccv48922.2021.00717
Lin, T.-Y., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2017). Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 936–944. https://doi.org/10.1109/cvpr.2017.106
Melamed, D., Cameron, J., Chen, Z., Blue, R., Morrone, P., Hoogs, A., Clipp, B. (2022). xFBD: Focused Building Damage Dataset and Analysis. https://doi.org/10.48550/arXiv.2212.13876
DOTA dataset. Available at: https://captain-whu.github.io/DOTA/dataset.html