Розробка моделі динамічного рецептивного поля для зображень дистанційного зондування
DOI:
https://doi.org/10.15587/2706-5448.2025.323698Ключові слова:
рецептивні поля, згорткові нейронні мережі, Swin трансформер, дистанційне зондування, локалізація сцен, семантична сегментаціяАнотація
Об’єктом дослідження є інтеграція модуля Dynamic Receptive Field Attention Module (DReAM) у Swin Transformers з метою покращення локалізації сцен та семантичної сегментації для зображень дистанційного зондування високої роздільної здатності. Дослідження зосереджено на розробці моделі, яка динамічно налаштовує своє рецептивне поле та інтегрує механізми уваги для покращення багатомасштабного виділення ознак у даних дистанційного зондування високої роздільної здатності.
Традиційні підходи, зокрема Convolutional Neural Networks (CNNs), мають фіксовані рецептивні поля, що обмежує їхню здатність одночасно вловлювати як дрібні деталі, так і далекі просторові залежності у великомасштабних зображеннях дистанційного зондування. Це обмеження знижує ефективність традиційних моделей при обробці просторово складних та багатомасштабних об'єктів, що призводить до неточностей у сегментації об'єктів і трактуванні сцен.
Модель DReAM-CAN включає механізм динамічного масштабування рецептивного поля та комплексну архітектуру уваги, яка поєднує екстракцію ознак на основі CNN із самоувагою Swin Transformer. Такий підхід дозволяє моделі динамічно налаштовувати рецептивне поле, ефективно обробляти об'єкти різних розмірів та краще захоплювати як локальні текстури, так і глобальний контекст сцени. У результаті модель суттєво покращує точність сегментації та просторову адаптивність у задачах дистанційного зондування.
Отримані результати пояснюються здатністю моделі динамічно змінювати рецептивні поля залежно від складності сцени та розподілу об'єктів. Механізм самоуваги додатково оптимізує процес виділення ознак, вибірково посилюючи релевантні просторові залежності, зменшуючи рівень шуму та покращуючи точність меж сегментації. Гібридна архітектура CNN-Transformer забезпечує оптимальний баланс між обчислювальною ефективністю та точністю.
Модель DReAM-CAN є особливо ефективною для аналізу супутникових і аерофотознімків високої роздільної здатності, що робить її корисною для екологічного моніторингу, класифікації землекористування, оцінки стану лісових масивів, точного землеробства та аналізу наслідків катастроф. Її здатність адаптуватися до різних масштабів і просторових складнощів робить її ідеальним рішенням для задач дистанційного зондування в реальному часі та великомасштабної обробки сцен із високими вимогами до точності локалізації та сегментації.
Посилання
- Pushkarenko, Y., Zaslavskyi, V. (2024). Research on the state of areas in Ukraine affected by military actions based on remote sensing data and deep learning architectures. Radioelectronic and Computer Systems, 2024 (2), 5–18. https://doi.org/10.32620/reks.2024.2.01
- Li, W., Liu, H., Wang, Y., Li, Z., Jia, Y., Gui, G. (2019). Deep Learning-Based Classification Methods for Remote Sensing Images in Urban Built-Up Areas. IEEE Access, 7, 36274–36284. https://doi.org/10.1109/access.2019.2903127
- Wenjie, L., Li, Y., Urtasun, R., Zemel, R. (2016). Understanding the effective receptive field in deep convolutional neural networks. 29th Conference on Neural Information Processing Systems. https://doi.org/10.48550/arXiv.1701.04128
- Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y. (2017). Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV), 764–773. https://doi.org/10.1109/iccv.2017.89
- Jensen, J. R. (2015). Introductory Digital Image Processing: A Remote Sensing Perspective. Upper Saddle River: Prentice-Hall.
- Yu, X., Lu, D., Jiang, X., Li, G., Chen, Y., Li, D., Chen, E. (2020). Examining the Roles of Spectral, Spatial, and Topographic Features in Improving Land-Cover and Forest Classifications in a Subtropical Region. Remote Sensing, 12 (18), 2907. https://doi.org/10.3390/rs12182907
- Blaschke, T., Strobl, J. (2001). What’s Wrong with Pixels? Some Recent Developments Interfacing Remote Sensing and GIS. Proceedings of GIS-Zeitschrift Fur Geoinformationssysteme, 14 (6), 12–17.
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR). https://doi.org/10.48550/arXiv.2010.11929
- Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., Luo, P. (2021). SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. Advances in Neural Information Processing Systems, 34, 12077–12090. https://doi.org/10.48550/arXiv.2105.15203
- Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z. et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 9992–10002. https://doi.org/10.1109/iccv48922.2021.00986
- You, J., Zhang, R., Lee, J. (2021). A Deep Learning-Based Generalized System for Detecting Pine Wilt Disease Using RGB-Based UAV Images. Remote Sensing, 14 (1), 150. https://doi.org/10.3390/rs14010150
- Wang, W., Xie, E., Li, X., Fan, D.-P., Song, K., Liang, D. et al. (2022). PVT v2: Improved baselines with Pyramid Vision Transformer. Computational Visual Media, 8 (3), 415–424. https://doi.org/10.1007/s41095-022-0274-8
- Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J. (2017). Pyramid Scene Parsing Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2881–2890. https://doi.org/10.1109/cvpr.2017.660
- Chen, L.-C., Papandreou, G., Schroff, F., Hartwig, A. (2017). Rethinking Atrous Convolution for Semantic Image Segmentation. https://doi.org/10.48550/arXiv.1706.05587
- Strudel, R., Garcia, R., Laptev, I., Schmid, C. (2021). Segmenter: Transformer for Semantic Segmentation. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 7262–7272. https://doi.org/10.1109/iccv48922.2021.00717
- Lin, T.-Y., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2017). Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 936–944. https://doi.org/10.1109/cvpr.2017.106
- Melamed, D., Cameron, J., Chen, Z., Blue, R., Morrone, P., Hoogs, A., Clipp, B. (2022). xFBD: Focused Building Damage Dataset and Analysis. https://doi.org/10.48550/arXiv.2212.13876
- DOTA dataset. Available at: https://captain-whu.github.io/DOTA/dataset.html

##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Yurii Pushkarenko, Volodymyr Zaslavskyi

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.