Дослідження методів штучного зору в системах внутрішньої навігації

Автор(и)

DOI:

https://doi.org/10.30837/2522-9818.2025.2.005

Ключові слова:

система; локалізація; навігація; сліпота; розпізнавання; комп’ютерний зір; класифікація.

Анотація

Предметом статті є методи комп’ютерного зору, які можуть бути імплементовані у систему навігації в приміщенні для людей з вадами зору. Метою цього дослідження є розробка та впровадження методів штучного зору, орієнтованих на розпізнавання перешкод у закритому просторі, у пропоновану систему внутрішньої навігації для людей з вадами зору, яка інтегрує сучасні технології штучного інтелекту, голосового керування, просторового аналізу та Bluetooth-навігації. Для досягнення мети були вирішені такі завдання: виконано аналіз проблемної області, включаючи обґрунтування актуальності теми, порівняння існуючих рішень; запропоновано узагальнену модель системи з описом передбачених модулів; запропоновано новий метод розпізнавання основних класів перешкод, які можуть зустрітися в торгових залах (люди, візки, навантажувачі, обмежувальна стрічка) за допомогою вдосконаленого методу двоетапного розпізнавання об’єктів; проведено порівняльний аналіз архітектур глибокого навчання для задач розпізнавання об’єктів; виконано експериментальні дослідження для оцінки якості навчання. Використані методи: попередньої обробки зображення (білатеріальна фільтрація, гаусівське розміття, підвищення насиченості певного каналу зображення, видалення розміття рухом, видалення шумів алгоритмом усереднення), нейромережеві методи аналізу вхідних даних, методи статистичних досліджень. Результат: запропонований метод показав хороші результати на реальних тестових зображеннях. (досягнуто: IoU = 68% і достовірність = 69% в середньому, що в середньому на 79% і 89% більше, ніж вихідні зображення з шумом). Була виявлена необхідність розширення системи додатковими інструментами (наприклад, лідарами) для виявлення важко помітних перешкод типу дзеркальних вітрин. Висновки. Спираючись на проведений аналіз, запропонований двохетапний метод препроцессингу значно покращує якість розпізнавання. Пропонованій системі потрібні додаткові датчики, оскільки не всі об'єкти можуть бути розпізнані за допомогою методів комп'ютерного зору.

Біографії авторів

Олеся Барковська, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, доцент кафедри Електронних обчислювальних машин

Олександр Головченко, Харківський національний університет радіоелектроніки

магістрант кафедри Електронних обчислювальних машин

Денис Сторчай, Харківський національний університет радіоелектроніки

магістрант кафедри Електронних обчислювальних машин

Антон Костін, Харківський національний університет радіоелектроніки

магістрант кафедри Електронних обчислювальних машин

Нікіта Легезін, Харківський національний університет радіоелектроніки

магістрант кафедри Електронних обчислювальних машин

Посилання

References

Khan, S., Nazir, S., & Khan, H. U. (2021), "Analysis of navigation assistants for blind and visually impaired people: A systematic review". IEEE access 9 (2021), Р. 26712–26734. DOI:10.1109/ACCESS.2021.3052415

Барковська, О., Сердечний, В. (2024), "Intelligent assistance system for people with visual impairments". Innovative technologies and scientific solutions for industries, (2 (28)), Р. 6–16. DOI:10.30837/2522-9818.2024.28.006

Ashmafee, M. H., & Sabab, S. A. (2016), "Blind Reader: An intelligent assistant for blind". In 2016 19th International Conference on Computer and Information Technology. DOI: 10.1109/ICCITECHN.2016.7860200

Wu, M., Li, C., & Yao, Z. (2022), "Deep active learning for computer vision tasks: methodologies, applications, and challenges". Applied Sciences, 12(16), 8103 р. DOI: https://doi.org/10.3390/app12168103

Paneru, S., Jeelani, I. (2021), "Computer vision applications in construction: Current state, opportunities & challenges". Automation in Construction, 132, 103940 р. DOI: 10.1016/j.autcon.2021.103940

Elyan, E., Vuttipittayamongkol, P., Johnston, P., Martin, K., McPherson, K., Moreno-García, C. F., Sarker, M. M. K. (2022), "Computer vision and machine learning for medical image analysis: recent advances, challenges, and way forward". Artificial Intelligence Surgery, 2(1), Р. 24–45. DOI: 10.20517/ais.2021.15

Naik, B. T., Hashmi, M. F., Bokde, N. D. (2022), "A comprehensive review of computer vision in sports: Open issues, future trends and research directions". Applied Sciences, 12(9), 4429 р. DOI: https://doi.org/10.3390/app12094429

Zablocki, É., Ben-Younes, H., Pérez, P., & Cord, M. (2022), "Explainability of deep vision-based autonomous driving systems: Review and challenges". International Journal of Computer Vision, 130(10), Р. 2425–2452. DOI: https://doi.org/10.1007/s11263-022-01657-x

He, K., Zhang, X., Ren, S., & Sun, J. (2016), "Deep residual learning for image recognition". In Proceedings of the IEEE conference on computer vision and pattern recognition. P. 770–778. DOI: 10.1109/cvpr.2016.90

Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K. Q. (2017), "Densely connected convolutional networks". In Proceedings of the IEEE conference on computer vision and pattern recognition. Р. 4700–4708. DOI: 10.1109/cvpr.2017.243

Tan, M., & Le, Q. (2019), "Efficientnet: Rethinking model scaling for convolutional neural networks". In International conference on machine learning. Р. 6105–6114. DOI: https://doi.org/10.48550/arXiv.1905.11946

Ren, S., He, K., Girshick, R., & Sun, J. (2016), "Faster R-CNN: Towards real-time object detection with region proposal networks". IEEE transactions on pattern analysis and machine intelligence, 39(6), Р. 1137–1149. DOI:10.1109/tpami.2016.2577031

Alexey, D. (2020), "An image is worth 16x16 words: Transformers for image recognition at scale". Computer Vision and Pattern Recognition.

Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Guo, B. (2021), "Swin transformer: Hierarchical vision transformer using shifted windows". In Proceedings of the IEEE/CVF international conference on computer vision Р. 10012–10022. DOI: https://doi.org/10.1109/ICCV48922.2021.00986

Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020), "End-to-end object detection with transformers". In European conference on computer vision. Cham: Springer International Publishing. Р. 213–229. DOI: https://doi.org/10.1007/978-3-030-58452-8_13

Liu, Z., Mao, H., Wu, C. Y., Feichtenhofer, C., Darrell, T., Xie, S. (2022), "A convnet for the 2020s". In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Р. 11976–11986. DOI: 10.1109/CVPR52688.2022.01167

Redmon, J. (2016), "You only look once: Unified, real-time object detection". In Proceedings of the IEEE conference on computer vision and pattern recognition. DOI:10.1109/CVPR.2016.91

Brock, A. (2018), "Large Scale GAN Training for High Fidelity Natural Image Synthesis", DOI:10.48550/arXiv.1809.11096

##submission.downloads##

Опубліковано

2025-06-30

Як цитувати

Барковська, О., Головченко, О., Сторчай, Д., Костін, А., & Легезін, Н. (2025). Дослідження методів штучного зору в системах внутрішньої навігації. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (2(32), 5–15. https://doi.org/10.30837/2522-9818.2025.2.005