Дослідження методів штучного зору в системах внутрішньої навігації
DOI:
https://doi.org/10.30837/2522-9818.2025.2.005Ключові слова:
система; локалізація; навігація; сліпота; розпізнавання; комп’ютерний зір; класифікація.Анотація
Предметом статті є методи комп’ютерного зору, які можуть бути імплементовані у систему навігації в приміщенні для людей з вадами зору. Метою цього дослідження є розробка та впровадження методів штучного зору, орієнтованих на розпізнавання перешкод у закритому просторі, у пропоновану систему внутрішньої навігації для людей з вадами зору, яка інтегрує сучасні технології штучного інтелекту, голосового керування, просторового аналізу та Bluetooth-навігації. Для досягнення мети були вирішені такі завдання: виконано аналіз проблемної області, включаючи обґрунтування актуальності теми, порівняння існуючих рішень; запропоновано узагальнену модель системи з описом передбачених модулів; запропоновано новий метод розпізнавання основних класів перешкод, які можуть зустрітися в торгових залах (люди, візки, навантажувачі, обмежувальна стрічка) за допомогою вдосконаленого методу двоетапного розпізнавання об’єктів; проведено порівняльний аналіз архітектур глибокого навчання для задач розпізнавання об’єктів; виконано експериментальні дослідження для оцінки якості навчання. Використані методи: попередньої обробки зображення (білатеріальна фільтрація, гаусівське розміття, підвищення насиченості певного каналу зображення, видалення розміття рухом, видалення шумів алгоритмом усереднення), нейромережеві методи аналізу вхідних даних, методи статистичних досліджень. Результат: запропонований метод показав хороші результати на реальних тестових зображеннях. (досягнуто: IoU = 68% і достовірність = 69% в середньому, що в середньому на 79% і 89% більше, ніж вихідні зображення з шумом). Була виявлена необхідність розширення системи додатковими інструментами (наприклад, лідарами) для виявлення важко помітних перешкод типу дзеркальних вітрин. Висновки. Спираючись на проведений аналіз, запропонований двохетапний метод препроцессингу значно покращує якість розпізнавання. Пропонованій системі потрібні додаткові датчики, оскільки не всі об'єкти можуть бути розпізнані за допомогою методів комп'ютерного зору.
Посилання
References
Khan, S., Nazir, S., & Khan, H. U. (2021), "Analysis of navigation assistants for blind and visually impaired people: A systematic review". IEEE access 9 (2021), Р. 26712–26734. DOI:10.1109/ACCESS.2021.3052415
Барковська, О., Сердечний, В. (2024), "Intelligent assistance system for people with visual impairments". Innovative technologies and scientific solutions for industries, (2 (28)), Р. 6–16. DOI:10.30837/2522-9818.2024.28.006
Ashmafee, M. H., & Sabab, S. A. (2016), "Blind Reader: An intelligent assistant for blind". In 2016 19th International Conference on Computer and Information Technology. DOI: 10.1109/ICCITECHN.2016.7860200
Wu, M., Li, C., & Yao, Z. (2022), "Deep active learning for computer vision tasks: methodologies, applications, and challenges". Applied Sciences, 12(16), 8103 р. DOI: https://doi.org/10.3390/app12168103
Paneru, S., Jeelani, I. (2021), "Computer vision applications in construction: Current state, opportunities & challenges". Automation in Construction, 132, 103940 р. DOI: 10.1016/j.autcon.2021.103940
Elyan, E., Vuttipittayamongkol, P., Johnston, P., Martin, K., McPherson, K., Moreno-García, C. F., Sarker, M. M. K. (2022), "Computer vision and machine learning for medical image analysis: recent advances, challenges, and way forward". Artificial Intelligence Surgery, 2(1), Р. 24–45. DOI: 10.20517/ais.2021.15
Naik, B. T., Hashmi, M. F., Bokde, N. D. (2022), "A comprehensive review of computer vision in sports: Open issues, future trends and research directions". Applied Sciences, 12(9), 4429 р. DOI: https://doi.org/10.3390/app12094429
Zablocki, É., Ben-Younes, H., Pérez, P., & Cord, M. (2022), "Explainability of deep vision-based autonomous driving systems: Review and challenges". International Journal of Computer Vision, 130(10), Р. 2425–2452. DOI: https://doi.org/10.1007/s11263-022-01657-x
He, K., Zhang, X., Ren, S., & Sun, J. (2016), "Deep residual learning for image recognition". In Proceedings of the IEEE conference on computer vision and pattern recognition. P. 770–778. DOI: 10.1109/cvpr.2016.90
Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K. Q. (2017), "Densely connected convolutional networks". In Proceedings of the IEEE conference on computer vision and pattern recognition. Р. 4700–4708. DOI: 10.1109/cvpr.2017.243
Tan, M., & Le, Q. (2019), "Efficientnet: Rethinking model scaling for convolutional neural networks". In International conference on machine learning. Р. 6105–6114. DOI: https://doi.org/10.48550/arXiv.1905.11946
Ren, S., He, K., Girshick, R., & Sun, J. (2016), "Faster R-CNN: Towards real-time object detection with region proposal networks". IEEE transactions on pattern analysis and machine intelligence, 39(6), Р. 1137–1149. DOI:10.1109/tpami.2016.2577031
Alexey, D. (2020), "An image is worth 16x16 words: Transformers for image recognition at scale". Computer Vision and Pattern Recognition.
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Guo, B. (2021), "Swin transformer: Hierarchical vision transformer using shifted windows". In Proceedings of the IEEE/CVF international conference on computer vision Р. 10012–10022. DOI: https://doi.org/10.1109/ICCV48922.2021.00986
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020), "End-to-end object detection with transformers". In European conference on computer vision. Cham: Springer International Publishing. Р. 213–229. DOI: https://doi.org/10.1007/978-3-030-58452-8_13
Liu, Z., Mao, H., Wu, C. Y., Feichtenhofer, C., Darrell, T., Xie, S. (2022), "A convnet for the 2020s". In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Р. 11976–11986. DOI: 10.1109/CVPR52688.2022.01167
Redmon, J. (2016), "You only look once: Unified, real-time object detection". In Proceedings of the IEEE conference on computer vision and pattern recognition. DOI:10.1109/CVPR.2016.91
Brock, A. (2018), "Large Scale GAN Training for High Fidelity Natural Image Synthesis", DOI:10.48550/arXiv.1809.11096
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












