Розпізнавання зображень за допомогою гібридного підходу до на основі мультимодальних великих мовних моделей та згорткових нейронних мереж

Є.А. Чичкарьов; О.В. Семенов

doi:10.31498/2225-6733.53.1.2026.359780

Розпізнавання зображень за допомогою гібридного підходу до на основі мультимодальних великих мовних моделей та згорткових нейронних мереж

Автор(и)

Є.А. Чичкарьов Державний університет інформаційно-комунікаційних технологій , Україна https://orcid.org/0000-0002-4362-5129
О.В. Семенов Державний університет інформаційно-комунікаційних технологій , Україна https://orcid.org/0009-0005-9749-3343

DOI:

https://doi.org/10.31498/2225-6733.53.1.2026.359780

Ключові слова:

розпізнавання зображень, згорткові нейронні мережі, мультимодальні великі мовні моделі, гібридний підхід, MobileNetV2, Gemma 3, розпізнавання без попереднього навчання, Google Colab, Ollama

Анотація

У роботі розглядається актуальна наукова проблема розпізнавання зображень в умовах обмежень сучасних нейромережевих архітектур. Обґрунтовано доцільність застосування гібридного підходу, що поєднує структурну точність згорткових нейронних мереж (CNN) із семантичною гнучкістю мультимодальних великих мовних моделей (MLLM). Метою дослідження є розробка та апробація методу, що дозволяє усунути обмеженість категорій класичних систем розпізнавання та схильність мультимодальних моделей до формування неіснуючих об'єктів. У ході дослідження застосовано методи ієрархічної класифікації, узгодженого голосування (Hybrid Voting) та формування текстових інструкцій (Prompt Engineering). Для програмної реалізації використано моделі MobileNetV2 та локальні MLLM (серії Gemma 3, LLaVA) у хмарному середовищі Google Colab із застосуванням інструменту Ollama. Валідація підходу здійснювалася на датасетах MNIST, CIFAR-10 та Flowers102. Ключовим результатом роботи є встановлення того, що гібридна архітектура забезпечує вищу достовірність розпізнавання порівняно з автономним використанням моделей. Зокрема, на складному датасеті Flowers102 зафіксовано приріст точності до 92,3%. Визначено, що використання CNN як базового шару дозволяє нівелювати слабкість мовних моделей у роботі з низькорозмірними даними, тоді як MLLM забезпечує глибоку семантичну інтерпретацію в умовах візуальної схожості об'єктів. Наукова новизна полягає у розробці динамічного механізму взаємодії нейромережевих архітектур, що дозволяє оптимізувати обчислювальні ресурси та підвищити надійність систем розпізнавання в умовах невизначеності. Практичне значення роботи підтверджується можливістю впровадження запропонованого конвеєра в системи пакетної обробки даних та інтерактивні застосунки

Посилання

Visual instruction tuning / Liu H., Li C., Wu Q., Lee Y. J. Advances in Neural Information Processing Systems. 2023. Pp. 34892–34916. DOI: https://doi.org/10.48550/arXiv.2304.08485.
GPT-4 technical report / J. Achiam et al. arXiv preprint. arXiv:2303.08774. 2023. DOI: https://doi.org/10.48550/arXiv.2303.08774.
Gemma 3 technical report / G. T. Kamath et al. arXiv preprint. arXiv:2503.19786. 2025. DOI: https://doi.org/10.48550/arXiv.2503.19786.
MiniGPT-4: Enhancing vision-language under-standing with advanced large language models / D. Zhu et al. arXiv preprint. arXiv:2304.10592. 2023. DOI: https://doi.org/10.48550/arXiv.2304.10592.
MobileNetV2: Inverted residuals and linear bottlenecks / M. Sandler et al. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18-23 June 2018. Pp. 4510–4520. DOI: https://doi.org/10.1109/CVPR.2018.00474.
Deep residual learning for image recognition / He K., Zhang X., Ren S., Sun J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27-30 June 2016. Pp. 770–778. DOI: https://doi.org/10.1109/CVPR.2016.90.
Learning transferable visual models from natural language supervision / A. Radford et al. Proceedings of the International Conference on Machine Learning, 18-24 July 2021. Vol. 139. Pp. 8748–8763. DOI: https://doi.org/10.48550/arXiv.2103.00020.
A survey on multimodal large language models / S. Yin et al. arXiv preprint. arXiv:2306.13549. 2024. DOI: https://doi.org/10.48550/arXiv.2306.13549.
Hallucination of multimodal large language models: A survey / Z. Bai et al. arXiv preprint. arXiv:2404.18930. 2024. DOI: https://doi.org/10.48550/arXiv.2404.18930.
BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models / Li J., Li D., Savarese S., Hoi S. Proceedings of the International Conference on Machine Learning, Honolulu, Hawaii, USA, 23–29 July 2023. DOI: https://doi.org/10.48550/arXiv.2301.12597.
Rethinking pre-training and self-training / B. Zoph et al. Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada, 6–12 December 2020. Vol. 33. Pp. 3833–3845. DOI: https://doi.org/10.48550/arXiv.2006.06882.
Flamingo: A visual language model for few-shot learning / J. Alayrac et al. arXiv preprint. arXiv:2204.14198. 2022. DOI: https://doi.org/10.48550/arXiv.2204.14198.
Ollama Team. Ollama: Get up and running with large language models. URL: https://ollama.com (дата звернення: 15.09.2025).
Vake D., Vičič J., Tošić A. Hive: A secure, scalable framework for distributed Ollama inference. SoftwareX. 2025. Vol. 30. Article 102183. DOI: https://doi.org/10.1016/j.softx.2025.102183.
Google. Google Colaboratory – Free GPU/TPU for machine learning. URL: https://colab.research.google.com (дата звернення: 15.09.2025).

##submission.downloads##

Опубліковано

2026-03-26

Як цитувати

Чичкарьов , Є., & Семенов , О. (2026). Розпізнавання зображень за допомогою гібридного підходу до на основі мультимодальних великих мовних моделей та згорткових нейронних мереж. Вісник Приазовського Державного Технічного Університету. Серія: Технічні науки, 1(53), 85–91. https://doi.org/10.31498/2225-6733.53.1.2026.359780

Завантажити посилання

Номер

Том 1 № 53 (2026): Вісник ПДТУ. Серія: Технічні науки

Розділ

122 Комп'ютерні науки та інформаційні технології

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Журнал "Вісник Приазовського державного технічного університету. Серія: Технічні науки" видається під ліцензією СС-BY (Ліцензія «Із зазначенням авторства»).

Дана ліцензія дозволяє поширювати, редагувати, поправляти і брати твір за основу для похідних навіть на комерційній основі із зазначенням авторства. Це найзручніша з усіх пропонованих ліцензій. Рекомендується для максимального поширення і використання неліцензійних матеріалів.

Автори, які публікуються в цьому журналі, погоджуються з наступними умовами:

1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, яка дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи в цьому журналі.

2. Автори мають право укладати самостійні додаткові угоди, які стосуються неексклюзивного поширення роботи в тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи в цьому журналі.