Розпізнавання зображень за допомогою гібридного підходу до на основі мультимодальних великих мовних моделей та згорткових нейронних мереж

Автор(и)

DOI:

https://doi.org/10.31498/2225-6733.53.1.2026.359780

Ключові слова:

розпізнавання зображень, згорткові нейронні мережі, мультимодальні великі мовні моделі, гібридний підхід, MobileNetV2, Gemma 3, розпізнавання без попереднього навчання, Google Colab, Ollama

Анотація

У роботі розглядається актуальна наукова проблема розпізнавання зображень в умовах обмежень сучасних нейромережевих архітектур. Обґрунтовано доцільність застосування гібридного підходу, що поєднує структурну точність згорткових нейронних мереж (CNN) із семантичною гнучкістю мультимодальних великих мовних моделей (MLLM). Метою дослідження є розробка та апробація методу, що дозволяє усунути обмеженість категорій класичних систем розпізнавання та схильність мультимодальних моделей до формування неіснуючих об'єктів. У ході дослідження застосовано методи ієрархічної класифікації, узгодженого голосування (Hybrid Voting) та формування текстових інструкцій (Prompt Engineering). Для програмної реалізації використано моделі MobileNetV2 та локальні MLLM (серії Gemma 3, LLaVA) у хмарному середовищі Google Colab із застосуванням інструменту Ollama. Валідація підходу здійснювалася на датасетах MNIST, CIFAR-10 та Flowers102. Ключовим результатом роботи є встановлення того, що гібридна архітектура забезпечує вищу достовірність розпізнавання порівняно з автономним використанням моделей. Зокрема, на складному датасеті Flowers102 зафіксовано приріст точності до 92,3%. Визначено, що використання CNN як базового шару дозволяє нівелювати слабкість мовних моделей у роботі з низькорозмірними даними, тоді як MLLM забезпечує глибоку семантичну інтерпретацію в умовах візуальної схожості об'єктів. Наукова новизна полягає у розробці динамічного механізму взаємодії нейромережевих архітектур, що дозволяє оптимізувати обчислювальні ресурси та підвищити надійність систем розпізнавання в умовах невизначеності. Практичне значення роботи підтверджується можливістю впровадження запропонованого конвеєра в системи пакетної обробки даних та інтерактивні застосунки

Посилання

  1. Visual instruction tuning / Liu H., Li C., Wu Q., Lee Y. J. Advances in Neural Information Processing Systems. 2023. Pp. 34892–34916. DOI: https://doi.org/10.48550/arXiv.2304.08485.
  2. GPT-4 technical report / J. Achiam et al. arXiv preprint. arXiv:2303.08774. 2023. DOI: https://doi.org/10.48550/arXiv.2303.08774.
  3. Gemma 3 technical report / G. T. Kamath et al. arXiv preprint. arXiv:2503.19786. 2025. DOI: https://doi.org/10.48550/arXiv.2503.19786.
  4. MiniGPT-4: Enhancing vision-language under-standing with advanced large language models / D. Zhu et al. arXiv preprint. arXiv:2304.10592. 2023. DOI: https://doi.org/10.48550/arXiv.2304.10592.
  5. MobileNetV2: Inverted residuals and linear bottlenecks / M. Sandler et al. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18-23 June 2018. Pp. 4510–4520. DOI: https://doi.org/10.1109/CVPR.2018.00474.
  6. Deep residual learning for image recognition / He K., Zhang X., Ren S., Sun J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27-30 June 2016. Pp. 770–778. DOI: https://doi.org/10.1109/CVPR.2016.90.
  7. Learning transferable visual models from natural language supervision / A. Radford et al. Proceedings of the International Conference on Machine Learning, 18-24 July 2021. Vol. 139. Pp. 8748–8763. DOI: https://doi.org/10.48550/arXiv.2103.00020.
  8. A survey on multimodal large language models / S. Yin et al. arXiv preprint. arXiv:2306.13549. 2024. DOI: https://doi.org/10.48550/arXiv.2306.13549.
  9. Hallucination of multimodal large language models: A survey / Z. Bai et al. arXiv preprint. arXiv:2404.18930. 2024. DOI: https://doi.org/10.48550/arXiv.2404.18930.
  10. BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models / Li J., Li D., Savarese S., Hoi S. Proceedings of the International Conference on Machine Learning, Honolulu, Hawaii, USA, 23–29 July 2023. DOI: https://doi.org/10.48550/arXiv.2301.12597.
  11. Rethinking pre-training and self-training / B. Zoph et al. Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada, 6–12 December 2020. Vol. 33. Pp. 3833–3845. DOI: https://doi.org/10.48550/arXiv.2006.06882.
  12. Flamingo: A visual language model for few-shot learning / J. Alayrac et al. arXiv preprint. arXiv:2204.14198. 2022. DOI: https://doi.org/10.48550/arXiv.2204.14198.
  13. Ollama Team. Ollama: Get up and running with large language models. URL: https://ollama.com (дата звернення: 15.09.2025).
  14. Vake D., Vičič J., Tošić A. Hive: A secure, scalable framework for distributed Ollama inference. SoftwareX. 2025. Vol. 30. Article 102183. DOI: https://doi.org/10.1016/j.softx.2025.102183.
  15. Google. Google Colaboratory – Free GPU/TPU for machine learning. URL: https://colab.research.google.com (дата звернення: 15.09.2025).

##submission.downloads##

Опубліковано

2026-03-26

Як цитувати

Чичкарьов , Є., & Семенов , О. (2026). Розпізнавання зображень за допомогою гібридного підходу до на основі мультимодальних великих мовних моделей та згорткових нейронних мереж. Вісник Приазовського Державного Технічного Університету. Серія: Технічні науки, 1(53), 85–91. https://doi.org/10.31498/2225-6733.53.1.2026.359780

Номер

Розділ

122 Комп'ютерні науки та інформаційні технології