Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями

Автор(и)

DOI:

https://doi.org/10.30837/2522-9818.2025.1.020

Ключові слова:

мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.

Анотація

Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання.

Біографії авторів

Дмитро Дашенков, Харківський національний університет радіоелектроніки

аспірант кафедри програмної інженерії

Кирило Смеляков, Харківський національний університет радіоелектроніки

доктор технічних наук, професор кафедри програмної інженерії

Посилання

Список літератури

Mensink T., Verbeek J., Perronnin F., Csurka G. Distance-Based image classification: generalizing to new classes at near-zero cost. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013. № 35 (11). Р. 2624–2637. DOI: https://doi.org/10.1109/tpami.2013.83

Xu Z., Sun K., Mao J. Research on ResNet101 network chemical reagent label image classification based on transfer learning. IEEE Xplore. 2020. DOI: https://doi.org/10.1109/ICCASIT50869.2020.9368658

Tang X., Zhou C., Chen L., Wen Y. Enhancing medical image classification via augmentation-based pre-training. 2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). 2021. DOI: https://doi.org/10.1109/bibm52615.2021.9669817

Dao H.N., Nguyen T., Cherubin Mugisha, Paik I. A multimodal transfer learning approach using pubmedclip for medical image classification. IEEE Access. 2024. №12. Р. 75496–75507. DOI: https://doi.org/10.1109/access.2024.3401777

Ma M., Ma W., Jiao L., Liu X., Liu F., Li L., Yang S. MBSI-Net: multimodal balanced self-learning interaction network for image classification. IEEE Transactions on Circuits and Systems for Video Technology. 2024. №34(5). Р. 3819–3833. DOI: https://doi.org/10.1109/tcsvt.2023.3322470

Chen Q., Shi Z., Zuo Z., Fu J., Sun Y. Two-Stream hybrid attention network for multimodal classification. IEEE International Conference on Image Processing (ICIP). 2021. DOI: https://doi.org/10.1109/icip42928.2021.9506177

"ImageNet". URL: www.image-net.org (дата звернення: 10.10.2024).

Liu Y., Ott M., Goyal N., Du J., Joshi M.S., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A robustly optimized bert pretraining approach. arXiv (Cornell University). 2019. DOI: https://doi.org/10.48550/arxiv.1907.11692

Satheesh Kumar NJ, CH A. DRCNN-WS: a novel approach for high-resolution video using recurrent neural networks and walrus search. 2022 10th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO). 2024. Р. 1–6. DOI: https://doi.org/10.1109/icrito61523.2024.10522118

Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., Uszkoreit J., Houlsby N. An image is worth 16x16 words: transformers for image recognition at scale. arXiv.org. 2021. DOI: https://doi.org/10.48550/arXiv.2010.11929

Arpit Bansal Mathematics, Kumar K., Singla S. Multimodal deep learning: integrating text and image embeddings with attention mechanism. IEEE Xplore. 2024. DOI: https://doi.org/10.1109/aiiot58432.2024.10574665

Radford A., Kim J.W., Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., Krueger G., Sutskever I. Learning transferable visual models from natural language supervision. arXiv.org. 2021. DOI: https://doi.org/10.48550/arXiv.2103.00020

Peng L., Jian S., Li D., Shen S. MRML: Multimodal rumor detection by deep metric learning. IEEE Xplore. 2023. DOI: https://doi.org/10.1109/ICASSP49357.2023.10096188

Guo W., Wang J., Wang S. Deep multimodal representation learning: a survey. IEEE Access. 2019. №7. Р. 63373–63394. DOI: https://doi.org/10.1109/access.2019.2916887

Karpathy A., Fei-Fei L. Deep visual-semantic alignments for generating image descriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. №39(4). Р. 664–676. DOI: https://doi.org/10.1109/tpami.2016.2598339

Shin S., Jang J., Jung M., Kim J., Jung Y., Jung H. Construction of a machine learning dataset for multiple AI tasks using korean commercial multimodal video clips. ICTC. 2020. Р.1264–1266. DOI: https://doi.org/10.1109/ictc49870.2020.9289319

Chen B., Liu J., Li Z., Yang M. Seeking the sufficiency and necessity causal features in multimodal representation learning. arXiv (Cornell University). 2024. DOI: https://doi.org/10.48550/arxiv.2408.16577

Srinivasan K., Raman K., Chen J., Bendersky M., Najork M. WIT: wikipedia-based image text dataset for multimodal multilingual machine learning. SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021. P. 2443–2449. DOI: https://doi.org/10.1145/3404835.3463257

Young P., Lai A., Hodosh M., Hockenmaier, J. From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics. 2014. №2. Р. 67–78. DOI: https://doi.org/10.1162/tacl_a_00166

"Papers with Code – ImageNet Benchmark (Image Classification)". URL: https://paperswithcode.com/sota/image-classification-on-imagenet (дата звернення: 01.11.2024).

Fang A., Ilharco G., Wortsman M., Wan Y., Shankar V., Dave A., Schmidt L. Data determines distributional robustness in contrastive language image pre-training (CLIP). arXiv (Cornell University). 2022. DOI: https://doi.org/10.48550/arxiv.2205.01397

Chen J., Hu H., Wu H., Jiang Y., Wang C. Learning the best pooling strategy for visual semantic embedding. arXiv (Cornell University). 2020. DOI: https://doi.org/10.48550/arxiv.2011.04305

References

Mensink, T., Verbeek, J., Perronnin, F., Csurka, G. (2013), "Distance-Based image classification: generalizing to new classes at near-zero cost". IEEE Transactions on Pattern Analysis and Machine Intelligence, № 35(11), Р. 2624–2637. DOI: https://doi.org/10.1109/tpami.2013.83

Xu, Z., Sun, K., Mao, J. (2020), "Research on ResNet101 Network chemical reagent label image classification based on transfer learning". IEEE Xplore. DOI: https://doi.org/10.1109/ICCASIT50869.2020.9368658

Tang, X., Zhou, C., Chen, L., Wen, Y. (2021), "Enhancing medical image classification via augmentation-based pre-training". 2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). DOI: https://doi.org/10.1109/bibm52615.2021.9669817

Dao, H.N., Nguyen, T., Cherubin Mugisha, Paik, I. (2024), "A multimodal transfer learning approach using pubmedclip for medical image classification". IEEE Access, 12, Р. 75496–75507. DOI: https://doi.org/10.1109/access.2024.3401777

Ma, M., Ma, W., Jiao, L., Liu, X., Liu, F., Li, L., Yang, S. (2024), "MBSI-Net: multimodal balanced self-learning interaction network for image classification". IEEE Transactions on Circuits and Systems for Video Technology, № 34(5), Р. 3819–3833. DOI: https://doi.org/10.1109/tcsvt.2023.3322470

Chen, Q., Shi, Z., Zuo, Z., Fu, J., Sun, Y. (2021), "Two-stream hybrid attention network for multimodal classification". 2022 IEEE International Conference on Image Processing (ICIP). DOI: https://doi.org/10.1109/icip42928.2021.9506177

"ImageNet". available at: https://www.image-net.org/

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M.S., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. (2019), "RoBERTa: a robustly optimized bert pretraining approach". arXiv (Cornell University), № 1. DOI: https://doi.org/10.48550/arxiv.1907.11692

Satheesh Kumar NJ, CH, A. (2024), "DRCNN-WS: A novel approach for high-resolution video using recurrent neural networks and walrus search". 2022 10th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO), Р. 1–6. DOI: https://doi.org/10.1109/icrito61523.2024.10522118

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N. (2021), "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale". arXiv.org. DOI: https://doi.org/10.48550/arXiv.2010.11929

Arpit Bansal Mathematics, Kumar, K., Singla, S. (2024), "Multimodal deep learning: integrating text and image embeddings with attention mechanism". IEEE Xplore. DOI: https://doi.org/10.1109/aiiot58432.2024.10574665

Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I. (2021), "Learning transferable visual models from natural language supervision". arXiv.org. DOI: https://doi.org/10.48550/arXiv.2103.00020

Peng, L., Jian, S., Li, D. and Shen, S. (2023), "MRML: multimodal rumor detection by deep metric learning". IEEE Xplore. DOI: https://doi.org/10.1109/ICASSP49357.2023.10096188

Guo, W., Wang, J., Wang, S. (2019), "Deep multimodal representation learning: a survey". IEEE Access, № 7, Р. 63373–63394. DOI: https://doi.org/10.1109/access.2019.2916887

Karpathy, A., Fei-Fei, L. (2017), "Deep visual-semantic alignments for generating image descriptions". IEEE Transactions on Pattern Analysis and Machine Intelligence, № 39 (4), Р. 664–676. DOI: https://doi.org/10.1109/tpami.2016.2598339

Shin, S., Jang, J., Jung, M., Kim, J., Jung, Y., Jung, H. (2020), "Construction of a machine learning dataset for multiple AI tasks using korean commercial multimodal video clips". ICTC. Р. 1264–1266. DOI: https://doi.org/10.1109/ictc49870.2020.9289319

Chen, B., Liu, J., Li, Z., Yang, M. (2024), "Seeking the Sufficiency and Necessity Causal Features in Multimodal Representation Learning". arXiv (Cornell University). DOI: https://doi.org/10.48550/arxiv.2408.16577

Srinivasan, K., Raman, K., Chen, J., Bendersky, M., Najork, M. (2021), "WIT: wikipedia-based image text dataset for multimodal multilingual machine learning". SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021. P. 2443–2449.DOI: https://doi.org/10.1145/3404835.3463257

Young, P., Lai, A., Hodosh, M., Hockenmaier, J. (2014), "From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions". Transactions of the association for computational linguistics, № 2, Р. 67–78. DOI: https://doi.org/10.1162/tacl_a_00166

"Papers with Code - ImageNet Benchmark (Image Classification)". available at: https://paperswithcode.com/sota/image-classification-on-imagenet

Fang, A., Ilharco, G., Wortsman, M., Wan, Y., Shankar, V., Dave, A., Schmidt, L. (2022), "Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)". arXiv (Cornell University). DOI: https://doi.org/10.48550/arxiv.2205.01397

Chen, J., Hu, H., Wu, H., Jiang, Y., Wang, C. (2020), "Learning the Best Pooling Strategy for Visual Semantic Embedding". arXiv (Cornell University). DOI: https://doi.org/10.48550/arxiv.2011.04305

##submission.downloads##

Опубліковано

2025-03-31

Як цитувати

Дашенков, Д., & Смеляков, К. (2025). Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (1(31), 20–31. https://doi.org/10.30837/2522-9818.2025.1.020