Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
DOI:
https://doi.org/10.30837/2522-9818.2025.1.020Ключові слова:
мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.Анотація
Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання.
Посилання
Список літератури
Mensink T., Verbeek J., Perronnin F., Csurka G. Distance-Based image classification: generalizing to new classes at near-zero cost. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013. № 35 (11). Р. 2624–2637. DOI: https://doi.org/10.1109/tpami.2013.83
Xu Z., Sun K., Mao J. Research on ResNet101 network chemical reagent label image classification based on transfer learning. IEEE Xplore. 2020. DOI: https://doi.org/10.1109/ICCASIT50869.2020.9368658
Tang X., Zhou C., Chen L., Wen Y. Enhancing medical image classification via augmentation-based pre-training. 2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). 2021. DOI: https://doi.org/10.1109/bibm52615.2021.9669817
Dao H.N., Nguyen T., Cherubin Mugisha, Paik I. A multimodal transfer learning approach using pubmedclip for medical image classification. IEEE Access. 2024. №12. Р. 75496–75507. DOI: https://doi.org/10.1109/access.2024.3401777
Ma M., Ma W., Jiao L., Liu X., Liu F., Li L., Yang S. MBSI-Net: multimodal balanced self-learning interaction network for image classification. IEEE Transactions on Circuits and Systems for Video Technology. 2024. №34(5). Р. 3819–3833. DOI: https://doi.org/10.1109/tcsvt.2023.3322470
Chen Q., Shi Z., Zuo Z., Fu J., Sun Y. Two-Stream hybrid attention network for multimodal classification. IEEE International Conference on Image Processing (ICIP). 2021. DOI: https://doi.org/10.1109/icip42928.2021.9506177
"ImageNet". URL: www.image-net.org (дата звернення: 10.10.2024).
Liu Y., Ott M., Goyal N., Du J., Joshi M.S., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A robustly optimized bert pretraining approach. arXiv (Cornell University). 2019. DOI: https://doi.org/10.48550/arxiv.1907.11692
Satheesh Kumar NJ, CH A. DRCNN-WS: a novel approach for high-resolution video using recurrent neural networks and walrus search. 2022 10th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO). 2024. Р. 1–6. DOI: https://doi.org/10.1109/icrito61523.2024.10522118
Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., Uszkoreit J., Houlsby N. An image is worth 16x16 words: transformers for image recognition at scale. arXiv.org. 2021. DOI: https://doi.org/10.48550/arXiv.2010.11929
Arpit Bansal Mathematics, Kumar K., Singla S. Multimodal deep learning: integrating text and image embeddings with attention mechanism. IEEE Xplore. 2024. DOI: https://doi.org/10.1109/aiiot58432.2024.10574665
Radford A., Kim J.W., Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., Krueger G., Sutskever I. Learning transferable visual models from natural language supervision. arXiv.org. 2021. DOI: https://doi.org/10.48550/arXiv.2103.00020
Peng L., Jian S., Li D., Shen S. MRML: Multimodal rumor detection by deep metric learning. IEEE Xplore. 2023. DOI: https://doi.org/10.1109/ICASSP49357.2023.10096188
Guo W., Wang J., Wang S. Deep multimodal representation learning: a survey. IEEE Access. 2019. №7. Р. 63373–63394. DOI: https://doi.org/10.1109/access.2019.2916887
Karpathy A., Fei-Fei L. Deep visual-semantic alignments for generating image descriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. №39(4). Р. 664–676. DOI: https://doi.org/10.1109/tpami.2016.2598339
Shin S., Jang J., Jung M., Kim J., Jung Y., Jung H. Construction of a machine learning dataset for multiple AI tasks using korean commercial multimodal video clips. ICTC. 2020. Р.1264–1266. DOI: https://doi.org/10.1109/ictc49870.2020.9289319
Chen B., Liu J., Li Z., Yang M. Seeking the sufficiency and necessity causal features in multimodal representation learning. arXiv (Cornell University). 2024. DOI: https://doi.org/10.48550/arxiv.2408.16577
Srinivasan K., Raman K., Chen J., Bendersky M., Najork M. WIT: wikipedia-based image text dataset for multimodal multilingual machine learning. SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021. P. 2443–2449. DOI: https://doi.org/10.1145/3404835.3463257
Young P., Lai A., Hodosh M., Hockenmaier, J. From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics. 2014. №2. Р. 67–78. DOI: https://doi.org/10.1162/tacl_a_00166
"Papers with Code – ImageNet Benchmark (Image Classification)". URL: https://paperswithcode.com/sota/image-classification-on-imagenet (дата звернення: 01.11.2024).
Fang A., Ilharco G., Wortsman M., Wan Y., Shankar V., Dave A., Schmidt L. Data determines distributional robustness in contrastive language image pre-training (CLIP). arXiv (Cornell University). 2022. DOI: https://doi.org/10.48550/arxiv.2205.01397
Chen J., Hu H., Wu H., Jiang Y., Wang C. Learning the best pooling strategy for visual semantic embedding. arXiv (Cornell University). 2020. DOI: https://doi.org/10.48550/arxiv.2011.04305
References
Mensink, T., Verbeek, J., Perronnin, F., Csurka, G. (2013), "Distance-Based image classification: generalizing to new classes at near-zero cost". IEEE Transactions on Pattern Analysis and Machine Intelligence, № 35(11), Р. 2624–2637. DOI: https://doi.org/10.1109/tpami.2013.83
Xu, Z., Sun, K., Mao, J. (2020), "Research on ResNet101 Network chemical reagent label image classification based on transfer learning". IEEE Xplore. DOI: https://doi.org/10.1109/ICCASIT50869.2020.9368658
Tang, X., Zhou, C., Chen, L., Wen, Y. (2021), "Enhancing medical image classification via augmentation-based pre-training". 2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). DOI: https://doi.org/10.1109/bibm52615.2021.9669817
Dao, H.N., Nguyen, T., Cherubin Mugisha, Paik, I. (2024), "A multimodal transfer learning approach using pubmedclip for medical image classification". IEEE Access, 12, Р. 75496–75507. DOI: https://doi.org/10.1109/access.2024.3401777
Ma, M., Ma, W., Jiao, L., Liu, X., Liu, F., Li, L., Yang, S. (2024), "MBSI-Net: multimodal balanced self-learning interaction network for image classification". IEEE Transactions on Circuits and Systems for Video Technology, № 34(5), Р. 3819–3833. DOI: https://doi.org/10.1109/tcsvt.2023.3322470
Chen, Q., Shi, Z., Zuo, Z., Fu, J., Sun, Y. (2021), "Two-stream hybrid attention network for multimodal classification". 2022 IEEE International Conference on Image Processing (ICIP). DOI: https://doi.org/10.1109/icip42928.2021.9506177
"ImageNet". available at: https://www.image-net.org/
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M.S., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. (2019), "RoBERTa: a robustly optimized bert pretraining approach". arXiv (Cornell University), № 1. DOI: https://doi.org/10.48550/arxiv.1907.11692
Satheesh Kumar NJ, CH, A. (2024), "DRCNN-WS: A novel approach for high-resolution video using recurrent neural networks and walrus search". 2022 10th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO), Р. 1–6. DOI: https://doi.org/10.1109/icrito61523.2024.10522118
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N. (2021), "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale". arXiv.org. DOI: https://doi.org/10.48550/arXiv.2010.11929
Arpit Bansal Mathematics, Kumar, K., Singla, S. (2024), "Multimodal deep learning: integrating text and image embeddings with attention mechanism". IEEE Xplore. DOI: https://doi.org/10.1109/aiiot58432.2024.10574665
Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I. (2021), "Learning transferable visual models from natural language supervision". arXiv.org. DOI: https://doi.org/10.48550/arXiv.2103.00020
Peng, L., Jian, S., Li, D. and Shen, S. (2023), "MRML: multimodal rumor detection by deep metric learning". IEEE Xplore. DOI: https://doi.org/10.1109/ICASSP49357.2023.10096188
Guo, W., Wang, J., Wang, S. (2019), "Deep multimodal representation learning: a survey". IEEE Access, № 7, Р. 63373–63394. DOI: https://doi.org/10.1109/access.2019.2916887
Karpathy, A., Fei-Fei, L. (2017), "Deep visual-semantic alignments for generating image descriptions". IEEE Transactions on Pattern Analysis and Machine Intelligence, № 39 (4), Р. 664–676. DOI: https://doi.org/10.1109/tpami.2016.2598339
Shin, S., Jang, J., Jung, M., Kim, J., Jung, Y., Jung, H. (2020), "Construction of a machine learning dataset for multiple AI tasks using korean commercial multimodal video clips". ICTC. Р. 1264–1266. DOI: https://doi.org/10.1109/ictc49870.2020.9289319
Chen, B., Liu, J., Li, Z., Yang, M. (2024), "Seeking the Sufficiency and Necessity Causal Features in Multimodal Representation Learning". arXiv (Cornell University). DOI: https://doi.org/10.48550/arxiv.2408.16577
Srinivasan, K., Raman, K., Chen, J., Bendersky, M., Najork, M. (2021), "WIT: wikipedia-based image text dataset for multimodal multilingual machine learning". SIGIR '21: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021. P. 2443–2449.DOI: https://doi.org/10.1145/3404835.3463257
Young, P., Lai, A., Hodosh, M., Hockenmaier, J. (2014), "From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions". Transactions of the association for computational linguistics, № 2, Р. 67–78. DOI: https://doi.org/10.1162/tacl_a_00166
"Papers with Code - ImageNet Benchmark (Image Classification)". available at: https://paperswithcode.com/sota/image-classification-on-imagenet
Fang, A., Ilharco, G., Wortsman, M., Wan, Y., Shankar, V., Dave, A., Schmidt, L. (2022), "Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)". arXiv (Cornell University). DOI: https://doi.org/10.48550/arxiv.2205.01397
Chen, J., Hu, H., Wu, H., Jiang, Y., Wang, C. (2020), "Learning the Best Pooling Strategy for Visual Semantic Embedding". arXiv (Cornell University). DOI: https://doi.org/10.48550/arxiv.2011.04305
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












