Порівняльний аналіз алгоритмів узгодження модальностей у мультимодальних трансформерах для синтезу звуку

Автор(и)

  • Вадим Мухін Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0002-1206-9131
  • Ярослав Хабло Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0009-0003-4983-0726

DOI:

https://doi.org/10.30837/2522-9818.2025.2.049

Ключові слова:

мультимодальні трансформери; узгодження модальностей; проєкція ознак; контрастне навчання; крос-увага.

Анотація

Предметом дослідження є застосування мультимодальних трансформерів для високоякісного синтезу звуку. Завдяки залученню гетерогенних джерел даних, зокрема аудіо, тексту, зображень і відео, воно покликане вирішувати основні труднощі, пов’язані з точною узгодженістю модальностей. Мета статті полягає в проведенні всебічного аналізу різноманітних алгоритмів узгодження модальностей для оцінювання їх ефективності, обчислювальної продуктивності та доцільності використання для завдань синтезу звуку. Завдання: дослідження проєкції ознак, контрастного навчання, механізмів крос-уваги та динамічного часового вирівнювання для узгодження модальностей; оцінювання точності узгодження, обчислювального навантаження та стійкості алгоритмів у різних умовах використання; проведення бенчмаркінгу на базі стандартизованих наборів даних і метрик, зокрема Cross-Modal Retrieval Accuracy (CMRA), Mean Reciprocal Rank (MRR) і Normalized Discounted Cumulative Gain (NDCG). Методи. У дослідженні застосовуються кількісні та якісні підходи. Кількісні методи передбачають емпіричні перевірки точності узгодження та обчислювальних витрат, тоді як якісні методи орієнтовані на оцінювання впливу стратегій узгодження на сприйняття синтезованого аудіо. Використання стандартизованих протоколів оброблення даних і оцінювання забезпечує надійність і відтворюваність результатів. Результати. Аналіз свідчить про те, що контрастне навчання та крос-увага забезпечують високу точність узгодження, однак вимагають суттєвих обчислювальних ресурсів. Водночас проєкція ознак і динамічне часовге вирівнювання пропонують вищу ефективність ціною деякої втрати деталізації. Гібридні підходи, що поєднують переваги цих методів, здатні збалансувати точність і продуктивність залежно від сценарію застосування. Висновки. Це дослідження поглиблює розуміння того, як мультимодальні трансформери можуть забезпечувати більш надійний та ефективний синтез звуку. Визначаючи переваги й обмеження кожного підходу до узгодження, воно формує базис для розроблення адаптивних систем, які динамічно налаштовують методи узгодження з огляду на характеристики вхідних даних. У перспективі можливим напрямом є інтеграція цих підходів у режимі реального часу та розширення кола задіяних модальностей.

Біографії авторів

Вадим Мухін, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

доктор технічних наук, професор, завідувач кафедри системного проєктування,

Ярослав Хабло, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

аспірант кафедри системного проєктування

Посилання

References

Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). "Attention Is All You Need". NeurIPS, 15 p. DOI: https://doi.org/10.48550/arXiv.1706.03762

Choromanski, K., Likhosherstov, V., Dohan, D., et al. (2021). "Rethinking Attention with Performers". ICLR, 38 p. DOI: https://doi.org/10.48550/arXiv.2009.14794

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". NAACL, DOI: https://doi.org/10.48550/arXiv.1810.04805

Radford, A., Kim, J. W., Hallacy, C., et al. (2021). "Learning Transferable Visual Models from Natural Language Supervision". ICML, DOI: https://doi.org/10.48550/arXiv.2103.00020

Guzhov, A., Raileanu, A., Golubev, V., et al. (2022). "AudioCLIP: Extending CLIP to Image, Text, and Audio". ICLR, DOI: https://doi.org/10.48550/arXiv.2106.13043

Mahmud, T., Mo, S., Tian, Y., & Marculescu, D. (2024). "MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers". CVPR Workshops, Р. 7996–8005, DOI: https://doi.org/10.48550/arXiv.2406.04930

Gao, P., Zhao, H., Lu, J., et al. (2021). "ResT: An Efficient Transformer for Visual Recognition". CVPR, DOI: https://doi.org/10.48550/arXiv.2105.13677

Baltruūtis, T., Ahuja, C., & Morency, L.-P. (2018). "Multimodal Machine Learning: A Survey and Taxonomy". IEEE Transactions on Pattern Analysis and Machine Intelligence, Р. 423 – 443. DOI: https://doi.org/10.1109/TPAMI.2018.2798607

Sachidananda, V., Tseng, S.-Y., Marchi, E., Kajarekar, S., & Georgiou, P. (2022). "CALM: Contrastive Aligned Audio-Language Multirate and Multimodal Representations", DOI: https://doi.org/10.48550/arXiv.2202.03587

Akbari, H., Yuan, L., Qian, R., et al. (2021). "VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio, and Text" NeurIPS, DOI: https://doi.org/10.48550/arXiv.2104.11178

Ye, H., Huang, D.-A., Lu, Y., Yu, Z., Ping, W., Tao, A., Kautz, J., Han, S., Xu, D., Molchanov, P., & Yin, H. (2024). "X-VILA: Cross-Modality Alignment for Large Language Model", DOI: https://doi.org/10.48550/arXiv.2405.19335

Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations". NeurIPS, DOI: https://doi.org/10.48550/arXiv.2006.11477

Alayrac, J.-B., Donahue, J., Luc, P., et al. (2022). "Flamingo: A Visual Language Model for Few-Shot Learning", DOI: https://doi.org/10.48550/arXiv.2204.14198

Child, R., Gray, S., Radford, A., & Sutskever, I. (2022). "Generating Long Sequences with Sparse Transformers", DOI: https://doi.org/10.48550/arXiv.1904.10509

Zaheer, M., Guruganesh, G., Dubey, K. A., et al. (2020). "Big Bird: Transformers for Longer Sequences". NeurIPS, DOI: https://doi.org/10.48550/arXiv.2007.14062

Wang, S., Li, B., Khabsa, M., et al. (2020). "Linformer: Self-Attention with Linear Complexity", DOI: https://doi.org/10.48550/arXiv.2009.14794

##submission.downloads##

Опубліковано

2025-07-08

Як цитувати

Мухін, В., & Хабло, Я. (2025). Порівняльний аналіз алгоритмів узгодження модальностей у мультимодальних трансформерах для синтезу звуку. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (2(32), 49–57. https://doi.org/10.30837/2522-9818.2025.2.049