Порівняльний аналіз алгоритмів узгодження модальностей у мультимодальних трансформерах для синтезу звуку
DOI:
https://doi.org/10.30837/2522-9818.2025.2.049Ключові слова:
мультимодальні трансформери; узгодження модальностей; проєкція ознак; контрастне навчання; крос-увага.Анотація
Предметом дослідження є застосування мультимодальних трансформерів для високоякісного синтезу звуку. Завдяки залученню гетерогенних джерел даних, зокрема аудіо, тексту, зображень і відео, воно покликане вирішувати основні труднощі, пов’язані з точною узгодженістю модальностей. Мета статті полягає в проведенні всебічного аналізу різноманітних алгоритмів узгодження модальностей для оцінювання їх ефективності, обчислювальної продуктивності та доцільності використання для завдань синтезу звуку. Завдання: дослідження проєкції ознак, контрастного навчання, механізмів крос-уваги та динамічного часового вирівнювання для узгодження модальностей; оцінювання точності узгодження, обчислювального навантаження та стійкості алгоритмів у різних умовах використання; проведення бенчмаркінгу на базі стандартизованих наборів даних і метрик, зокрема Cross-Modal Retrieval Accuracy (CMRA), Mean Reciprocal Rank (MRR) і Normalized Discounted Cumulative Gain (NDCG). Методи. У дослідженні застосовуються кількісні та якісні підходи. Кількісні методи передбачають емпіричні перевірки точності узгодження та обчислювальних витрат, тоді як якісні методи орієнтовані на оцінювання впливу стратегій узгодження на сприйняття синтезованого аудіо. Використання стандартизованих протоколів оброблення даних і оцінювання забезпечує надійність і відтворюваність результатів. Результати. Аналіз свідчить про те, що контрастне навчання та крос-увага забезпечують високу точність узгодження, однак вимагають суттєвих обчислювальних ресурсів. Водночас проєкція ознак і динамічне часовге вирівнювання пропонують вищу ефективність ціною деякої втрати деталізації. Гібридні підходи, що поєднують переваги цих методів, здатні збалансувати точність і продуктивність залежно від сценарію застосування. Висновки. Це дослідження поглиблює розуміння того, як мультимодальні трансформери можуть забезпечувати більш надійний та ефективний синтез звуку. Визначаючи переваги й обмеження кожного підходу до узгодження, воно формує базис для розроблення адаптивних систем, які динамічно налаштовують методи узгодження з огляду на характеристики вхідних даних. У перспективі можливим напрямом є інтеграція цих підходів у режимі реального часу та розширення кола задіяних модальностей.
Посилання
References
Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). "Attention Is All You Need". NeurIPS, 15 p. DOI: https://doi.org/10.48550/arXiv.1706.03762
Choromanski, K., Likhosherstov, V., Dohan, D., et al. (2021). "Rethinking Attention with Performers". ICLR, 38 p. DOI: https://doi.org/10.48550/arXiv.2009.14794
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". NAACL, DOI: https://doi.org/10.48550/arXiv.1810.04805
Radford, A., Kim, J. W., Hallacy, C., et al. (2021). "Learning Transferable Visual Models from Natural Language Supervision". ICML, DOI: https://doi.org/10.48550/arXiv.2103.00020
Guzhov, A., Raileanu, A., Golubev, V., et al. (2022). "AudioCLIP: Extending CLIP to Image, Text, and Audio". ICLR, DOI: https://doi.org/10.48550/arXiv.2106.13043
Mahmud, T., Mo, S., Tian, Y., & Marculescu, D. (2024). "MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers". CVPR Workshops, Р. 7996–8005, DOI: https://doi.org/10.48550/arXiv.2406.04930
Gao, P., Zhao, H., Lu, J., et al. (2021). "ResT: An Efficient Transformer for Visual Recognition". CVPR, DOI: https://doi.org/10.48550/arXiv.2105.13677
Baltruūtis, T., Ahuja, C., & Morency, L.-P. (2018). "Multimodal Machine Learning: A Survey and Taxonomy". IEEE Transactions on Pattern Analysis and Machine Intelligence, Р. 423 – 443. DOI: https://doi.org/10.1109/TPAMI.2018.2798607
Sachidananda, V., Tseng, S.-Y., Marchi, E., Kajarekar, S., & Georgiou, P. (2022). "CALM: Contrastive Aligned Audio-Language Multirate and Multimodal Representations", DOI: https://doi.org/10.48550/arXiv.2202.03587
Akbari, H., Yuan, L., Qian, R., et al. (2021). "VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio, and Text" NeurIPS, DOI: https://doi.org/10.48550/arXiv.2104.11178
Ye, H., Huang, D.-A., Lu, Y., Yu, Z., Ping, W., Tao, A., Kautz, J., Han, S., Xu, D., Molchanov, P., & Yin, H. (2024). "X-VILA: Cross-Modality Alignment for Large Language Model", DOI: https://doi.org/10.48550/arXiv.2405.19335
Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations". NeurIPS, DOI: https://doi.org/10.48550/arXiv.2006.11477
Alayrac, J.-B., Donahue, J., Luc, P., et al. (2022). "Flamingo: A Visual Language Model for Few-Shot Learning", DOI: https://doi.org/10.48550/arXiv.2204.14198
Child, R., Gray, S., Radford, A., & Sutskever, I. (2022). "Generating Long Sequences with Sparse Transformers", DOI: https://doi.org/10.48550/arXiv.1904.10509
Zaheer, M., Guruganesh, G., Dubey, K. A., et al. (2020). "Big Bird: Transformers for Longer Sequences". NeurIPS, DOI: https://doi.org/10.48550/arXiv.2007.14062
Wang, S., Li, B., Khabsa, M., et al. (2020). "Linformer: Self-Attention with Linear Complexity", DOI: https://doi.org/10.48550/arXiv.2009.14794
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












