ДОСЛІДЖЕННЯ РОБОТИ МОДУЛЯ ПЕРЕТВОРЕННЯ МОВИ В ТЕКСТ У ЗАПРОПОНОВАНІЙ МОДЕЛІ АВТОМАТИЧНОГО АНОТУВАННЯ ПРОМОВИ СПІКЕРА
DOI:
https://doi.org/10.30837/ITSSI.2022.22.005Ключові слова:
STT, текст, оброблення, анотація, реферат, аудіофайл, модель, навчанняАнотація
Предметом дослідження є модуль конвертації мови спікера в текст у запропонованій моделі автоматичного анотування промови спікера, що стає все більш затребуваним в Україні завдяки активному переходу спілкування, навчання, проходження тренінгів, співбесід, обговорення важливих питань тощо на форму онлайн. Мета роботи – скорочення появи хибних або спотворених даних під час перетворення звукового ряду в релевантний текст для подальшого семантичного аналізу. Для досягнення поставленої мети були виконані такі завдання: запропоновано узагальнену модель текстової сумаризації вхідних аудіоданих; проналізовано наявні моделі STT (перетворення аудіоданих у текст); досліджено можливість роботи модуля STT з українською мовою; оцінено якість роботи модуля STT та таймінгу роботи з українською та англійською мовами. Запропонована модель автоматичного анотування промови спікера має два головних функціональних модулі: speech-to-text (STT) і summarization module (SUM). Для модуля STT досліджено та вдосконалено такі моделі лінгвістичного аналізу тексту: для англійської мови це wav2vec2-xls-r-1bз, а для української – Ukrainian STT model (wav2vec2-xls-r-1b-uk-with-lm), математичним апаратом яких є нейронні мережі. Отримано такі результати: завдяки використанню додаткової української лінгвістичної моделі wav2vec2 зменшується показник рівня помилок слів майже в 1,5 раза, що впливає на якість розпізнавання слів з аудіо й потенційно може сприяти отриманню більш якісних текстових даних на виході. Для оцінювання таймінгу роботи модуля STT було проаналізовано три аудіозаписи англійською та українською мовами різної довжини: 5 с, ~60 с та ~240 с. Результати показали помітну тенденцію прискорення отримання вихідного файлу за умови використання обчислювального ресурсу графічного прискорювача NVIDIA Tesla T4 саме для найдовшого аудіозапису. Висновки. Використання глибокої нейронної мережі на етапі шумопригнічення у вхідному файлі є виправданим, оскільки забезпечує збільшення метрики WER майже на 25%, а збільшення обчислювальних потужностей графічного процесора та кількості потокових процесорів надають прискорення лише для вхідних аудіофайлів великого розміру. Подальші дослідження автора спрямовані на вивчення ефективності методів модуля сумаризаціїї отриманого тексту.
Посилання
Liu, J., Wang, H. (2021), "An Analysis of the Educational Function of Network Platform from the Perspective of Home-School Interaction in Universities in the New Era", 2021 IEEE International Conference on Educational Technology (ICET), 2021, P. 112–116. DOI: https://doi.org/10.1109/ICET52293.2021.9563158
Ponomarova, H., Kharkivska, A., Petrichenko, L., Shaparenko, K., Aleksandrova, O., Beskorsa, V. (2021), "Distance Education In Ukraine In The Context Of Modern Challenges: An Overview Of Platforms", International Journal of Computer Science & Network Security, 21 (5), Р. 39–42. DOI: https://doi.org/10.22937/IJCSNS.2021.21.5.7
Berrío-Quispe, M. L., Chávez-Bellido, D. E., González-Díaz, R. R. (2021), "Use of educational platforms and student academic stress during COVID-19," 2021 16th Conference on Information Systems and Technologies (CISTI), Р. 1–5. https://doi.org/10.23919/CISTI52073.2021.9476308
Malieieva, J., Kosenko, V., Malyeyeva, O., & Svetlichnyj, D. (2019), "Creation of collaborative development environment in the system of distance learning", Innovative Technologies and Scientific Solutions for Industries, 2 (8), Р. 62–71. DOI: https://doi.org/10.30837/2522-9818.2019.8.062
Dong, Q., Ye, R., Wang, M., Zhou, H., Xu, S., Xu, B., & Li, L. (2021), "Listen, understand and translate: Triple supervision decouples end-to-end speech-to-text translation", Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35, No. 14, Р. 12749–12759.
Gao, Jianqing, Wan, Genshun, Wu, Kui and Fu, Zhonghua (2022), "Review of the application of intelligent speech technology in education", Journal of China Computer-Assisted Language Learning, Vol. 2, No. 1, P. 165–178. DOI: https://doi.org/10.1515/jccall-2022-0004
Liu, J., Xiang, X. (2017) "Review of the anti-noise method in the speech recognition technology," 12th IEEE Conference on Industrial Electronics and Applications (ICIEA), P. 1391–1394. DOI: https://doi.org/10.1109/ICIEA.2017.8283056
Juang, Biing-Hwang, and Lawrence, R. Rabiner (2005), Automatic speech recognition–a brief history of the technology development, Georgia Institute of Technology, Atlanta Rutgers University and the University of California, Santa Barbara 1, 67 p.
Potamianos, G. (2009), "Audio-visual automatic speech recognition and related bimodal speech technologies: A review of the state-of-the-art and open problems," 2009 IEEE Workshop on Automatic Speech Recognition & Understanding, P. 22–22. DOI: https://doi.org/10.1109/ASRU.2009.5373530
Georgescu, A. L., Pappalardo, A., Cucu, H., & Blott, M. (2021), "Performance vs. hardware requirements in state-of-the-art automatic speech recognition", EURASIP Journal on Audio, Speech, and Music Processing, No.1, P. 1–30.
Mohammed, A., Sunar, M. S., & hj Salam, M. S., (2021), "Speech recognition toolkits: a review", The 2ndNational Conference for Ummah Network 2021 (INTER-UMMAH 2021), No. 2, P. 250–255.
Kumar, T., Mahrishi, M., & Meena, G. (2022), "A comprehensive review of recent automatic speech summarization and keyword identification techniques", Artificial Intelligence in Industrial Applications, P. 111–126.
Kim, C. et al. (2019), "End-to-End Training of a Large Vocabulary End-to-End Speech Recognition System," 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), P. 562–569, DOI: https://doi.org/10.1109/ASRU46091.2019.9003976
Ping, L. (2022), "English Speech Recognition Method Based on HMM Technology," 2021 International Conference on Intelligent Transportation, Big Data & Smart City (ICITBS), P. 646–649. DOI: https://doi.org/10.1109/ICITBS53129.2021.00164
Mykhailichenko, I., Ivashchenko, H., Barkovska, O., & Liashenko, O. (2022), "Application of Deep Neural Network for Real-Time Voice Command Recognition", In 2022 IEEE 3rd KhPI Week on Advanced Technology (KhPIWeek), P. 1–4. DOI: https://doi.org/10.1109/KhPIWeek57572.2022.9916473
Barkovska, О., Lytvynenko, V., (2022), "Study of the performance of neural network models in semantic analysis", Modern trends in the development of information and communication technologies and management tools, Vol.1, P. 136.
Barkovska, O., Kholiev,V., Lytvynenko, V. (2022), "Study of noise reduction methods in the sound sequence when solving the speech-to-text problem", Advanced Information Systems, No. 6.1, P. 48–54. DOI: https://doi.org/10.20998/2522-9052.2022.1.08
Xu, Y., Du, J., Dai, L. -R., and Lee, C. -H. (2015), "A Regression Approach to Speech Enhancement Based on Deep Neural Networks," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 23, No. 1, P. 7–19. DOI: https://doi.org/10.1109/TASLP.2014.2364452
Davydov, V., & Hrebeniuk, D. (2020), "Development of the methods for resource reallocation in cloud computing systems", Innovative Technologies and Scientific Solutions for Industries, 3 (13), P. 25–33. DOI: https://doi.org/10.30837/ITSSI.2020.13.025
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.