RESEARCH INTO SPEECH-TO-TEXT TRANFROMATION MODULE IN THE PROPOSED MODEL OF A SPEAKER’S AUTOMATIC SPEECH ANNOTATION

Olesia Barkovska

doi:10.30837/ITSSI.2022.22.005

Автор(и)

Olesia Barkovska Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0001-7496-4353

DOI:

https://doi.org/10.30837/ITSSI.2022.22.005

Ключові слова:

STT, текст, оброблення, анотація, реферат, аудіофайл, модель, навчання

Анотація

Предметом дослідження є модуль конвертації мови спікера в текст у запропонованій моделі автоматичного анотування промови спікера, що стає все більш затребуваним в Україні завдяки активному переходу спілкування, навчання, проходження тренінгів, співбесід, обговорення важливих питань тощо на форму онлайн. Мета роботи – скорочення появи хибних або спотворених даних під час перетворення звукового ряду в релевантний текст для подальшого семантичного аналізу. Для досягнення поставленої мети були виконані такі завдання: запропоновано узагальнену модель текстової сумаризації вхідних аудіоданих; проналізовано наявні моделі STT (перетворення аудіоданих у текст); досліджено можливість роботи модуля STT з українською мовою; оцінено якість роботи модуля STT та таймінгу роботи з українською та англійською мовами. Запропонована модель автоматичного анотування промови спікера має два головних функціональних модулі: speech-to-text (STT) і summarization module (SUM). Для модуля STT досліджено та вдосконалено такі моделі лінгвістичного аналізу тексту: для англійської мови це wav2vec2-xls-r-1bз, а для української – Ukrainian STT model (wav2vec2-xls-r-1b-uk-with-lm), математичним апаратом яких є нейронні мережі. Отримано такі результати: завдяки використанню додаткової української лінгвістичної моделі wav2vec2 зменшується показник рівня помилок слів майже в 1,5 раза, що впливає на якість розпізнавання слів з аудіо й потенційно може сприяти отриманню більш якісних текстових даних на виході. Для оцінювання таймінгу роботи модуля STT було проаналізовано три аудіозаписи англійською та українською мовами різної довжини: 5 с, ~60 с та ~240 с. Результати показали помітну тенденцію прискорення отримання вихідного файлу за умови використання обчислювального ресурсу графічного прискорювача NVIDIA Tesla T4 саме для найдовшого аудіозапису. Висновки. Використання глибокої нейронної мережі на етапі шумопригнічення у вхідному файлі є виправданим, оскільки забезпечує збільшення метрики WER майже на 25%, а збільшення обчислювальних потужностей графічного процесора та кількості потокових процесорів надають прискорення лише для вхідних аудіофайлів великого розміру. Подальші дослідження автора спрямовані на вивчення ефективності методів модуля сумаризаціїї отриманого тексту.

Біографія автора

Olesia Barkovska, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент

Посилання

Liu, J., Wang, H. (2021), "An Analysis of the Educational Function of Network Platform from the Perspective of Home-School Interaction in Universities in the New Era", 2021 IEEE International Conference on Educational Technology (ICET), 2021, P. 112–116. DOI: https://doi.org/10.1109/ICET52293.2021.9563158

Ponomarova, H., Kharkivska, A., Petrichenko, L., Shaparenko, K., Aleksandrova, O., Beskorsa, V. (2021), "Distance Education In Ukraine In The Context Of Modern Challenges: An Overview Of Platforms", International Journal of Computer Science & Network Security, 21 (5), Р. 39–42. DOI: https://doi.org/10.22937/IJCSNS.2021.21.5.7

Berrío-Quispe, M. L., Chávez-Bellido, D. E., González-Díaz, R. R. (2021), "Use of educational platforms and student academic stress during COVID-19," 2021 16th Conference on Information Systems and Technologies (CISTI), Р. 1–5. https://doi.org/10.23919/CISTI52073.2021.9476308

Malieieva, J., Kosenko, V., Malyeyeva, O., & Svetlichnyj, D. (2019), "Creation of collaborative development environment in the system of distance learning", Innovative Technologies and Scientific Solutions for Industries, 2 (8), Р. 62–71. DOI: https://doi.org/10.30837/2522-9818.2019.8.062

Dong, Q., Ye, R., Wang, M., Zhou, H., Xu, S., Xu, B., & Li, L. (2021), "Listen, understand and translate: Triple supervision decouples end-to-end speech-to-text translation", Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35, No. 14, Р. 12749–12759.

Gao, Jianqing, Wan, Genshun, Wu, Kui and Fu, Zhonghua (2022), "Review of the application of intelligent speech technology in education", Journal of China Computer-Assisted Language Learning, Vol. 2, No. 1, P. 165–178. DOI: https://doi.org/10.1515/jccall-2022-0004

Liu, J., Xiang, X. (2017) "Review of the anti-noise method in the speech recognition technology," 12th IEEE Conference on Industrial Electronics and Applications (ICIEA), P. 1391–1394. DOI: https://doi.org/10.1109/ICIEA.2017.8283056

Juang, Biing-Hwang, and Lawrence, R. Rabiner (2005), Automatic speech recognition–a brief history of the technology development, Georgia Institute of Technology, Atlanta Rutgers University and the University of California, Santa Barbara 1, 67 p.

Potamianos, G. (2009), "Audio-visual automatic speech recognition and related bimodal speech technologies: A review of the state-of-the-art and open problems," 2009 IEEE Workshop on Automatic Speech Recognition & Understanding, P. 22–22. DOI: https://doi.org/10.1109/ASRU.2009.5373530

Georgescu, A. L., Pappalardo, A., Cucu, H., & Blott, M. (2021), "Performance vs. hardware requirements in state-of-the-art automatic speech recognition", EURASIP Journal on Audio, Speech, and Music Processing, No.1, P. 1–30.

Mohammed, A., Sunar, M. S., & hj Salam, M. S., (2021), "Speech recognition toolkits: a review", The 2ndNational Conference for Ummah Network 2021 (INTER-UMMAH 2021), No. 2, P. 250–255.

Kumar, T., Mahrishi, M., & Meena, G. (2022), "A comprehensive review of recent automatic speech summarization and keyword identification techniques", Artificial Intelligence in Industrial Applications, P. 111–126.

Kim, C. et al. (2019), "End-to-End Training of a Large Vocabulary End-to-End Speech Recognition System," 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), P. 562–569, DOI: https://doi.org/10.1109/ASRU46091.2019.9003976

Ping, L. (2022), "English Speech Recognition Method Based on HMM Technology," 2021 International Conference on Intelligent Transportation, Big Data & Smart City (ICITBS), P. 646–649. DOI: https://doi.org/10.1109/ICITBS53129.2021.00164

Mykhailichenko, I., Ivashchenko, H., Barkovska, O., & Liashenko, O. (2022), "Application of Deep Neural Network for Real-Time Voice Command Recognition", In 2022 IEEE 3rd KhPI Week on Advanced Technology (KhPIWeek), P. 1–4. DOI: https://doi.org/10.1109/KhPIWeek57572.2022.9916473

Barkovska, О., Lytvynenko, V., (2022), "Study of the performance of neural network models in semantic analysis", Modern trends in the development of information and communication technologies and management tools, Vol.1, P. 136.

Barkovska, O., Kholiev,V., Lytvynenko, V. (2022), "Study of noise reduction methods in the sound sequence when solving the speech-to-text problem", Advanced Information Systems, No. 6.1, P. 48–54. DOI: https://doi.org/10.20998/2522-9052.2022.1.08

Xu, Y., Du, J., Dai, L. -R., and Lee, C. -H. (2015), "A Regression Approach to Speech Enhancement Based on Deep Neural Networks," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 23, No. 1, P. 7–19. DOI: https://doi.org/10.1109/TASLP.2014.2364452

Davydov, V., & Hrebeniuk, D. (2020), "Development of the methods for resource reallocation in cloud computing systems", Innovative Technologies and Scientific Solutions for Industries, 3 (13), P. 25–33. DOI: https://doi.org/10.30837/ITSSI.2020.13.025

ДОСЛІДЖЕННЯ РОБОТИ МОДУЛЯ ПЕРЕТВОРЕННЯ МОВИ В ТЕКСТ У ЗАПРОПОНОВАНІЙ МОДЕЛІ АВТОМАТИЧНОГО АНОТУВАННЯ ПРОМОВИ СПІКЕРА

Автор(и)

DOI:

Ключові слова:

Анотація

Біографія автора

Olesia Barkovska, Харківський національний університет радіоелектроніки

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Подати статтю