Оцінка ефективності детектора голосової активності на основі різних нейронних мереж

Автор(и)

DOI:

https://doi.org/10.15587/1729-4061.2025.321659

Ключові слова:

згорткова нейронна мережа, рекурентна нейронна мережа, детектор голосової активності

Анотація

У цій роботі було проведено оцінку ефективності застосування нейронних мереж для задачі розпізнавання людського голосу. Об'єктами дослідження є штучні нейронні мережі, що використовуються для розпізнавання людського голосу. Розглядається їх здатність ефективно розпізнавати людський голос незалежно від мови, навчаючись на невеликій кількості дикторів в умовах шуму.

Розв'язувана проблема – підвищення точності виявлення мовленнєвої активності, що відіграє значну роль у вдосконаленні функціонування систем автоматичного розпізнавання мовлення, особливо в умовах низького співвідношення сигнал/шум.

Отримані результати показали, що точність розпізнавання людського голосу на мовах із різною фонетичною подібністю може суттєво відрізнятися. У результаті дослідження виявлено, що рекурентна нейронна мережа (RNN) демонструє високу точність у розпізнаванні голосу – 95 %, що перевершує результати згорткової нейронної мережі (CNN), яка досягає точності 94 %. Особливості отриманих результатів полягають в адаптації нейронних мереж до багатомовних особливостей, що дозволило підвищити ефективність їхньої роботи.

Важливим висновком стало те, що навчання нейронних мереж на даних із різними мовами та типами дикторів суттєво покращує точність розпізнавання. Дослідження підтвердило, що навчання нейронних мереж на різних мовах і типах дикторів може значно вплинути на точність розпізнавання. Отримані результати є важливим внеском у розвиток технологій розпізнавання мовлення та мають потенціал для застосування в різних сферах, де потрібна висока точність у розпізнаванні людського голосу

Біографії авторів

Bekbolat Medetov, L.N. Gumilyov Eurasian National University

PhD

Department of Radio Engineering, Electronics and Telecommunications

Ainur Zhetpisbayeva, L.N. Gumilyov Eurasian National University

PhD, Associate Professor

Department of Radio Engineering, Electronics and Telecommunications

Ainur Akhmediyarova, Satbayev University

PhD

Department of Software Engineering

Aigul Nurlankyzy, Satbayev University; Almaty University of Power Engineering and Telecommunications

PhD Student

Timur Namazbayev, Al-Farabi Kazakh National University

Master, Senior Lecturer

Aigul Kulakayeva, International Information Technology University

PhD

Department of Radio Engineering, Electronics and Telecommunications

Nurtay Albanbay, Satbayev University

PhD

Department of Cybersecurity, Information Processing and Storage

Mussa Turdalyuly, Satbayev University

PhD, Associate Professor

Department of Software Engineering

Asset Yskak, Ghalam LLP

Lead Design Engineer

Department of Software Development

Gulzhazira Uristimbek, L.N. Gumilyov Eurasian National University

Master's Student

Department of Radio Engineering, Electronics and Telecommunications

Посилання

  1. Dhouib, A., Othman, A., El Ghoul, O., Khribi, M. K., Al Sinani, A. (2022). Arabic Automatic Speech Recognition: A Systematic Literature Review. Applied Sciences, 12 (17), 8898. https://doi.org/10.3390/app12178898
  2. Zhang, X.-L., Xu, M. (2022). AUC optimization for deep learning-based voice activity detection. EURASIP Journal on Audio, Speech, and Music Processing, 2022 (1). https://doi.org/10.1186/s13636-022-00260-9
  3. Tang, M., Huang, H., Zhang, W., He, L. (2024). Phase Continuity-Aware Self-Attentive Recurrent Network with Adaptive Feature Selection for Robust VAD. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 11506–11510. https://doi.org/10.1109/icassp48485.2024.10446084
  4. Cherukuru, P., Mustafa, M. B. (2024). CNN-based noise reduction for multi-channel speech enhancement system with discrete wavelet transform (DWT) preprocessing. PeerJ Computer Science, 10, e1901. https://doi.org/10.7717/peerj-cs.1901
  5. Priebe, D., Ghani, B., Stowell, D. (2024). Efficient Speech Detection in Environmental Audio Using Acoustic Recognition and Knowledge Distillation. Sensors, 24 (7), 2046. https://doi.org/10.3390/s24072046
  6. Tan, Y., Ding, X. (2024). Heterogeneous Convolutional Recurrent Neural Network with Attention Mechanism and Feature Aggregation for Voice Activity Detection. APSIPA Transactions on Signal and Information Processing, 13 (1). https://doi.org/10.1561/116.00000158
  7. Mihalache, S., Burileanu, D. (2022). Using Voice Activity Detection and Deep Neural Networks with Hybrid Speech Feature Extraction for Deceptive Speech Detection. Sensors, 22 (3), 1228. https://doi.org/10.3390/s22031228
  8. Rho, D., Park, J., Ko, J. H. (2022). NAS-VAD: Neural Architecture Search for Voice Activity Detection. Interspeech 2022, 3754–3758. https://doi.org/10.21437/interspeech.2022-975
  9. Nurlankyzy, A., Akhmediyarova, A., Zhetpisbayeva, A., Namazbayev, T., Yskak, A., Yerzhan, N., Medetov, B. (2024). The dependence of the effectiveness of neural networks for recognizing human voice on language. Eastern-European Journal of Enterprise Technologies, 1 (9 (127)), 72–81. https://doi.org/10.15587/1729-4061.2024.298687
  10. Liu, P., Wang, Z. (2004). Voice activity detection using visual information. 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1, I-609–612. https://doi.org/10.1109/icassp.2004.1326059
Оцінка ефективності детектора голосової активності на основі різних нейронних мереж

##submission.downloads##

Опубліковано

2025-02-28

Як цитувати

Medetov, B., Zhetpisbayeva, A., Akhmediyarova, A., Nurlankyzy, A., Namazbayev, T., Kulakayeva, A., Albanbay, N., Turdalyuly, M., Yskak, A., & Uristimbek, G. (2025). Оцінка ефективності детектора голосової активності на основі різних нейронних мереж. Eastern-European Journal of Enterprise Technologies, 1(5 (133), 19–28. https://doi.org/10.15587/1729-4061.2025.321659

Номер

Розділ

Прикладна фізика