Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN

Автор(и)

DOI:

https://doi.org/10.15587/1729-4061.2025.347451

Ключові слова:

ідентифікація мовця, голосова біометрія, казахське мовлення, мел-частотні кепстральні коефіцієнти, шум

Анотація

Це дослідження зосереджено на покращенні стійкості до шуму біометричної системи ідентифікації мовця на основі мел-частотних кепстральних коефіцієнтів (MFCC) та згорткової нейронної мережі (CNN). Об'єктом аналізу є акустична структура казахської мови в чистих та шумних умовах. Експериментальна база даних складалася з 16 мовців, кожен з яких був представлений 12 аудіозаписами тривалістю приблизно 1 с. Мовленнєві сигнали були спотворені адитивним рожевим шумом з різними рівнями співвідношення сигнал/шум (SNR).

В умовах чистого сигналу класифікатор на основі CNN досяг високої точності розпізнавання приблизно 96%, що підтверджується матрицею плутанини з сильним діагональним домінуванням. Під впливом шуму точність класифікації знизилася приблизно до 69%, що демонструє значний вплив акустичних перешкод на ефективність ідентифікації мовця. Для покращення завадостійкості під час навчання було застосовано шумове посилення. Після повторного навчання на доповненому наборі даних точність класифікації в шумних умовах зросла приблизно до 89–90%.

Теплові карти точності, повноти та F1-оцінки демонструють, що після підвищення робустності більшість класів мовців досягають стабільних значень метрик у діапазоні 0,85–1,00, тоді як усереднені метрики продуктивності досягають точності ≈ 0,89–0,90, що підтверджує послідовне розпізнавання по всьому набору даних. Результати показують, що ознаки MFCC зберігають специфічні для мовця спектральні характеристики навіть за шуму, і що класифікація на основі CNN значно перевершує традиційні підходи з точки зору робустності.

Запропонований підхід MFCC–CNN забезпечує високу точність ідентифікації в чистих середовищах та підтримує конкурентоспроможну продуктивність за шуму після доповнення даних. Отримані результати підтверджують практичну застосовність розробленої системи для надійної верифікації мовця в акустично нестабільних середовищах, включаючи дистанційну біометричну автентифікацію, контроль доступу та інтелектуальні системи зв'язку

Біографії авторів

Muhabbat Khizirova, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Candidate of Physico-Mathematical Sciences, Associate Professor

Department of Telecommunications Engineering

Katipa Chezhimbayeva, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Candidate of Technical Sciences, Professor

Department of Telecommunication Engineering

Abdurazak Kassimov, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Candidate of Technical Sciences, Associate Professor, Professor-Lecturer

Department of Telecommunications Engineering

Muratbek Yermekbaev, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

PhD, Associate Professor

Department of Telecommunications Engineering

Assiya Iskakova, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Master of Technical Sciences, PhD-Student

Department of Telecommunications Engineering

Zhaina Abilkaiyr, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Science Degree Master

Department Telecommunications Engineering

Посилання

  1. Ahmad, Kh. M., Zhirkov, V. F. (2007). Introduction to digital processing of speech signals. Vladimir State University Press.
  2. Beigi, H. (2011). Fundamentals of Speaker Recognition. Springer, 942. https://doi.org/10.1007/978-0-387-77592-0
  3. Chauhan, N., Isshiki, T., Li, D. (2024). Enhancing Speaker Recognition Models with Noise-Resilient Feature Optimization Strategies. Acoustics, 6 (2), 439–469. https://doi.org/10.3390/acoustics6020024
  4. Ming, J., Hazen, T. J., Glass, J. R., Reynolds, D. A. (2007). Robust Speaker Recognition in Noisy Conditions. IEEE Transactions on Audio, Speech and Language Processing, 15 (5), 1711–1723. https://doi.org/10.1109/tasl.2007.899278
  5. Ji, Z., Cheng, G., Lu, T., Shao, Z. (2024). Speaker recognition system based on MFCC feature extraction CNN architecture. Academic Journal of Computing & Information Science, 7 (7). https://doi.org/10.25236/ajcis.2024.070707
  6. From i-vectors to x-vectors – a generational change in speaker recognition illustrated on the NFI-FRIDA database (2019). Oxford Wave Research. Available at: https://oxfordwaveresearch.com/wp-content/uploads/2020/02/IAFPA19_xvectors_Kelly_et_al_presentation.pdf
  7. Peters, C. A. (2001). Statistics for Analysis of Experimental Data. Environmental Engineering Processes Laboratory Manual. Available at: https://www.researchgate.net/publication/280580217_Statistics_for_Analysis_of_Experimental_Data
  8. Singh, M. K. (2024). Speaker Identification Using MFCC Feature Extraction ANN Classification Technique. Wireless Personal Communications, 136 (1), 453–467. https://doi.org/10.1007/s11277-024-11282-1
  9. Snyder, D., Garcia-Romero, D., Sell, G., Povey, D., Khudanpur, S. (2018). X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5329–5333. https://doi.org/10.1109/icassp.2018.8461375
  10. Sumithra, M. G., Thanuskodi, K., Archana, A. H. J. J. (2011). A new speaker recognition system with combined feature extraction techniques. Journal of Computer Science, 7(4), 459–465. https://doi.org/10.3844/jcssp.2011.459.465
  11. Uncini, A. (2022). Digital Audio Processing Fundamentals. Springer, 716. https://doi.org/10.1007/978-3-031-14228-4
  12. Zhumay, I., Tumanbayeva, K., Chezhimbayeva, K., Kalibek, K. (2025). Forecasting anomalies in network traffic. Eastern-European Journal of Enterprise Technologies, 2 (2 (134)), 96–111. https://doi.org/10.15587/1729-4061.2025.326779
  13. Chezhimbayeva, K., Konyrova, M., Kumyzbayeva, S., Kadylbekkyzy, E. (2021). Quality assessment of the contact center while implementation the IP IVR system by using teletraffic theory. Eastern-European Journal of Enterprise Technologies, 6 (3 (114)), 64–71. https://doi.org/10.15587/1729-4061.2021.244976
  14. Nurzhaubayeva, G., Haris, N., Chezhimbayeva, K. (2024). Design of the Wearable Microstrip Yagi-Uda Antenna for IoT Applications. International Journal on Communications Antenna and Propagation (IRECAP), 14 (1), 24. https://doi.org/10.15866/irecap.v14i1.24315
Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN

##submission.downloads##

Опубліковано

2025-12-30

Як цитувати

Khizirova, M., Chezhimbayeva, K., Kassimov, A., Yermekbaev, M., Iskakova, A., & Abilkaiyr, Z. (2025). Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN. Eastern-European Journal of Enterprise Technologies, 6(9 (138), 37–53. https://doi.org/10.15587/1729-4061.2025.347451

Номер

Розділ

Інформаційно-керуючі системи