Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN
DOI:
https://doi.org/10.15587/1729-4061.2025.347451Ключові слова:
ідентифікація мовця, голосова біометрія, казахське мовлення, мел-частотні кепстральні коефіцієнти, шумАнотація
Це дослідження зосереджено на покращенні стійкості до шуму біометричної системи ідентифікації мовця на основі мел-частотних кепстральних коефіцієнтів (MFCC) та згорткової нейронної мережі (CNN). Об'єктом аналізу є акустична структура казахської мови в чистих та шумних умовах. Експериментальна база даних складалася з 16 мовців, кожен з яких був представлений 12 аудіозаписами тривалістю приблизно 1 с. Мовленнєві сигнали були спотворені адитивним рожевим шумом з різними рівнями співвідношення сигнал/шум (SNR).
В умовах чистого сигналу класифікатор на основі CNN досяг високої точності розпізнавання приблизно 96%, що підтверджується матрицею плутанини з сильним діагональним домінуванням. Під впливом шуму точність класифікації знизилася приблизно до 69%, що демонструє значний вплив акустичних перешкод на ефективність ідентифікації мовця. Для покращення завадостійкості під час навчання було застосовано шумове посилення. Після повторного навчання на доповненому наборі даних точність класифікації в шумних умовах зросла приблизно до 89–90%.
Теплові карти точності, повноти та F1-оцінки демонструють, що після підвищення робустності більшість класів мовців досягають стабільних значень метрик у діапазоні 0,85–1,00, тоді як усереднені метрики продуктивності досягають точності ≈ 0,89–0,90, що підтверджує послідовне розпізнавання по всьому набору даних. Результати показують, що ознаки MFCC зберігають специфічні для мовця спектральні характеристики навіть за шуму, і що класифікація на основі CNN значно перевершує традиційні підходи з точки зору робустності.
Запропонований підхід MFCC–CNN забезпечує високу точність ідентифікації в чистих середовищах та підтримує конкурентоспроможну продуктивність за шуму після доповнення даних. Отримані результати підтверджують практичну застосовність розробленої системи для надійної верифікації мовця в акустично нестабільних середовищах, включаючи дистанційну біометричну автентифікацію, контроль доступу та інтелектуальні системи зв'язку
Посилання
- Ahmad, Kh. M., Zhirkov, V. F. (2007). Introduction to digital processing of speech signals. Vladimir State University Press.
- Beigi, H. (2011). Fundamentals of Speaker Recognition. Springer, 942. https://doi.org/10.1007/978-0-387-77592-0
- Chauhan, N., Isshiki, T., Li, D. (2024). Enhancing Speaker Recognition Models with Noise-Resilient Feature Optimization Strategies. Acoustics, 6 (2), 439–469. https://doi.org/10.3390/acoustics6020024
- Ming, J., Hazen, T. J., Glass, J. R., Reynolds, D. A. (2007). Robust Speaker Recognition in Noisy Conditions. IEEE Transactions on Audio, Speech and Language Processing, 15 (5), 1711–1723. https://doi.org/10.1109/tasl.2007.899278
- Ji, Z., Cheng, G., Lu, T., Shao, Z. (2024). Speaker recognition system based on MFCC feature extraction CNN architecture. Academic Journal of Computing & Information Science, 7 (7). https://doi.org/10.25236/ajcis.2024.070707
- From i-vectors to x-vectors – a generational change in speaker recognition illustrated on the NFI-FRIDA database (2019). Oxford Wave Research. Available at: https://oxfordwaveresearch.com/wp-content/uploads/2020/02/IAFPA19_xvectors_Kelly_et_al_presentation.pdf
- Peters, C. A. (2001). Statistics for Analysis of Experimental Data. Environmental Engineering Processes Laboratory Manual. Available at: https://www.researchgate.net/publication/280580217_Statistics_for_Analysis_of_Experimental_Data
- Singh, M. K. (2024). Speaker Identification Using MFCC Feature Extraction ANN Classification Technique. Wireless Personal Communications, 136 (1), 453–467. https://doi.org/10.1007/s11277-024-11282-1
- Snyder, D., Garcia-Romero, D., Sell, G., Povey, D., Khudanpur, S. (2018). X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5329–5333. https://doi.org/10.1109/icassp.2018.8461375
- Sumithra, M. G., Thanuskodi, K., Archana, A. H. J. J. (2011). A new speaker recognition system with combined feature extraction techniques. Journal of Computer Science, 7(4), 459–465. https://doi.org/10.3844/jcssp.2011.459.465
- Uncini, A. (2022). Digital Audio Processing Fundamentals. Springer, 716. https://doi.org/10.1007/978-3-031-14228-4
- Zhumay, I., Tumanbayeva, K., Chezhimbayeva, K., Kalibek, K. (2025). Forecasting anomalies in network traffic. Eastern-European Journal of Enterprise Technologies, 2 (2 (134)), 96–111. https://doi.org/10.15587/1729-4061.2025.326779
- Chezhimbayeva, K., Konyrova, M., Kumyzbayeva, S., Kadylbekkyzy, E. (2021). Quality assessment of the contact center while implementation the IP IVR system by using teletraffic theory. Eastern-European Journal of Enterprise Technologies, 6 (3 (114)), 64–71. https://doi.org/10.15587/1729-4061.2021.244976
- Nurzhaubayeva, G., Haris, N., Chezhimbayeva, K. (2024). Design of the Wearable Microstrip Yagi-Uda Antenna for IoT Applications. International Journal on Communications Antenna and Propagation (IRECAP), 14 (1), 24. https://doi.org/10.15866/irecap.v14i1.24315
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Muhabbat Khizirova, Katipa Chezhimbayeva, Аbdurazak Kassimov, Muratbek Yermekbaev, Assiya Iskakova, Zhaina Abilkaiyr

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.





