Development and increase of noise immunity of a model of biometric identification of a speaker based on metal-frequency cepstral coefficients and a convolutional neural network

Muhabbat Khizirova; Katipa Chezhimbayeva; Abdurazak Kassimov; Muratbek Yermekbaev; Assiya Iskakova; Zhaina Abilkaiyr

doi:10.15587/1729-4061.2025.347451

Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN

Автор(и)

Muhabbat Khizirova Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev, Казахстан https://orcid.org/0000-0002-2242-7756
Katipa Chezhimbayeva Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev, Казахстан https://orcid.org/0000-0002-1661-2226
Abdurazak Kassimov Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev, Казахстан https://orcid.org/0000-0001-7270-5577
Muratbek Yermekbaev Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev, Казахстан https://orcid.org/0000-0002-5051-0047
Assiya Iskakova Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev, Казахстан https://orcid.org/0000-0002-1695-6803
Zhaina Abilkaiyr Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev, Казахстан https://orcid.org/0000-0001-6748-428X

DOI:

https://doi.org/10.15587/1729-4061.2025.347451

Ключові слова:

ідентифікація мовця, голосова біометрія, казахське мовлення, мел-частотні кепстральні коефіцієнти, шум

Анотація

Це дослідження зосереджено на покращенні стійкості до шуму біометричної системи ідентифікації мовця на основі мел-частотних кепстральних коефіцієнтів (MFCC) та згорткової нейронної мережі (CNN). Об'єктом аналізу є акустична структура казахської мови в чистих та шумних умовах. Експериментальна база даних складалася з 16 мовців, кожен з яких був представлений 12 аудіозаписами тривалістю приблизно 1 с. Мовленнєві сигнали були спотворені адитивним рожевим шумом з різними рівнями співвідношення сигнал/шум (SNR).

В умовах чистого сигналу класифікатор на основі CNN досяг високої точності розпізнавання приблизно 96%, що підтверджується матрицею плутанини з сильним діагональним домінуванням. Під впливом шуму точність класифікації знизилася приблизно до 69%, що демонструє значний вплив акустичних перешкод на ефективність ідентифікації мовця. Для покращення завадостійкості під час навчання було застосовано шумове посилення. Після повторного навчання на доповненому наборі даних точність класифікації в шумних умовах зросла приблизно до 89–90%.

Теплові карти точності, повноти та F1-оцінки демонструють, що після підвищення робустності більшість класів мовців досягають стабільних значень метрик у діапазоні 0,85–1,00, тоді як усереднені метрики продуктивності досягають точності ≈ 0,89–0,90, що підтверджує послідовне розпізнавання по всьому набору даних. Результати показують, що ознаки MFCC зберігають специфічні для мовця спектральні характеристики навіть за шуму, і що класифікація на основі CNN значно перевершує традиційні підходи з точки зору робустності.

Запропонований підхід MFCC–CNN забезпечує високу точність ідентифікації в чистих середовищах та підтримує конкурентоспроможну продуктивність за шуму після доповнення даних. Отримані результати підтверджують практичну застосовність розробленої системи для надійної верифікації мовця в акустично нестабільних середовищах, включаючи дистанційну біометричну автентифікацію, контроль доступу та інтелектуальні системи зв'язку

Біографії авторів

Muhabbat Khizirova, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Candidate of Physico-Mathematical Sciences, Associate Professor

Department of Telecommunications Engineering

Katipa Chezhimbayeva, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Candidate of Technical Sciences, Professor

Department of Telecommunication Engineering

Abdurazak Kassimov, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Candidate of Technical Sciences, Associate Professor, Professor-Lecturer

Department of Telecommunications Engineering

Muratbek Yermekbaev, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

PhD, Associate Professor

Department of Telecommunications Engineering

Assiya Iskakova, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Master of Technical Sciences, PhD-Student

Department of Telecommunications Engineering

Zhaina Abilkaiyr, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Science Degree Master

Department Telecommunications Engineering

Посилання

Ahmad, Kh. M., Zhirkov, V. F. (2007). Introduction to digital processing of speech signals. Vladimir State University Press.
Beigi, H. (2011). Fundamentals of Speaker Recognition. Springer, 942. https://doi.org/10.1007/978-0-387-77592-0
Chauhan, N., Isshiki, T., Li, D. (2024). Enhancing Speaker Recognition Models with Noise-Resilient Feature Optimization Strategies. Acoustics, 6 (2), 439–469. https://doi.org/10.3390/acoustics6020024
Ming, J., Hazen, T. J., Glass, J. R., Reynolds, D. A. (2007). Robust Speaker Recognition in Noisy Conditions. IEEE Transactions on Audio, Speech and Language Processing, 15 (5), 1711–1723. https://doi.org/10.1109/tasl.2007.899278
Ji, Z., Cheng, G., Lu, T., Shao, Z. (2024). Speaker recognition system based on MFCC feature extraction CNN architecture. Academic Journal of Computing & Information Science, 7 (7). https://doi.org/10.25236/ajcis.2024.070707
From i-vectors to x-vectors – a generational change in speaker recognition illustrated on the NFI-FRIDA database (2019). Oxford Wave Research. Available at: https://oxfordwaveresearch.com/wp-content/uploads/2020/02/IAFPA19_xvectors_Kelly_et_al_presentation.pdf
Peters, C. A. (2001). Statistics for Analysis of Experimental Data. Environmental Engineering Processes Laboratory Manual. Available at: https://www.researchgate.net/publication/280580217_Statistics_for_Analysis_of_Experimental_Data
Singh, M. K. (2024). Speaker Identification Using MFCC Feature Extraction ANN Classification Technique. Wireless Personal Communications, 136 (1), 453–467. https://doi.org/10.1007/s11277-024-11282-1
Snyder, D., Garcia-Romero, D., Sell, G., Povey, D., Khudanpur, S. (2018). X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5329–5333. https://doi.org/10.1109/icassp.2018.8461375
Sumithra, M. G., Thanuskodi, K., Archana, A. H. J. J. (2011). A new speaker recognition system with combined feature extraction techniques. Journal of Computer Science, 7(4), 459–465. https://doi.org/10.3844/jcssp.2011.459.465
Uncini, A. (2022). Digital Audio Processing Fundamentals. Springer, 716. https://doi.org/10.1007/978-3-031-14228-4
Zhumay, I., Tumanbayeva, K., Chezhimbayeva, K., Kalibek, K. (2025). Forecasting anomalies in network traffic. Eastern-European Journal of Enterprise Technologies, 2 (2 (134)), 96–111. https://doi.org/10.15587/1729-4061.2025.326779
Chezhimbayeva, K., Konyrova, M., Kumyzbayeva, S., Kadylbekkyzy, E. (2021). Quality assessment of the contact center while implementation the IP IVR system by using teletraffic theory. Eastern-European Journal of Enterprise Technologies, 6 (3 (114)), 64–71. https://doi.org/10.15587/1729-4061.2021.244976
Nurzhaubayeva, G., Haris, N., Chezhimbayeva, K. (2024). Design of the Wearable Microstrip Yagi-Uda Antenna for IoT Applications. International Journal on Communications Antenna and Propagation (IRECAP), 14 (1), 24. https://doi.org/10.15866/irecap.v14i1.24315

Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN

##submission.downloads##

PDF (English)

Опубліковано

2025-12-30

Як цитувати

Khizirova, M., Chezhimbayeva, K., Kassimov, A., Yermekbaev, M., Iskakova, A., & Abilkaiyr, Z. (2025). Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN. Eastern-European Journal of Enterprise Technologies, 6(9 (138), 37–53. https://doi.org/10.15587/1729-4061.2025.347451

Завантажити посилання

Номер

Том 6 № 9 (138) (2025): Інформаційно-керуючі системи

Розділ

Інформаційно-керуючі системи

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.

Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.

Розробка та вдосконалення шумової імунітетності моделі біометричної ідентифікації говору на основі MFCC та CNN

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Muhabbat Khizirova, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Katipa Chezhimbayeva, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Abdurazak Kassimov, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Muratbek Yermekbaev, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Assiya Iskakova, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Zhaina Abilkaiyr, Almaty University of Power Engineering and Telecommunications named after Gumarbek Daukeyev

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація

Подати статтю

##plugins.block.developedBy.blockTitle##

Поточний номер