Двофакторна автентифікація на основі методу KWS та голосової верифікації

Автор(и)

DOI:

https://doi.org/10.30837/2522-9818.2025.3.005

Анотація

Предметом статті є розробка та оцінка двофакторного методу автентифікації мовця на основі ідентифікації голосового
відбитка та верифікації ключових слів (KWS), призначеного для безпечного голосового доступу в інтерфейсах
«людина-машина», особливо для користувачів з обмеженою мобільністю. Метою роботи є створення методу управління
автентифікацією мовця з використанням конволюційних нейронних мереж (CNN), порівняння ефективності двох широко
використовуваних методів вилучення спектральних ознак – спектрограм Мел-частотних кепстральних коефіцієнтів (MFCC)
та короткочасного перетворення Фур'є (STFT). У статті вирішено такі завдання: запропоновано модель двофакторного
методу автентифікації, що включає ідентифікацію мовця та розпізнавання голосового пароля; порівняно якість ознак
спектрограм MFCC та STFT; оцінено вплив кількості епох, архітектури CNN та параметрів навчання на точність системи;
досліджено вплив частоти дискретизації на продуктивність моделей. Використовуються такі методи: методи глибокого
навчання з архітектурою CNN, точне налаштування, вилучення ознак MFCC та STFT, математичний та статистичний аналіз
ефективності навчання та показники продуктивності системи. Отримано такі результати: метод досяг 97,95% точності
в ідентифікації мовця за допомогою MFCC після 60 епох навчання та 99,82% точності в перевірці голосового пароля
за допомогою тієї ж структури CNN після 20 епох. Середня точність всього процесу автентифікації становила 98,75%.
Більше того, використання MFCC-ознак дозволило скоротити час навчання в 23 рази, а споживання пам'яті – в 7 разів
порівняно зі спектрограмами STFT. Висновки: було реалізовано та досліджено ефективність двофакторного методу
голосової автентифікації, що поєднує ідентифікацію мовця за акустичними характеристиками голосу та перевірку
голосового пароля. Подальші напрямки досліджень включають вивчення впливу альтернативних спектральних
характеристик (зокрема, CQCC, GFCC, просодичних параметрів) на підвищення точності та стійкості до підробки.
Особлива увага буде приділена оптимізації моделі для енергоефективного використання на портативних пристроях.

Біографія автора

Олеся Барковська, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент? доцент кафедри Електронних обчислювальних машин

Посилання

References

Mourtzis, D., Angelopoulos, J., Panopoulos, N. (2023), "The Future of the Human–Machine Interface (HMI) in Society 5.0".

Future Internet, № 15, 162 р. DOI: https://doi.org/10.3390/fi15050162

Grobelna, I., Mailland, D., Horwat, M. (2025), "Design of Automotive HMI: New Challenges in Enhancing User Experience,

Safety, and Security". Appl. Sci. № 15, 5572 р. DOI: https://doi.org/10.3390/app15105572

Esquivel, P. et al. (2024), "Voice Assistant Utilization among the Disability Community for Independent Living:

A Rapid Review of Recent Evidence", Human Behavior and Emerging Technologies, Vol. 2024, №. 1, 6494944 р.

DOI: https://doi.org/10.1155/2024/6494944

Semary, H. E., Al-Karawi, K. A. (2024), "Abdelwahab M. M. Using voice technologies to support disabled people",

Journal of Disability Research, 2024. Vol. 3. №. 1. DOI: https://doi.org/10.57197/jdr-2023-0063

Lawrence, I. D., Pavitra, A. R. R. (2024), "Voice-controlled drones for smart city applications", Sustainable Innovation for

Industry 6.0. Р. 162–177. DOI: DOI: 10.1109/ICUFN.2017.7993759

Ryu, R., Yeom, S., Kim, S. H., Herbert, D. (2021), "Continuous multimodal biometric authentication schemes: a systematic

review", IEEE Access. Vol. 9. Р. 34541-34557. DOI: 10.1109/ACCESS.2021.3061589

Barkovska, O., Liapin, Y., Muzyka, T., Ryndyk, I., Botnar, P. (2024), "Gaze direction monitoring model in computer

system for academic performance assessment. Civil law aspect", Information Technologies and Learning Tools, Vol 99,

№1, Р. 63–75. DOI: 10.33407/itlt.v99i1.5503

Shaheed, K., Mao, A., Qureshi, I. et al. (2021), "A Systematic Review on Physiological-Based Biometric Recognition Systems:

Current and Future Trends". Arch Computat Methods Eng 28, Р. 4917–4960. DOI: https://doi.org/10.1007/s11831-021-09560-3

Sasongko, S. M. A., Tsaury, S., Ariessaputra, S., Ch, S. (2023), "Mel Frequency Cepstral Coefficients (MFCC) Method and

Multiple Adaline Neural Network Model for Speaker Identification". International Journal on Informatics Visualization,

№ 7(4), Р. 2306–2312. DOI: https://doi.org/10.30630/joiv.7.4.1376

Desplanques, B., Thienpondt, J., & Demuynck, K. (2020), "ECAPA-TDNN: Emphasized Channel Attention, Propagation and

Aggregation in TDNN Based Speaker Verification". In Interspeech 2020, Р. 3830–3834. DOI:

https://doi.org/10.21437/Interspeech.2020-2650

Jahangir, R., Alreshoodi, M., Alarfaj, F. K. (2025), "Spectrogram Features-Based Automatic Speaker Identification for

Smart Services". Applied Artificial Intelligence, № 39(1). DOI: https://doi.org/10.1080/08839514.2025.2459476

Tirumala, S. S., Shahamiri, S. R., Garhwal, A. S., Wang, R. (2017), "Speaker Identification Features Extraction Methods:

A Systematic Review". Expert Systems with Applications, № 90, Р. 250–271. DOI: https://doi.org/10.1016/j.eswa.2017.08.015

Iliev, Y.; Ilieva, G. (2023), "A Framework for Smart Home System with Voice Control Using NLP Methods". Electronics

, № 12, 116 р. DOI: https://doi.org/10.3390/electronics1201011614

Kim, Y., Hyon, Y., Lee, S., Woo, S. D., Ha, T., Chung, C. (2022), "The coming era of a new auscultation system for

analyzing respiratory sounds", BMC Pulmonary Medicine, Vol. 22, №. 1. 119 р. DOI: 10.1186/s12890-022-01896-1

Barkovska, O, Havrashenko, А. (2024), "Research of the impact of noise reduction methods on the quality of

audio signal recovery", Information and control systems at railway transport, 2024, Vol. 29, №. 3. Р. 57–65.

DOI: https://doi.org/10.18664/ikszt.v29i3.313606

Zaman, K., Sah, M., Direkoglu, C., Unoki, M. (2023), "A Survey of Audio Classification Using Deep Learning",

IEEE Access, Vol. 11, Р. 106620–106649. DOI: 10.1109/ACCESS.2023.3318015

Xie, X., Cai, H., Li, C., Wu, Y., Ding, F. (2023), "A Voice Disease Detection Method Based on MFCCs and Shallow CNN",

Journal of Voice, Oct. 2023, DOI: https://doi.org/10.1016/j.jvoice.2023.09.024

Tu, Y., Lin, W., Mak, M. W. (2022), "A survey on text-dependent and text-independent speaker verification", IEEE Access.

Vol. 10. Р. 99038-99049. DOI: DOI: 10.1109/ACCESS.2022.3206541

Luitel, Sophina, Mohd, Anwar. (2022), "Audio Sentiment Analysis Using Spectrogram and Bag-of-Visual- Words",

IEEE 23rd International Conference on Information Reuse and Integration for Data Science (IRI), IEEE, Р. 200–205.

DOI: https://doi.org/10.1109/IRI54793.2022.00052

Singh, V. K., Sharma, K., Sur, S. N. (2023), "A survey on preprocessing and classification techniques for acoustic scene",

Expert Systems with Applications, Vol. 229, 120520 р. DOI: https://doi.org/10.1016/j.eswa.2023.120520

Labied, M., Belangour, A., Banane, M., Erraissi, A. (2022), "An overview of Automatic Speech Recognition Preprocessing

Techniques", 2022 International Conference on Decision Aid Sciences and Applications (DASA), Chiangrai, Thailand,

Р. 804–809, DOI: 10.1109/DASA54658.2022.9765043

##submission.downloads##

Опубліковано

2025-09-30

Як цитувати

Барковська, О. (2025). Двофакторна автентифікація на основі методу KWS та голосової верифікації. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (3(33), 5–18. https://doi.org/10.30837/2522-9818.2025.3.005