Двофакторна автентифікація на основі методу KWS та голосової верифікації
DOI:
https://doi.org/10.30837/2522-9818.2025.3.005Анотація
Предметом статті є розробка та оцінка двофакторного методу автентифікації мовця на основі ідентифікації голосового
відбитка та верифікації ключових слів (KWS), призначеного для безпечного голосового доступу в інтерфейсах
«людина-машина», особливо для користувачів з обмеженою мобільністю. Метою роботи є створення методу управління
автентифікацією мовця з використанням конволюційних нейронних мереж (CNN), порівняння ефективності двох широко
використовуваних методів вилучення спектральних ознак – спектрограм Мел-частотних кепстральних коефіцієнтів (MFCC)
та короткочасного перетворення Фур'є (STFT). У статті вирішено такі завдання: запропоновано модель двофакторного
методу автентифікації, що включає ідентифікацію мовця та розпізнавання голосового пароля; порівняно якість ознак
спектрограм MFCC та STFT; оцінено вплив кількості епох, архітектури CNN та параметрів навчання на точність системи;
досліджено вплив частоти дискретизації на продуктивність моделей. Використовуються такі методи: методи глибокого
навчання з архітектурою CNN, точне налаштування, вилучення ознак MFCC та STFT, математичний та статистичний аналіз
ефективності навчання та показники продуктивності системи. Отримано такі результати: метод досяг 97,95% точності
в ідентифікації мовця за допомогою MFCC після 60 епох навчання та 99,82% точності в перевірці голосового пароля
за допомогою тієї ж структури CNN після 20 епох. Середня точність всього процесу автентифікації становила 98,75%.
Більше того, використання MFCC-ознак дозволило скоротити час навчання в 23 рази, а споживання пам'яті – в 7 разів
порівняно зі спектрограмами STFT. Висновки: було реалізовано та досліджено ефективність двофакторного методу
голосової автентифікації, що поєднує ідентифікацію мовця за акустичними характеристиками голосу та перевірку
голосового пароля. Подальші напрямки досліджень включають вивчення впливу альтернативних спектральних
характеристик (зокрема, CQCC, GFCC, просодичних параметрів) на підвищення точності та стійкості до підробки.
Особлива увага буде приділена оптимізації моделі для енергоефективного використання на портативних пристроях.
Посилання
References
Mourtzis, D., Angelopoulos, J., Panopoulos, N. (2023), "The Future of the Human–Machine Interface (HMI) in Society 5.0".
Future Internet, № 15, 162 р. DOI: https://doi.org/10.3390/fi15050162
Grobelna, I., Mailland, D., Horwat, M. (2025), "Design of Automotive HMI: New Challenges in Enhancing User Experience,
Safety, and Security". Appl. Sci. № 15, 5572 р. DOI: https://doi.org/10.3390/app15105572
Esquivel, P. et al. (2024), "Voice Assistant Utilization among the Disability Community for Independent Living:
A Rapid Review of Recent Evidence", Human Behavior and Emerging Technologies, Vol. 2024, №. 1, 6494944 р.
DOI: https://doi.org/10.1155/2024/6494944
Semary, H. E., Al-Karawi, K. A. (2024), "Abdelwahab M. M. Using voice technologies to support disabled people",
Journal of Disability Research, 2024. Vol. 3. №. 1. DOI: https://doi.org/10.57197/jdr-2023-0063
Lawrence, I. D., Pavitra, A. R. R. (2024), "Voice-controlled drones for smart city applications", Sustainable Innovation for
Industry 6.0. Р. 162–177. DOI: DOI: 10.1109/ICUFN.2017.7993759
Ryu, R., Yeom, S., Kim, S. H., Herbert, D. (2021), "Continuous multimodal biometric authentication schemes: a systematic
review", IEEE Access. Vol. 9. Р. 34541-34557. DOI: 10.1109/ACCESS.2021.3061589
Barkovska, O., Liapin, Y., Muzyka, T., Ryndyk, I., Botnar, P. (2024), "Gaze direction monitoring model in computer
system for academic performance assessment. Civil law aspect", Information Technologies and Learning Tools, Vol 99,
№1, Р. 63–75. DOI: 10.33407/itlt.v99i1.5503
Shaheed, K., Mao, A., Qureshi, I. et al. (2021), "A Systematic Review on Physiological-Based Biometric Recognition Systems:
Current and Future Trends". Arch Computat Methods Eng 28, Р. 4917–4960. DOI: https://doi.org/10.1007/s11831-021-09560-3
Sasongko, S. M. A., Tsaury, S., Ariessaputra, S., Ch, S. (2023), "Mel Frequency Cepstral Coefficients (MFCC) Method and
Multiple Adaline Neural Network Model for Speaker Identification". International Journal on Informatics Visualization,
№ 7(4), Р. 2306–2312. DOI: https://doi.org/10.30630/joiv.7.4.1376
Desplanques, B., Thienpondt, J., & Demuynck, K. (2020), "ECAPA-TDNN: Emphasized Channel Attention, Propagation and
Aggregation in TDNN Based Speaker Verification". In Interspeech 2020, Р. 3830–3834. DOI:
https://doi.org/10.21437/Interspeech.2020-2650
Jahangir, R., Alreshoodi, M., Alarfaj, F. K. (2025), "Spectrogram Features-Based Automatic Speaker Identification for
Smart Services". Applied Artificial Intelligence, № 39(1). DOI: https://doi.org/10.1080/08839514.2025.2459476
Tirumala, S. S., Shahamiri, S. R., Garhwal, A. S., Wang, R. (2017), "Speaker Identification Features Extraction Methods:
A Systematic Review". Expert Systems with Applications, № 90, Р. 250–271. DOI: https://doi.org/10.1016/j.eswa.2017.08.015
Iliev, Y.; Ilieva, G. (2023), "A Framework for Smart Home System with Voice Control Using NLP Methods". Electronics
, № 12, 116 р. DOI: https://doi.org/10.3390/electronics1201011614
Kim, Y., Hyon, Y., Lee, S., Woo, S. D., Ha, T., Chung, C. (2022), "The coming era of a new auscultation system for
analyzing respiratory sounds", BMC Pulmonary Medicine, Vol. 22, №. 1. 119 р. DOI: 10.1186/s12890-022-01896-1
Barkovska, O, Havrashenko, А. (2024), "Research of the impact of noise reduction methods on the quality of
audio signal recovery", Information and control systems at railway transport, 2024, Vol. 29, №. 3. Р. 57–65.
DOI: https://doi.org/10.18664/ikszt.v29i3.313606
Zaman, K., Sah, M., Direkoglu, C., Unoki, M. (2023), "A Survey of Audio Classification Using Deep Learning",
IEEE Access, Vol. 11, Р. 106620–106649. DOI: 10.1109/ACCESS.2023.3318015
Xie, X., Cai, H., Li, C., Wu, Y., Ding, F. (2023), "A Voice Disease Detection Method Based on MFCCs and Shallow CNN",
Journal of Voice, Oct. 2023, DOI: https://doi.org/10.1016/j.jvoice.2023.09.024
Tu, Y., Lin, W., Mak, M. W. (2022), "A survey on text-dependent and text-independent speaker verification", IEEE Access.
Vol. 10. Р. 99038-99049. DOI: DOI: 10.1109/ACCESS.2022.3206541
Luitel, Sophina, Mohd, Anwar. (2022), "Audio Sentiment Analysis Using Spectrogram and Bag-of-Visual- Words",
IEEE 23rd International Conference on Information Reuse and Integration for Data Science (IRI), IEEE, Р. 200–205.
DOI: https://doi.org/10.1109/IRI54793.2022.00052
Singh, V. K., Sharma, K., Sur, S. N. (2023), "A survey on preprocessing and classification techniques for acoustic scene",
Expert Systems with Applications, Vol. 229, 120520 р. DOI: https://doi.org/10.1016/j.eswa.2023.120520
Labied, M., Belangour, A., Banane, M., Erraissi, A. (2022), "An overview of Automatic Speech Recognition Preprocessing
Techniques", 2022 International Conference on Decision Aid Sciences and Applications (DASA), Chiangrai, Thailand,
Р. 804–809, DOI: 10.1109/DASA54658.2022.9765043
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












