ПОРІВНЯЛЬНИЙ АНАЛІЗ НЕЙРОМЕРЕЖНИХ МОДЕЛЕЙ ДЛЯ РОЗВ’ЯЗАННЯ ЗАВДАНЬ РОЗПІЗНАВАННЯ СПІКЕРА

Автор(и)

DOI:

https://doi.org/10.30837/ITSSI.2023.24.172

Ключові слова:

порівняльний аналіз; нейронна мережа; інтелектуальні моделі; модель; машинне навчання; ідентификація спікера; розпізнавання спікера

Анотація

Предметом дослідження є нейромережні моделі, розроблені або адаптовані для розв’язання проблеми аналізу голосу в контексті завдань ідентифікації та верифікації спікера. Метою роботи є проведення порівняльного аналізу відповідних нейромережних моделей для визначення однієї (або кількох), що якнайкраще відповідає таким обраним критеріям: тип моделі, мова програмування реалізації моделі, потенціал розпаралелювання, чи є модель бінарна, чи мультикласова, точність та обчислювальна складність. Деякі з цих критеріїв обрані, оскільки є універсально важливими, незалежними від того чи іншого завдання, наприклад точність і обчислювальна складність. Інші критерії обрані у зв’язку з архітектурою та недоліками системи наукової комунікації, що виконує завдання ідентифікації та перевірки спікера. Актуальність роботи полягає в поширенні аудіо як комунікативного засобу, зокрема йдеться про практичне застосування його інтелектуального аналізу в різних сферах людської діяльності (бізнес, право, військова справа). Крім того, постає питання про необхідність створення ефективного середовища внутрішньої наукової комунікації на основі аудіо серед молодих учених, що дасть їм змогу прискорити свої дослідження й набути навичок наукового спілкування. Для досягнення мети в роботі розв’язані такі завдання: сформульовано критерії для оцінюваних моделей з огляду на конкретні потреби й завдання; за певними критеріями досліджено моделі, розроблені для завдань ідентифікації та верифікації спікера. Результати: розглянуто моделі SincNet, VGGVox, Jasper, TitaNet, SpeakerNet, ECAPA_TDNN; результати дослідження нейромережних моделей зведено в загальну таблицю; визначено оптимальні моделі відповідно до сформульованих критеріїв. Висновки: для майбутніх досліджень і практичного розв’язання проблеми автентифікації спікера доцільно використовувати згорткову нейронну мережу, реалізовану мовою програмування Python, оскільки вона пропонує широкий вибір інструментів розроблення та бібліотек.

Біографії авторів

Владислав Холєв, Харківський національний університет радіоелектроніки

асистент кафедри електронних обчислювальних машин

Олеся Барковська, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, доцент кафедри електронних обчислювальних машин

Посилання

References

Barkovska, O. (2022), "Research into speech-to-text tranfromation module in the proposed model of a speaker’s automatic speech annotation", Innovative Technologies and Scientific Solutions for Industries, No. 4 (22), P. 5–13. DOI: https://doi.org/10.30837/ITSSI.2022.22.005

Yashina, E., Artiukh, R., Рan, N., Zelensky, A. (2019), "Information technology for recognition of road signs using a neural network", Innovative Technologies and Scientific Solutions for Industries, No. 2 (8), P. 130–141. DOI: https://doi.org/10.30837/2522-9818.2019.8.130

Kholiev, V., Barkovska, O. (2023), "Analysis of the of training and test data distribution for audio series classification", Information and control systems at railway transport, No. 1, P. 38 43. DOI: https://doi.org/10.18664/ikszt.v28i1.276343

Illingworth, S.; Allen, G. (2020), "Introduction", Effective science communication: a practical guide to surviving as a scientist (2nd ed.), Bristol, UK; Philadelphia: IOP Publishing, Р. 1–5. DOI: https://doi.org/10.1088/978-0-7503-2520-2ch1

Côté, I., Darling, E. (2018), "Scientists on Twitter: Preaching to the choir or singing from the rooftops?", FACETS, 3, Р. 682–694. DOI: https://doi.org/10.1139/facets-2018-0002

Klin, B., Podpora, M., Beniak, R., Gardecki, A., Rut, J. (2023), "Smart Beamforming in Verbal Human-machine Interaction for Humanoid Robots", IEEE Robotics and Automation Letters, Р. 4689–4696. DOI: 10.1109/LRA.2023.3288381

Jin, R., Ablimit, M., Hamdulla, A. (2023), "Speaker Verification based on Single Channel Speech Separation", IEEE Access, available at: https://ieeexplore.ieee.org/iel7/6287639/6514899/10156847.pdf

Froiz-Míguez, I., Fraga-Lamas, P., Fernández-Caramés, T. M. (2023), "Design, Implementation and Practical Evaluation of a Voice Recognition Based IoT Home Automation System for Low-Resource Languages and Resource-Constrained Edge IoT Devices: a System for Galician and Mobile Opportunistic Scenarios", IEEE Access, available at: https://www.researchgate.net/profile/Tiago-Fernandez-Carames

Tesema, F. B., Gu, J., Song, W., Wu, H., Zhu, S., Lin, Z. (2023), "Efficient Audiovisual Fusion for Active Speaker Detection", IEEE Access, Vol. 11, Р. 45140–45153. DOI: 10.1109/ACCESS.2023.3267668

Hu, Z., LingHu, K., Liao, C., Yu, H. (2023), "Speech Emotion Recognition Based on Attention MCNN Combined With Gender Information", IEEE Access, Vol. 11, Р. 50285–50294. DOI: 10.1109/ACCESS.2023.3278106

Barkovska, O., Kholiev, V., Pyvovarova, D., Ivaschenko, G., Rosinskiy, D. (2021), "International system of knowledge exchange for young scientists", Advanced Information Systems, No. 5 (1), Р. 69–74. DOI: https://doi.org/10.20998/2522-9052.2021.1.09

Ravanelli, M., Bengio, Y. (2018), "Speaker Recognition from Raw Waveform with SincNet", 2018 IEEE Spoken Language Technology Workshop (SLT), Athens, Greece, Р. 1021–1028. DOI: https://doi.org/10.1109/SLT.2018.8639585

Nagrani, A., Chung, J. S., Zisserman, A. (2017), "VoxCeleb: A Large-Scale Speaker Identification Dataset", Proc. Interspeech 2017, Р. 2616–2620. DOI: https://doi.org/10.21437/Interspeech.2017-950

Chung, J. S., Nagrani, A., Zisserman, A. (2018), "VoxCeleb2: Deep Speaker Recognition", Proc. Interspeech 2018, Р. 1086–1090. DOI: https://doi.org/10.21437/Interspeech.2018-1929

Koluguri, N. R., Park, T., Ginsburg, B. (2021), "TitaNet: Neural Model for Speaker Representation with 1D Depth-Wise Separable Convolutions and Global Context", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Р. 8102–8106. DOI: https://doi.org/10.48550/arXiv.2110.04410

Koluguri, N. R., Li, J., Lavrukhin, V., Ginsburg, B. (2020), "SpeakerNet: 1D Depth-wise Separable Convolutional Network for Text-Independent Speaker Recognition and Verification", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). DOI: https://doi.org/10.48550/arXiv.2010.12653

Dawalatabad, N., Ravanelli, M., Grondin, F., Thienpondt, J., Desplanques, B., Na, H. (2021), "ECAPA-TDNN Embeddings for Speaker Diarization", Proc. Interspeech, 2021, Р. 3560–3564. DOI: https://doi.org/10.21437/interspeech.2021-941

Li, J., Lavrukhin, V., Ginsburg, B., Leary, R., Kuchaiev, O., Cohen, J., Nguyen, H., Gadde, R. (2019), "Jasper: An End-to-End Convolutional Neural Acoustic Model", Electrical Engineering and Systems Science, Р. 71–75. DOI: https://doi.org/10.21437/Interspeech.2019-1819

##submission.downloads##

Опубліковано

2023-11-13

Як цитувати

Холєв, В., & Барковська, О. (2023). ПОРІВНЯЛЬНИЙ АНАЛІЗ НЕЙРОМЕРЕЖНИХ МОДЕЛЕЙ ДЛЯ РОЗВ’ЯЗАННЯ ЗАВДАНЬ РОЗПІЗНАВАННЯ СПІКЕРА. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (2 (24), 172–178. https://doi.org/10.30837/ITSSI.2023.24.172