Нейромережна модель в задачах обробки та аналізу аудіо файлів
DOI:
https://doi.org/10.30837/ITSSI.2023.26.016Ключові слова:
мелчастотні кепстральні коефіцієнти; спректрограма; часова маска; частотна маска; нормалізація; нейромережа; голос; аудіоряд; моваАнотація
Предметом дослідження є аналіз впливу етапів попереднього оброблення аудіоряду на точність визначення мови спікера. Значущість такого оброблення помітно зросла в останні роки завдяки її ключовій ролі в різноманітних застосуваннях, зокрема: зменшення обсягу інформації, фільтрація та шумопригнічення. Унаслідок збільшення попиту на рішення задач класифікації аудіоінформації оцінювання та порівняння різних методів оброблення аудіоряду стають важливими для визначення точності та ефективності отриманого рішення. Мета роботи – аналіз впливу методів попереднього оброблення аудіоінформації на точність визначення мови спікера для використання в подальшому навчанні нейромережі для різних способів перетворення сигналів в ознаки, а саме спектрограми та мелчастотні кепстральні коефіцієнти. Для досягнення поставленої мети були визначені такі завдання: проаналізувати способи перетворення сигналу в ознаки та аналіз математичних моделей для виконання аналізу аудіоряду за обраними ознаками; розробити узагальнену модель перекладу мови спікера в реальному часі та спланувати експеримент залежно від обраних етапів попереднього оброблення аудіоряду; змоделювати експеримент способом навчання та тестування згорткової нейроної мережі. Використані такі методи: мелчастотний кепстральний аналіз, спректральний аналіз, математичні методи штучного інтелекту. Досягнуті результати: залежно від обраних методів попереднього оброблення голосової інформаціїї та різних способів перетворення сигналу в ознаки вдалося досягти 93% точності визначення мови спікера. Практичною значущістю цієї роботи є збільшення точності подальшого транскрибування аудіоінформації та перекладу сформованого тексту обраною мовою, зокрема штучними мовами. Висновки. У процесі роботи було обрано найкращу послідовність етапів попереднього оброблення аудіоінформації з метою використання в подальшому навчанні нейромережі для різних способів перетворення сигналів в ознаки. Для вирішення окресленої задачі краще підходять мелчастотні кепстральні коефіцієнти. Оскільки точність нейромережі залежить від її структури, то зі збільшенням обсягів вхідної інформації та кількості мов результати можуть змінюватися. Але на певному етапі було прийнято рішення використовувати лише мелчастотні кепстральні коефіцієнти з нормалізацією на етапі попереднього підготовлення вхідної інформації.
Посилання
References
Zhang, Z.(2016), “Mechanics of human voice production and control”. The journal of the acoustical society of america Vol.140.4. Р. 2614-2635. DOI: https://doi.org/10.1121/1.4964509
Garellek, M.(2022), “Theoretical achievements of phonetics in the 21st century: Phonetics of voice quality”. Journal of Phonetics Vol.94(24). DOI: https://doi.org/10.1016/j.wocn.2022.101155
Abdul, Z. K., Al-Talabani A. K.(2022), “Mel Frequency Cepstral Coefficient and its Applications: A Review”, IEEE Access, Vol. 10, P. 122136-122158. DOI: https://doi.org/10.1109/ACCESS.2022.3223444.
Ayvaz, U.(2022), “Automatic speaker recognition using mel-frequency cepstral coefficients through machine learning.” CMC-Computers Materials & Continua. Vol.71(3), Р. 5511-5521. DOI: https://doi.org/10.32604/cmc.2022.023278
Shalbbya, A. (2020), “Mel frequency cepstral coefficient: a review.” ICIDSSD, Р.1-10. DOI: https://doi.org/10.4108/eai.27-2-2020.2303173
Ramakrishnan, S. (2012), “Recognition of emotion from speech: A review.” Speech Enhancement, Modeling and Recognition Algorithms and Applications. Rijeka, Croatia: InTech, Р. 121-136. DOI: https://doi.org/10.5772/39246
Wang, L.(2022), “A Machine Learning Assessment System for Spoken English Based on Linear Predictive Coding.” Mobile Information Systems, Vol. 2022 (5). Р. 1-12. DOI: https://doi.org/10.1155/2022/6131572
Darling, D., Hinduja, J.(2022), “Feature Extraction in Speech Recognition using Linear Predictive Coding: An Overview." i-Manager's Journal on Digital Signal Processing Vol. 10.2. 16 р. DOI: https://doi.org/10.26634/jdp.10.2.19289
Lonce, W. (2017), “Audio spectrogram representations for processing with convolutional neural networks.” arXiv preprint arXiv. P. 37-41. DOI: https://doi.org/10.48550/arXiv.1706.09559
Gong, Y., Chung, Y., Glass, J. (2021), “Audio spectrogram transformer.” arXiv preprint arXiv:Version 3. available at: https://arxiv.org/abs/2104.01778
Qiuqiang, K. (2020), “Large-scale pretrained audio neural networks for audio pattern recognition.” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 28 (2020). Р. 2880-2894. DOI: https://doi.org/10.48550/arXiv.1912.10211
Sandhya, P.(2020), “An Analysis of the Impact of Spectral Contrast Feature in Speech Emotion Recognition”. Third International Conference on Advances in Electronics, Computers and Communications (ICAECC). IEEE, Vol. 9 No. 2. Р. 87-95. DOI: https://doi.org/10.3991/ijes.v9i2.22983
Charbuty, B., Abdulazeez, A. (2021), “Classification based on decision tree algorithm for machine learning.” Journal of Applied Science and Technology Trends, Vol. 2.01 (2021). Р. 20-28. DOI: https://doi.org/10.38094/jastt20165
Breiman, L. (2001), “Random forests.” Machine learning Vol. 45 (2001). Р. 5-32. DOI: http://dx.doi.org/10.1023/A:1010933404324
Deshmukh, A.(2020), “Comparison of hidden markov model and recurrent neural network in automatic speech recognition”, European Journal of Engineering and Technology Research, Vol. 5.8 (2020). Р. 958-965. DOI: https://doi.org/10.1051/itmconf/20235401016
Ardila, R., Branson, M., Davis, K., Kohler, M., Meyer, J., Henretty, M., Morais, R., Saunders, L., Tyers, F., Weber, G. (2020), “Common Voice: A Massively-Multilingual Speech Corpus.” Proceedings of the Twelfth Language Resources and Evaluation Conference, Р. 4218–4222. DOI: https://doi.org/10.48550/arXiv.1912.06670
Goldsborough, P. (2016), “A tour of tensorflow.” arXiv preprint arXiv:1610.01178 (2016). available at: https://arxiv.org/abs/1610.01178
Havrashenko, A., Barkovska, А. (2023), “Analysis of word search algorithms in the dictionaries of machine translation systems for artificial languages.” Computer systems and information technologies. No 2. P. 17-24. DOI: https://doi.org/10.31891/csit-2023-2-2
Havrashenko, A., Barkovska, O.(2023), “Analysis of text augmentation algorithms in artificial language machine translation systems.” Advanced Information Systems. No.7(1). Р. 47-53. DOI: https://doi.org/10.20998/2522-9052.2023.1.08
Barkovska, O, Havrashenko, A., Kholiev, V., Sevostianova, O.(2021), “Automatic text translation system for artificial languages”, Computer systems and information technologies. No. 3. P. 21-30. DOI: https://doi.org/10.31891/CSIT-2021-5-3
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
![Creative Commons License](http://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.