Залежність ефективності нейромереж для розпізнавання людського голосу в залежності від мови




Ключові слова:

штучний інтелект, нейронні мережі, ЗНМ, РНМ, БШП, детектор голосової активності, розпізнавання людського голосу, ефективність навчання, мовні особливості, точність розпізнавання


У цьому дослідженні розглядається ефективність архітектур нейронних мереж (багатошаровий персептрон БШП, згорткова нейронна мережа ЗНМ, рекурентна нейронна мережа РНМ) для розпізнавання голосу людини, з акцентом на казахську мову. Розглядаються проблеми, пов’язані з мовою, відмінністю мовців, впливом архітектури мережі на точність розпізнавання. Методологія включає тривале навчання та тестування, вивчення точності розпізнавання різними мовами та різні набори даних про носіїв мови. Використовуючи порівняльний аналіз, це дослідження оцінює продуктивність трьох архітектур, які навчаються виключно казахською мовою. Тестування включало висловлювання казахською та іншими мовами, у той час як кількість носіїв змінювалася, щоб оцінити його вплив на точність розпізнавання.

Під час дослідження результати показали, що нейронні мережі ЗНМ більш ефективні в розпізнаванні людського голосу, ніж РНМ і БШП. Також виявилося, що ЗНМ має більш високу точність розпізнавання людського голосу казахською мовою, як для невеликої, так і для великої кількості дикторів. Наприклад, для 20 мовців помилка розпізнавання російською склала 21,86 %, а казахською – 10,6 %. Подібна тенденція спостерігалася для 80 носіїв мови: 16,2 % росіян і 8,3 % казахів. Можна також стверджувати, що вивчення однієї мови не гарантує високої точності розпізнавання іншими мовами. Тому точність розпізнавання людського голосу нейронними мережами істотно залежить від мови, якою ведеться навчання.

Крім того, це дослідження підкреслює важливість різних наборів даних про спікерів для досягнення оптимальних результатів. Ці знання мають вирішальне значення для просування в розробці надійних систем розпізнавання людського голосу, які можуть точно ідентифікувати різні людські голоси в різних мовних контекстах

