Порівняння згорткових нейронних мереж для розпізнавання казахської жестової мови




Ключові слова:

розпізнавання жестів рук, розпізнавання жестової мови, згорткова нейронна мережа(ЗНМ), глибоке навчання


Для людей з обмеженими можливостями жестова мова є найважливішим засобом спілкування. Тому все більше авторів різних робіт і вчених по всьому світу пропонують рішення для використання інтелектуальних систем розпізнавання жестів рук. Така система призначена не тільки для тих, хто хоче розуміти жестову мову, а й говорити за допомогою програмного забезпечення для розпізнавання жестів. У даній роботі представлений новий еталонний набір даних для дактильного алфавіту казахської мови, здатний навчати глибокі нейронні мережі. Набір даних містить більше 10122 зразків жестів для 42 алфавітів. Алфавіт має свої особливості, так як деякі символи показані в русі, що може впливати на розпізнавання жестів.

У статті описано дослідження та аналіз згорткових нейронних мереж, порівняння, тестування, результати та аналіз методів LeNet, AlexNet, ResNet та Effectivenet – EfficientNetB7. Архітектура EffectiveNet є найсучаснішою і новою в порівнянні з іншими розглянутими архітектурами. На цьому наборі даних ми показали, що мережі LeNet та EffectiveNet перевершують інші конкуруючі алгоритми. Крім того, EffectiveNet забезпечує найвищу продуктивність на інших наборах даних жестів.

Архітектура і принцип роботи цих алгоритмів відображають ефективність їх застосування при розпізнаванні жестової мови. Оцінка моделі ЗНМ проводиться з використанням матриці точності і штрафів. У періоди навчання LeNet і EffectiveNet показали кращі результати: функції точності і втрат мали схожі і близькі тенденції. Результати EffectiveNet були пояснені за допомогою інструментів структури адитивних пояснень Шеплі (SHAP). З використанням SHAP досліджувалася модель для виявлення складних взаємозв'язків між елементами зображень. Зосередження уваги на інструменті SHAP може допомогти ще більше підвищити точність моделі

Спонсор дослідження

  • This research is funded by the Science Committee of the Ministry of Education and Science of the Republic of Kazakhstan (AP08053034)

Біографії авторів

Chingiz Kenshimov, Institute of Information and Computational Technologies

PhD, Leading Researcher

Laboratory of Artificial Intelligence and Robotics

Samat Mukhanov, International Information Technology University

Doctoral Student, Vice-Dean of Faculty, Senior Lecturer

Faculty of Computer Technologies and Cybersecurity

Department of Computer Engineering and Information Security

Laboratory of Artificial Intelligence and Robotics

Timur Merembayev, Institute of Information and Computational Technologies

Postgraduate Student, Software-Engineer

Laboratory of Artificial Intelligence and Robotics

Didar Yedilkhan, Institute of Information and Computational Technologies

PhD, Software-Engineer

Laboratory of Artificial Intelligence and Robotics


Як цитувати

Kenshimov, C., Mukhanov, S., Merembayev, T., & Yedilkhan, D. (2021). Порівняння згорткових нейронних мереж для розпізнавання казахської жестової мови. Eastern-European Journal of Enterprise Technologies, 5(2 (113), 44–54. https://doi.org/10.15587/1729-4061.2021.241535