A comparison of convolutional neural networks for Kazakh sign language recognition

Chingiz Kenshimov; Samat Mukhanov; Timur Merembayev; Didar Yedilkhan

doi:10.15587/1729-4061.2021.241535

Порівняння згорткових нейронних мереж для розпізнавання казахської жестової мови

Автор(и)

Chingiz Kenshimov Institute of Information and Computational Technologies, Казахстан https://orcid.org/0000-0002-5923-4958
Samat Mukhanov International Information Technology University, Казахстан https://orcid.org/0000-0001-8761-4272
Timur Merembayev Institute of Information and Computational Technologies, Казахстан https://orcid.org/0000-0001-8185-235X
Didar Yedilkhan Institute of Information and Computational Technologies, Казахстан https://orcid.org/0000-0002-6343-5277

DOI:

https://doi.org/10.15587/1729-4061.2021.241535

Ключові слова:

розпізнавання жестів рук, розпізнавання жестової мови, згорткова нейронна мережа(ЗНМ), глибоке навчання

Анотація

Для людей з обмеженими можливостями жестова мова є найважливішим засобом спілкування. Тому все більше авторів різних робіт і вчених по всьому світу пропонують рішення для використання інтелектуальних систем розпізнавання жестів рук. Така система призначена не тільки для тих, хто хоче розуміти жестову мову, а й говорити за допомогою програмного забезпечення для розпізнавання жестів. У даній роботі представлений новий еталонний набір даних для дактильного алфавіту казахської мови, здатний навчати глибокі нейронні мережі. Набір даних містить більше 10122 зразків жестів для 42 алфавітів. Алфавіт має свої особливості, так як деякі символи показані в русі, що може впливати на розпізнавання жестів.

У статті описано дослідження та аналіз згорткових нейронних мереж, порівняння, тестування, результати та аналіз методів LeNet, AlexNet, ResNet та Effectivenet – EfficientNetB7. Архітектура EffectiveNet є найсучаснішою і новою в порівнянні з іншими розглянутими архітектурами. На цьому наборі даних ми показали, що мережі LeNet та EffectiveNet перевершують інші конкуруючі алгоритми. Крім того, EffectiveNet забезпечує найвищу продуктивність на інших наборах даних жестів.

Архітектура і принцип роботи цих алгоритмів відображають ефективність їх застосування при розпізнаванні жестової мови. Оцінка моделі ЗНМ проводиться з використанням матриці точності і штрафів. У періоди навчання LeNet і EffectiveNet показали кращі результати: функції точності і втрат мали схожі і близькі тенденції. Результати EffectiveNet були пояснені за допомогою інструментів структури адитивних пояснень Шеплі (SHAP). З використанням SHAP досліджувалася модель для виявлення складних взаємозв'язків між елементами зображень. Зосередження уваги на інструменті SHAP може допомогти ще більше підвищити точність моделі

Спонсор дослідження

This research is funded by the Science Committee of the Ministry of Education and Science of the Republic of Kazakhstan (AP08053034)

Біографії авторів

Chingiz Kenshimov, Institute of Information and Computational Technologies

PhD, Leading Researcher

Laboratory of Artificial Intelligence and Robotics

Samat Mukhanov, International Information Technology University

Doctoral Student, Vice-Dean of Faculty, Senior Lecturer

Faculty of Computer Technologies and Cybersecurity

Department of Computer Engineering and Information Security

Laboratory of Artificial Intelligence and Robotics

Timur Merembayev, Institute of Information and Computational Technologies

Postgraduate Student, Software-Engineer

Laboratory of Artificial Intelligence and Robotics

Didar Yedilkhan, Institute of Information and Computational Technologies

PhD, Software-Engineer

Laboratory of Artificial Intelligence and Robotics

Посилання

Bazarevsky, V., Fan, Zh. (2019). On-device, real-time hand tracking with mediapipe. Google AI Blog. Available at: https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html
Lee, A., Cho, Y., Jin, S., Kim, N. (2020). Enhancement of surgical hand gesture recognition using a capsule network for a contactless interface in the operating room. Computer Methods and Programs in Biomedicine, 190, 105385. doi: https://doi.org/10.1016/j.cmpb.2020.105385
Bilgin, M., Mutludogan, K. (2019). American Sign Language Character Recognition with Capsule Networks. 2019 3rd International Symposium on Multidisciplinary Studies and Innovative Technologies (ISMSIT). doi: https://doi.org/10.1109/ismsit.2019.8932829
Adithya, V., Rajesh, R. (2020). A Deep Convolutional Neural Network Approach for Static Hand Gesture Recognition. Procedia Computer Science, 171, 2353–2361. doi: https://doi.org/10.1016/j.procs.2020.04.255
Mantecón, T., del-Blanco, C. R., Jaureguizar, F., García, N. (2016). Hand Gesture Recognition Using Infrared Imagery Provided by Leap Motion Controller. Lecture Notes in Computer Science, 47–57. doi: https://doi.org/10.1007/978-3-319-48680-2_5
Kumar, A., Thankachan, K., Dominic, M. M. (2016). Sign language recognition. 2016 3rd International Conference on Recent Advances in Information Technology (RAIT). doi: https://doi.org/10.1109/rait.2016.7507939
Haberdar, H., Albayrak, S. (2005). Real Time Isolated Turkish Sign Language Recognition from Video Using Hidden Markov Models with Global Features. Lecture Notes in Computer Science, 677–687. doi: https://doi.org/10.1007/11569596_70
Saykol, E., Türe, H. T., Sirvanci, A. M., Turan, M. (2016). Posture labeling based gesture classification for Turkish sign language using depth values. Kybernetes, 45 (4), 604–621. doi: https://doi.org/10.1108/k-04-2015-0107
Kudubayeva, S. A., Ryumin, D. A., Kalzhanov, M. U. (2016). The method of basis vectors for recognition sign language by using sensor KINECT. Journal of Mathematics, Mechanics and Computer Science, 91 (3), 86–96. Available at: https://bm.kaznu.kz/index.php/kaznu/article/view/541
Uskenbayeva, R. K., Mukhanov, S. B. (2020). Contour analysis of external images. Proceedings of the 6th International Conference on Engineering & MIS 2020. doi: https://doi.org/10.1145/3410352.3410811
Lecun, Y., Bottou, L., Bengio, Y., Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86 (11), 2278–2324. doi: https://doi.org/10.1109/5.726791
Krizhevsky, A., Sutskever, I., Hinton, G. E. (2017). ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60 (6), 84–90. doi: https://doi.org/10.1145/3065386
He, K., Zhang, X., Ren, S., Sun, J. (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). doi: https://doi.org/10.1109/cvpr.2016.90
Tan, M., Le, Q. V. (2019). EfficientNet: Rethinking model scaling for convolutional neural networks. Proceedings of the 36th International Conference on Machine Learning. Available at: https://proceedings.mlr.press/v97/tan19a/tan19a.pdf
Merembayev, T., Kurmangaliyev, D., Bekbauov, B., Amanbek, Y. (2021). A Comparison of Machine Learning Algorithms in Predicting Lithofacies: Case Studies from Norway and Kazakhstan. Energies, 14 (7), 1896. doi: https://doi.org/10.3390/en14071896
Lundberg, S. M., Lee, S.-I. (2017). A unified approach to interpreting model predictions. 31st Conference on Neural Information Processing Systems (NIPS 2017). Available at: https://arxiv.org/pdf/1705.07874.pdf

##submission.downloads##

PDF (English)

Опубліковано

2021-10-31

Як цитувати

Kenshimov, C., Mukhanov, S., Merembayev, T., & Yedilkhan, D. (2021). Порівняння згорткових нейронних мереж для розпізнавання казахської жестової мови. Eastern-European Journal of Enterprise Technologies, 5(2 (113), 44–54. https://doi.org/10.15587/1729-4061.2021.241535

Завантажити посилання

Номер

Том 5 № 2 (113) (2021): Інформаційні технології. Системи управління в промисловості

Розділ

Інформаційні технології

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.

Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.

Порівняння згорткових нейронних мереж для розпізнавання казахської жестової мови

Автор(и)

DOI:

Ключові слова:

Анотація

Спонсор дослідження

Біографії авторів

Chingiz Kenshimov, Institute of Information and Computational Technologies

Samat Mukhanov, International Information Technology University

Timur Merembayev, Institute of Information and Computational Technologies

Didar Yedilkhan, Institute of Information and Computational Technologies

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація

Подати статтю

##plugins.block.developedBy.blockTitle##

Поточний номер