Обґрунтування вибору нейромережного лінгвістичного класифікатора

Автор(и)

DOI:

https://doi.org/10.30837/ITSSI.2023.25.005

Ключові слова:

класифікація тексту; нейронні мережі; LSTM; CNN; точність класифікації; порівняння моделей; послідовні дані.

Анотація

Предметом статті є дослідження архітектури нейронних мереж для підвищення точності класифікації тексту, зокрема у сфері оброблення природної мови. Значення класифікації тексту помітно зросло в останні роки, що пов’язано з  її ключовою роллю в різних програмах, зокрема аналіз налаштувань, фільтрація вмісту та категоризація інформації. З огляду на зростання попиту на точність та ефективність методів класифікації тексту, оцінювання та порівняння різноманітних моделей нейронних мереж стають обов’язковими для визначення оптимальних стратегій. Метою дослідження є порівняльний аналіз двох важливих архітектур нейронних мереж – довгострокової короткочасної пам’яті (LSTM) та згорткової нейронної мережі (CNN) – для формування рекомендацій щодо вибору нейромережного лінгвістичного класифікатора. Для досягнення мети були розв’язані такі завдання: проаналізовано проблемні сфери, зокрема обґрунтування актуальності теми, порівняння наявних текстових корпусів; сформовано критерії та вимоги до роботи нейромережних класифікаторів; проведено дослідження на вибірках різних розмірів з метою порівняння часу навчання та передбачення, точності передбачення в процесі використання нейромережних моделей LSTM і CNN як класифікатора; проаналізовано здобуті результати; обґрунтовано вибір найефективнішої моделі. Оцінювання таких параметрів, як точність класифікації, час навчання та прогнозування, розмір моделі, розподіл інформації та простота використання, надає обґрунтовані показники про переваги й недоліки кожної моделі та дає змогу дослідникам і практикам приймати рішення щодо вибору нейромережного лінгвістичного класифікатора. Застосовано такі методи: попереднє оброблення текстової інформації (методи токенізації, вилучення стоп-слів), векторизація тексту, нейромережні методи аналізу вхідних даних, статистичні методи. Здобуто конкретні результати. Модель LSTM продемонструвала вищу точність класифікації для всіх трьох розмірів навчальної вибірки порівняно з CNN. Це доводить здатність LSTM ефективно адаптуватися до різних типів інформації та стабільно підтримувати високу точність, навіть із великими обсягами даних. Крім того, дослідження показало, що обчислювальна потужність значно впливає на продуктивність моделі та необхідно враховувати доступні ресурси у виборі моделі. Висновки. З огляду на результати дослідження LSTM-модель визнана кращим вибором для класифікації текстової інформації. Вправність зазначеної моделі в обробленні послідовних даних, розпізнаванні довгострокових залежностей і стабільному забезпеченні високої точності позиціонує її як надійне рішення для аналізу тексту в різних сферах. Швидке навчання, ефективність прогнозування та компактний розмір моделі роблять її придатною для практичного застосування.

Біографії авторів

Олеся Барковська, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, доцент кафедри електронних обчислювальних машин

Ксенія Воропаєва, Харківський національний університет радіоелектроніки

магістрантка кафедри електронних обчислювальних машин

Олександр Руських, Харківський національний університет радіоелектроніки

магістрант кафедри електронних обчислювальних машин

Посилання

References

Serdechnyi, V., Barkovska, O., Rosinskiy, D., Axak, N., & Korablyov, M. (2020), "Model of the internet traffic filtering system to ensure safe web surfing". In Lecture Notes in Computational Intelligence and Decision Making: Proceedings of the XV International Scientific Conference “Intellectual Systems of Decision Making and Problems of Computational Intelligence”(ISDMCI'2019), Ukraine, May 21–25, 2019, 15 P. 133–147. Springer International Publishing. DOI: https://doi.org/10.1007/978-3-030-26474-1_10

Barkovska, O., Pyvovarova, D., Kholiev, V., Ivashchenko, H., & Rosinskiy, D. (2021),"Information Object Storage Model with Accelerated Text Processing Methods". In COLINS, P. 286–299, available at: https://csitjournal.khmnu.edu.ua/index.php/csit/article/download/182/112/559

Zhang, J. et al. (2018), "LSTM-CNN hybrid model for text classification", IEEE 3rd Advanced Information Technology, Electronic and Automation Control Conference (IAEAC). P. 1675–1680. DOI: https://doi.org/10.1109/IAEAC.2018.8577620

WANG, Haitao, HE, Jie, ZHANG, Xiaohong, et al., (2020), "A Short Text Classification Method Based on N-Gram and CNN", Chinese Journal of Electronics, Vol. 29, No. 2, P. 248–254. DOI: https://doi.org/10.1049/cje.2020.01.001

Mohammad, A.H., Alwada’n, T., Al-Momani, O., (2019), "Arabic Text Categorization Using Support Vector Machine.", Naïve Bayes and Neural Network, Р. 930–933. DOI: https://doi.org/10.5176/2251-3043_4.4.360

Wang, Congcong & Nulty, Paul & Lillis, David. (2020), "A Comparative Study on Word Embeddings in Deep Learning for Text Classification". Conference on Natural Language Processing and Information Retrieval. Р. 37–46. DOI: https://doi.org/10.1145/3443279.3443304

Selva, Birunda S., Kanniga, Devi R. (2021), "A review on word embedding techniques for text classification", Innovative Data Communication Technologies and Application: Proceedings of ICIDCA. Р. 267–281. DOI: https://doi.org/10.1007/978-981-15-9651-3_23

Mars, M. (2022), "From word embeddings to pre-trained language models: A state-of-the-art walkthrough", Applied Sciences. – Vol. 12. №. 17. Р. 8805. DOI: https://doi.org/10.3390/app12178805

Patil, Rajvardhan & Boit, Sorio & Gudivada, Venkat & Nandigam, Jagadeesh. (2023), "A Survey of Text Representation and Embedding Techniques in NLP". IEEE Access. P 1–10. DOI: https://doi.org/10.1109/ACCESS.2023.3266377.

Krizhevsky, Alex & Sutskever, Ilya & Hinton, Geoffrey. (2012), "ImageNet Classification with Deep Convolutional Neural Networks". Neural Information Processing Systems. 25 р. DOI: https://doi.org/10.1145/3065386.

Wang, S. et al. (2018), "Densely connected CNN with multi-scale feature attention for text classification" IJCAI. Vol. 18. Р. 4468–4474. DOI: https://doi.org/10.24963/ijcai.2018/621

Jang B. et al. (2020), "Bi-LSTM model to increase accuracy in text classification: Combining Word2vec CNN and attention mechanism". Applied Sciences. Vol. 10. No 17. 5841 р. DOI: https://doi.org/10.3390/app10175841

Gao, M., Li T., Huang P. (2019), "Text classification research based on improved Word2vec and CNN". Service-Oriented Computing–ICSOC 2018 Workshops: ADMS, ASOCA, ISYyCC, CloTS, DDBS, and NLS4IoT, Hangzhou, China, November 12–15, Revised Selected Papers 16. Springer International Publishing. Р. 126-135. DOI: https://doi.org/10.1007/978-3-030-17642-6_11

Zhou, H. (2022), "Research of text classification based on TF-IDF and CNN-LSTM". Journal of Physics: Conference Series. – IOP Publishing, Vol. 2171. No 1. 2021 р. DOI: https://doi.org/10.1088/1742-6596/2171/1/012021

Mikolov, Tomas & Chen, Kai & Corrado, G.s & Dean, Jeffrey (2013), "Efficient Estimation of Word Representations in Vector Space", Proceedings of Workshop at ICLR., available at: https://www.researchgate.net/publication/234131319_Efficient_Estimation_of_Word_Representations_in_Vector_Space

Jeffrey, Pennington, Richard, Socher, and Christopher, Manning (2014), "GloVe: Global Vectors for Word Representation". In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar. Association for Computational Linguistics. P. 1532–1543. DOI: https://doi.org/10.3115/v1/D14-1162.

Panchenko, D. et al. (2021), "Ukrainian news corpus as text classification benchmark". International Conference on Information and Communication Technologies in Education, Research, and Industrial Applications. Cham: Springer International Publishing, Р. 550-559. DOI: https://doi.org/10.1007/978-3-319-76168-8

Schwenk, H., & Li, X. (2018), "A Corpus for Multilingual Document Classification in Eight Languages". available at: https://arxiv.org/abs/1805.09821

##submission.downloads##

Опубліковано

2023-09-30

Як цитувати

Барковська, О., Воропаєва, К., & Руських, О. (2023). Обґрунтування вибору нейромережного лінгвістичного класифікатора. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (3(25), 5–14. https://doi.org/10.30837/ITSSI.2023.25.005