Обґрунтування вибору нейромережного лінгвістичного класифікатора
DOI:
https://doi.org/10.30837/ITSSI.2023.25.005Ключові слова:
класифікація тексту; нейронні мережі; LSTM; CNN; точність класифікації; порівняння моделей; послідовні дані.Анотація
Предметом статті є дослідження архітектури нейронних мереж для підвищення точності класифікації тексту, зокрема у сфері оброблення природної мови. Значення класифікації тексту помітно зросло в останні роки, що пов’язано з її ключовою роллю в різних програмах, зокрема аналіз налаштувань, фільтрація вмісту та категоризація інформації. З огляду на зростання попиту на точність та ефективність методів класифікації тексту, оцінювання та порівняння різноманітних моделей нейронних мереж стають обов’язковими для визначення оптимальних стратегій. Метою дослідження є порівняльний аналіз двох важливих архітектур нейронних мереж – довгострокової короткочасної пам’яті (LSTM) та згорткової нейронної мережі (CNN) – для формування рекомендацій щодо вибору нейромережного лінгвістичного класифікатора. Для досягнення мети були розв’язані такі завдання: проаналізовано проблемні сфери, зокрема обґрунтування актуальності теми, порівняння наявних текстових корпусів; сформовано критерії та вимоги до роботи нейромережних класифікаторів; проведено дослідження на вибірках різних розмірів з метою порівняння часу навчання та передбачення, точності передбачення в процесі використання нейромережних моделей LSTM і CNN як класифікатора; проаналізовано здобуті результати; обґрунтовано вибір найефективнішої моделі. Оцінювання таких параметрів, як точність класифікації, час навчання та прогнозування, розмір моделі, розподіл інформації та простота використання, надає обґрунтовані показники про переваги й недоліки кожної моделі та дає змогу дослідникам і практикам приймати рішення щодо вибору нейромережного лінгвістичного класифікатора. Застосовано такі методи: попереднє оброблення текстової інформації (методи токенізації, вилучення стоп-слів), векторизація тексту, нейромережні методи аналізу вхідних даних, статистичні методи. Здобуто конкретні результати. Модель LSTM продемонструвала вищу точність класифікації для всіх трьох розмірів навчальної вибірки порівняно з CNN. Це доводить здатність LSTM ефективно адаптуватися до різних типів інформації та стабільно підтримувати високу точність, навіть із великими обсягами даних. Крім того, дослідження показало, що обчислювальна потужність значно впливає на продуктивність моделі та необхідно враховувати доступні ресурси у виборі моделі. Висновки. З огляду на результати дослідження LSTM-модель визнана кращим вибором для класифікації текстової інформації. Вправність зазначеної моделі в обробленні послідовних даних, розпізнаванні довгострокових залежностей і стабільному забезпеченні високої точності позиціонує її як надійне рішення для аналізу тексту в різних сферах. Швидке навчання, ефективність прогнозування та компактний розмір моделі роблять її придатною для практичного застосування.
Посилання
References
Serdechnyi, V., Barkovska, O., Rosinskiy, D., Axak, N., & Korablyov, M. (2020), "Model of the internet traffic filtering system to ensure safe web surfing". In Lecture Notes in Computational Intelligence and Decision Making: Proceedings of the XV International Scientific Conference “Intellectual Systems of Decision Making and Problems of Computational Intelligence”(ISDMCI'2019), Ukraine, May 21–25, 2019, 15 P. 133–147. Springer International Publishing. DOI: https://doi.org/10.1007/978-3-030-26474-1_10
Barkovska, O., Pyvovarova, D., Kholiev, V., Ivashchenko, H., & Rosinskiy, D. (2021),"Information Object Storage Model with Accelerated Text Processing Methods". In COLINS, P. 286–299, available at: https://csitjournal.khmnu.edu.ua/index.php/csit/article/download/182/112/559
Zhang, J. et al. (2018), "LSTM-CNN hybrid model for text classification", IEEE 3rd Advanced Information Technology, Electronic and Automation Control Conference (IAEAC). P. 1675–1680. DOI: https://doi.org/10.1109/IAEAC.2018.8577620
WANG, Haitao, HE, Jie, ZHANG, Xiaohong, et al., (2020), "A Short Text Classification Method Based on N-Gram and CNN", Chinese Journal of Electronics, Vol. 29, No. 2, P. 248–254. DOI: https://doi.org/10.1049/cje.2020.01.001
Mohammad, A.H., Alwada’n, T., Al-Momani, O., (2019), "Arabic Text Categorization Using Support Vector Machine.", Naïve Bayes and Neural Network, Р. 930–933. DOI: https://doi.org/10.5176/2251-3043_4.4.360
Wang, Congcong & Nulty, Paul & Lillis, David. (2020), "A Comparative Study on Word Embeddings in Deep Learning for Text Classification". Conference on Natural Language Processing and Information Retrieval. Р. 37–46. DOI: https://doi.org/10.1145/3443279.3443304
Selva, Birunda S., Kanniga, Devi R. (2021), "A review on word embedding techniques for text classification", Innovative Data Communication Technologies and Application: Proceedings of ICIDCA. Р. 267–281. DOI: https://doi.org/10.1007/978-981-15-9651-3_23
Mars, M. (2022), "From word embeddings to pre-trained language models: A state-of-the-art walkthrough", Applied Sciences. – Vol. 12. №. 17. Р. 8805. DOI: https://doi.org/10.3390/app12178805
Patil, Rajvardhan & Boit, Sorio & Gudivada, Venkat & Nandigam, Jagadeesh. (2023), "A Survey of Text Representation and Embedding Techniques in NLP". IEEE Access. P 1–10. DOI: https://doi.org/10.1109/ACCESS.2023.3266377.
Krizhevsky, Alex & Sutskever, Ilya & Hinton, Geoffrey. (2012), "ImageNet Classification with Deep Convolutional Neural Networks". Neural Information Processing Systems. 25 р. DOI: https://doi.org/10.1145/3065386.
Wang, S. et al. (2018), "Densely connected CNN with multi-scale feature attention for text classification" IJCAI. Vol. 18. Р. 4468–4474. DOI: https://doi.org/10.24963/ijcai.2018/621
Jang B. et al. (2020), "Bi-LSTM model to increase accuracy in text classification: Combining Word2vec CNN and attention mechanism". Applied Sciences. Vol. 10. No 17. 5841 р. DOI: https://doi.org/10.3390/app10175841
Gao, M., Li T., Huang P. (2019), "Text classification research based on improved Word2vec and CNN". Service-Oriented Computing–ICSOC 2018 Workshops: ADMS, ASOCA, ISYyCC, CloTS, DDBS, and NLS4IoT, Hangzhou, China, November 12–15, Revised Selected Papers 16. Springer International Publishing. Р. 126-135. DOI: https://doi.org/10.1007/978-3-030-17642-6_11
Zhou, H. (2022), "Research of text classification based on TF-IDF and CNN-LSTM". Journal of Physics: Conference Series. – IOP Publishing, Vol. 2171. No 1. 2021 р. DOI: https://doi.org/10.1088/1742-6596/2171/1/012021
Mikolov, Tomas & Chen, Kai & Corrado, G.s & Dean, Jeffrey (2013), "Efficient Estimation of Word Representations in Vector Space", Proceedings of Workshop at ICLR., available at: https://www.researchgate.net/publication/234131319_Efficient_Estimation_of_Word_Representations_in_Vector_Space
Jeffrey, Pennington, Richard, Socher, and Christopher, Manning (2014), "GloVe: Global Vectors for Word Representation". In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar. Association for Computational Linguistics. P. 1532–1543. DOI: https://doi.org/10.3115/v1/D14-1162.
Panchenko, D. et al. (2021), "Ukrainian news corpus as text classification benchmark". International Conference on Information and Communication Technologies in Education, Research, and Industrial Applications. Cham: Springer International Publishing, Р. 550-559. DOI: https://doi.org/10.1007/978-3-319-76168-8
Schwenk, H., & Li, X. (2018), "A Corpus for Multilingual Document Classification in Eight Languages". available at: https://arxiv.org/abs/1805.09821
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 Олеся Барковська, Ксенія Воропаєва, Олександр Руських
![Creative Commons License](http://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.