A comparative analysis of text data classification accuracy and speed using neural networks, Bloom filter and naive Bayes

Олена Юріївна Грищенко; Вадим Сергійович Яременко

doi:10.15587/2706-5448.2021.237767

Автор(и)

Олена Юріївна Грищенко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0001-6888-8665
Вадим Сергійович Яременко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0001-8557-6938

DOI:

https://doi.org/10.15587/2706-5448.2021.237767

Ключові слова:

класифікація текстових даних, фільтр Блума, наївний Байэс, нейронна мережа, час і точність класифікації

Анотація

Об'єктом дослідження є методи швидкої класифікації для вирішення задачи класифікації текстових даних. Необхідність даного дослідження зумовлена стрімким ростом текстових даних як в електронному вигляді, так і в друкованому. Таким чином виникає потреба у обробці таких даних із використанням програмного забезпечення, так як людські ресурси не в змозі обробляти таку кількість даних у повному обсязі.

Розроблено велику кількість підходів класифікації даних. Проведені дослідження базуються на застосуванні наступних методів класифікації текстових даних: фільтру Блума, наївного байєсівського класифікатора та нейронних мереж до набору текстових даних із метою класифікації їх на категорії. Кожен метод має як недоліки, так і переваги. В даній роботі буде відображено слабкі та сильні сторони кожного із методів. Дані алгоритми було порівняно між собою за швидкістю роботи та ефективністю, тобто точністю визначення приналежності тексту до певного класу класифікації. Роботу кожного методу було розглянуто на однакових наборах даних із зміною кількості навчальних та тестових даних, а також із зміною кількості груп класифікації. Використовуваний набір даних містить в собі наступні класи: світ, бізнес, спорт та наука і техніка. У реальних умовах класифікації таких даних кількість категорій є набагато більшою, ніж було розглянуто в роботі, та може мати у своєму складі підкатегорії.

У ході виконання дослідження було проаналізовано кожний метод із використанням різного значення параметрів для отримання кращого результату. Аналізуючи отримані результати, найкращі результати класифікації текстових даних отримано під час використання нейронної мережі.

Біографії авторів

Олена Юріївна Грищенко, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кафедра системного проектування

Інститут прикладного системного аналізу

Вадим Сергійович Яременко, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Аспірант, асистент

Кафедра системного проектування

Інститут прикладного системного аналізу

Посилання

Khatun, A., Mafiul Hasan, M., Miah, A.-A., Miah, R. (2020). Comparative Study on Text Classification. Available at: https://www.researchgate.net/publication/344199138_Comparative_Study_on_Text_Classification
Yaremenko, V., Budonnyi, D. (2019). Approach of the bloom filter application for real time text data multi-class classification. Computer-integrated technologies: education, science, production, 36, 153–159. doi: http://doi.org/10.36910/6775-2524-0560-2019-36-24
Leskovec, J., Rajaraman, A., Ullman, J. D. (2014). Mining Data Streams. Mining of Massive Datasets. Cambridge: Cambridge University Press, 123–153. doi: http://doi.org/10.1017/cbo9781139924801.005
Parsian, M. (2015). Data Algorithms: Recipes for Scaling Up with Hadoop and Spark. O'Reilly Media, Inc.
Lakshmi Prasanna, P., D. Rajeswara Rao, D. (2017). Text classification using artificial neural networks. International Journal of Engineering & Technology, 7 (1.1), 603–606. doi: http://doi.org/10.14419/ijet.v7i1.1.10785
Aggarwal, C. (2014). Data Classification Algorithms and Applications. New York: CRC Press, 707.
Yaremenko, V., Rogoza, W., Spitkovskyi, V. (2021). Application of neural network algorithms and naïve bayes for text classification. Journal of Theoretical and Applied Information Technology, 99 (1), 125–134.
Vander Plas, J. (2016). Python data science handbook: essential tools for working with data. Sebastopol: O'Reilly Media, Inc.
Mowafy, M., Rezk, A., El-bakry, H. M. (2018). An Efficient Classification Model for Unstructured Text Document. American Journal of Computer Science and Information Technology, 6 (1). doi: http://doi.org/10.21767/2349-3917.100016
Antons, D., Grünwald, E., Cichy, P., Salge, T. O. (2020). The application of text mining methods in innovation research: current state, evolution patterns, and development priorities. R&D Management, 50 (3), 329–351. doi: http://doi.org/10.1111/radm.12408