Порівняльний аналіз точності та швидкості класифікації текстових даних з використанням нейронних мереж, фільтру Блума та методу наївного Байєса
DOI:
https://doi.org/10.15587/2706-5448.2021.237767Ключові слова:
класифікація текстових даних, фільтр Блума, наївний Байэс, нейронна мережа, час і точність класифікаціїАнотація
Об'єктом дослідження є методи швидкої класифікації для вирішення задачи класифікації текстових даних. Необхідність даного дослідження зумовлена стрімким ростом текстових даних як в електронному вигляді, так і в друкованому. Таким чином виникає потреба у обробці таких даних із використанням програмного забезпечення, так як людські ресурси не в змозі обробляти таку кількість даних у повному обсязі.
Розроблено велику кількість підходів класифікації даних. Проведені дослідження базуються на застосуванні наступних методів класифікації текстових даних: фільтру Блума, наївного байєсівського класифікатора та нейронних мереж до набору текстових даних із метою класифікації їх на категорії. Кожен метод має як недоліки, так і переваги. В даній роботі буде відображено слабкі та сильні сторони кожного із методів. Дані алгоритми було порівняно між собою за швидкістю роботи та ефективністю, тобто точністю визначення приналежності тексту до певного класу класифікації. Роботу кожного методу було розглянуто на однакових наборах даних із зміною кількості навчальних та тестових даних, а також із зміною кількості груп класифікації. Використовуваний набір даних містить в собі наступні класи: світ, бізнес, спорт та наука і техніка. У реальних умовах класифікації таких даних кількість категорій є набагато більшою, ніж було розглянуто в роботі, та може мати у своєму складі підкатегорії.
У ході виконання дослідження було проаналізовано кожний метод із використанням різного значення параметрів для отримання кращого результату. Аналізуючи отримані результати, найкращі результати класифікації текстових даних отримано під час використання нейронної мережі.
Посилання
- Khatun, A., Mafiul Hasan, M., Miah, A.-A., Miah, R. (2020). Comparative Study on Text Classification. Available at: https://www.researchgate.net/publication/344199138_Comparative_Study_on_Text_Classification
- Yaremenko, V., Budonnyi, D. (2019). Approach of the bloom filter application for real time text data multi-class classification. Computer-integrated technologies: education, science, production, 36, 153–159. doi: http://doi.org/10.36910/6775-2524-0560-2019-36-24
- Leskovec, J., Rajaraman, A., Ullman, J. D. (2014). Mining Data Streams. Mining of Massive Datasets. Cambridge: Cambridge University Press, 123–153. doi: http://doi.org/10.1017/cbo9781139924801.005
- Parsian, M. (2015). Data Algorithms: Recipes for Scaling Up with Hadoop and Spark. O'Reilly Media, Inc.
- Lakshmi Prasanna, P., D. Rajeswara Rao, D. (2017). Text classification using artificial neural networks. International Journal of Engineering & Technology, 7 (1.1), 603–606. doi: http://doi.org/10.14419/ijet.v7i1.1.10785
- Aggarwal, C. (2014). Data Classification Algorithms and Applications. New York: CRC Press, 707.
- Yaremenko, V., Rogoza, W., Spitkovskyi, V. (2021). Application of neural network algorithms and naïve bayes for text classification. Journal of Theoretical and Applied Information Technology, 99 (1), 125–134.
- Vander Plas, J. (2016). Python data science handbook: essential tools for working with data. Sebastopol: O'Reilly Media, Inc.
- Mowafy, M., Rezk, A., El-bakry, H. M. (2018). An Efficient Classification Model for Unstructured Text Document. American Journal of Computer Science and Information Technology, 6 (1). doi: http://doi.org/10.21767/2349-3917.100016
- Antons, D., Grünwald, E., Cichy, P., Salge, T. O. (2020). The application of text mining methods in innovation research: current state, evolution patterns, and development priorities. R&D Management, 50 (3), 329–351. doi: http://doi.org/10.1111/radm.12408
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2021 Вадим Сергеевич Яременко, Елена Юрьевна Грищенко
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.