ДОСЛІДЖЕННЯ МЕТОДІВ ОБРОБКИ ТА АНАЛІЗУ ТЕКСТУ ПРИ ОРГАНІЗАЦІЇ ЕЛЕКТРОННИХ СХОВИЩ ІНФОРМАЦІЙНИХ ОБ’ЄКТІВ

Автор(и)

  • Olesia Barkovska Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0001-7496-4353
  • Viktor Khomych Харківський національний університет радіоелектроніки, Україна
  • Oleksandr Nastenko Харківський національний університет радіоелектроніки, Україна

DOI:

https://doi.org/10.30837/ITSSI.2022.19.005

Ключові слова:

інформаційна система;, паралелізм;, обробка тексту;, лінгвістичне програмування;, бібліотека;, прискорення;, метод

Анотація

Предметом дослідження в статті є електронне сховище інформаційних об’єктів, впорядковане за визначеними правилами на етапі накопичення кваліфікаційних та наукових робіт учасників запропонованої системи обміну знаннями, наданими до системи у різних форматах (текстові, графічні, аудіо). Класифіковані роботи учасників системи є підставою для організації тематичних кімнат для обговорення із метою розповсюдження наукових досягнень, запозичення нових ідей, обміну знаннями та пошуку роботодавців або менторів у різних країнах світу. Мета роботи – дослідження бібліотек обробки та аналізу тексту із метою прискорення та збільшення точності класифікації сканованих текстових документів при організації впорядкованого електронного сховища інформаційних об’єктів. В статті вирішуються наступні завдання: дослідити методи обробки та аналізу тексту на базі запропонованої узагальненої моделі системи класифікації сканованих документів із зазначеним місцем блоку обробки та аналізу тексту; дослідити статистику зміну часу виконання розробленої паралельної модифікації методів модулю попередньої обробки тексту для системи із загальною пам’яттю для колекцій текстових документів різного розміру; проаналізувати отримані результати. Використовуються такі методи: паралельні чисельні методи сортування, методи математичної статистики, лінгвістичні методи аналізу тексту.  Отримано наступні результати: в ході виконання досліджень, було запропоновано узагальнену модель системи класифікації сканованих документів, яка складається з блоку роботи із зображенням та блоку роботи із текстом, які, в свою чергу, включають модулі попередньої обробки сканованого зображення; модуль розпізнавання тексту; попередньої обробки тексту; побудови частотного словнику; визначення текстової близькості. Висновки: запропонована паралельна модифікація модулю попередньої обробки тексту дає прискорення до 3,998 разів. Але, при дуже високому обчислювальному навантаженні (колекція з 18144 файлів, близько 1100Мб), ресурсів обчислювача на базі багатопроцесорного ЦПУ із загальною памяттю не достатньо для вирішення подібних задач у режимі, наближеному до реального часу.

Біографії авторів

Olesia Barkovska, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент

Viktor Khomych, Харківський національний університет радіоелектроніки

студент

Oleksandr Nastenko, Харківський національний університет радіоелектроніки

студент

Посилання

Barkovska, O., Kholiev, V., Pyvovarova, D., Ivaschenko, G., Rosinskiy, D. (2021), "International system of knowledge exchange for young scientists", Advanced Information Systems, No. 5 (1), P. 69 – 74. DOI: https://doi.org/10.20998/2522-9052.2021.1.09

Barkovska, O., Pyvovarova, D., Kholiev, V., Ivashchenko, H, Rosinskyi, D. (2021), "Information Object Storage Model with Accelerated Text Processing Methods", Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2021), No. 2870, P. 286 – 299.

Koroteev, M. (2020), "On the Usage of Semantic Text-Similarity Metrics for Natural Language Processing in Russian", 13th International Conference "Management of large-scale system development" (MLSD), Р. 1 – 4. DOI: https://doi.org/10.1109/MLSD49919.2020.9247691

Liu, Y. Sheng, Wei, Z., Yang, Y. (2018), "Research of Text Classification Based on Improved TF-IDF Algorithm", IEEE International Conference of Intelligent Robotic and Control Engineering (IRCE), P. 218 – 222. DOI: https://doi.org/10.1109/IRCE.2018.8492945

Zhang, Y. (2021), "Research on Text Classification Method Based on LSTM Neural Network Model", IEEE Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC), P. 1019 – 1022. DOI: https://doi.org/10.1109/IPEC51340.2021.9421225

Jindal, R., Shweta, (2018), "A Novel Method for Efficient Multi-Label Text Categorization of research articles", International Conference on Computing, Power and Communication Technologies (GUCON), P. 333 – 336. DOI: https://doi.org/10.1109/GUCON.2018.8674985

Martínek, J., Lenc, L., Král, P. (2020), "Building an efficient OCR system for historical documents with little training data", Neural Computing and Applications, No. 32, P. 17209 – 17227. DOI: https://doi.org/10.1007/s00521-020-04910-x

Pawar, N., Shaikh, Z., Shinde, P., Warke Y. (2019), "Image to Text Conversion Using Tesseract", International Research Journal of Engineering and Technology (IRJET), No. 6 (2), Р. 516– 519.

Revathi, A., Modi, N. A. (2021), "Comparative Analysis of Text Extraction from Color Images using Tesseract and OpenCV", 8th International Conference on Computing for Sustainable Global Development (INDIACom), Р. 931 – 936. DOI: https://doi.org/10.1109/INDIACom51348.2021.00167

Burns, S. (2019), Natural Language Processing: A Quick Introduction to NLP with Python and NLTK (Step-by-Step Tutorial for Beginners), Amazon KDP Printing and Publishing C, 123 p.

Lane, H., Hapke, H., Howard, C. (2019), Natural Language Processing in Action: Understanding, analyzing, and generating text with Python, Manning; 1st edition, 544 p.

Jurafsky, D., Martin, J.H., "Speech and Language Processing", available at: https://web.stanford.edu/~jurafsky/slp3/ (last accessed: 16.02.2022)

Kim, J., Hur, S., Lee, E., Lee, S. (2021), "NLP-Fast: A Fast, Scalable, and Flexible System to Accelerate Large-Scale Heterogeneous NLP Models," 30th International Conference on Parallel Architectures and Compilation Techniques (PACT), P. 75– 89. DOI: https://doi.org/10.1109/PACT52795.2021.00013

Berko, A., Matseliukh, Y., Ivaniv, Y., Chyrun, L., Schuchmann, V. (2021), "The Text Classification Based on Big Data Analysis for Keyword Definition Using Stemming," IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), P. 184– 188. DOI: https://doi.org/10.1109/CSIT52700.2021.9648764

Sakthi vel, S. (2021), "Pre-Processing techniques of Text Mining using Computational Linguistics and Python Libraries," International Conference on Artificial Intelligence and Smart Systems (ICAIS), P. 879–884. DOI: https://doi.org/10.1109/ICAIS50930.2021.9395924

Al Omran, F. N. A., Treude, C. (2017), "Choosing an NLP Library for Analyzing Software Documentation: A Systematic Literature Review and a Series of Experiments," IEEE/ACM 14th International Conference on Mining Software Repositories (MSR), P. 187– 197. DOI: https://doi.org/10.1109/MSR.2017.42.

Vasiliev, Y. (2020), Natural Language Processing with Python and SpaCy: A Practical Introduction, No Starch Press,

p

Naseer, S., Mudasar Ghafoor, M., Alvi, S. bin K., Kiran, A., Shafique Ur Rahmand, Ghulam Murtazae, & Murtaza, G. (2022), "Named Entity Recognition (NER) in NLP Techniques, Tools Accuracy and Performance", Pakistan Journal of Multidisciplinary Research, No. 2 (2), P. 293– 308.

##submission.downloads##

Опубліковано

2022-03-31

Як цитувати

Barkovska, . O., Khomych, V., & Nastenko, . O. (2022). ДОСЛІДЖЕННЯ МЕТОДІВ ОБРОБКИ ТА АНАЛІЗУ ТЕКСТУ ПРИ ОРГАНІЗАЦІЇ ЕЛЕКТРОННИХ СХОВИЩ ІНФОРМАЦІЙНИХ ОБ’ЄКТІВ. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (1 (19), 5–12. https://doi.org/10.30837/ITSSI.2022.19.005