ДОСЛІДЖЕННЯ МЕТОДІВ ОБРОБКИ ТА АНАЛІЗУ ТЕКСТУ ПРИ ОРГАНІЗАЦІЇ ЕЛЕКТРОННИХ СХОВИЩ ІНФОРМАЦІЙНИХ ОБ’ЄКТІВ
DOI:
https://doi.org/10.30837/ITSSI.2022.19.005Ключові слова:
інформаційна система;, паралелізм;, обробка тексту;, лінгвістичне програмування;, бібліотека;, прискорення;, методАнотація
Предметом дослідження в статті є електронне сховище інформаційних об’єктів, впорядковане за визначеними правилами на етапі накопичення кваліфікаційних та наукових робіт учасників запропонованої системи обміну знаннями, наданими до системи у різних форматах (текстові, графічні, аудіо). Класифіковані роботи учасників системи є підставою для організації тематичних кімнат для обговорення із метою розповсюдження наукових досягнень, запозичення нових ідей, обміну знаннями та пошуку роботодавців або менторів у різних країнах світу. Мета роботи – дослідження бібліотек обробки та аналізу тексту із метою прискорення та збільшення точності класифікації сканованих текстових документів при організації впорядкованого електронного сховища інформаційних об’єктів. В статті вирішуються наступні завдання: дослідити методи обробки та аналізу тексту на базі запропонованої узагальненої моделі системи класифікації сканованих документів із зазначеним місцем блоку обробки та аналізу тексту; дослідити статистику зміну часу виконання розробленої паралельної модифікації методів модулю попередньої обробки тексту для системи із загальною пам’яттю для колекцій текстових документів різного розміру; проаналізувати отримані результати. Використовуються такі методи: паралельні чисельні методи сортування, методи математичної статистики, лінгвістичні методи аналізу тексту. Отримано наступні результати: в ході виконання досліджень, було запропоновано узагальнену модель системи класифікації сканованих документів, яка складається з блоку роботи із зображенням та блоку роботи із текстом, які, в свою чергу, включають модулі попередньої обробки сканованого зображення; модуль розпізнавання тексту; попередньої обробки тексту; побудови частотного словнику; визначення текстової близькості. Висновки: запропонована паралельна модифікація модулю попередньої обробки тексту дає прискорення до 3,998 разів. Але, при дуже високому обчислювальному навантаженні (колекція з 18144 файлів, близько 1100Мб), ресурсів обчислювача на базі багатопроцесорного ЦПУ із загальною памяттю не достатньо для вирішення подібних задач у режимі, наближеному до реального часу.
Посилання
Barkovska, O., Kholiev, V., Pyvovarova, D., Ivaschenko, G., Rosinskiy, D. (2021), "International system of knowledge exchange for young scientists", Advanced Information Systems, No. 5 (1), P. 69 – 74. DOI: https://doi.org/10.20998/2522-9052.2021.1.09
Barkovska, O., Pyvovarova, D., Kholiev, V., Ivashchenko, H, Rosinskyi, D. (2021), "Information Object Storage Model with Accelerated Text Processing Methods", Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2021), No. 2870, P. 286 – 299.
Koroteev, M. (2020), "On the Usage of Semantic Text-Similarity Metrics for Natural Language Processing in Russian", 13th International Conference "Management of large-scale system development" (MLSD), Р. 1 – 4. DOI: https://doi.org/10.1109/MLSD49919.2020.9247691
Liu, Y. Sheng, Wei, Z., Yang, Y. (2018), "Research of Text Classification Based on Improved TF-IDF Algorithm", IEEE International Conference of Intelligent Robotic and Control Engineering (IRCE), P. 218 – 222. DOI: https://doi.org/10.1109/IRCE.2018.8492945
Zhang, Y. (2021), "Research on Text Classification Method Based on LSTM Neural Network Model", IEEE Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC), P. 1019 – 1022. DOI: https://doi.org/10.1109/IPEC51340.2021.9421225
Jindal, R., Shweta, (2018), "A Novel Method for Efficient Multi-Label Text Categorization of research articles", International Conference on Computing, Power and Communication Technologies (GUCON), P. 333 – 336. DOI: https://doi.org/10.1109/GUCON.2018.8674985
Martínek, J., Lenc, L., Král, P. (2020), "Building an efficient OCR system for historical documents with little training data", Neural Computing and Applications, No. 32, P. 17209 – 17227. DOI: https://doi.org/10.1007/s00521-020-04910-x
Pawar, N., Shaikh, Z., Shinde, P., Warke Y. (2019), "Image to Text Conversion Using Tesseract", International Research Journal of Engineering and Technology (IRJET), No. 6 (2), Р. 516– 519.
Revathi, A., Modi, N. A. (2021), "Comparative Analysis of Text Extraction from Color Images using Tesseract and OpenCV", 8th International Conference on Computing for Sustainable Global Development (INDIACom), Р. 931 – 936. DOI: https://doi.org/10.1109/INDIACom51348.2021.00167
Burns, S. (2019), Natural Language Processing: A Quick Introduction to NLP with Python and NLTK (Step-by-Step Tutorial for Beginners), Amazon KDP Printing and Publishing C, 123 p.
Lane, H., Hapke, H., Howard, C. (2019), Natural Language Processing in Action: Understanding, analyzing, and generating text with Python, Manning; 1st edition, 544 p.
Jurafsky, D., Martin, J.H., "Speech and Language Processing", available at: https://web.stanford.edu/~jurafsky/slp3/ (last accessed: 16.02.2022)
Kim, J., Hur, S., Lee, E., Lee, S. (2021), "NLP-Fast: A Fast, Scalable, and Flexible System to Accelerate Large-Scale Heterogeneous NLP Models," 30th International Conference on Parallel Architectures and Compilation Techniques (PACT), P. 75– 89. DOI: https://doi.org/10.1109/PACT52795.2021.00013
Berko, A., Matseliukh, Y., Ivaniv, Y., Chyrun, L., Schuchmann, V. (2021), "The Text Classification Based on Big Data Analysis for Keyword Definition Using Stemming," IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT), P. 184– 188. DOI: https://doi.org/10.1109/CSIT52700.2021.9648764
Sakthi vel, S. (2021), "Pre-Processing techniques of Text Mining using Computational Linguistics and Python Libraries," International Conference on Artificial Intelligence and Smart Systems (ICAIS), P. 879–884. DOI: https://doi.org/10.1109/ICAIS50930.2021.9395924
Al Omran, F. N. A., Treude, C. (2017), "Choosing an NLP Library for Analyzing Software Documentation: A Systematic Literature Review and a Series of Experiments," IEEE/ACM 14th International Conference on Mining Software Repositories (MSR), P. 187– 197. DOI: https://doi.org/10.1109/MSR.2017.42.
Vasiliev, Y. (2020), Natural Language Processing with Python and SpaCy: A Practical Introduction, No Starch Press,
p
Naseer, S., Mudasar Ghafoor, M., Alvi, S. bin K., Kiran, A., Shafique Ur Rahmand, Ghulam Murtazae, & Murtaza, G. (2022), "Named Entity Recognition (NER) in NLP Techniques, Tools Accuracy and Performance", Pakistan Journal of Multidisciplinary Research, No. 2 (2), P. 293– 308.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2022 Olesia Barkovska, Viktor Khomych , Oleksandr Nastenko

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












