Аналіз методів та алгоритмів обробки неструктурованих текстових даних на основі технології JSON

Автор(и)

  • Єгор Андрійович Кучеренко Чорноморський національний університет імені Петра Могили, Україна https://orcid.org/0009-0008-0909-3780
  • Інеса Василівна Кулаковська Чорноморський національний університет імені Петра Могили, Україна https://orcid.org/0000-0002-8432-1850

DOI:

https://doi.org/10.15587/2706-5448.2024.306435

Ключові слова:

валідація, інтелектуальна система, неструктуровані дані, JSON, CSV, краулінг, ETL, ELT, автоматизована система

Анотація

Об’єктом дослідження є процес автоматизації систем для структуризації даних з декількох джерел. Предметом дослідження є методи та алгоритми реалізації цілісної системи для виконання автоматизованої та паралельної обробки, валідації та структуризації даних. Одним із найбільш проблемних місць є злиття баз даних із різними структурами та декількох спільними полями в узагальнену структуру. Дослідження було направлено на розробку системи для підвищення ефективності автоматизації обробки великих даних.

В результаті виконання роботи було досліджено методи оптимізації, проаналізовано вплив їх внутрішніх параметрів на роботу алгоритмів, визначені основні їх переваги та недоліки, а також розроблено програмне забезпечення, в якому реалізовані відповідні методи. Отримано алгоритм структуризації даних перед їх обробкою. Структуризація даних досягається шляхом виконання операції «маппінгу». Маппінг може відбуватися за індексами вже очищених даних або з використанням визначеного словника з заданим набором ключів, що дозволяє не піклуватися про послідовність зберігання значень та їх можливий зсув.

Практична значимість розробленої системи полягає у вдосконаленні методів збору та обробки інформації з метою її подальшої валідації, очистки та накопичення за наступними категоріями: географічні адреси та гео-координати, валідація та автоматизоване доповнення номеру мобільного телефону до міжнародного формату, обробка автомобільних номерів (у сучасному та застарілому форматі), VIN-коду двигуна та марки автомобіля, валідація url-адрес соціальних мереж, паспортні дані та обробка персональних даних. У порівнянні з аналогічними методами для обробки даних великого об’єму була використана можливість розбиття вхідного файлу або потоку на окремі частини, очищенні дані з яких – об’єднуються наприкінці процесу роботи системи. Завдяки цьому забезпечується можливість обробки даних, розмір яких перевищує доступний об’єм оперативної пам’яті пристрою, покращено методику роботи з слабоструктурованими текстовими файлами у форматі CSV.

Біографії авторів

Єгор Андрійович Кучеренко, Чорноморський національний університет імені Петра Могили

Кафедра інтелектуальних інформаційних систем

Інеса Василівна Кулаковська, Чорноморський національний університет імені Петра Могили

Кандидат фізико-математичних наук, доцент

Кафедра інтелектуальних інформаційних систем

Посилання

  1. Chaturvedi, S., Kumar, P. (2018). Extraction and Conversion of Web JSON Data into Pandas Data Frame by storing it into Text File using Python. International Journal for Research in Applied Science & Engineering Technology, 6 (XI).
  2. JSON Community. Available at: https://json.com
  3. Wikimedia Foundation. Wikipedia. Available at: https://en.wikipedia.org/wiki/Wikimedia_Foundation
  4. Frozza, A. A., Mello, R. dos S., Costa, F. de S. da. (2018). An Approach for Schema Extraction of JSON and Extended JSON Document Collections. 2018 IEEE International Conference on Information Reuse and Integration (IRI). doi: https://doi.org/10.1109/iri.2018.00060
  5. Avramenko, O. M. (2017). Intelektualna systema obrobky nestrukturovanykh tekstovykh danykh na osnovi tekhnolohii JSON. Visnyk Natsionalnoho tekhnichnoho universytetu «KPI», 64, 44–48.
  6. Babenko, L. P. (2018). Zastosuvannia JSON dlia obrobky tekstovykh danykh v informatsiino-poshukovykh systemakh. Naukovi zapysky Natsionalnoho universytetu «Lvivska politekhnika», 843, 34–39.
  7. Honcharuk, L. V. (2019). JSON: suchasnyi format obminu danymy. Visnyk Kyivskoho natsionalnoho universytetu imeni Tarasa Shevchenka. Seriia: Kompiuterni nauky, 14, 5–10.
  8. Elsayed, K. I., Elgamel, M. S. (2020). Web of Things Interoperability Using JSON-LD. 2020 30th International Conference on Computer Theory and Applications (ICCTA). doi: https://doi.org/10.1109/iccta52020.2020.9477674
  9. Sun, C., Zeng, X., Sun, C., Si, H., Li, Y. (2020). Research and Application of Data Exchange based on JSON. 2020 Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC), 349–355. doi: https://doi.org/10.1109/ipec49694.2020.9115155
  10. Xu, J., Deng, H. (2021). JSON-ASR: A lightweight data storage and exchange format for automatic systematic reviews of TCM. TMR Modern Herbal Medicine, 4 (2), 12. doi: https://doi.org/10.53388/mhm2021a0401001
  11. Afsari, K., Eastman, C. M., Castro-Lacouture, D. (2017). JavaScript Object Notation (JSON) data serialization for IFC schema in web-based BIM data exchange. Automation in Construction, 77, 24–51. doi: https://doi.org/10.1016/j.autcon.2017.01.011
  12. Garg, I. (2024). Study on JSON, its Uses and Applications in Engineering Organizations. doi: https://doi.org/10.13140/RG.2.2.19850.07367
Analysis of methods and algorithms for processing unstructured text data based on JSON technology

##submission.downloads##

Опубліковано

2024-06-21

Як цитувати

Кучеренко, Є. А., & Кулаковська, І. В. (2024). Аналіз методів та алгоритмів обробки неструктурованих текстових даних на основі технології JSON. Technology Audit and Production Reserves, 3(2(77), 10–18. https://doi.org/10.15587/2706-5448.2024.306435

Номер

Розділ

Інформаційні технології