Аналіз методів та алгоритмів обробки неструктурованих текстових даних на основі технології JSON
DOI:
https://doi.org/10.15587/2706-5448.2024.306435Ключові слова:
валідація, інтелектуальна система, неструктуровані дані, JSON, CSV, краулінг, ETL, ELT, автоматизована системаАнотація
Об’єктом дослідження є процес автоматизації систем для структуризації даних з декількох джерел. Предметом дослідження є методи та алгоритми реалізації цілісної системи для виконання автоматизованої та паралельної обробки, валідації та структуризації даних. Одним із найбільш проблемних місць є злиття баз даних із різними структурами та декількох спільними полями в узагальнену структуру. Дослідження було направлено на розробку системи для підвищення ефективності автоматизації обробки великих даних.
В результаті виконання роботи було досліджено методи оптимізації, проаналізовано вплив їх внутрішніх параметрів на роботу алгоритмів, визначені основні їх переваги та недоліки, а також розроблено програмне забезпечення, в якому реалізовані відповідні методи. Отримано алгоритм структуризації даних перед їх обробкою. Структуризація даних досягається шляхом виконання операції «маппінгу». Маппінг може відбуватися за індексами вже очищених даних або з використанням визначеного словника з заданим набором ключів, що дозволяє не піклуватися про послідовність зберігання значень та їх можливий зсув.
Практична значимість розробленої системи полягає у вдосконаленні методів збору та обробки інформації з метою її подальшої валідації, очистки та накопичення за наступними категоріями: географічні адреси та гео-координати, валідація та автоматизоване доповнення номеру мобільного телефону до міжнародного формату, обробка автомобільних номерів (у сучасному та застарілому форматі), VIN-коду двигуна та марки автомобіля, валідація url-адрес соціальних мереж, паспортні дані та обробка персональних даних. У порівнянні з аналогічними методами для обробки даних великого об’єму була використана можливість розбиття вхідного файлу або потоку на окремі частини, очищенні дані з яких – об’єднуються наприкінці процесу роботи системи. Завдяки цьому забезпечується можливість обробки даних, розмір яких перевищує доступний об’єм оперативної пам’яті пристрою, покращено методику роботи з слабоструктурованими текстовими файлами у форматі CSV.
Посилання
- Chaturvedi, S., Kumar, P. (2018). Extraction and Conversion of Web JSON Data into Pandas Data Frame by storing it into Text File using Python. International Journal for Research in Applied Science & Engineering Technology, 6 (XI).
- JSON Community. Available at: https://json.com
- Wikimedia Foundation. Wikipedia. Available at: https://en.wikipedia.org/wiki/Wikimedia_Foundation
- Frozza, A. A., Mello, R. dos S., Costa, F. de S. da. (2018). An Approach for Schema Extraction of JSON and Extended JSON Document Collections. 2018 IEEE International Conference on Information Reuse and Integration (IRI). doi: https://doi.org/10.1109/iri.2018.00060
- Avramenko, O. M. (2017). Intelektualna systema obrobky nestrukturovanykh tekstovykh danykh na osnovi tekhnolohii JSON. Visnyk Natsionalnoho tekhnichnoho universytetu «KPI», 64, 44–48.
- Babenko, L. P. (2018). Zastosuvannia JSON dlia obrobky tekstovykh danykh v informatsiino-poshukovykh systemakh. Naukovi zapysky Natsionalnoho universytetu «Lvivska politekhnika», 843, 34–39.
- Honcharuk, L. V. (2019). JSON: suchasnyi format obminu danymy. Visnyk Kyivskoho natsionalnoho universytetu imeni Tarasa Shevchenka. Seriia: Kompiuterni nauky, 14, 5–10.
- Elsayed, K. I., Elgamel, M. S. (2020). Web of Things Interoperability Using JSON-LD. 2020 30th International Conference on Computer Theory and Applications (ICCTA). doi: https://doi.org/10.1109/iccta52020.2020.9477674
- Sun, C., Zeng, X., Sun, C., Si, H., Li, Y. (2020). Research and Application of Data Exchange based on JSON. 2020 Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC), 349–355. doi: https://doi.org/10.1109/ipec49694.2020.9115155
- Xu, J., Deng, H. (2021). JSON-ASR: A lightweight data storage and exchange format for automatic systematic reviews of TCM. TMR Modern Herbal Medicine, 4 (2), 12. doi: https://doi.org/10.53388/mhm2021a0401001
- Afsari, K., Eastman, C. M., Castro-Lacouture, D. (2017). JavaScript Object Notation (JSON) data serialization for IFC schema in web-based BIM data exchange. Automation in Construction, 77, 24–51. doi: https://doi.org/10.1016/j.autcon.2017.01.011
- Garg, I. (2024). Study on JSON, its Uses and Applications in Engineering Organizations. doi: https://doi.org/10.13140/RG.2.2.19850.07367
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2024 Yehor Kucherenko, Inessa Kulakovska
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.