Розробка та дослідження ефективності інформаційної системи парсингу сайтів із використанням фреймворку Selenide

Автор(и)

  • А.В. Сергієнко ДВНЗ «Приазовський державний технічний університет», м. Дніпро, Україна https://orcid.org/0000-0003-1328-2572
  • О.Ю. Балалаєва ДВНЗ «Приазовський державний технічний університет», м. Дніпро, Україна https://orcid.org/0000-0003-1461-4399
  • І.М. Гаркуша Національний технічний університет «Дніпровська політехніка», м. Дніпро, Україна https://orcid.org/0000-0003-1190-1501
  • Д.М. Платонов ДВНЗ «Приазовський державний технічний університет», м. Дніпро, Україна

DOI:

https://doi.org/10.31498/2225-6733.49.1.2024.321179

Ключові слова:

парсинг, парсер, сайт, вебдодаток, інформаційно-пошукова система, дані, Selenium, Selenide

Анотація

Стаття присвячена дослідженню методів автоматизації збору даних із вебсайтів за допомогою технологій парсингу. У роботі описано основні переваги парсингу порівняно з ручним збором даних, наведено класифікацію існуючих парсерів, їх можливості, обмеження та застосування в реальних проєктах. Проведено детальний аналіз популярних комерційних та безкоштовних парсерів, таких як Import.io, Webhose.io, Dexi.io, Scraperhub, ParseHub, Visual Scraper, Spinn3r, 80legs, Scraper, OutWit Hub, з метою визначення їх переваг та недоліків у різних сценаріях використання. Особливу увагу приділено порівнянню фреймворків Selenium та Selenide, що широко застосовуються для автоматизації взаємодії з веббраузерами. Зроблено висновок про доцільність використання фреймворку Selenide завдяки його спрощеному синтаксису, можливостям роботи з динамічним контентом та підтримці інтелектуального очікування. У статті представлено розробку власного парсера на базі Selenide, орієнтованого на потреби малих і середніх підприємств із обмеженим бюджетом. Система побудована на сучасному технологічному стеку, що включає Java 11, Python, PostgreSQL, Angular 12, Docker, Gradle, Kafka, Node.js. Детально описано архітектуру програми, взаємодію між модулями, а також реляційну модель бази даних для зберігання отриманих даних. Запропонований підхід дозволяє налаштовувати парсер для роботи з різними типами сайтів, забезпечує високу швидкість збору та обробки інформації, а також гнучкість у налаштуванні параметрів вибірки. Створений інструмент надає можливість використовувати технології контейнеризації для спрощення розгортання та підтримки додатка. Результати роботи можуть бути використані для реалізації ефективних інформаційно-пошукових систем та автоматизації рутинних процесів збору даних, що особливо актуально для компаній, які прагнуть оптимізувати свої бізнес-процеси та зменшити витрати

Біографії авторів

А.В. Сергієнко , ДВНЗ «Приазовський державний технічний університет», м. Дніпро

Кандидат технічних наук, доцент

О.Ю. Балалаєва , ДВНЗ «Приазовський державний технічний університет», м. Дніпро

Кандидат технічних наук, доцент

І.М. Гаркуша , Національний технічний університет «Дніпровська політехніка», м. Дніпро

Кандидат технічних наук, доцент

Д.М. Платонов , ДВНЗ «Приазовський державний технічний університет», м. Дніпро

Магістр

Посилання

Ratra R., Gulia P. Big Data tools and techniques: a roadmap for predictive analytics. International Journal of Engineering and Advanced Technology (IJEAT). 2009. Vol. 9. Iss. 2. Pp. 4986-4992. DOI: https://doi.org/10.35940/ijeat.B2360.129219.

Tomar R.S. A Study on Web Scraping. International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering. 2020. Vol. 8. Iss. 6. Pp. 1820-1824. DOI: https://doi.org/10.15662/IJAREEIE.2019.0806020.

Ateeq W. M. B., Al-Khalifa H. S. Intelligent framework for detecting predatory publishing venues. IEEE Access. 2023. Vol. 11. Pp. 20582-20618. DOI: https://doi.org/10.1109/ACCESS.2023.3250256.

EasySpider: EasySpider: A No-Code Visual System for Crawling the Web / Wang N., Feng W., Yin J., Ng S.-K. WWW '23 Companion : Companion Proceedings of the ACM Web Conference 2023, Austin, TX, USA, 30 April - 4 May 2023. Pp. 192-195. DOI: https://doi.org/10.1145/3543873.3587345.

A classification framework for data marketplaces / Stahl F., Schomm F., Vossen G., Vomfell L. Vietnam Journal of Computer Science. 2016. Vol. 3. Pp. 137-143. DOI: https://doi.org/10.1007/s40595-016-0064-2.

Kirichenko L., Radivilova T., Carlsson A. Detecting cyber threats through social network analysis: short survey. SocioEconomic Challenges. 2017. Vol. 1. Iss. 1. Pp. 20-34. DOI: https://doi.org/10.21272/sec.2017.1-03.

Exploring Web Scraping with Python / Sasi A., Deep A., Kumar K., Birla V. Machine Intelligence and Smart Systems : Proceedings of the I International Conference, Gwalior, India, 24-25 September 2020. Pp. 287-296. DOI: https://doi.org/10.1007/978-981-33-4893-6_26.

Selenide. Concise UI tests in Java. URL: https://selenide.org/documentation/selenide-vs-selenium.html (дата звернення: 28.08.2024).

##submission.downloads##

Опубліковано

2024-12-26

Як цитувати

Сергієнко , А., Балалаєва , О., Гаркуша , І., & Платонов , Д. (2024). Розробка та дослідження ефективності інформаційної системи парсингу сайтів із використанням фреймворку Selenide. Вісник Приазовського Державного Технічного Університету. Серія: Технічні науки, 1(49), 16–28. https://doi.org/10.31498/2225-6733.49.1.2024.321179

Номер

Розділ

122 Комп'ютерні науки та інформаційні технології