Розробка та дослідження ефективності інформаційної системи парсингу сайтів із використанням фреймворку Selenide
DOI:
https://doi.org/10.31498/2225-6733.49.1.2024.321179Ключові слова:
парсинг, парсер, сайт, вебдодаток, інформаційно-пошукова система, дані, Selenium, SelenideАнотація
Стаття присвячена дослідженню методів автоматизації збору даних із вебсайтів за допомогою технологій парсингу. У роботі описано основні переваги парсингу порівняно з ручним збором даних, наведено класифікацію існуючих парсерів, їх можливості, обмеження та застосування в реальних проєктах. Проведено детальний аналіз популярних комерційних та безкоштовних парсерів, таких як Import.io, Webhose.io, Dexi.io, Scraperhub, ParseHub, Visual Scraper, Spinn3r, 80legs, Scraper, OutWit Hub, з метою визначення їх переваг та недоліків у різних сценаріях використання. Особливу увагу приділено порівнянню фреймворків Selenium та Selenide, що широко застосовуються для автоматизації взаємодії з веббраузерами. Зроблено висновок про доцільність використання фреймворку Selenide завдяки його спрощеному синтаксису, можливостям роботи з динамічним контентом та підтримці інтелектуального очікування. У статті представлено розробку власного парсера на базі Selenide, орієнтованого на потреби малих і середніх підприємств із обмеженим бюджетом. Система побудована на сучасному технологічному стеку, що включає Java 11, Python, PostgreSQL, Angular 12, Docker, Gradle, Kafka, Node.js. Детально описано архітектуру програми, взаємодію між модулями, а також реляційну модель бази даних для зберігання отриманих даних. Запропонований підхід дозволяє налаштовувати парсер для роботи з різними типами сайтів, забезпечує високу швидкість збору та обробки інформації, а також гнучкість у налаштуванні параметрів вибірки. Створений інструмент надає можливість використовувати технології контейнеризації для спрощення розгортання та підтримки додатка. Результати роботи можуть бути використані для реалізації ефективних інформаційно-пошукових систем та автоматизації рутинних процесів збору даних, що особливо актуально для компаній, які прагнуть оптимізувати свої бізнес-процеси та зменшити витрати
Посилання
Ratra R., Gulia P. Big Data tools and techniques: a roadmap for predictive analytics. International Journal of Engineering and Advanced Technology (IJEAT). 2009. Vol. 9. Iss. 2. Pp. 4986-4992. DOI: https://doi.org/10.35940/ijeat.B2360.129219.
Tomar R.S. A Study on Web Scraping. International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering. 2020. Vol. 8. Iss. 6. Pp. 1820-1824. DOI: https://doi.org/10.15662/IJAREEIE.2019.0806020.
Ateeq W. M. B., Al-Khalifa H. S. Intelligent framework for detecting predatory publishing venues. IEEE Access. 2023. Vol. 11. Pp. 20582-20618. DOI: https://doi.org/10.1109/ACCESS.2023.3250256.
EasySpider: EasySpider: A No-Code Visual System for Crawling the Web / Wang N., Feng W., Yin J., Ng S.-K. WWW '23 Companion : Companion Proceedings of the ACM Web Conference 2023, Austin, TX, USA, 30 April - 4 May 2023. Pp. 192-195. DOI: https://doi.org/10.1145/3543873.3587345.
A classification framework for data marketplaces / Stahl F., Schomm F., Vossen G., Vomfell L. Vietnam Journal of Computer Science. 2016. Vol. 3. Pp. 137-143. DOI: https://doi.org/10.1007/s40595-016-0064-2.
Kirichenko L., Radivilova T., Carlsson A. Detecting cyber threats through social network analysis: short survey. SocioEconomic Challenges. 2017. Vol. 1. Iss. 1. Pp. 20-34. DOI: https://doi.org/10.21272/sec.2017.1-03.
Exploring Web Scraping with Python / Sasi A., Deep A., Kumar K., Birla V. Machine Intelligence and Smart Systems : Proceedings of the I International Conference, Gwalior, India, 24-25 September 2020. Pp. 287-296. DOI: https://doi.org/10.1007/978-981-33-4893-6_26.
Selenide. Concise UI tests in Java. URL: https://selenide.org/documentation/selenide-vs-selenium.html (дата звернення: 28.08.2024).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Журнал "Вісник Приазовського державного технічного університету. Серія: Технічні науки" видається під ліцензією СС-BY (Ліцензія «Із зазначенням авторства»).
Дана ліцензія дозволяє поширювати, редагувати, поправляти і брати твір за основу для похідних навіть на комерційній основі із зазначенням авторства. Це найзручніша з усіх пропонованих ліцензій. Рекомендується для максимального поширення і використання неліцензійних матеріалів.
Автори, які публікуються в цьому журналі, погоджуються з наступними умовами:
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, яка дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи в цьому журналі.
2. Автори мають право укладати самостійні додаткові угоди, які стосуються неексклюзивного поширення роботи в тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи в цьому журналі.







