Аналіз структури веб-ресурсів з використанням об’єктної моделі

Автор(и)

  • Станіслав Віталійович Диханов Дніпровський національний університет імені Олеся Гончара, Україна https://orcid.org/0000-0001-9073-0784
  • Наталія Анатоліївна Гук Дніпровський національний університет імені Олеся Гончара, Україна https://orcid.org/0000-0001-7937-1039

DOI:

https://doi.org/10.15587/1729-4061.2022.265961

Ключові слова:

веб-ресурс, DOM дерево, відстань редагування дерев, схожість за структурою та стилем

Анотація

Запропоновано методику аналізу структури веб-ресурсу із застосуванням об’єктної моделі, що будується з опису сторінки мовою HTML та із застосуванням таблиць стилів оформлення. Об’єктом дослідження є сторінка веб-ресурсу, модель якої зображено у вигляді DOM дерева. Данні про структурні елементи дерева доповнюються інформацією про стилі оформлення сторінок. Для визначення схожості сторінок пропонується застосовувати критерій, який враховує структурну та стильову подібність сторінок з відповідними коефіцієнтами. Для порівняння моделей сторінок між собою застосується метод вирівнювання дерев. В якості метрики застосовується відстань редагування, а в якості операцій редагування – операції перейменування, видалення та додавання вузла дерева. Для визначення схожості за стилями застосовується метрика Жаккара. Для кластерізації веб-сторінок застосується метод k-means с косинусної мірою відстані. Внутрикластерний аналіз здійснюється за допомогою модифікації алгоритму Zhang-Shasha. Запропонований підхід реалізовано у вигляді алгоритму та програмного забезпечення з використанням мови програмування Python та відповідних бібліотек. Обчислювальний експеримент виконано для аналізу структури окремих існуючих у мережі Інтернет веб-сайтів, а також для групування сторінок з різних веб-ресурсів. Проаналізовано структуру утворених кластерів, обчислено середньоквадратичну схожість елементів в середині кластерів. Для оцінки якості розробленого підходу для розглянутих задач побудовано експертне розбиття, обчислено значення метрик точності та повноти. Результати аналізу структури веб-ресурсу можна застосовувати для покращення будови компонентів веб-ресурсу, для зрозумілості навігації користувачів на сайті, для проведення реінжинірингу веб-ресурсу

Біографії авторів

Станіслав Віталійович Диханов, Дніпровський національний університет імені Олеся Гончара

Аспірант

Кафедра комп’ютерних технологій

Наталія Анатоліївна Гук, Дніпровський національний університет імені Олеся Гончара

Доктор фізико-математичних наук, професор, завідувачка кафедри

Кафедра комп’ютерних технологій

Посилання

  1. Jain, A., Gupta, B. B. (2017). Phishing Detection: Analysis of Visual Similarity Based Approaches. Security and Communication Networks. doi: https://doi.org/10.1155/2017/5421046
  2. Vdovin, I. V., Ovchinnikova, R. Y. (2018). Data extraction from the internet network with the use of structural-semantic clustering of web pages. Dynamics of Systems, Mechanisms and Machines (Dynamics), 6 (4), 106–113. doi: https://doi.org/10.25206/2310-9793-2018-6-4-106-113
  3. Feng, J., Qiao, Y., Ye, O., Zhang, Y. (2022). Detecting phishing webpages via homology analysis of webpage structure. PeerJ Computer Science, 8, e868. doi: https://doi.org/10.7717/peerj-cs.868
  4. Grigera, J., Gardey, J., Garrido, A., Rossi, G. (2021). A Scoring Map Algorithm for Automatically Detecting Structural Similarity of DOM Elements. Proceedings of the 17th International Conference on Web Information Systems and Technologies. doi: https://doi.org/10.5220/0010716300003058
  5. Wu, H., Yuan, N. (2018). An Improved TF-IDF algorithm based on word frequency distribution information and category distribution information. Proceedings of the 3rd International Conference on Intelligent Information Processing. doi: https://doi.org/10.1145/3232116.3232152
  6. Bozkir, A., Sezer, E. (2018). Layout-based computation of web page similarity ranks. International Journal of Human-Computer Studies, 110, 95–114. doi: https://doi.org/10.1016/j.ijhcs.2017.10.008
  7. Moreno, V., Génova, G., Alejandres, M., Fraga, A. (2020). Automatic Classification of Web Images as UML Static Diagrams Using Machine Learning Techniques. Applied Sciences, 10 (7), 2406. doi: https://doi.org/10.3390/app10072406
  8. Shin, K., Ishikawa, T., Liu, Y.-L., Shepard, D. L. (2021). Learning DOM Trees of Web Pages by Subpath Kernel and Detecting Fake e-Commerce Sites. Machine Learning and Knowledge Extraction, 3 (1), 95–122. doi: https://doi.org/10.3390/make3010006
  9. Gowda, T., Mattmann, C. A. (2016). Clustering Web Pages Based on Structure and Style Similarity (Application Paper). IEEE 17th International Conference on Information Reuse and Integration (IRI). doi: https://doi.org/10.1109/IRI.2016.30
  10. Zhang, K., Shasha, D. (1989). Simple fast algorithms for the editing distance between trees and related problems. SIAM Journal on Computing, 18 (6), 1245–1262. doi: https://doi.org/10.1137/0218082
Аналіз структури веб-ресурсів з використанням об’єктної моделі

##submission.downloads##

Опубліковано

2022-10-30

Як цитувати

Диханов, С. В., & Гук, Н. А. (2022). Аналіз структури веб-ресурсів з використанням об’єктної моделі. Eastern-European Journal of Enterprise Technologies, 5(2(119), 6–13. https://doi.org/10.15587/1729-4061.2022.265961