Розроблення підходу для аналізу та автоматичної перебудови структури вебсайтів
DOI:
https://doi.org/10.15587/1729-4061.2026.357377Ключові слова:
DOM-модель, кластеризація вебграфа, подібність сторінок, оптимізація структури, перелінковка, косинусна відстаньАнотація
Об’єктом дослідження є вебсайти типу інтернет-магазинів, що розглядаються як сукупність взаємопов’язаних вебсторінок. Проблема, що вирішується у дослідженні, полягає у високій обчислювальній складності ручного аналізу топології сучасних вебсайтів, а також у відсутності формалізованих механізмів, які б дозволяли інтегрувати семантичні особливості вебсторінок у процес автоматизованої перебудови гіперпосилань.
У межах дослідження здійснюється краулінг вебсайту з метою отриманням повних HTML-документів, з яких виокремлюються структурні ознаки сторінок (кількість заголовків, глибина вкладення, наявність <article>, кількість вхідних посилань тощо). Отримані вектори дозволяють побудувати матриці косинусної подібності для оцінки взаємної близькості сторінок. Запропоновано підхід до перебудови посилальної структури сайту з урахуванням цієї подібності та проведено порівняння початкового та трансформованого вебсайту за допомогою метричних характеристик модулярності, кластеризації, діаметру, розподілу подібності. Отримані результати демонструють, що врахування DOM-структури дозволяє утворити логічний, обґрунтований розподіл сторінок між кластерами. А подальша автоматична процедура налаштування гіперпосилань дозволяє поліпшити структурну цілісність через встановлення ефективних взаємозв’язків між тематично близькими сторінками. Практична значущість роботи полягає у можливості використання запропонованого підходу для автоматизованої оптимізації внутрішніх посилань статичних вебсайтів. Внаслідок цього, покращується архітектура вебресурсу, прозорою стає навігація сайтом та поліпшується індексація сайту пошуковими системами
Посилання
- Huk, N. A., Dykhanov, S. V., Matiushchenko, O. D. (2020). Algorithm for building a website model. Bulletin of V.N. Karazin Kharkiv National University, Series «Mathematical Modeling. Information Technology. Automated Control Systems», 47, 25–34. https://doi.org/10.26565/2304-6201-2020-47-03
- Dolotov, I. O., Guk, N. A. (2023). Clustering of a weighted webgraf with the usage of modularity. 2023: Problems of applied mathematics and mathematical modeling, 23, 25–32. https://doi.org/10.15421/322305
- Ma, W., Chen, X., Shang, W. (2012). Advanced Deep Web Crawler Based on Dom. 2012 Fifth International Joint Conference on Computational Sciences and Optimization, 605–609. https://doi.org/10.1109/cso.2012.138
- Dykhanov, S., Guk, N. (2022). Analysis of the structure of web resources using the object model. Eastern-European Journal of Enterprise Technologies, 5 (2 (119)), 6–13. https://doi.org/10.15587/1729-4061.2022.265961
- Kao, H.-Y., Ho, J.-M., Chen, M.-S. (2005) WISDOM: Web Intrapage Informative Structure Mining based on Document Object Model. IEEE Transactions on Knowledge and Data Engineering, 17 (5), 614–627. https://doi.org/10.1109/tkde.2005.84
- Ahmad Sabri, I. A., Man, M. (2018). Improving Performance of DOM in Semi-structured Data Extraction using WEIDJ Model. Indonesian Journal of Electrical Engineering and Computer Science, 9 (3), 752. https://doi.org/10.11591/ijeecs.v9.i3.pp752-763
- Huynh, H., Le, T., Nguyen, V., Nguyen, T. (2024). A DOM-structural Cohesion Analysis Approach for Segmentation of Modern Web Pages. https://doi.org/10.21203/rs.3.rs-4392630/v1
- Shin, K., Niiyama, T. (2018). The Mapping Distance – a Generalization of the Edit Distance – and its Application to Trees. Proceedings of the 10th International Conference on Agents and Artificial Intelligence, 266–275. https://doi.org/10.5220/0006721902660275
- Jalal, A. A., Jasim, A. A., Mahawish, A. A. (2022). A web content mining application for detecting relevant pages using Jaccard similarity. International Journal of Electrical and Computer Engineering (IJECE), 12 (6), 6461. https://doi.org/10.11591/ijece.v12i6.pp6461-6471
- Kumar, B. T. H., Vibha, L., Venugopal, K. R. (2016). Web page access prediction using hierarchical clustering based on modified levenshtein distance and higher order Markov model. 2016 IEEE Region 10 Symposium (TENSYMP), 1–6. https://doi.org/10.1109/tenconspring.2016.7519368
- Roul, R. K., Devanand, O. R., Sahay, S. K. (2014). Web Document Clustering and Ranking using Tf-Idf based Apriori Approach. IJCA Proceedings on ICACEA, 2, 34. https://doi.org/10.48550/arXiv.1406.5617
- Meleshko, Ye. (2019). Graph clustering methods in social networks for building recommendation systems. Control, Navigation and Communication Systems, 2 (54), 129–134. https://doi.org/10.26906/SUNZ.2019.2.129
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Ivan Dolotov, Natalia Guk

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.





