Извлечение информации из слабоструктурированных веб страниц

Андрей Сергеевич Коляда; Виктор Дмитриевич Гогунский

doi:10.15587/1729-4061.2014.19496

Вилучення інформації із слабостуктурованих веб сторінок

Автор(и)

Андрей Сергеевич Коляда Одеський національний політехнічний університет пр. Шевченко 1, г. Одеса, Україна, 65044, Україна https://orcid.org/0000-0003-3934-8058
Виктор Дмитриевич Гогунский Одеський національний політехнічний університет пр. Шевченко 1, г. Одеса, Україна, 65044, Україна https://orcid.org/0000-0002-9115-2346

DOI:

https://doi.org/10.15587/1729-4061.2014.19496

Ключові слова:

веб сторінка, інтернет, інформація, слабо структурований, вилучення

Анотація

Розглядається проблема обробки даних, представлених у публічному доступі глобальної мережі інтернет. Визначено завдання, рішення яких дозволяє вирішити проблему. Представлений спосіб вилучення інформації із слабоструктурованих веб сторінок на прикладі наукометричних баз даних. Розроблено програмне забезпечення для автоматизації процесу вилучення інформації із наукометричних баз даних і збереження їх з можливістю подальшої обробки.

Біографії авторів

Андрей Сергеевич Коляда, Одеський національний політехнічний університет пр. Шевченко 1, г. Одеса, Україна, 65044

Аспірант

Кафедра управління системами безпеки життєдіяльності

Виктор Дмитриевич Гогунский, Одеський національний політехнічний університет пр. Шевченко 1, г. Одеса, Україна, 65044

Доктор технічних наук, професор

Кафедра управління системами безпеки життєдіяльності

Посилання

Коляда, А. С. Автоматизация извлечения информации из наукометрических баз данных [Текст] / А. С. Коляда, В. Д. Гогунский // Управління розвитком складних систем. 2013. – № 16.
Buneman, Peter Semistructured data, Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems [Text] / Peter Buneman. – Tucson, Arizona, United States. – May 11 15, 1997. – P.117 121.
Бурков, В. Н. Параметры цитируемости научных публикаций в наукометрических базах данных [Текст] / В. Н. Бурков, А. А. Белощицкий, В. Д. Гогунский // Управління розвитком складних систем. – 2013. – № 15. – С. 134 – 139.
Arens, Yigal. Retrieving and integrating data from multiple information sources [Text] / Yigal Arens, Chin Y. Chee, Chun-Nan Hsu, Craig A. Knoblock // International Journal of Intelligent and Cooperative Information Systems. – 1993. – Issue 02
Yung-Jen Hsu, Jane. Template-based information mining from HTML documents [Text] / Jane Yung-Jen Hsu, Wen-tau Yih // Proceedings of the fourteenth national conference on artificial intelligence and ninth conference on Innovative applications of artificial intelligence. – 1997. – P. 256 – 262.
Smith, Dan. Information extraction for semi-structured documents [Text] / Dan Smith, Mauricio Lopez // In Proceedings of the Workshop on Management of Semistructured Data. – 1997.
Li, Zhao. Web data extraction based on structural similarity [Text] / Zhao Li, Wee Keong Ng, Aixin Sun // Journal Knowledge and Information Systems archive. – November 2005. – Vol. 8, Issue 4. – P. 438 – 461.
Коляда, А. С. Разработка проекта информационно-аналитической системы извлечения и обработки информации из наукометрических баз данных [Текст] : матеріали IX Міжнар. наук.-практ. конф / А. С. Коляда, А. А. Негри, Е. В. Колесникова // Управління проектами: стан та перспективи. — Миколаїв : НУК, 2013. — 348 с.
Палагин, А. Формализация проблемы извлечения знаний из естественно языковых текстов [Текст] / А. Палагин, С. Кривый, Н. Петренко, Д. Бибиков. — Sofia : Information technologies & knowledge, 2012. — 100 с.
Baumgartner, Robert The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web [Text] / Robert Baumgartner, Nicola Henze, Marcus Herzog // Lecture Notes in Computer Science 2005. – Vol. 3532. – P 515–530.
Kolyada, A., Gogunsky, V. (2013). Automating the extraction of information from scientometric databases. Management of complex systems, 16.
Buneman, P. (1997). Semistructured data. Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems, 117 – 121.
Burkov, V., Beloschitsky, A., Gogunsky, V. (2013). Options citation of scientific publications in scientometric databases. Management of complex systems, 15, 134 – 139.
Yigal, A., Chin, Y. C., Chun-Nan, H., Craig, A. K. (1993). Retrieving and integrating data from multiple information sources. International Journal of Intelligent and Cooperative Information Systems, Vol. 2, Issue 2.
Jane, Yung-Jen H., Wen-tau, Y. (1997). Template-based information mining from HTML documents. Proceedings of the fourteenth national conference on artificial intelligence and ninth conference on Innovative applications of artificial intelligence, 256 – 262.
Dan, S., Mauricio, L. (1997). Information extraction for semi-structured documents. In Proceedings of the Workshop on Management of Semistructured Data.
Zhao, L., Wee, K. N., Aixin, S. (2005). Web data extraction based on structural similarity. Journal Knowledge and Information Systems archive, Vol. 8, Issue 4, 438 – 461.
Kolyada, A., Negri, A., Kolesnikova, E. (2013). Development of the information and analytical system for extraction and processing of scientometric databases. Project management: state and prospects. International scientific conference, 9, 348.
Palagin, A., Kriviy, S., Petrenko, N., Bibikov, D. (2012). Formalization of the problem of knowledge extraction from natural language texts. Information technologies & knowledge, 100.
Baumgartner, R., Henze, N., Herzog, M. (2005). The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web. Lecture Notes in Computer Science, Vol. 3532, 515 – 530.

##submission.downloads##

PDF (Русский)

Опубліковано

2014-02-05

Як цитувати

Коляда, А. С., & Гогунский, В. Д. (2014). Вилучення інформації із слабостуктурованих веб сторінок. Eastern-European Journal of Enterprise Technologies, 1(9(67), 51–54. https://doi.org/10.15587/1729-4061.2014.19496

Завантажити посилання

Номер

Том 1 № 9(67) (2014): Інформаційно-керуючі системи

Розділ

Інформаційно-керуючі системи

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.

Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.