Латентно-семантичний метод здобуття інформації з інтернет ресурсів

Автор(и)

  • Александр Африканович Стенин Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056, Україна
  • Юрий Афанасиевич Тимошин Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056, Україна https://orcid.org/0000-0001-9332-3228
  • Екатерина Юрьевна Мелкумян Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056, Україна
  • В. В. Курбанов Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056, Україна

DOI:

https://doi.org/10.15587/1729-4061.2013.16387

Ключові слова:

інтернет ресурси, інформаційний пошук, інтелектуальні агенти, дескриптори, закони Зіпфа

Анотація

В статті пропонується латентно-семантичний метод здобуття інформації з інтернет ресурсів, який дозволяє обробляти інформацію на природній мові, а також алгоритм пошуку, що базується на ньому. Основною від’ємністю від існуючих методів є аналіз слів, які зустрічаються у тексті не тільки за частотою, але й враховуючи семантику за рахунок підбору відповідних дескрипторів, що підвищує якість знайденої інформації.

Біографії авторів

Александр Африканович Стенин, Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056

Доктор технічних наук, професор

Кафедра технічної кібернетики

Юрий Афанасиевич Тимошин, Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056

Кандидат технічних наук, доцент

Кафедра технічної кібернетики

Екатерина Юрьевна Мелкумян, Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056

Кандидат технічних наук

Кафедра технічної кібернетики

В. В. Курбанов, Національний технічний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056

Аспірант

Кафедра технічної кібернетики

Посилання

  1. Козлов, Д. Д. ИПС в Интернет: текущее состояние и пути развития [Текст] / Д. Д. Козлов. – М.:МГУ. – 2000. – 28 с.
  2. Ландэ, Д. В. Поиск знаний в Internet [Текст] / Д. В. Ландэ. – М.: Диалектика. – 2005. – 28 с.
  3. Мидоу, Ч. Ч. Анализ информационно-поисковых систем [Текст] / Ч. Ч. Мидоу. – М.:Мир. – 1970.
  4. Lawrence, S. Accessibility of Information on the Web [Текст] / S. Lawrence, C. Giles // Nature. – 1999. – vol. 400 – С. 107-109
  5. Hermans, B. Intelligent Software Agents on the Internet [Електронний ресурс] / B. Hermans. – 1996. – 89 с. – Режим доступу: www/ URL: http://www.hermans.org/agents
  6. Bergman, K. The Deep Web: Surfacing Hidden Value, BrightPlanet.com LLC [Електронний ресурс] / K. Bergman. – Режим доступу: www/ URL: http://www.completeplanet.com/Tutorials/DeepWeb/index.asp
  7. Inktomi Corp., Web Surpasses One Billion Documents, press release issued January 18, 2000 [Електронний ресурс]. – Режим доступу: www/ URL: http://www.inktomi.com/new/press/billion.html
  8. Методы и средства извлечения слабоструктурированных схем из документов в HTML и конвертирования HTML документов в их XMLпредставление [Електронний ресурс]. – Режим доступу: www/ URL: http://synthesis.ipi.ac.ru/syntesis/projects/XMLBIS/html2xml.html
  9. Некрестьянов, И. Обнаружение структурного подобия HTML-документов [Електронний ресурс]/ И. Некрестьянов, Е. Павлова. – СпбГУ, 2002. – C. 38-54. – Режим доступу: www/ URL: http://meta.math.spbu.ru
  10. Gerdt, V. P. Computer Algebra and Constrained Dynamics [Текст] / V. P. Gerdt // Problem of Modern Physics. – 2000. – JINR D2-99-263. – C. 164-171
  11. Kechedzhy, K. E. Rank distributions of words in additive many-step Markov chains and the Zipf Law [Текст] / K. E. Kechedzhy, O. V. Ustenko, V. A. Yampol’ski // Arxiv LANL. – 2004. – Phys.Rev.E. – 2005. – V 72. – pp. 1-6
  12. Wentain, Li. Random Texts Exibition Zipf’s Law – Like Word Frequency Distribution. [Текст] / Li. Wentain // Santa Fe institute. NM 87501. – 1992. – V. 38-№6. – C. 1842-1845
  13. Голуб, Дж. Матричные исчисления [Текст] / Дж. Голуб, И. Ван Лоун. М.: Мир. – 1999.
  14. Kozlov, D. (2000). Internet ISS: current status and development. Moskow, MGU, 28.
  15. Landje, D. (2005). Internet search of knowledge. M.: Dialektika, 28.
  16. Midou, Ch. (1970). The analysis of ISS. M.: Mir.
  17. Lawrence, S., Giles, C. (1999). Accessibility of Information on the Web. Nature vol. 400 pp., 107-109.
  18. Hermans, B. (1996). Intelligent Software Agents on the Internet. Available: http://www.hermans.org/agents
  19. Bergman, K. The Deep Web: Surfacing Hidden Value, BrightPlanet.com LLC. Available: http://www.completeplanet.com/Tutorials/DeepWeb/index.asp.
  20. Inktomi Corp. (2000). Web Surpasses One Billion Documents, press release issued January 18. Available: http://www.inktomi.com/new/press/billion.html.
  21. Metody i sredstva izvlechenija slabostrukturirovannyh shem iz
  22. dokumentov v HTML i konvertirovanija HTML dokumentov v ih XML predstavlenie. Available: http://synthesis.ipi.ac.ru/syntesis/projects/XMLBIS/html2xml.html.
  23. Nekrest'janov I., Pavlova E. (2002). Obnaruzhenie strukturnogo podobija HTML-dokumentov. SpbGU, 38-54. Available: http://meta.math.spbu.ru
  24. Gerdt, V. (2000). Computer Algebra and Constrained Dynamics. «Problem of Modern Physics», JINR D2-99-263, 164-171.
  25. Kechedzhy, K., Ustenko O., Yampol’ski V. (2004). Rank distributions of words in additive many-step Markov chains and the Zipf Law. Arxiv LANL. Phys.Rev.E., 1-6.
  26. Wentain, Li. (1992). Random Texts Exibition Zipf’s Law – Like Word Frequency Distribution. Santa Fe institute. NM 87501. V. 38-№6, 1842-1845.
  27. Golub, Dzh. Van Loun, I. (1999). Matrichnye ischislenija. M.: Mir.

##submission.downloads##

Опубліковано

2013-08-15

Як цитувати

Стенин, А. А., Тимошин, Ю. А., Мелкумян, Е. Ю., & Курбанов, В. В. (2013). Латентно-семантичний метод здобуття інформації з інтернет ресурсів. Eastern-European Journal of Enterprise Technologies, 4(9(64), 19–22. https://doi.org/10.15587/1729-4061.2013.16387

Номер

Розділ

Інформаційно-керуючі системи