Indexing text documents for problem advanced information search by keyword

Authors

  • Наталья Владимировна Борисова National Technical University “Kharkov Polytechnic Institute”. ul. Frunze, 21, Kharkov, Ukraine, 61002, Ukraine
  • Зоя Анатольевна Кочуева National Technical University “Kharkov Polytechnic Institute”. Frunze street, 21, Kharkov, Ukraine, 61002, Ukraine

DOI:

https://doi.org/10.15587/1729-4061.2014.20332

Keywords:

full-text search, intelligent systems, indexing, morphological analysis, automation of library activities

Abstract

The issue of indexing full-text documents automatically for solving the problem of intellectualizing data searches is considered in the paper. The main objective of the study lies in developing a full-text keyword search model, taking into account morphological features of Russian, as well as in developing algorithms of indexing and a fulltext search. For a practical implementation of the system in the form of a web application, the PHP programming language was chosen, as a relational full-text index database, i.e. DBMS MySQL. For a morphological analysis a “demon’’ normalizer, serving as a tcp-server and including the Dialing morph-analyzer, was developed. The given system retains a number of features: it can be used by several users simultaneously, operate great indices, maintain the optimum ratio of selectivity and sensitivity at searching.

The research results can be used by analytical linguists, specialists in the field of automation of library activities, as well as other specialists and experts in creating automated library information systems, automatic abstracting systems, etc. Thus, using the abovedescribed software and applications has allowed developing an effective system of indexing full-text documents and full-text keyword searching

Author Biographies

Наталья Владимировна Борисова, National Technical University “Kharkov Polytechnic Institute”. ul. Frunze, 21, Kharkov, Ukraine, 61002

Teacher

Department of Intellectual Computer Systems

Зоя Анатольевна Кочуева, National Technical University “Kharkov Polytechnic Institute”. Frunze street, 21, Kharkov, Ukraine, 61002

Senior lecturer

Department of Intellectual Computer Systems

References

  1. Ландэ, Д. В. Основы интеграции информационных потоков [Текст]: монография / Д. В. Ландэ. – К.: Инжиниринг, 2006. – 240 с.
  2. Ландэ, Д. В. Основы концепции глубинного анализа текстов (Text Mining) [Электронный ресурс] / Д. В. Ландэ. – Режим доступа : http://download.yandex.ru/class/lande/lande-11-tmining.ppt.
  3. Бондаренко, М. Ф. О прикладных задачах машинной лингвистики, решаемых подсчетом частот слов и выражений [Текст] / М. Ф. Бондаренко, В. И. Рублинецкий, В. А. Чикина // Проблемы бионики. – Х. : ХИРЭ. – 1999. – Вып. 50. – С. 5-15.
  4. Алисейко, З. А. Автоматизированное индексирование полнотекстовых документов ключевыми словами [Текст] / З. А. Алисейко, О. В. Канищева // Вестник Херсонского национального технического университета. – Херсон : ХНТУ. – 2007. – № 4(27). – С. 269-272.
  5. Алисейко, З. А. Исследование проблем ранжирования и релевантности полнотекстовых документов в информационном поиске [Текст] / З. А. Алисейко, Н. В. Шаронова // Вестник Херсонского национального технического университета. – Херсон : ХНТУ. – 2006. – № 1(24). – С. 232-236.
  6. Хайрова, Н. Ф. Автоматизированные информационные системы: задачи обработки информации [Текст] / Н. Ф. Хайрова, Н. В. Шаронова. – Х.: ХГУ «НУА», 2002. – 120 с.
  7. Кочуева, З. А. Моделирование процедур систематизации и классификации информационных объектов методом компараторной идентификации [Текст] / Н. В. Борисова, З. А. Кочуева, Н. В. Шаронова, Н.Ф. Хайрова // Вестник Херсонского национального технического университета. – Херсон : ХНТУ. – 2012. – № 1(44). – С. 91-95.
  8. Автоматизированная обработка текста [Электронный ресурс]. – Режим доступа : http://www.aot.ru/.
  9. Зализняк, А. А. Грамматический словарь русского языка: Словоизменение [Текст] / А. А. Зализняк. – М.: Рус. яз., 1980. – 880 с.
  10. Бондаренко, М. Ф. Автоматическая обработка информации на естественном языке: Учебное пособие [Текст] / М. Ф. Бондаренко, А. Ф. Осыка. – К.: УМК ВО, 1991. – 144 с.
  11. Маннинг, К. Введение в информационный поиск [Текст] / К. Маннинг, П. Рагхаван, Х. Шютце. – М.: Вильямс, 2011. – 528 с.
  12. Lande, D. V. (2006). Fundamentals of integration of information flows. Kyiv, 240.
  13. Lande, D. V. Basis of the concept of deep analysis of texts. Available at: http://download.yandex.ru/class/lande/lande-11-tmining.ppt.
  14. Bondarenko, M. F. (1999). About Applied Linguistics machine problems that can be solved by counting the frequency of words and expressions. Problems of bionics, 50, 5-15.
  15. Aliseyko, Z. A. (2007). Automated indexing full-text documents keyword. Bulletin of Kherson National Technical University, 4 (27), 269-272.
  16. Aliseyko, Z. A. (2006). Study of the problems of ranking and relevance of full-text documents in information retrieval, Bulletin of Kherson National Technical University, № 1 (24), 232-236.
  17. Khayrova, N. F., Sharonova, N. V. (2002). Automated information systems. Information processing tasks. Kharkov, 120.
  18. Kochueva, Z. A., Borisova, N. V., Sharonova, N. V., Khayrova, N. F. (2012). Modeling procedures systematization and classification of data objects by identifying comparator. Bulletin of Kherson National Technical University, 1 (44), 91-95.
  19. Automated processing of text. Available at: http://www.aot.ru/.
  20. Zaliznyak, A. A. (1980). Grammatical Dictionary of the Russian language : inflection. Moscow, 880.
  21. Bondarenko, M. F., Osyka, A. F. (2001). Automatic processing of natural language : Textbook. Kyiv, 144.
  22. Manning, C., Raghavan, P., Schütze, H. (2011) Introduction to Information Retrieval. Moscow, 528.

Published

2014-02-17

How to Cite

Борисова, Н. В., & Кочуева, З. А. (2014). Indexing text documents for problem advanced information search by keyword. Eastern-European Journal of Enterprise Technologies, 1(2(67), 4–8. https://doi.org/10.15587/1729-4061.2014.20332

Most read articles by the same author(s)