Розробка комп’ютерної системи для генерації семантичного шаблона групи документів методом латентно-семантичного аналізу

Автор(и)

  • Yuriy Taranenko Дніпропетровский университет імені Альфреда Нобеля вул. Січеславська набережна, 18, м. Дніпропетровськ, Україна, 49000, Україна https://orcid.org/0000-0003-4072-011X
  • Maryna Kabanova Дніпропетровский университет імені Альфреда Нобеля вул. Січеславська набережна, 18, м. Дніпропетровськ, Україна, 49000, Україна https://orcid.org/0000-0002-2364-8382

DOI:

https://doi.org/10.15587/1729-4061.2016.73551

Ключові слова:

метод латентне-семантичного аналізу, комп’ютерна система, семантична відстань, семантичний шаблон, програмний модуль, засоби мови програмування Python

Анотація

Засобами мови програмування Python розроблена комп'ютерна система (КС) для генерації семантичного шаблону групи документів методом латентне-семантичного аналізу (ЛСА). Система утримує вісім програмних модулів, кожний з яких виконує один етап ЛСА. Унікальними є модуль контролю частотної матриці слів─документів та модуль виміру семантичної відстані між документами шаблону. Адаптація КС до змісту та структури шаблону документів здійснюється зміною складу працюючих модулів. З використанням КС досліджено вплив на результати генерації шаблонів методом ЛСА таких факторів, як: нормалізація частотної матриці, виключення один раз вживаних слів, виключення документів, не пов’язаних зі спільними словами,обрання міри відліку семантичної відстані між документами.

Біографії авторів

Yuriy Taranenko, Дніпропетровский университет імені Альфреда Нобеля вул. Січеславська набережна, 18, м. Дніпропетровськ, Україна, 49000

Доктор технічних наук, професор

Кафедра прикладної лінгвістики та методики навчання іноземних мов

Maryna Kabanova, Дніпропетровский университет імені Альфреда Нобеля вул. Січеславська набережна, 18, м. Дніпропетровськ, Україна, 49000

Кандидат філологічних наук, доцент

Кафедра прикладної лінгвістики та методики навчання іноземних мов

Посилання

  1. Landauer, T. K., Dumais, S. T. (1997). A solution to Plato’s problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge. Psychological Review, 104 (2), 211–240. doi: 10.1037//0033-295x.104.2.211
  2. Froud, H., Lachkar, A., Ouatik, S. A. (2013). Arabic Text Summarization Based on Latent Semantic Analysis to Enhance Arabic Documents Clustering. International Journal of Data Mining & Knowledge Management Process, 3 (1), 79–95. doi: 10.5121/ijdkp.2013.3107
  3. Kesorn, K., Poslad, S. (2009). Semantic Restructuring of Natural Language Image Captions to Enhance Image Retrieval. Journal of Multimedia, 4 (5), 284–297. doi: 10.4304/jmm.4.5.284-297
  4. Amudaria, S., Sasirekha, S. (2011). Design of Content-Oriented Information Retrieval by Semantic Analysis. International Journal of Computer Science and Information Security, 9 (1), 92–97.
  5. Wang, Z., Zhang, H., Sarkar, A. (2015). A Python-based Interface for Wide Coverage Lexicalized Tree-adjoining Grammars. The Prague Bulletin of Mathematical Linguistics, 103 (1), 139–159. doi: 10.1515/pralin-2015-0008
  6. Latent semantic analysis. Available at: https://habrahabr.ru/post/110078/ (Last accessed: 30.04.2016).
  7. Sheetal, A., Sushma, S. (2010). Measuring Semantic Similarity between Words Using Web Documents. International Journal of Advanced Computer Science and Applications, 1 (4), 132–154. doi: 10.14569/ijacsa.2010.010414
  8. Latent semantic analysis and search on Python. Available at: https://habrahabr.ru/post/197238/ (Last accessed: 30.04.2016).
  9. Reena, K., Preeti, M., Chavan, V., Jadhav, K. (2013). Semantically Detecting Plagiarism for Research Papers. International Journal of Engineering Research and Applications, 3 (3), 77–80.
  10. Kolyada, A. C., Godunsky, V. D. (2014). Authenticity of authorship of scientific publications using latent semantic analysis. Eastern-European Journal of Enterprise Technologies, 3 (2 (69)), 36–40.

##submission.downloads##

Опубліковано

2016-08-30

Як цитувати

Taranenko, Y., & Kabanova, M. (2016). Розробка комп’ютерної системи для генерації семантичного шаблона групи документів методом латентно-семантичного аналізу. Eastern-European Journal of Enterprise Technologies, 4(2(82), 35–41. https://doi.org/10.15587/1729-4061.2016.73551