Розробка комп’ютерної системи для генерації семантичного шаблона групи документів методом латентно-семантичного аналізу
DOI:
https://doi.org/10.15587/1729-4061.2016.73551Ключові слова:
метод латентне-семантичного аналізу, комп’ютерна система, семантична відстань, семантичний шаблон, програмний модуль, засоби мови програмування PythonАнотація
Засобами мови програмування Python розроблена комп'ютерна система (КС) для генерації семантичного шаблону групи документів методом латентне-семантичного аналізу (ЛСА). Система утримує вісім програмних модулів, кожний з яких виконує один етап ЛСА. Унікальними є модуль контролю частотної матриці слів─документів та модуль виміру семантичної відстані між документами шаблону. Адаптація КС до змісту та структури шаблону документів здійснюється зміною складу працюючих модулів. З використанням КС досліджено вплив на результати генерації шаблонів методом ЛСА таких факторів, як: нормалізація частотної матриці, виключення один раз вживаних слів, виключення документів, не пов’язаних зі спільними словами,обрання міри відліку семантичної відстані між документами.
Посилання
- Landauer, T. K., Dumais, S. T. (1997). A solution to Plato’s problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge. Psychological Review, 104 (2), 211–240. doi: 10.1037//0033-295x.104.2.211
- Froud, H., Lachkar, A., Ouatik, S. A. (2013). Arabic Text Summarization Based on Latent Semantic Analysis to Enhance Arabic Documents Clustering. International Journal of Data Mining & Knowledge Management Process, 3 (1), 79–95. doi: 10.5121/ijdkp.2013.3107
- Kesorn, K., Poslad, S. (2009). Semantic Restructuring of Natural Language Image Captions to Enhance Image Retrieval. Journal of Multimedia, 4 (5), 284–297. doi: 10.4304/jmm.4.5.284-297
- Amudaria, S., Sasirekha, S. (2011). Design of Content-Oriented Information Retrieval by Semantic Analysis. International Journal of Computer Science and Information Security, 9 (1), 92–97.
- Wang, Z., Zhang, H., Sarkar, A. (2015). A Python-based Interface for Wide Coverage Lexicalized Tree-adjoining Grammars. The Prague Bulletin of Mathematical Linguistics, 103 (1), 139–159. doi: 10.1515/pralin-2015-0008
- Latent semantic analysis. Available at: https://habrahabr.ru/post/110078/ (Last accessed: 30.04.2016).
- Sheetal, A., Sushma, S. (2010). Measuring Semantic Similarity between Words Using Web Documents. International Journal of Advanced Computer Science and Applications, 1 (4), 132–154. doi: 10.14569/ijacsa.2010.010414
- Latent semantic analysis and search on Python. Available at: https://habrahabr.ru/post/197238/ (Last accessed: 30.04.2016).
- Reena, K., Preeti, M., Chavan, V., Jadhav, K. (2013). Semantically Detecting Plagiarism for Research Papers. International Journal of Engineering Research and Applications, 3 (3), 77–80.
- Kolyada, A. C., Godunsky, V. D. (2014). Authenticity of authorship of scientific publications using latent semantic analysis. Eastern-European Journal of Enterprise Technologies, 3 (2 (69)), 36–40.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2016 Yuriy Taranenko, Maryna Kabanova
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.