Порівняння алгоритмів оцінки відстані між словами для пошуку схожих речень

Автор(и)

  • Т.Д. Гончаренко ДВНЗ «Приазовський державний технічний університет», м. Дніпро, Україна
  • О.І. Проніна ДВНЗ «Приазовський державний технічний університет», м. Дніпро, Україна https://orcid.org/0000-0001-7085-8027

DOI:

https://doi.org/10.31498/2225-6733.47.2023.299974

Ключові слова:

текстовий аналіз, система пошуку, схожі речення, відстань між словами, порівняння текстових фрагментів, косинусна схожість, відстань Левенштейна, дипломний проект

Анотація

У статті розглядається розробка системи пошуку схожих пропозицій на основі оцінки відстані між словами. Алгоритми неточного порівняння дають змогу пошуковим системам враховувати контекст запиту, зважаючи на можливі помилки або варіації написання слів. Це особливо важливо в умовах, коли користувачі можуть використовувати різні форми вираження однієї і тієї ж ідеї. Такі алгоритми стають ключовим елементом у створенні інтелектуальних пошукових систем, здатних розуміти суть запиту та надавати релевантні результати, навіть якщо введення містить помилки. Розроблене програмне забезпечення може бути застосовано в інформаційному пошуку, обробці природної мови, виявленні плагіату, геноміці та багато іншого. Розглянуті в статті методи й алгоритми можуть знаходити широке застосування у сферах, де необхідний високий рівень точності в інтерпретації та зіставленні текстових даних. В інформаційному пошуку вони допомагають поліпшити якість результатів, пропонуючи користувачеві більш релевантні варіанти відповідей на його запити, навіть якщо вони містять друкарські помилки або граматичні помилки. В обробці природної мови алгоритми можуть використовуватися для аналізу і розуміння людської мови, що є ключовим аспектом у створенні чат-ботів, систем машинного перекладу та інтелектуальних асистентів. При виявленні плагіату ці алгоритми здатні точно визначати схожість текстів, що важливо в академічних і дослідницьких колах. У геноміці ці методи можуть застосовуватися для зіставлення генетичних послідовностей, що має важливе значення в дослідженнях з біоінформатики. Таким чином, розроблене програмне забезпечення пропонує багатогранне застосування в різних галузях науки і техніки, де потрібен глибокий аналіз і розуміння текстових даних

Біографії авторів

Т.Д. Гончаренко , ДВНЗ «Приазовський державний технічний університет», м. Дніпро

Магістрант

О.І. Проніна , ДВНЗ «Приазовський державний технічний університет», м. Дніпро

Кандидат технічних наук, доцент

Посилання

Cohen W.W., Ravikumar P. A comparison of string distance metrics for name-matching tasks. Proceedings of the 2003 International Conference on Information Integration on the Web, Acapulco, Mexico, 9-10 August 2003. Pp. 73-78.

Levenshtein V.I. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady. 1966. Vol 10. № 8. Pp. 707-710.

Navarro G. A guided tour to approximate string matching. ACM Computing Surveys. 2001. Vol. 33. Iss. 1. Pp. 31-88. DOI: https://doi.org/10.1145/375360.375365.

Ukkonen E. Algorithms for approximate string matching. Information and control. 1985. Vol. 64. Iss. 1-3. Pp. 100-118. DOI: https://doi.org/10.1016/S0019-9958(85)80046-2.

Jaro M.A. Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida. Journal of the American Statistical Association. 1989. Vol. 84. No. 406. Pp. 414-420. DOI: https://doi.org/10.2307/2289924.

Landau G.M., Vishkin U. Fast string matching with k differences. Journal of Computer and Sys-tem Sciences. 1988. Vol. 37. Iss. 1. Pp. 63-78. DOI: https://doi.org/10.1016/0022-0000(88)90045-1.

Moffat A., Zobel J. Self-indexing inverted files for fast text retrieval. ACM Transactionson Information Systems. 1996. Vol. 14. № 4. Pp. 349-379. DOI: https://doi.org/10.1145/237496.237497.

Myers G. An O(ND) difference algorithm and its variations. Algorithmica. 1986. Vol. 1. Pp. 251-266. DOI: https://doi.org/10.1007/BF01840446.

Monge A.E., Elkan C. The field matching problem: Algorithms and applications. KDD'96: Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, Portland, USA, 2-4 August 1996. Pp. 267-270.

Wu S., Manber U. Fast text searching allowing errors. Communications of the ACM. 1992. Vol. 35. Iss. 10. Pp. 83-91. DOI: https://doi.org/10.1145/135239.135244.

##submission.downloads##

Опубліковано

2023-12-28

Як цитувати

Гончаренко , Т., & Проніна , О. (2023). Порівняння алгоритмів оцінки відстані між словами для пошуку схожих речень. Вісник Приазовського Державного Технічного Університету. Серія: Технічні науки, (47), 32–38. https://doi.org/10.31498/2225-6733.47.2023.299974

Номер

Розділ

122 Комп'ютерні науки та інформаційні технології