Порівняння алгоритмів оцінки відстані між словами для пошуку схожих речень
DOI:
https://doi.org/10.31498/2225-6733.47.2023.299974Ключові слова:
текстовий аналіз, система пошуку, схожі речення, відстань між словами, порівняння текстових фрагментів, косинусна схожість, відстань Левенштейна, дипломний проектАнотація
У статті розглядається розробка системи пошуку схожих пропозицій на основі оцінки відстані між словами. Алгоритми неточного порівняння дають змогу пошуковим системам враховувати контекст запиту, зважаючи на можливі помилки або варіації написання слів. Це особливо важливо в умовах, коли користувачі можуть використовувати різні форми вираження однієї і тієї ж ідеї. Такі алгоритми стають ключовим елементом у створенні інтелектуальних пошукових систем, здатних розуміти суть запиту та надавати релевантні результати, навіть якщо введення містить помилки. Розроблене програмне забезпечення може бути застосовано в інформаційному пошуку, обробці природної мови, виявленні плагіату, геноміці та багато іншого. Розглянуті в статті методи й алгоритми можуть знаходити широке застосування у сферах, де необхідний високий рівень точності в інтерпретації та зіставленні текстових даних. В інформаційному пошуку вони допомагають поліпшити якість результатів, пропонуючи користувачеві більш релевантні варіанти відповідей на його запити, навіть якщо вони містять друкарські помилки або граматичні помилки. В обробці природної мови алгоритми можуть використовуватися для аналізу і розуміння людської мови, що є ключовим аспектом у створенні чат-ботів, систем машинного перекладу та інтелектуальних асистентів. При виявленні плагіату ці алгоритми здатні точно визначати схожість текстів, що важливо в академічних і дослідницьких колах. У геноміці ці методи можуть застосовуватися для зіставлення генетичних послідовностей, що має важливе значення в дослідженнях з біоінформатики. Таким чином, розроблене програмне забезпечення пропонує багатогранне застосування в різних галузях науки і техніки, де потрібен глибокий аналіз і розуміння текстових даних
Посилання
Cohen W.W., Ravikumar P. A comparison of string distance metrics for name-matching tasks. Proceedings of the 2003 International Conference on Information Integration on the Web, Acapulco, Mexico, 9-10 August 2003. Pp. 73-78.
Levenshtein V.I. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady. 1966. Vol 10. № 8. Pp. 707-710.
Navarro G. A guided tour to approximate string matching. ACM Computing Surveys. 2001. Vol. 33. Iss. 1. Pp. 31-88. DOI: https://doi.org/10.1145/375360.375365.
Ukkonen E. Algorithms for approximate string matching. Information and control. 1985. Vol. 64. Iss. 1-3. Pp. 100-118. DOI: https://doi.org/10.1016/S0019-9958(85)80046-2.
Jaro M.A. Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida. Journal of the American Statistical Association. 1989. Vol. 84. No. 406. Pp. 414-420. DOI: https://doi.org/10.2307/2289924.
Landau G.M., Vishkin U. Fast string matching with k differences. Journal of Computer and Sys-tem Sciences. 1988. Vol. 37. Iss. 1. Pp. 63-78. DOI: https://doi.org/10.1016/0022-0000(88)90045-1.
Moffat A., Zobel J. Self-indexing inverted files for fast text retrieval. ACM Transactionson Information Systems. 1996. Vol. 14. № 4. Pp. 349-379. DOI: https://doi.org/10.1145/237496.237497.
Myers G. An O(ND) difference algorithm and its variations. Algorithmica. 1986. Vol. 1. Pp. 251-266. DOI: https://doi.org/10.1007/BF01840446.
Monge A.E., Elkan C. The field matching problem: Algorithms and applications. KDD'96: Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, Portland, USA, 2-4 August 1996. Pp. 267-270.
Wu S., Manber U. Fast text searching allowing errors. Communications of the ACM. 1992. Vol. 35. Iss. 10. Pp. 83-91. DOI: https://doi.org/10.1145/135239.135244.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Журнал "Вісник Приазовського державного технічного університету. Серія: Технічні науки" видається під ліцензією СС-BY (Ліцензія «Із зазначенням авторства»).
Дана ліцензія дозволяє поширювати, редагувати, поправляти і брати твір за основу для похідних навіть на комерційній основі із зазначенням авторства. Це найзручніша з усіх пропонованих ліцензій. Рекомендується для максимального поширення і використання неліцензійних матеріалів.
Автори, які публікуються в цьому журналі, погоджуються з наступними умовами:
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, яка дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи в цьому журналі.
2. Автори мають право укладати самостійні додаткові угоди, які стосуються неексклюзивного поширення роботи в тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи в цьому журналі.