Впровадження технології оптимізації індексування вузькоспеціалізованих термінів на базі фонетичного алгоритму Metaphone

Автор(и)

  • Volodymyr Buriachok Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053, Україна https://orcid.org/0000-0002-4055-1494
  • Matin Hadzhyiev Одеська національна академія зв’язку ім. О. С. Попова вул. Кузнечна, 1, м. Одеса, Україна, 65029, Україна https://orcid.org/0000-0001-7280-3863
  • Volodymyr Sokolov Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053, Україна https://orcid.org/0000-0002-9349-7946
  • Pavlo Skladannyi Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053, Україна https://orcid.org/0000-0002-7775-6039
  • Lidiia Kuzmenko Інститут телекомунікацій та глобального інформаційного простору Національної академії наук України бул. Чоколівський, 13, м. Київ, Україна, 03186, Україна https://orcid.org/0000-0001-7392-0324

DOI:

https://doi.org/10.15587/1729-4061.2019.181943

Ключові слова:

нечітке співпадіння, фонетичне правило, фонетичний алгоритм, Metaphone, українське прізвище

Анотація

При формуванні баз даних, наприклад для задоволення потреб закладів охорони здоров’я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою і написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини при їх викладенні різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним й може привести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які дозволяють знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми SoundЕx і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, при дедублікації даних в різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. При цьому правила, за якими вимовляються і записуються прізвища, наприклад українською мовою, кардинально відрізняються від базових алгоритмів для англійської і достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Представлено результати експерименту із формування фонетичних індексів, а також результати збільшення продуктивності при використанні сформованих індексів. Окремо представлено метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засобам

Біографії авторів

Volodymyr Buriachok, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Доктор технічних наук, професор

Кафедра інформаційної та кібернетичної безпеки

Matin Hadzhyiev, Одеська національна академія зв’язку ім. О. С. Попова вул. Кузнечна, 1, м. Одеса, Україна, 65029

Доктор технічних наук, доцент

Кафедра інформаційної безпеки та передачі даних

Volodymyr Sokolov, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Аспірант

Кафедра інформаційної та кібернетичної безпеки

Pavlo Skladannyi, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Аспірант

Кафедра інформаційної та кібернетичної безпеки

Lidiia Kuzmenko, Інститут телекомунікацій та глобального інформаційного простору Національної академії наук України бул. Чоколівський, 13, м. Київ, Україна, 03186

Аспірант

Посилання

  1. Branting, L. K. (2003). A comparative evaluation of name-matching algorithms. Proceedings of the 9th International Conference on Artificial Intelligence and Law - ICAIL’03, 224–232. doi: https://doi.org/10.1145/1047788.1047837
  2. Snae, C. (2007). A Comparison and Analysis of Name Matching Algorithms. International Scholarly and Scientific Research & Innovation, 1 (1), 107–112.
  3. Peng, T., Li, L., Kennedy, J. (2012). A Comparison of Techniques for Name Matching. PsycEXTRA Dataset. doi: https://doi.org/10.1037/e527372013-010
  4. Karahtanov, D. S. (2010). Realizatsiya algoritma Metaphone dlya kirillicheskih familiy sredstvami yazyka PL/SQL. Molodoy uchenniy, 8, 162–168.
  5. Paramonov, V. V., Shigarov, A. O., Ruzhnikov, G. M., Belykh, P. V. (2016). Polyphon: An Algorithm for Phonetic String Matching in Russian Language. Information and Software Technologies, 568–579. doi: https://doi.org/10.1007/978-3-319-46254-7_46
  6. Baruah, D., Kakoti Mahanta, A. (2015). Design and Development of Soundex for Assamese Language. International Journal of Computer Applications, 117 (9), 9–12. doi: https://doi.org/10.5120/20581-3000
  7. Silbert J. M. (1970). The World’s First Computerized Criminal-Justice Informationsharing System the New York State Identification and Intelligence System (NYSIIS). Criminology, 8 (2), 107–128. doi: https://doi.org/10.1111/j.1745-9125.1970.tb00734.x
  8. Zahoransky, D., Polasek, I. (2015). Text Search of Surnames in Some Slavic and Other Morphologically Rich Languages Using Rule Based Phonetic Algorithms. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23 (3), 553–563. doi: https://doi.org/10.1109/taslp.2015.2393393
  9. Philips, L. (1990). Hanging on the Metaphone. Computer Language, 7 (12), 39–43.
  10. Parmar, V. P., Kumbharana, C. K. (2014). Study Existing Various Phonetic Algorithms and Designing and Development of a working model for the New Developed Algorithm and Comparison by implementing it with Existing Algorithm(s). International Journal of Computer Applications, 98 (19), 45–49. doi: https://doi.org/10.5120/17295-7795
  11. Koneru, K., Pulla, V. S. V., Varol, C. (2016). Performance Evaluation of Phonetic Matching Algorithms on English Words and Street Names - Comparison and Correlation. Proceedings of the 5th International Conference on Data Management Technologies and Applications. doi: https://doi.org/10.5220/0005926300570064
  12. Ukrainskyi pravopys. Kabinetom Ministriv Ukrainy (Postanova No. 437 vid 22 travnia 2019 r.). Available at: https://mon.gov.ua/storage/app/media/zagalna%20serednya/05062019-onovl-pravo.pdf
  13. Redko, Yu. K. (1968). Dovidnyk ukrainskykh prizvyshch. Kyiv: Radianska shkola, 265.
  14. Chyselnist naselennia (za otsinkoiu) na 1 sichnia 2018 roku ta serednia chyselnist u 2017 rotsi. Derzhavna sluzhba statystyky Ukrainy. Available at: http://www.ukrstat.gov.ua/operativ/operativ2017/ds/kn/kn_u/kn1217_u.html
  15. E.6. Release 10.5. Appendix E. Release Notes (2019). PostgreSQL Global Development Group. Available at: https://www.postgresql.org/docs/10/release-10-5.html
  16. Database Management Systems. JetBrains. Available at: https://www.jetbrains.com/datagrip/
  17. Programmniy kompleks «Apteka». Informatsionnyy WEB-servis. Available at: https://pharmbase.com.ua/ru/project/web-content/
  18. Elektronna medychna systema dlia patsientiv ta likariv. Helsi. Available at: https://helsi.me

##submission.downloads##

Опубліковано

2019-10-29

Як цитувати

Buriachok, V., Hadzhyiev, M., Sokolov, V., Skladannyi, P., & Kuzmenko, L. (2019). Впровадження технології оптимізації індексування вузькоспеціалізованих термінів на базі фонетичного алгоритму Metaphone. Eastern-European Journal of Enterprise Technologies, 5(2 (101), 43–50. https://doi.org/10.15587/1729-4061.2019.181943