Implantation of indexing optimization technology for highly specialized terms based on Metaphone phonetical algorithm

Volodymyr Buriachok; Matin Hadzhyiev; Volodymyr Sokolov; Pavlo Skladannyi; Lidiia Kuzmenko

doi:10.15587/1729-4061.2019.181943

Автор(и)

Volodymyr Buriachok Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053, Україна https://orcid.org/0000-0002-4055-1494
Matin Hadzhyiev Одеська національна академія зв’язку ім. О. С. Попова вул. Кузнечна, 1, м. Одеса, Україна, 65029, Україна https://orcid.org/0000-0001-7280-3863
Volodymyr Sokolov Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053, Україна https://orcid.org/0000-0002-9349-7946
Pavlo Skladannyi Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053, Україна https://orcid.org/0000-0002-7775-6039
Lidiia Kuzmenko Інститут телекомунікацій та глобального інформаційного простору Національної академії наук України бул. Чоколівський, 13, м. Київ, Україна, 03186, Україна https://orcid.org/0000-0001-7392-0324

DOI:

https://doi.org/10.15587/1729-4061.2019.181943

Ключові слова:

нечітке співпадіння, фонетичне правило, фонетичний алгоритм, Metaphone, українське прізвище

Анотація

При формуванні баз даних, наприклад для задоволення потреб закладів охорони здоров’я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою і написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини при їх викладенні різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним й може привести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які дозволяють знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми SoundЕx і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, при дедублікації даних в різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. При цьому правила, за якими вимовляються і записуються прізвища, наприклад українською мовою, кардинально відрізняються від базових алгоритмів для англійської і достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Представлено результати експерименту із формування фонетичних індексів, а також результати збільшення продуктивності при використанні сформованих індексів. Окремо представлено метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засобам

Біографії авторів

Volodymyr Buriachok, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Доктор технічних наук, професор

Кафедра інформаційної та кібернетичної безпеки

Matin Hadzhyiev, Одеська національна академія зв’язку ім. О. С. Попова вул. Кузнечна, 1, м. Одеса, Україна, 65029

Доктор технічних наук, доцент

Кафедра інформаційної безпеки та передачі даних

Volodymyr Sokolov, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Аспірант

Кафедра інформаційної та кібернетичної безпеки

Pavlo Skladannyi, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Аспірант

Кафедра інформаційної та кібернетичної безпеки

Lidiia Kuzmenko, Інститут телекомунікацій та глобального інформаційного простору Національної академії наук України бул. Чоколівський, 13, м. Київ, Україна, 03186

Аспірант

Посилання

Branting, L. K. (2003). A comparative evaluation of name-matching algorithms. Proceedings of the 9th International Conference on Artificial Intelligence and Law - ICAIL’03, 224–232. doi: https://doi.org/10.1145/1047788.1047837
Snae, C. (2007). A Comparison and Analysis of Name Matching Algorithms. International Scholarly and Scientific Research & Innovation, 1 (1), 107–112.
Peng, T., Li, L., Kennedy, J. (2012). A Comparison of Techniques for Name Matching. PsycEXTRA Dataset. doi: https://doi.org/10.1037/e527372013-010
Karahtanov, D. S. (2010). Realizatsiya algoritma Metaphone dlya kirillicheskih familiy sredstvami yazyka PL/SQL. Molodoy uchenniy, 8, 162–168.
Paramonov, V. V., Shigarov, A. O., Ruzhnikov, G. M., Belykh, P. V. (2016). Polyphon: An Algorithm for Phonetic String Matching in Russian Language. Information and Software Technologies, 568–579. doi: https://doi.org/10.1007/978-3-319-46254-7_46
Baruah, D., Kakoti Mahanta, A. (2015). Design and Development of Soundex for Assamese Language. International Journal of Computer Applications, 117 (9), 9–12. doi: https://doi.org/10.5120/20581-3000
Silbert J. M. (1970). The World’s First Computerized Criminal-Justice Informationsharing System the New York State Identification and Intelligence System (NYSIIS). Criminology, 8 (2), 107–128. doi: https://doi.org/10.1111/j.1745-9125.1970.tb00734.x
Zahoransky, D., Polasek, I. (2015). Text Search of Surnames in Some Slavic and Other Morphologically Rich Languages Using Rule Based Phonetic Algorithms. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23 (3), 553–563. doi: https://doi.org/10.1109/taslp.2015.2393393
Philips, L. (1990). Hanging on the Metaphone. Computer Language, 7 (12), 39–43.
Parmar, V. P., Kumbharana, C. K. (2014). Study Existing Various Phonetic Algorithms and Designing and Development of a working model for the New Developed Algorithm and Comparison by implementing it with Existing Algorithm(s). International Journal of Computer Applications, 98 (19), 45–49. doi: https://doi.org/10.5120/17295-7795
Koneru, K., Pulla, V. S. V., Varol, C. (2016). Performance Evaluation of Phonetic Matching Algorithms on English Words and Street Names - Comparison and Correlation. Proceedings of the 5th International Conference on Data Management Technologies and Applications. doi: https://doi.org/10.5220/0005926300570064
Ukrainskyi pravopys. Kabinetom Ministriv Ukrainy (Postanova No. 437 vid 22 travnia 2019 r.). Available at: https://mon.gov.ua/storage/app/media/zagalna%20serednya/05062019-onovl-pravo.pdf
Redko, Yu. K. (1968). Dovidnyk ukrainskykh prizvyshch. Kyiv: Radianska shkola, 265.
Chyselnist naselennia (za otsinkoiu) na 1 sichnia 2018 roku ta serednia chyselnist u 2017 rotsi. Derzhavna sluzhba statystyky Ukrainy. Available at: http://www.ukrstat.gov.ua/operativ/operativ2017/ds/kn/kn_u/kn1217_u.html
E.6. Release 10.5. Appendix E. Release Notes (2019). PostgreSQL Global Development Group. Available at: https://www.postgresql.org/docs/10/release-10-5.html
Database Management Systems. JetBrains. Available at: https://www.jetbrains.com/datagrip/
Programmniy kompleks «Apteka». Informatsionnyy WEB-servis. Available at: https://pharmbase.com.ua/ru/project/web-content/
Elektronna medychna systema dlia patsientiv ta likariv. Helsi. Available at: https://helsi.me

Впровадження технології оптимізації індексування вузькоспеціалізованих термінів на базі фонетичного алгоритму Metaphone

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Volodymyr Buriachok, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Matin Hadzhyiev, Одеська національна академія зв’язку ім. О. С. Попова вул. Кузнечна, 1, м. Одеса, Україна, 65029

Volodymyr Sokolov, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Pavlo Skladannyi, Київський університет імені Бориса Грінченка вул. Бульварно-Кудрявська, 18/2, м. Київ, Україна, 04053

Lidiia Kuzmenko, Інститут телекомунікацій та глобального інформаційного простору Національної академії наук України бул. Чоколівський, 13, м. Київ, Україна, 03186

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація

Подати статтю

##plugins.block.developedBy.blockTitle##

Поточний номер