Виявлення неповних дублікатів у таблицях на основі методів локально-чутливого хешування та найближчого сусіда

Автор(и)

  • Petro Lizunov Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03037, Україна https://orcid.org/0000-0003-2924-3025
  • Andrii Biloshchytskyi Київський національний університет ім. Т. Г. Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033, Україна https://orcid.org/0000-0001-9548-1959
  • Alexander Kuchansky Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03037, Україна https://orcid.org/0000-0003-1277-8031
  • Svitlana Biloshchytska Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03037, Україна https://orcid.org/0000-0002-0856-5474
  • Larysa Chala Харківський національний університет радіоелектроніки пр. Науки, 14, м. Харків, Україна, 61166, Україна https://orcid.org/0000-0002-9890-4790

DOI:

https://doi.org/10.15587/1729-4061.2016.86243

Ключові слова:

неповний дублікат, подібність, локально-чутливе хешування, метод найближчого сусіда

Анотація

Пропонується гібридний метод виявлення неповних дублікатів в таблицях. Метод базується на моделі знаходження неповних дублікатів в текстових даних на основі локально-чутливого хешування та моделі найближчого сусіда для ідентифікації подібностей в числових даних. Цей метод може бути використаний для встановлення запозичень в наукових публікаціях та дисертаційних роботах

Біографії авторів

Petro Lizunov, Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03037

Доктор технічних наук, професор

Кафедра основ інформатики

Andrii Biloshchytskyi, Київський національний університет ім. Т. Г. Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033

Доктор технічних наук, професор

Alexander Kuchansky, Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03037

Кандидат технічних наук, доцент

Кафедра інформаційних технологій

Svitlana Biloshchytska, Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03037

Кандидат технічних наук, доцент

Кафедра інформаційних технологій проектування і прикладної математики

Larysa Chala, Харківський національний університет радіоелектроніки пр. Науки, 14, м. Харків, Україна, 61166

Кандидат технічних наук, доцент

Кафедра штучного інтелекту

Посилання

  1. Fink, A. (2005). How to Conduct Surveys. Thousand Oaks: Sage Publications, 224.
  2. Ehrenberg, A. S. C. (1982). A Primer in Data Reduction. Wiley, Chrichester, UK, 324.
  3. Bertin, J. (1981). Graphics and Graphic Information Processing. Walter de Gruyter Berlin, New York, 279. doi: 10.1515/9783110854688
  4. Card, S. K., MacKinlay, J. D., Shneiderman, B. (Eds.) (1999). Reading in Information Visualization: Using Vision to Think. Morgan Kaufmann, San Francisco, 712.
  5. Su, Z., Ahn, B.-R., Eom, K.-Y., Kang, M.-K., Kim, J.-P., Kim, M.-K. (2008). Plagiarism detection using the Levenshtein distance and Smith-Waterman algorithm. 2008 3rd International Conference on Innovative Computing Information and Control. doi: 10.1109/icicic.2008.422
  6. Wu, S., Manber, U. (1994). A fast algorithm for multi-pattern searching. Technical Report TR-94-17. Department of Computer Science, University of Arizona, 11.
  7. Burkhard, W. A., Keller, R. M. (1973). Some approaches to best-match file searching. Communications of the ACM, 16 (4), 230–236. doi: 10.1145/362003.362025
  8. Baeza-Yates, R., Cunto, W., Manber, U., Wu, S. (1994). Proximity matching using fixed-queries trees. Lecture Notes in Computer Science, 198–212. doi: 10.1007/3-540-58094-8_18
  9. Shenoy, M. (2012). Automatic Plagiarism Detection Using Similarity Analysis. Advanced Computing: An International Journal, 3 (3), 59–62. doi: 10.5121/acij.2012.3306
  10. Biloshchytskyi, A., Dikhtiarenko, O. (2014). Optimization of Matching algorithms by using local-sensitive hash sets of text data. Management of complex systems, 19, 113–117.
  11. Biloshchytskyi, A., Kristof, S., Biloshchytska, S., Dikhtiarenko, O. (2015). The method of elimination of erroneous coincidences text in electronic documents. Management of Development of Complex Systems, 22 (1), 144–150.
  12. Biloshchytskyi, A., Dikhtiarenko, O. (2013). The effectiveness of methods for finding matches in texts. Management of complex systems, 14, 144–147.
  13. Kuchansky, A., Nikolenko, V. (2015). Pattern matching method for time-series forecasting. Management of Development of Complex Systems, 22, 101–106.
  14. Kuchansky, A., Biloshchytskyi, A. (2015). Selective pattern matching method for time-series forecasting. Eastern-European Journal of Enterprise Technologies, 6 (4 (78)), 13–18. doi: 10.15587/1729-4061.2015.54812
  15. Mojsiloviс, R., J. Kovaсeviс, J. Hu, R. J. Safranek, S. K. (2000). Ganapathy Matching and retrieval based on the vocabulary and grammar of color patterns. IEEE Transactions on Image Processing, 9 (1), 38–54. doi: 10.1109/83.817597
  16. Tamura, H., Mori, S., Yamawaki, T. (1978). Textural Features Corresponding to Visual Perception. IEEE Transactions on Systems, Man, and Cybernetics, 8 (6), 460–473. doi: 10.1109/tsmc.1978.4309999
  17. Zhang, D., Lu, G. (2001). Content-Based Shape Retrieval Using Different Shape Descriptors: A Comparative Study. IEEE International Conference on Multimedia and Expo, 2001. ICME 2001. doi: 10.1109/icme.2001.1237928
  18. Quack, T., Monich, U., Thiele, L., Manjunath, B. (2004). A System for Largescale, Content based Web Image Retrieval. MM’04, 120–123.
  19. Liebowitz, S., Margolis, S. E. (2001). Network Effects and the Microsoft Case. Dynamic Competition and Public Policy, 160–192. doi: 10.1017/cbo9781139164610.007

##submission.downloads##

Опубліковано

2016-12-27

Як цитувати

Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Biloshchytska, S., & Chala, L. (2016). Виявлення неповних дублікатів у таблицях на основі методів локально-чутливого хешування та найближчого сусіда. Eastern-European Journal of Enterprise Technologies, 6(4 (84), 4–10. https://doi.org/10.15587/1729-4061.2016.86243

Номер

Розділ

Математика та кібернетика - прикладні аспекти