Розробка комбінованого методу ідентифікації неповних дублікатів в електронних наукових працях

Автор(и)

  • Петро Петрович Лізунов Київський національний університет будівництва і архітектури, Україна https://orcid.org/0000-0003-2924-3025
  • Andrii Biloshchytskyi Astana IT University; Taras Shevchenko National University of Kyiv , Казахстан https://orcid.org/0000-0001-9548-1959
  • Олександр Юрійович Кучанський Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0003-1277-8031
  • Юрій Васильович Андрашко Державний вищий навчальний заклад «Ужгородський національний університет», Україна https://orcid.org/0000-0003-2306-8377
  • Світлана Василівна Білощицька Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0002-0856-5474
  • Олег Олегович Сербін Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0003-3119-690X

DOI:

https://doi.org/10.15587/1729-4061.2021.238318

Ключові слова:

неповний дублікат, електронна наукова праця, система антиплагіат, локально-чутливе гешування

Анотація

Описано методи ідентифікації неповних дублікатів у електронних наукових працях, які включають контент одного типу, наприклад, текстові дані, математичні формули, числові дані тощо. Для текстових даних формалізовано метод локально-чутливого гешування зі знаходженням відстані Гемінга між елементами індексів електронних наукових праць. В разі, якщо відстань Гемінга перевищує фіксований числовий поріг, наукова праця містить неповний дублікат. Для числових даних формуються підпослідовності для кожної наукової праці та визначається близькість між працями як відстань Евкліда між векторами, що складаються з чисел даних підпослідовностей. Для порівняння математичних формул використовується метод порівняння зразків формул та порівнюються найменування змінних. Для ідентифікації неповних дублікатів у графічній інформації виділяється два напрямки: знаходження ключових точок на рисунку та застосування локально-чутливого гешування для окремих пікселів рисунка. Оскільки наукові праці часто включають такі об’єкти як схеми та діаграми, то підписи до них досліджуються окремо з використанням методів порівняння текстової інформації. Запропоновано комбінований метод ідентифікації неповних дублікатів у електронних наукових працях, що поєднує в собі методи ідентифікації неповних дублікатів даних різних типів. Для реалізації комбінованого методу ідентифікації неповних дублікатів у електронних наукових працях розроблено інформаційно-аналітичну систему, що опрацьовує наукові матеріали залежно від типу контенту. Це дозволяє якісно ідентифікувати неповні дублікати і максимально широко виявити можливі зловживання та плагіат у електронних наукових працях: наукових статтях, дисертаційних роботах, монографіях, матеріалах конференції тощо

Біографії авторів

Петро Петрович Лізунов, Київський національний університет будівництва і архітектури

Доктор технічних наук, професор, завідувач кафедри

Кафедра основ інформатики

Andrii Biloshchytskyi, Astana IT University; Taras Shevchenko National University of Kyiv

Doctor of Technical Sciences, Professor

Department of Information Systems and Technologies

Олександр Юрійович Кучанський, Київський національний університет імені Тараса Шевченка

Доктор технічних наук, доцент

Кафедра інформаційних систем та технологій

Юрій Васильович Андрашко, Державний вищий навчальний заклад «Ужгородський національний університет»

Кандидат технічних наук, доцент

Кафедра системного аналізу і теорії оптимізації

Світлана Василівна Білощицька, Київський національний університет імені Тараса Шевченка

Доктор технічних наук, доцент

Кафедра інтелектуальних технологій

Олег Олегович Сербін, Київський національний університет імені Тараса Шевченка

Доктор наук із соціальних комунікацій, старший науковий співробітник, директор бібліотеки

Наукова бібліотека ім. М. Максимовича

Посилання

  1. Wu, X., Ngo, C.-W., Hauptmann, A. G. (2008). Multimodal News Story Clustering With Pairwise Visual Near-Duplicate Constraint. IEEE Transactions on Multimedia, 10 (2), 188–199. doi: https://doi.org/10.1109/tmm.2007.911778
  2. Chang, E. Y., Wang, J. Z., Li, C., Wiederhold, G. (1998). RIME: A replicated image detector for the World Wide Web. Proceedings of SPIE - The International Society for Optical Engineering, 3527, 58–67. doi: https://doi.org/10.1117/12.325852
  3. Liu, G.-H., Yang, J.-Y. (2013). Content-based image retrieval using color difference histogram. Pattern Recognition, 46 (1), 188–198. doi: https://doi.org/10.1016/j.patcog.2012.06.001
  4. Mikolajczyk, K., Schmid, C. (2005). A performance evaluation of local descriptors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27 (10), 1615–1630. doi: https://doi.org/10.1109/tpami.2005.188
  5. Ke, Y., Sukthankar, R. (2004). PCA-SIFT: A more distinctive representation for local image descriptors. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004. doi: https://doi.org/10.1109/cvpr.2004.1315206
  6. Zou, F., Feng, H., Ling, H., Liu, C., Yan, L., Li, P., Li, D. (2013). Nonnegative sparse coding induced hashing for image copy detection. Neurocomputing, 105, 81–89. doi: https://doi.org/10.1016/j.neucom.2012.06.042
  7. Gadeski, E., Le Borgne, H., Popescu, A. (2016). Fast and robust duplicate image detection on the web. Multimedia Tools and Applications, 76 (9), 11839–11858. doi: https://doi.org/10.1007/s11042-016-3619-4
  8. Li, Y. (2021). A Fast Algorithm for Near-Duplicate Image Detection. 2021 IEEE International Conference on Artificial Intelligence and Industrial Design (AIID). doi: https://doi.org/10.1109/aiid51893.2021.9456496
  9. Yi, L., Liu, B., Li, X. (2003). Eliminating noisy information in Web pages for data mining. Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’03. doi: https://doi.org/10.1145/956750.956785
  10. Fetterly, D., Manasse, M., Najork, M. (2004). Spam, damn spam, and statistics: using statistical analysis to locate spam web pages. Proceedings of the 7th International Workshop on the Web and Databases Colocated with ACM SIGMOD/PODS 2004 - WebDB ’04. doi: https://doi.org/10.1145/1017074.1017077
  11. Chang, H.-C., Wang, J.-H. (2007). Organizing News Archives by Near-Duplicate Copy Detection in Digital Libraries. Lecture Notes in Computer Science, 410–419. doi: https://doi.org/10.1007/978-3-540-77094-7_52
  12. Biloshchytskyi, A., Kuchansky, A., Biloshchytska, S., Dubnytska, A. (2017). Conceptual model of automatic system of near duplicates detection in electronic documents. 2017 14th International Conference The Experience of Designing and Application of CAD Systems in Microelectronics (CADSM). doi: https://doi.org/10.1109/cadsm.2017.7916155
  13. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Biloshchytska, S., Chala, L. (2016). Detection of near dublicates in tables based on the locality-sensitive hashing method and the nearest neighbor method. Eastern-European Journal of Enterprise Technologies, 6 (4 (84)), 4–10. doi: https://doi.org/10.15587/1729-4061.2016.86243
  14. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., Biloshchytska, S. (2019). Improvement of the method for scientific publications clustering based on n-gram analysis and fuzzy method for selecting research partners. Eastern-European Journal of Enterprise Technologies, 4 (4 (100)), 6–14. doi: https://doi.org/10.15587/1729-4061.2019.175139
  15. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., Biloshchytska, S. (2020). The use of probabilistic latent semantic analysis to identify scientific subject spaces and to evaluate the completeness of covering the results of dissertation studies. Eastern-European Journal of Enterprise Technologies, 4 (4 (106)), 21–28. doi: https://doi.org/10.15587/1729-4061.2020.209886
  16. Fellah, A. (2021). All-Three: Near-optimal and domain-independent algorithms for near-duplicate detection. Array, 11, 100070. doi: https://doi.org/10.1016/j.array.2021.100070
  17. Mathew, M., Das, S. N., Lakshmi Narayanan, T. R., Vijayaraghavan, P. K. (2011). A novel approach for near-duplicate detection of web pages using TDW matrix. International Journal of Computer Applications, 19 (7), 16–21. doi: https://doi.org/10.5120/2374-3128
  18. Arun, P., Sumesh, M. (2015). Near-duplicate web page detection by enhanced TDW and simHash technique. 2015 International Conference on Computing and Network Communications (CoCoNet), 765–770. doi: https://doi.org/10.1109/coconet.2015.7411276
  19. Mishra, A. R., Panchal, V. K., Kumar, P. (2020). Similarity Search based on Text Embedding Model for detection of Near Duplicates. International Journal of Grid and Distributed Computing, 13 (2), 1871–1881. Available at: http://sersc.org/journals/index.php/IJGDC/article/view/35004/19401
  20. National Library of Ukraine named after VI Vernadsky. Available at: http://nbuv.gov.ua/

##submission.downloads##

Опубліковано

2021-08-25

Як цитувати

Лізунов, П. П., Biloshchytskyi, A., Кучанський, О. Ю., Андрашко, Ю. В., Білощицька, С. В., & Сербін, О. О. (2021). Розробка комбінованого методу ідентифікації неповних дублікатів в електронних наукових працях. Eastern-European Journal of Enterprise Technologies, 4(4(112), 57–63. https://doi.org/10.15587/1729-4061.2021.238318

Номер

Розділ

Математика та кібернетика - прикладні аспекти