Розробка ентропійного підходу в ідентифікації патернів полімовних текстів

Автор(и)

DOI:

https://doi.org/10.15587/1729-4061.2021.228695

Ключові слова:

Google Перекладач, Яндекс.Перекладач, ентропія Рен'ї, метрика Мінковського, відстань Геммінга

Анотація

Проблема виявлення плагіату є актуальною, але сучасні методи виявлення, як і раніше, ресурсовитратні. Виконано пошук більш ефективної альтернативи існуючим рішенням.

Розроблена система ідентифікації патернів полімовності текстів порівнює два тексти та визначає за допомогою різних підходів, чи є другий текст перекладом першого чи ні. У дослідженні розроблено підхід на основі ентропії Рен'ї.

Для дослідження взято оригінальний текст з твору англійського письменника та п'ять текстів російською мовою. У якості справжніх і «підроблених» перекладів були обрані: переклади Google Перекладача і Яндекс Перекладача, авторський книжковий переклад, текст з іншого твору англійського письменника та фейковий текст. Фейковий текст – це текст, створений з таким же частотним вживанням ключових слів, як в оригіналу.

Сформувавши ключовий ряд високочастотних слів для оригіналу, були визначені відповідні ключові ряди для інших текстів. Потім підраховані ентропії для текстів при розбитті на «речення» та «параграфи».

Для розрахунку близькості текстів використана метрика Мінковського. За нею виконані обчислення для відстані Геммінга, декартової відстані, відстані між центрами мас, відстані між геометричними центрами та відстані між центрами параметричних середніх.

Виявлено, що найкраще близькість текстів визначається за допомогою розрахунку відносних відстаней між центрами параметричних середніх (для «підроблених» текстів – більше 3, для переказів – менше 1).

Порахувавши близькість текстів за допомогою розробленого авторами алгоритму на основі ентропії Рен'ї, можна, в порівнянні з методами на основі нейронних мереж, заощадити ресурси та час. Всі вихідні дані та приклад розрахунку ентропій на php знаходяться у відкритому доступі

Біографії авторів

Gulnur Yerkebulan, Manash Kozybayev North Kazakhstan University

Master of Engineering Science, Doctoral Candidate

Department of Information and Communication Technologies

Valentina Kulikova, Manash Kozybayev North Kazakhstan University

PhD, Associate Professor

Department of Information and Communication Technologies

Vladimir Kulikov, Manash Kozybayev North Kazakhstan University

PhD, Associate Professor

Department of Information and Communication Technologies

Zaru Kulsharipova, Pavlodar Pedagogical University

PhD, Associate Professor

Higher School of Pedagogy

Посилання

  1. Imran, M. (2020). Advantages of Neural Networks - Benefits of AI and Deep Learning. Folio3. Available at: https://www.folio3.ai/blog/advantages-of-neural-networks/
  2. Hanlon, J. (2017). Why is so much memory needed for deep neural networks? Graphcore. Available at: https://www.graphcore.ai/posts/why-is-so-much-memory-needed-for-deep-neural-networks
  3. Yu, J., Chen, R., Xu, L., Wang, D. (2019). Concept extraction for structured text using entropy weight method. 2019 IEEE Symposium on Computers and Communications (ISCC). doi: https://doi.org/10.1109/iscc47284.2019.8969759
  4. Shi, Y., Lei, L. (2020). Lexical Richness and Text Length: An Entropy-based Perspective. Journal of Quantitative Linguistics, 1–18. doi: https://doi.org/10.1080/09296174.2020.1766346
  5. Kouyama, N., Köppen, M. (2019). Entropy Analysis of Questionable Text Sources by Example of the Voynich Manuscript. Soft Computing in Data Science, 3–13. doi: https://doi.org/10.1007/978-981-15-0399-3_1
  6. Authorship Proven by Mathematics Burrow's Delta helps determine the real author of And Quiet Flows the Don. IQ: Research and Education Website. Available at: https://iq.hse.ru/news/367813734.html
  7. Bubnov, V. A., Survilo, A. V. (2016). Comparative Computer Analysis of the Text the Novel «The Quiet Don» with Texts of Four Fyodor Kryukov’s Stories. Vestnik Rossiyskogo universiteta druzhby narodov. Seriya: Informatizatsiya obrazovaniya, 1, 60–69. Available at: https://cyberleninka.ru/article/n/sravnitelnyy-kompyuternyy-analiz-teksta-romana-tihiy-don-s-tekstami-chetyreh-rasskazov-fyodora-kryukova/viewer
  8. Zhao, Y., Zhang, J., Zong, C., He, Z., Wu, H. (2019). Addressing the Under-Translation Problem from the Entropy Perspective. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 451–458. doi: https://doi.org/10.1609/aaai.v33i01.3301451
  9. Bromiley, P., Thacker, N., Bouhova-Thacker, E. (2010). Shannon Entropy, Renyi Entropy, and Information. TINA. Available at: https://www.academia.edu/32317926/Shannon_Entropy_Renyi_Entropy_and_Information
  10. Investigation of distances between sets of entropies. Available at: http://102030.kz/entropyR2.php
  11. Word and Character Counter. Available at: https://countwordsfree.com/
  12. Russian stemming algorithm. Available at: http://snowball.tartarus.org/algorithms/russian/stemmer.html
  13. The Porter Stemming Algorithm. Available at: https://tartarus.org/martin/PorterStemmer/
  14. XAMPP Installers and Downloads for Apache Friends. Available at: https://www.apachefriends.org/index.html

##submission.downloads##

Опубліковано

2021-04-30

Як цитувати

Yerkebulan, G., Kulikova, V., Kulikov, V., & Kulsharipova, Z. (2021). Розробка ентропійного підходу в ідентифікації патернів полімовних текстів. Eastern-European Journal of Enterprise Technologies, 2(2 (110), 16–22. https://doi.org/10.15587/1729-4061.2021.228695