Розробка ентропійного підходу в ідентифікації патернів полімовних текстів
DOI:
https://doi.org/10.15587/1729-4061.2021.228695Ключові слова:
Google Перекладач, Яндекс.Перекладач, ентропія Рен'ї, метрика Мінковського, відстань ГеммінгаАнотація
Проблема виявлення плагіату є актуальною, але сучасні методи виявлення, як і раніше, ресурсовитратні. Виконано пошук більш ефективної альтернативи існуючим рішенням.
Розроблена система ідентифікації патернів полімовності текстів порівнює два тексти та визначає за допомогою різних підходів, чи є другий текст перекладом першого чи ні. У дослідженні розроблено підхід на основі ентропії Рен'ї.
Для дослідження взято оригінальний текст з твору англійського письменника та п'ять текстів російською мовою. У якості справжніх і «підроблених» перекладів були обрані: переклади Google Перекладача і Яндекс Перекладача, авторський книжковий переклад, текст з іншого твору англійського письменника та фейковий текст. Фейковий текст – це текст, створений з таким же частотним вживанням ключових слів, як в оригіналу.
Сформувавши ключовий ряд високочастотних слів для оригіналу, були визначені відповідні ключові ряди для інших текстів. Потім підраховані ентропії для текстів при розбитті на «речення» та «параграфи».
Для розрахунку близькості текстів використана метрика Мінковського. За нею виконані обчислення для відстані Геммінга, декартової відстані, відстані між центрами мас, відстані між геометричними центрами та відстані між центрами параметричних середніх.
Виявлено, що найкраще близькість текстів визначається за допомогою розрахунку відносних відстаней між центрами параметричних середніх (для «підроблених» текстів – більше 3, для переказів – менше 1).
Порахувавши близькість текстів за допомогою розробленого авторами алгоритму на основі ентропії Рен'ї, можна, в порівнянні з методами на основі нейронних мереж, заощадити ресурси та час. Всі вихідні дані та приклад розрахунку ентропій на php знаходяться у відкритому доступі
Посилання
- Imran, M. (2020). Advantages of Neural Networks - Benefits of AI and Deep Learning. Folio3. Available at: https://www.folio3.ai/blog/advantages-of-neural-networks/
- Hanlon, J. (2017). Why is so much memory needed for deep neural networks? Graphcore. Available at: https://www.graphcore.ai/posts/why-is-so-much-memory-needed-for-deep-neural-networks
- Yu, J., Chen, R., Xu, L., Wang, D. (2019). Concept extraction for structured text using entropy weight method. 2019 IEEE Symposium on Computers and Communications (ISCC). doi: https://doi.org/10.1109/iscc47284.2019.8969759
- Shi, Y., Lei, L. (2020). Lexical Richness and Text Length: An Entropy-based Perspective. Journal of Quantitative Linguistics, 1–18. doi: https://doi.org/10.1080/09296174.2020.1766346
- Kouyama, N., Köppen, M. (2019). Entropy Analysis of Questionable Text Sources by Example of the Voynich Manuscript. Soft Computing in Data Science, 3–13. doi: https://doi.org/10.1007/978-981-15-0399-3_1
- Authorship Proven by Mathematics Burrow's Delta helps determine the real author of And Quiet Flows the Don. IQ: Research and Education Website. Available at: https://iq.hse.ru/news/367813734.html
- Bubnov, V. A., Survilo, A. V. (2016). Comparative Computer Analysis of the Text the Novel «The Quiet Don» with Texts of Four Fyodor Kryukov’s Stories. Vestnik Rossiyskogo universiteta druzhby narodov. Seriya: Informatizatsiya obrazovaniya, 1, 60–69. Available at: https://cyberleninka.ru/article/n/sravnitelnyy-kompyuternyy-analiz-teksta-romana-tihiy-don-s-tekstami-chetyreh-rasskazov-fyodora-kryukova/viewer
- Zhao, Y., Zhang, J., Zong, C., He, Z., Wu, H. (2019). Addressing the Under-Translation Problem from the Entropy Perspective. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 451–458. doi: https://doi.org/10.1609/aaai.v33i01.3301451
- Bromiley, P., Thacker, N., Bouhova-Thacker, E. (2010). Shannon Entropy, Renyi Entropy, and Information. TINA. Available at: https://www.academia.edu/32317926/Shannon_Entropy_Renyi_Entropy_and_Information
- Investigation of distances between sets of entropies. Available at: http://102030.kz/entropyR2.php
- Word and Character Counter. Available at: https://countwordsfree.com/
- Russian stemming algorithm. Available at: http://snowball.tartarus.org/algorithms/russian/stemmer.html
- The Porter Stemming Algorithm. Available at: https://tartarus.org/martin/PorterStemmer/
- XAMPP Installers and Downloads for Apache Friends. Available at: https://www.apachefriends.org/index.html
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2021 Gulnur Yerkebulan, Valentina Kulikova, Vladimir Kulikov, Zaru Kulsharipova

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.






