Дослідження процесу ідентифікації авторства текстів, написаних природною мовою
DOI:
https://doi.org/10.15587/2706-5448.2024.301706Ключові слова:
нормалізація, тонізація, лематизація, стоп-слово, машинне навчання, класична модель, глибока модель, LSTM, GRU, веб-додатокАнотація
Об’єктом дослідження є процес ідентифікації авторства тексту за допомогою комп'ютерних технологій із застосуванням машинного навчання. Було розглянуто повний процес вирішення задачі від підготовки текстів до оцінки отриманих результатів. Ідентифікація авторства тексту є дуже складною та об’ємною за часом задачею, яка потребує до себе максимальної уваги. Оскільки в процесі ідентифікації завжди потрібно приймати до уваги дуже велику кількість різноманітних факторів та інформації, яка відноситься до кожного конкретного автора. Через це в процесі ідентифікації можуть виникати різні проблеми та помилки, пов’язані з наявністю людського фактору, що у підсумку може призвести до погіршення отриманих результатів.
Предметом роботи є методи та засоби аналізу процесу ідентифікації авторства тексту за допомогою існуючих комп’ютерних технологій. В рамках роботи авторами розроблено веб-додаток для ідентифікації авторства тексту. Програмний додаток було написано з використанням технологій машинного навчання, він має зручний користувацький інтерфейс і просунуту систему відслідковування помилок та може розпізнати як текст, написаний одним автором, так і той, що написали у співавторстві. Проаналізовано ефективність різних типів моделей машинного навчання та засобів представлення даних. Визначено комп’ютерні технології ідентифікації авторства тексту. Основними перевагами використання комп'ютерних технологій для ідентифікації авторства тексту є:
– Швидкість: комп'ютерні алгоритми можуть аналізувати великі обсяги тексту в надзвичайно короткий проміжок часу.
– Об'єктивність: комп'ютерні алгоритми використовують тільки перевірені алгоритми для аналізу особливостей тексту та не піддаються емоційному впливу чи упередженим думкам під час процесу аналізу.
Результатом роботи є веб-додаток для ідентифікації авторства тексту, який розроблено на основі проведених досліджень процесу ідентифікації авторства тексту за допомогою комп'ютерних технологій.
Посилання
- Bengfort, В., Bilbro, R., Ojeda, T. (2018). Applied Text Analysis with Python. O'Reilly Media, Inc., 330.
- Yülüce, İ., Dalkılıç, F. (2022). Author Identification with Machine Learning Algorithms. International Journal of Multidisciplinary Studies and Innovative Technologies, 6 (1), 45–50. doi: https://doi.org/10.36287/ijmsit.6.1.45
- Lupey, M. (2020). Determining the author’s affiliation of a Ukrainian-language text using a neuro-system for determining the affiliation of a text. Science and Education a New Dimension, VIII (233) (28), 34–37. doi: https://doi.org/10.31174/send-nt2020-233viii28-07
- Podshyvalenko, B. O. (2021). Zastosuvannia metodiv statystychnoho analizu dlia rozviazannia zadachi identyfikatsii tekstiv. Radioelektronika ta molod u XXI stolitti, 7 (10), 65–66.
- Gupta, S. T., Sahoo, J. K., Roul, R. K. (2019). Authorship Identification using Recurrent Neural Networks. Proceedings of the 2019 3rd International Conference on Information System and Data Mining, 133–137. doi: https://doi.org/10.1145/3325917.3325935
- Zhao, Y., Zobel, J. (2007). Searching with Style. Authorship Attribution in Classic Literature, 148, 89–111.
- Statystychnyi analiz. Available at: https://stud.com.ua/49878/marketing/statistichniy_analiz
- What is machine learning (ML)? Available at: https://www.ibm.com/topics/machine-learning
- Slovnyk NLP. Available at: https://medium.com/
- Windows Machine Learning (WinML). Available at: https://learn.microsoft.com/en-us/windows/ai/windows-ml/
- Lamiae, H. (2020). Classical ML vs. Deep Learning. Available at: https://lamiae-hana.medium.com/classical-ml-vs-deep-learning-f8e28a52132d
- Scikit-learn User Guide. Available at: https://scikitlearn.org/stable/user_guide.html
- Lendave, V. (2021). LSTM Vs GRU in Recurrent Neural Network: A Comparative Study. Available at: https://analyticsindiamag-com.translate.goog/lstm-vs-gru-in-recurrent-neural-network-a-comparative-study/
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2024 Yuliia Ulianovska, Oleksandr Firsov, Victoria Kostenko, Oleksiy Pryadka
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.