Дослідження процесу ідентифікації авторства текстів, написаних природною мовою

Автор(и)

DOI:

https://doi.org/10.15587/2706-5448.2024.301706

Ключові слова:

нормалізація, тонізація, лематизація, стоп-слово, машинне навчання, класична модель, глибока модель, LSTM, GRU, веб-додаток

Анотація

Об’єктом дослідження є процес ідентифікації авторства тексту за допомогою комп'ютерних технологій із застосуванням машинного навчання. Було розглянуто повний процес вирішення задачі від підготовки текстів до оцінки отриманих результатів. Ідентифікація авторства тексту є дуже складною та об’ємною за часом задачею, яка потребує до себе максимальної уваги. Оскільки в процесі ідентифікації завжди потрібно приймати до уваги дуже велику кількість різноманітних факторів та інформації, яка відноситься до кожного конкретного автора. Через це в процесі ідентифікації можуть виникати різні проблеми та помилки, пов’язані з наявністю людського фактору, що у підсумку може призвести до погіршення отриманих результатів.

Предметом роботи є методи та засоби аналізу процесу ідентифікації авторства тексту за допомогою існуючих комп’ютерних технологій. В рамках роботи авторами розроблено веб-додаток для ідентифікації авторства тексту. Програмний додаток було написано з використанням технологій машинного навчання, він має зручний користувацький інтерфейс і просунуту систему відслідковування помилок та може розпізнати як текст, написаний одним автором, так і той, що написали у співавторстві. Проаналізовано ефективність різних типів моделей машинного навчання та засобів представлення даних. Визначено комп’ютерні технології ідентифікації авторства тексту. Основними перевагами використання комп'ютерних технологій для ідентифікації авторства тексту є:

– Швидкість: комп'ютерні алгоритми можуть аналізувати великі обсяги тексту в надзвичайно короткий проміжок часу.

– Об'єктивність: комп'ютерні алгоритми використовують тільки перевірені алгоритми для аналізу особливостей тексту та не піддаються емоційному впливу чи упередженим думкам під час процесу аналізу.

Результатом роботи є веб-додаток для ідентифікації авторства тексту, який розроблено на основі проведених досліджень процесу ідентифікації авторства тексту за допомогою комп'ютерних технологій.

Біографії авторів

Юлія Вікторівна Ульяновська, Університет митної справи та фінансів

Кандидат технічних наук, доцент

Кафедра комп’ютерних наук та інженерії програмного забезпечення

Олександр Дмитрович Фірсов, Університет митної справи та фінансів

Кандидат фізико-математичних наук, доцент

Кафедра комп’ютерних наук та інженерії програмного забезпечення

Вікторія Вікторівна Костенко, Університет митної справи та фінансів

Старший викладач

Кафедра комп’ютерних наук та інженерії програмного забезпечення

Олексій Іванович Прядка, Університет митної справи та фінансів

Кафедра комп’ютерних наук та інженерії програмного забезпечення

Посилання

  1. Bengfort, В., Bilbro, R., Ojeda, T. (2018). Applied Text Analysis with Python. O'Reilly Media, Inc., 330.
  2. Yülüce, İ., Dalkılıç, F. (2022). Author Identification with Machine Learning Algorithms. International Journal of Multidisciplinary Studies and Innovative Technologies, 6 (1), 45–50. doi: https://doi.org/10.36287/ijmsit.6.1.45
  3. Lupey, M. (2020). Determining the author’s affiliation of a Ukrainian-language text using a neuro-system for determining the affiliation of a text. Science and Education a New Dimension, VIII (233) (28), 34–37. doi: https://doi.org/10.31174/send-nt2020-233viii28-07
  4. Podshyvalenko, B. O. (2021). Zastosuvannia metodiv statystychnoho analizu dlia rozviazannia zadachi identyfikatsii tekstiv. Radioelektronika ta molod u XXI stolitti, 7 (10), 65–66.
  5. Gupta, S. T., Sahoo, J. K., Roul, R. K. (2019). Authorship Identification using Recurrent Neural Networks. Proceedings of the 2019 3rd International Conference on Information System and Data Mining, 133–137. doi: https://doi.org/10.1145/3325917.3325935
  6. Zhao, Y., Zobel, J. (2007). Searching with Style. Authorship Attribution in Classic Literature, 148, 89–111.
  7. Statystychnyi analiz. Available at: https://stud.com.ua/49878/marketing/statistichniy_analiz
  8. What is machine learning (ML)? Available at: https://www.ibm.com/topics/machine-learning
  9. Slovnyk NLP. Available at: https://medium.com/
  10. Windows Machine Learning (WinML). Available at: https://learn.microsoft.com/en-us/windows/ai/windows-ml/
  11. Lamiae, H. (2020). Classical ML vs. Deep Learning. Available at: https://lamiae-hana.medium.com/classical-ml-vs-deep-learning-f8e28a52132d
  12. Scikit-learn User Guide. Available at: https://scikitlearn.org/stable/user_guide.html
  13. Lendave, V. (2021). LSTM Vs GRU in Recurrent Neural Network: A Comparative Study. Available at: https://analyticsindiamag-com.translate.goog/lstm-vs-gru-in-recurrent-neural-network-a-comparative-study/
Study of the process of identifying the authorship of texts written in natural language

##submission.downloads##

Опубліковано

2024-04-15

Як цитувати

Ульяновська, Ю. В., Фірсов, О. Д., Костенко, В. В., & Прядка, О. І. (2024). Дослідження процесу ідентифікації авторства текстів, написаних природною мовою. Technology Audit and Production Reserves, 2(2(76), 32–37. https://doi.org/10.15587/2706-5448.2024.301706

Номер

Розділ

Інформаційні технології