Визначення авторства українськомовних текстів публіцистичного стилю за допомогою нейронних мереж
DOI:
https://doi.org/10.15587/1729-4061.2020.195041Ключові слова:
визначення авторства, аналіз тексту, штучні нейронні мережі, багатошаровий персептрон, векторизація текстуАнотація
Досліджується проблема розробки ефективного способу визначення авторства текстів (на матеріалі публікацій відомих українських журналістів). Більшість наявних методів потребують попередньої обробки тексту, що тягне за собою нові витрати при розв’язанні поставленої задачі. У випадку, коли кількість можливих авторів можна мінімізувати, такий підхід є часто надлишковим. Ще одним недоліком наявних підходів є те, що переважна більшість їх застосовувалися до іншомовних текстів і не враховували особливостей української мови. Тому було вирішено розробити підхід, що дозволяє визначити автора тексту українською мовою без попередньої обробки та дає високі результати точності, а також встановити, які типи штучних нейронних мереж забезпечують мінімальну похибку для українських публіцистів.
Розроблений метод використовує багатошаровий персептрон прямого поширення, алгоритм навчання з учителем, векторизацію HashingVectoriser, оптимізатор Adam. Визначено, що при невеликій кількості ітерацій (4–5 ітерацій) навчання штучної нейронної мережі отримується досить висока точність визначення авторства публіцистичних текстів та досить мале значення похибки. Використано більше 1000 фрагментів текстів трьох українських авторів. У результаті проведених експериментів було встановлено, що застосовування розробленого підходу до розв’язання поставленої задачі дає змогу досягти досить високих результатів. У текстах, що містять не менше 500 символів, точність сягає 91 %, а максимальна кількість ітерацій навчання штучної нейронної мережі при цьому не перевищує 15. Такі результати досягнуті насамперед завдяки ефективному підбору методу векторизації на підготовчому етапі та структури штучної нейронної мережі
Посилання
- Yermolenko, S. Ya. (2007). Linhvostylistyka: osnovni poniattia, napriamy y metody doslidzhennia. Ukrainska linhvostylistyka XX – pochatku XXI st.: systema poniat i bibliohrafichni dzherela. Kyiv: Hramota.
- Lytvyn, V., Vysotska, V., Pukach, P., Nytrebych, Z., Demkiv, I., Senyk, A. et. al. (2018). Analysis of the developed quantitative method for automatic attribution of scientific and technical text content written in Ukrainian. Eastern-European Journal of Enterprise Technologies, 6 (2 (96)), 19–31. doi: https://doi.org/10.15587/1729-4061.2018.149596
- Lytvyn, V., Vysotska, V., Pukach, P., Nytrebych, Z., Demkiv, I., Kovalchuk, R., Huzyk, N. (2018). Development of the linguometric method for automatic identification of the author of text content based on statistical analysis of language diversity coefficients. Eastern-European Journal of Enterprise Technologies, 5 (2 (95)), 16–28. doi: https://doi.org/10.15587/1729-4061.2018.142451
- Khomytska, I., Teslyuk, V. (2016). The Method of Statistical Analysis of the Scientific, Colloquial, Belles-Lettres and Newspaper Styles on the Phonological Level. Advances in Intelligent Systems and Computing, 149–163. doi: https://doi.org/10.1007/978-3-319-45991-2_10
- Khomytska, I., Teslyuk, V. (2017). Modelling of phonostatistical structures of the colloquial and newspaper styles in english sonorant phoneme group. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: https://doi.org/10.1109/stc-csit.2017.8098738
- Marchenko, O. O., Nykonenko, A. O., Rossada, T. V., Melnikov, E. A. (2016). Authorship attribution system. Shtuchnyi intelekt, 2, 77–85. Available at: http://dspace.nbuv.gov.ua/bitstream/handle/123456789/132051/08-Marchenko.pdf?sequence=1
- Bhargava, M., Mehndiratta, P., Asawa, K. (2013). Stylometric Analysis for Authorship Attribution on Twitter. Lecture Notes in Computer Science, 37–47. doi: https://doi.org/10.1007/978-3-319-03689-2_3
- Calix, K., Connors, M., Levy, D., Manzar, H., MCabe, G., Westcott, S. (2008). Stylometry for e-mail author identification and authentication. Proceedings of CSIS Research Day. Pace University.
- Ebrahimpour, M., Putniņš, T. J., Berryman, M. J., Allison, A., Ng, B. W.-H., Abbott, D. (2013). Automated Authorship Attribution Using Advanced Signal Classification Techniques. PLoS ONE, 8 (2), e54998. doi: https://doi.org/10.1371/journal.pone.0054998
- Chakraborty, T. (2012). Authorship identification in bengali literature: a comparative analysis. Available at: https://arxiv.org/pdf/1208.6268.pdf
- Kotsovsky, V., Geche, F., Batyuk, A. (2015). Artificial complex neurons with half-plane-like and angle-like activation function. 2015 Xth International Scientific and Technical Conference “Computer Sciences and Information Technologies” (CSIT). doi: https://doi.org/10.1109/stc-csit.2015.7325430
- Kotsovsky, V., Geche, F., Batyuk, A. (2019). On the Computational Complexity of Learning Bithreshold Neural Units and Networks. Lecture Notes in Computational Intelligence and Decision Making, 189–202. doi: https://doi.org/10.1007/978-3-030-26474-1_14
- Gamon, M. (2004). Linguistic correlates of style. Proceedings of the 20th International Conference on Computational Linguistics - COLING ’04. doi: https://doi.org/10.3115/1220355.1220443
- Zhao, Y., Zobel, J. (2007). Searching with style: Authorship attribution in classic literature. In Proceedings of the thirtieth Australasian conference on Computer science, 62, 59–68.
- Mikolov, T., Chen, K., Corrado, G., Dean, J. (2013). Efficient estimation of word representations in vector space. Available at: https://arxiv.org/pdf/1301.3781.pdf
- Cai, C., Xu, Y., Ke, D., Su, K. (2015). A Fast Learning Method for Multilayer Perceptrons in Automatic Speech Recognition Systems. Journal of Robotics, 2015, 1–7. doi: https://doi.org/10.1155/2015/797083
- Bodyanskiy, Y., Pliss, I., Kopaliani, D., Boiko, O. (2018). Deep 2D-Neural Network and its Fast Learning. 2018 IEEE Second International Conference on Data Stream Mining & Processing (DSMP). doi: https://doi.org/10.1109/dsmp.2018.8478578
- Haykin, S. (1994). Neural networks: a comprehensive foundation. Prentice Hall PTR, 768.
- Neural network models (supervised). Available at: https://scikit-learn.org/stable/modules/neural_networks_supervised.html
- Backpropagation Algorithm. Available at: http://ufldl.stanford.edu/wiki/index.php/Backpropagation_Algorithm
- Kotsovsky, V., Geche, F., Batyuk, A. (2018). Finite Generalization of the Offline Spectral Learning. 2018 IEEE Second International Conference on Data Stream Mining & Processing (DSMP). doi: https://doi.org/10.1109/dsmp.2018.8478584
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2020 Maksym Lupei, Alexander Mitsa, Volodymyr Repariuk, Vasyl Sharkan
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.