Розроблення методів, моделей та засобів системи авторської атрибуції текста

Автор(и)

  • Iryna Khomytska Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013, Україна https://orcid.org/0000-0003-3470-7197
  • Vasyl Teslyuk Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013, Україна https://orcid.org/0000-0002-5974-9310
  • Andriy Holovatyy Національний лісотехнічний університет України вул. Генерала Чупринки, 103, м. Львів, Україна, 79057, Україна https://orcid.org/0000-0001-6143-648X
  • Oleksandr Morushko Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013, Україна https://orcid.org/0000-0001-8872-2830

DOI:

https://doi.org/10.15587/1729-4061.2018.132052

Ключові слова:

середні частоти груп приголосних фонем, стилева, підстилева та авторська диференціація текстів, програмна система, метод, фонема, фонологічний рівень

Анотація

Рівень точності авторської атрибуції текста не є достатньо високий на лексичному та синтаксичному рівнях мови, бо ці рівні не є строго організованими системами. У даному дослідженні авторська атрибуція текста грунтується на диференціації фоностатистичних структур стилів.

Розроблено систему диференціації фоностатистичних структур стилів, яка відрізняється від існуючих вибраним рівнем мови – фонологічним. На цьому рівні мови можна отримати результати з більшою точністю. Окрім того, побудована система грунтується на модульному принципі, що дає змогу швидко модифікувати розроблений програмний продукт.

Розроблено методи та моделі, які грунтуються на теорії математичної статистики і дають змогу підвищити точність диференціації фоностатистичних структур стилів. Побудовано метод комплексного аналізу фоностатистичних структур стилів, багатофакторний метод визначення ступенів дії факторів стилю, підстилю та авторської манери викладу. Побудовано статистичну модель стилевої диференціації за методом ранжування та статистичну модель визначення загальної стилевої маркованості досліджуваного текста. Розроблено програмну систему диференціації текстів.

Критерієм диференціації текстів є середні частоти груп приголосних фонем. В процесі реалізації системи використана мова програмування java, що забезпечує платформо-незалежність програмного продукту.

Наведено результати застосування розроблених методів, моделей та програмних засобів, які підтверджують, що авторська атрибуція текста на фонологічному рівні є ефективнішою.

Розроблені методи, моделі та засоби авторської атрибуції текста можна використати при встановленні відсотку творчого внеску кожного із співавторів наукових праць

Біографії авторів

Iryna Khomytska, Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013

Асистент

Кафедра прикладної лінгвістики

Vasyl Teslyuk, Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013

Доктор технічних наук, професор

Кафедра автоматизованих систем управління

Andriy Holovatyy, Національний лісотехнічний університет України вул. Генерала Чупринки, 103, м. Львів, Україна, 79057

Кандидат технічних наук, доцент

Кафедра інформаційних технологій

Oleksandr Morushko, Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013

Кандидат історисних наук, доцент

Кафедра соціальних комунікацій і інформаційної діяльності

Посилання

  1. Kornai, A. (2008). Mathematical Linguistics. Springer. doi: 10.1007/978-1-84628-986-6
  2. Gries, Th. S. (2009). Statistics for Linguistics with R. Mouton Textbook, 335. doi: 10.1515/9783110216042
  3. Martindale, C., McKenzie, D. (1995). On the utility of content analysis in author attribution:The Federalist. Computers and the Humanities, 29 (4), 259–270. doi: 10.1007/bf01830395
  4. Gibbons, J. (2003). Forensic Linguistics. An Introduction to Language in the Justice System. Wiley-Blackwell, 346.
  5. Olsson, J. (2008). Forensic Linguistics. Second edition: An Introduction to Language, Crime and the Law. Bloomsbury Academic, 288.
  6. Berko, A. Yu., Vysotska, V. A., Chyrun, L. V. (2015). Linhvistychnyi analiz tekstovoho komertsiynoho kontentu. Informatsiyni systemy ta merezhi. Visnyk Natsionalnoho universytetu “Lvivska politekhnika”, 814, 203–227.
  7. Bisikalo, O. V., Vysotska, V. A. (2016). Sentence syntactic analysis application to keywords identification Ukrainian texts. Radio Electronics, Computer Science, Control. 2016. Issue 3. P. 54–65. doi: 10.15588/1607-3274-2016-3-7
  8. Shakhovska, N., Vysotska, V., Chyrun, L. (2016). Intelligent Systems Design of Distance Learning Realization for Modern Youth Promotion and Involvement in Independent Scientific Researches. Advances in Intelligent Systems and Computing, 175–198. doi: 10.1007/978-3-319-45991-2_12
  9. Lytvyn, V., Vysotska, V., Veres, O., Rishnyak, I., Rishnyak, H. (2016). Content linguistic analysis methods for textual documents classification. 2016 XIth International Scientific and Technical Conference Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2016.7589903
  10. Lytvyn, V. V., Bobyk, I. O., Vysotska, V. A. (2016). Application of algorithmic algebra system for grammatical analysis of symbolic computation expressions of propositional logic. Radio Electronics, Computer Science, Control, 4, 77–89. doi: 10.15588/1607-3274-2016-4-10
  11. Lytvyn, V., Vysotska, V., Pukach, P., Bobyk, I., Uhryn, D. (2017). Development of a method for the recognition of author’s style in the Ukrainian language texts based on linguometry, stylemetry and glottochronology. Eastern-European Journal of Enterprise Technologies, 4 (2 (88)), 10–19. doi: 10.15587/1729-4061.2017.107512
  12. Davydov, M., Lozynska, O. (2016). Linguistic models of assistive computer technologies for cognition and communication. 2016 XIth International Scientific and Technical Conference Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2016.7589898
  13. Shestakevych, Т., Vysotska, V., Chyrun, L., Chyrun, L. (2014). Modelling of semantics of natural language sentences using generative grammars. Computer Science and Information Technologies: Proc. of the IX-th Int. Conf. CSIT’2014. Lviv: Lviv Polytechnic Publishing House, 19–22.
  14. Vasyl, L., Victoria, V., Dmytro, D., Roman, H., Zoriana, R. (2017). Application of sentence parsing for determining keywords in Ukrainian texts. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098797
  15. Zhezhnych, P., Markiv, O. (2017). A linguistic method of web-site content comparison with tourism documentation objects. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098800
  16. Korobchinsky, M., Chyrun, L., Chyrun, L., Vysotska, V. (2017). Peculiarities of content forming and analysis in internet newspaper covering music news. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098735
  17. Kapociute-Dzikiene, J., Utka, F., Sarkute, L. (2015). Authorship Attribution and Author Profiling of Lithuanian Literary Texts. Proceedings of the 5th Workshop on Balto-Slavic Natural Language Processing. Hissac, Bulgaria, 96–105.
  18. Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60 (3), 538–556. doi: 10.1002/asi.21001
  19. Argamon, S., Koppel, M., Pennebaker, J. W., Schler, J. (2009). Automatically profiling the author of an anonymous text. Communications of the ACM, 52 (2), 119. doi: 10.1145/1461928.1461959
  20. Koppel, M., Schler, J., Argamon, S. (2009). Computational methods in authorship attribution. Journal of the American Society for Information Science and Technology, 60 (1), 9–26. doi: 10.1002/asi.20961
  21. Juola, P. (2007). Authorship Attribution. Foundations and Trends® in Information Retrieval, 1 (3), 233–334. doi: 10.1561/1500000005
  22. Khomytska, I., Teslyuk, V. (2016). The Method of Statistical Analysis of the Scientific, Colloquial, Belles-Lettres and Newspaper Styles on the Phonological Level. Advances in Intelligent Systems and Computing, 149–163. doi: 10.1007/978-3-319-45991-2_10
  23. Khomytska, I., Teslyuk, V. (2016). Specifics of phonostatistical structure of the scientific style in English style system. 2016 XIth International Scientific and Technical Conference Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2016.7589887
  24. Bektaev, K. B. (1974). Matematicheskie metody v yazykoznanii. Ch. 2. Alma-Ata, 335.
  25. Mitropol'skiy, A. K. (1971). Tekhnika statisticheskih vichisleniy. Moscow: Nauka, 576.
  26. Khomytska, I., Teslyuk, V. (2017). Modelling of phonostatistical structures of English backlingual phoneme group in style system. 2017 14th International Conference The Experience of Designing and Application of CAD Systems in Microelectronics (CADSM). doi: 10.1109/cadsm.2017.7916144
  27. Khomytska, I., Teslyuk, V. (2017). Modelling of phonostatistical structures of the colloquial and newspaper styles in english sonorant phoneme group. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098738
  28. Chabanyuk, Y., Seniv, M., Khimka, U. (2013). Continuous Stochastic Optimization Procedure in Software Reliability. Proceedings of the XIIth International Conference The Experience of Designing and Application of CAD Systems in Microelectronics CADSM 2013. Polyana, 56–59.

##submission.downloads##

Опубліковано

2018-05-24

Як цитувати

Khomytska, I., Teslyuk, V., Holovatyy, A., & Morushko, O. (2018). Розроблення методів, моделей та засобів системи авторської атрибуції текста. Eastern-European Journal of Enterprise Technologies, 3(2 (93), 41–46. https://doi.org/10.15587/1729-4061.2018.132052