Розроблення методів, моделей та засобів системи авторської атрибуції текста
DOI:
https://doi.org/10.15587/1729-4061.2018.132052Ключові слова:
середні частоти груп приголосних фонем, стилева, підстилева та авторська диференціація текстів, програмна система, метод, фонема, фонологічний рівеньАнотація
Рівень точності авторської атрибуції текста не є достатньо високий на лексичному та синтаксичному рівнях мови, бо ці рівні не є строго організованими системами. У даному дослідженні авторська атрибуція текста грунтується на диференціації фоностатистичних структур стилів.
Розроблено систему диференціації фоностатистичних структур стилів, яка відрізняється від існуючих вибраним рівнем мови – фонологічним. На цьому рівні мови можна отримати результати з більшою точністю. Окрім того, побудована система грунтується на модульному принципі, що дає змогу швидко модифікувати розроблений програмний продукт.
Розроблено методи та моделі, які грунтуються на теорії математичної статистики і дають змогу підвищити точність диференціації фоностатистичних структур стилів. Побудовано метод комплексного аналізу фоностатистичних структур стилів, багатофакторний метод визначення ступенів дії факторів стилю, підстилю та авторської манери викладу. Побудовано статистичну модель стилевої диференціації за методом ранжування та статистичну модель визначення загальної стилевої маркованості досліджуваного текста. Розроблено програмну систему диференціації текстів.
Критерієм диференціації текстів є середні частоти груп приголосних фонем. В процесі реалізації системи використана мова програмування java, що забезпечує платформо-незалежність програмного продукту.
Наведено результати застосування розроблених методів, моделей та програмних засобів, які підтверджують, що авторська атрибуція текста на фонологічному рівні є ефективнішою.
Розроблені методи, моделі та засоби авторської атрибуції текста можна використати при встановленні відсотку творчого внеску кожного із співавторів наукових праць
Посилання
- Kornai, A. (2008). Mathematical Linguistics. Springer. doi: 10.1007/978-1-84628-986-6
- Gries, Th. S. (2009). Statistics for Linguistics with R. Mouton Textbook, 335. doi: 10.1515/9783110216042
- Martindale, C., McKenzie, D. (1995). On the utility of content analysis in author attribution:The Federalist. Computers and the Humanities, 29 (4), 259–270. doi: 10.1007/bf01830395
- Gibbons, J. (2003). Forensic Linguistics. An Introduction to Language in the Justice System. Wiley-Blackwell, 346.
- Olsson, J. (2008). Forensic Linguistics. Second edition: An Introduction to Language, Crime and the Law. Bloomsbury Academic, 288.
- Berko, A. Yu., Vysotska, V. A., Chyrun, L. V. (2015). Linhvistychnyi analiz tekstovoho komertsiynoho kontentu. Informatsiyni systemy ta merezhi. Visnyk Natsionalnoho universytetu “Lvivska politekhnika”, 814, 203–227.
- Bisikalo, O. V., Vysotska, V. A. (2016). Sentence syntactic analysis application to keywords identification Ukrainian texts. Radio Electronics, Computer Science, Control. 2016. Issue 3. P. 54–65. doi: 10.15588/1607-3274-2016-3-7
- Shakhovska, N., Vysotska, V., Chyrun, L. (2016). Intelligent Systems Design of Distance Learning Realization for Modern Youth Promotion and Involvement in Independent Scientific Researches. Advances in Intelligent Systems and Computing, 175–198. doi: 10.1007/978-3-319-45991-2_12
- Lytvyn, V., Vysotska, V., Veres, O., Rishnyak, I., Rishnyak, H. (2016). Content linguistic analysis methods for textual documents classification. 2016 XIth International Scientific and Technical Conference Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2016.7589903
- Lytvyn, V. V., Bobyk, I. O., Vysotska, V. A. (2016). Application of algorithmic algebra system for grammatical analysis of symbolic computation expressions of propositional logic. Radio Electronics, Computer Science, Control, 4, 77–89. doi: 10.15588/1607-3274-2016-4-10
- Lytvyn, V., Vysotska, V., Pukach, P., Bobyk, I., Uhryn, D. (2017). Development of a method for the recognition of author’s style in the Ukrainian language texts based on linguometry, stylemetry and glottochronology. Eastern-European Journal of Enterprise Technologies, 4 (2 (88)), 10–19. doi: 10.15587/1729-4061.2017.107512
- Davydov, M., Lozynska, O. (2016). Linguistic models of assistive computer technologies for cognition and communication. 2016 XIth International Scientific and Technical Conference Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2016.7589898
- Shestakevych, Т., Vysotska, V., Chyrun, L., Chyrun, L. (2014). Modelling of semantics of natural language sentences using generative grammars. Computer Science and Information Technologies: Proc. of the IX-th Int. Conf. CSIT’2014. Lviv: Lviv Polytechnic Publishing House, 19–22.
- Vasyl, L., Victoria, V., Dmytro, D., Roman, H., Zoriana, R. (2017). Application of sentence parsing for determining keywords in Ukrainian texts. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098797
- Zhezhnych, P., Markiv, O. (2017). A linguistic method of web-site content comparison with tourism documentation objects. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098800
- Korobchinsky, M., Chyrun, L., Chyrun, L., Vysotska, V. (2017). Peculiarities of content forming and analysis in internet newspaper covering music news. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098735
- Kapociute-Dzikiene, J., Utka, F., Sarkute, L. (2015). Authorship Attribution and Author Profiling of Lithuanian Literary Texts. Proceedings of the 5th Workshop on Balto-Slavic Natural Language Processing. Hissac, Bulgaria, 96–105.
- Stamatatos, E. (2009). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60 (3), 538–556. doi: 10.1002/asi.21001
- Argamon, S., Koppel, M., Pennebaker, J. W., Schler, J. (2009). Automatically profiling the author of an anonymous text. Communications of the ACM, 52 (2), 119. doi: 10.1145/1461928.1461959
- Koppel, M., Schler, J., Argamon, S. (2009). Computational methods in authorship attribution. Journal of the American Society for Information Science and Technology, 60 (1), 9–26. doi: 10.1002/asi.20961
- Juola, P. (2007). Authorship Attribution. Foundations and Trends® in Information Retrieval, 1 (3), 233–334. doi: 10.1561/1500000005
- Khomytska, I., Teslyuk, V. (2016). The Method of Statistical Analysis of the Scientific, Colloquial, Belles-Lettres and Newspaper Styles on the Phonological Level. Advances in Intelligent Systems and Computing, 149–163. doi: 10.1007/978-3-319-45991-2_10
- Khomytska, I., Teslyuk, V. (2016). Specifics of phonostatistical structure of the scientific style in English style system. 2016 XIth International Scientific and Technical Conference Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2016.7589887
- Bektaev, K. B. (1974). Matematicheskie metody v yazykoznanii. Ch. 2. Alma-Ata, 335.
- Mitropol'skiy, A. K. (1971). Tekhnika statisticheskih vichisleniy. Moscow: Nauka, 576.
- Khomytska, I., Teslyuk, V. (2017). Modelling of phonostatistical structures of English backlingual phoneme group in style system. 2017 14th International Conference The Experience of Designing and Application of CAD Systems in Microelectronics (CADSM). doi: 10.1109/cadsm.2017.7916144
- Khomytska, I., Teslyuk, V. (2017). Modelling of phonostatistical structures of the colloquial and newspaper styles in english sonorant phoneme group. 2017 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). doi: 10.1109/stc-csit.2017.8098738
- Chabanyuk, Y., Seniv, M., Khimka, U. (2013). Continuous Stochastic Optimization Procedure in Software Reliability. Proceedings of the XIIth International Conference The Experience of Designing and Application of CAD Systems in Microelectronics CADSM 2013. Polyana, 56–59.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2018 Iryna Khomytska, Vasyl Teslyuk, Andriy Holovatyy, Oleksandr Morushko
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.