Оцінювання точності та аналіз помилок розбору залежностей для текстів українською мовою

Автор(и)

  • Костянтин Сироткін Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Україна https://orcid.org/0009-0008-4150-8325

DOI:

https://doi.org/10.30837/2522-9818.2025.2.102

Анотація

Предметом дослідження є розбір залежностей в межах фреймворку Universal Dependencies для речень українською мовою. Метою роботи є оцінювання і порівняння точності розбору залежностей, яка досягається декількома сучасними системами на стандартному наборі даних українською мовою, а також аналіз профілю помилок таких систем. У статті виконано два завдання. Перше – оцінювання точності декількох сучасних систем розбору залежностей із використанням анотованого вручну стандартного набору даних. Метрикою точності обрано відсоток правильно побудованих позначених та непозначених зв’язків. Друге завдання – аналіз та категоризація помилок, яких припускаються стандартні системи. Виявлення та усунення цих помилок потенційно дасть змогу в подальшому створити більш точну систему розбору. У досліджуваних системах використовуються методи машинного навчання і нейронних мереж разом з методами теорії автоматів і теорії графів, а також глибокі векторні подання слів. Основні результати. Для української мови точність синтаксичного розбору значно підвищується з використанням глибокого векторного подання слів. Система на основі переходів із глибоким векторним поданням слів забезпечує найвищий показник точності побудови позначених зв’язків на рівні 84,66% для тестового набору даних. Для цієї самої системи підвищення рівня помилок спостерігається для непроєктивних залежностей, довших речень і більшої відстані до основного слова. Крім того, для займенників і числівників рівень помилок для позначених зв’язків значно перевищує базовий рівень, тоді як помилки для непозначених зв’язків залишаються на базовому рівні. Висновки: точність розбору залежностей для української мови поступається аналогічним показникам для інших мов, однак загальна тенденція підвищення точності з використанням глибокого векторного подання слів узгоджується з результатами попередніх досліджень. Для покращення загальної точності розбору важливо зосередитися на таких проблемних аспектах, як непроєктивні залежності, довгі речення та велика відстань між основним і залежним словами. У подальших дослідженнях заплановано дослідити можливості підвищення точності синтаксичного розбору способом доповнення підходу на основі машинного навчання іншими методами, зокрема використанням формальних правил або етапів попереднього та подальшого оброблення.

Біографія автора

Костянтин Сироткін, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

магістр

Посилання

References

Tsarfaty, R.; Seddah, D.; Goldberg, Y.; Kuebler, S.; Versley, Y.; Candito, M.; Foster, J.; Rehbein, I.; Tounsi, L. (2010), "Statistical Parsing of Morphologically Rich Languages (SPMRL) What, How and Whither". Proceedings of the NAACL HLT 2010 First Workshop on Statistical Parsing of Morphologically-Rich Languages. P. 1–12. URL: https://aclanthology.org/W10-1401/

Kotsyba, N.; Moskalevskyi, B.; Romanenko, M.; Samoridna, H.; Kosovska, I.; Lytvyn, O.; Orlenko, O.; Brovko, H.; Matushko, B.; Onyshchuk, N.; Pareviazko, V.; Rychyk, Y.; Stetsenko, A.; Umanets, S.; Masenko, L. (2021), "Gold standard Universal Dependencies corpus for Ukrainian (UD_Ukrainian-IU) v2.8". URL: https://github.com/UniversalDependencies/UD_Ukrainian-IU.

Silveira, N.; Dozat, T., de Marneffe M.-C.; Bowman, S.; Connor M.; Bauer, J.; Manning C. (2014), "A Gold Standard Dependency Corpus for English". Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC-2014). P. 2897–2904. URL: http://www.lrec-conf.org/proceedings/lrec2014/pdf/1089_Paper.pdf

Jurafsky D., Martin J. "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd ed". USA. 2025. 599 p. URL: https://web.stanford.edu/~jurafsky/slp3/

Mikolov, T.; Chen, K.; Corrado, G.; Dean, J. (2013), "Efficient Estimation of Word Representations in Vector Space". arXiv: 1301.3781 [cs.CL]. DOI: 10.48550/arXiv.1301.3781

Kulmizev, A.; de Lhoneux, M.; Gontrum, J.; Fano, E.; Nivre, J. (2019), "Deep Contextualized Word Embeddings in Transition-Based and Graph-Based Dependency Parsing - A Tale of Two Parsers Revisited". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). P. 2755–2768. DOI: 10.18653/v1/D19-1277

Honnibal M.; Johnson M. (2015), "An Improved Non-monotonic Transition System for Dependency Parsing". Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. P. 1373–1378. DOI: 10.18653/v1/D15-1162

De Marneffe, M.-C.; Manning, C.; Nivre, J.; Zeman, D. (2021), "Universal Dependencies". Computational Linguistics. Vol. 47. No. 2. P. 255–308. DOI: 10.1162/coli_a_00402

Chaplynskyi D. (2023), "Introducing UberText 2.0: A Corpus of Modern Ukrainian at Scale". Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP). P. 1–10. DOI: 10.18653/v1/2023.unlp-1.1

Starko V.; Rysin A. (2023), "Creating a POS Gold Standard Corpus of Modern Ukrainian". Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP). P. 91–95. DOI: 10.18653/v1/2023.unlp-1.11.

Shvedova M.; Lukashevskyi A. (2024), "UD_Ukrainian-ParlaMint". URL: https://github.com/UniversalDependencies/UD_Ukrainian-ParlaMint.

De Lhoneux, M.; Stymne S.; Nivre J. (2017), "Arc-Hybrid Non-Projective Dependency Parsing with a Static-Dynamic Oracle". Proceedings of the 15th International Conference on Parsing Technologies. P. 99–104. URL: https://aclanthology.org/W17-6314/

Peters, M.; Neumann, M.; Iyyer, M.; Gardner, M.; Clark, C.; Lee, K.; Zettlemoyer, L. (2018), "Deep Contextualized Word Representations". Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). P. 2227–2237. DOI: 10.18653/v1/N18-1202

Che, W.; Liu, Y.; Wang, Y.; Zheng, B.; Liu, T. (2018), "Towards Better UD Parsing: Deep Contextualized Word Embeddings, Ensemble, and Treebank Concatenation". Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. P. 55–64. DOI: 10.18653/v1/K18-2005

Eisner J. (1996), "Three New Probabilistic Models for Dependency Parsing: An Exploration". COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics. P. 340–345. URL: https://aclanthology.org/C96-1058/

Nivre J.; Hall J.; Nilsson J. (2004), "Memory-Based Dependency Parsing". Proceedings of the Eighth Conference on Computational Natural Language Learning (CoNLL-2004) at HLT-NAACL 2004. P. 49–56. URL: https://aclanthology.org/W04-2407/

Nivre J.; Fang C.-T. (2017), "Universal Dependency Evaluation". Proceedings of the NoDaLiDa 2017 Workshop on Universal Dependencies (UDW 2017). P. 86–95. URL: https://aclanthology.org/W17-0411/

##submission.downloads##

Опубліковано

2025-07-08

Як цитувати

Сироткін, К. (2025). Оцінювання точності та аналіз помилок розбору залежностей для текстів українською мовою. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (2(32), 102–110. https://doi.org/10.30837/2522-9818.2025.2.102