Оцінювання точності та аналіз помилок розбору залежностей для текстів українською мовою
DOI:
https://doi.org/10.30837/2522-9818.2025.2.102Анотація
Предметом дослідження є розбір залежностей в межах фреймворку Universal Dependencies для речень українською мовою. Метою роботи є оцінювання і порівняння точності розбору залежностей, яка досягається декількома сучасними системами на стандартному наборі даних українською мовою, а також аналіз профілю помилок таких систем. У статті виконано два завдання. Перше – оцінювання точності декількох сучасних систем розбору залежностей із використанням анотованого вручну стандартного набору даних. Метрикою точності обрано відсоток правильно побудованих позначених та непозначених зв’язків. Друге завдання – аналіз та категоризація помилок, яких припускаються стандартні системи. Виявлення та усунення цих помилок потенційно дасть змогу в подальшому створити більш точну систему розбору. У досліджуваних системах використовуються методи машинного навчання і нейронних мереж разом з методами теорії автоматів і теорії графів, а також глибокі векторні подання слів. Основні результати. Для української мови точність синтаксичного розбору значно підвищується з використанням глибокого векторного подання слів. Система на основі переходів із глибоким векторним поданням слів забезпечує найвищий показник точності побудови позначених зв’язків на рівні 84,66% для тестового набору даних. Для цієї самої системи підвищення рівня помилок спостерігається для непроєктивних залежностей, довших речень і більшої відстані до основного слова. Крім того, для займенників і числівників рівень помилок для позначених зв’язків значно перевищує базовий рівень, тоді як помилки для непозначених зв’язків залишаються на базовому рівні. Висновки: точність розбору залежностей для української мови поступається аналогічним показникам для інших мов, однак загальна тенденція підвищення точності з використанням глибокого векторного подання слів узгоджується з результатами попередніх досліджень. Для покращення загальної точності розбору важливо зосередитися на таких проблемних аспектах, як непроєктивні залежності, довгі речення та велика відстань між основним і залежним словами. У подальших дослідженнях заплановано дослідити можливості підвищення точності синтаксичного розбору способом доповнення підходу на основі машинного навчання іншими методами, зокрема використанням формальних правил або етапів попереднього та подальшого оброблення.
Посилання
References
Tsarfaty, R.; Seddah, D.; Goldberg, Y.; Kuebler, S.; Versley, Y.; Candito, M.; Foster, J.; Rehbein, I.; Tounsi, L. (2010), "Statistical Parsing of Morphologically Rich Languages (SPMRL) What, How and Whither". Proceedings of the NAACL HLT 2010 First Workshop on Statistical Parsing of Morphologically-Rich Languages. P. 1–12. URL: https://aclanthology.org/W10-1401/
Kotsyba, N.; Moskalevskyi, B.; Romanenko, M.; Samoridna, H.; Kosovska, I.; Lytvyn, O.; Orlenko, O.; Brovko, H.; Matushko, B.; Onyshchuk, N.; Pareviazko, V.; Rychyk, Y.; Stetsenko, A.; Umanets, S.; Masenko, L. (2021), "Gold standard Universal Dependencies corpus for Ukrainian (UD_Ukrainian-IU) v2.8". URL: https://github.com/UniversalDependencies/UD_Ukrainian-IU.
Silveira, N.; Dozat, T., de Marneffe M.-C.; Bowman, S.; Connor M.; Bauer, J.; Manning C. (2014), "A Gold Standard Dependency Corpus for English". Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC-2014). P. 2897–2904. URL: http://www.lrec-conf.org/proceedings/lrec2014/pdf/1089_Paper.pdf
Jurafsky D., Martin J. "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd ed". USA. 2025. 599 p. URL: https://web.stanford.edu/~jurafsky/slp3/
Mikolov, T.; Chen, K.; Corrado, G.; Dean, J. (2013), "Efficient Estimation of Word Representations in Vector Space". arXiv: 1301.3781 [cs.CL]. DOI: 10.48550/arXiv.1301.3781
Kulmizev, A.; de Lhoneux, M.; Gontrum, J.; Fano, E.; Nivre, J. (2019), "Deep Contextualized Word Embeddings in Transition-Based and Graph-Based Dependency Parsing - A Tale of Two Parsers Revisited". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). P. 2755–2768. DOI: 10.18653/v1/D19-1277
Honnibal M.; Johnson M. (2015), "An Improved Non-monotonic Transition System for Dependency Parsing". Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. P. 1373–1378. DOI: 10.18653/v1/D15-1162
De Marneffe, M.-C.; Manning, C.; Nivre, J.; Zeman, D. (2021), "Universal Dependencies". Computational Linguistics. Vol. 47. No. 2. P. 255–308. DOI: 10.1162/coli_a_00402
Chaplynskyi D. (2023), "Introducing UberText 2.0: A Corpus of Modern Ukrainian at Scale". Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP). P. 1–10. DOI: 10.18653/v1/2023.unlp-1.1
Starko V.; Rysin A. (2023), "Creating a POS Gold Standard Corpus of Modern Ukrainian". Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP). P. 91–95. DOI: 10.18653/v1/2023.unlp-1.11.
Shvedova M.; Lukashevskyi A. (2024), "UD_Ukrainian-ParlaMint". URL: https://github.com/UniversalDependencies/UD_Ukrainian-ParlaMint.
De Lhoneux, M.; Stymne S.; Nivre J. (2017), "Arc-Hybrid Non-Projective Dependency Parsing with a Static-Dynamic Oracle". Proceedings of the 15th International Conference on Parsing Technologies. P. 99–104. URL: https://aclanthology.org/W17-6314/
Peters, M.; Neumann, M.; Iyyer, M.; Gardner, M.; Clark, C.; Lee, K.; Zettlemoyer, L. (2018), "Deep Contextualized Word Representations". Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). P. 2227–2237. DOI: 10.18653/v1/N18-1202
Che, W.; Liu, Y.; Wang, Y.; Zheng, B.; Liu, T. (2018), "Towards Better UD Parsing: Deep Contextualized Word Embeddings, Ensemble, and Treebank Concatenation". Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. P. 55–64. DOI: 10.18653/v1/K18-2005
Eisner J. (1996), "Three New Probabilistic Models for Dependency Parsing: An Exploration". COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics. P. 340–345. URL: https://aclanthology.org/C96-1058/
Nivre J.; Hall J.; Nilsson J. (2004), "Memory-Based Dependency Parsing". Proceedings of the Eighth Conference on Computational Natural Language Learning (CoNLL-2004) at HLT-NAACL 2004. P. 49–56. URL: https://aclanthology.org/W04-2407/
Nivre J.; Fang C.-T. (2017), "Universal Dependency Evaluation". Proceedings of the NoDaLiDa 2017 Workshop on Universal Dependencies (UDW 2017). P. 86–95. URL: https://aclanthology.org/W17-0411/
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












