Оцінювання ефективності великих мовних моделей для вилучення сутностей з неструктурованих документів
DOI:
https://doi.org/10.15587/2706-5448.2025.341926Ключові слова:
юридичний неструктурований документ, структурована анотація документу, вартість обробки токенів, GPT-4.1-miniАнотація
Об’єкт дослідження – масиви неструктурованих документів, які розташовано на публічних веб-сайтах сільських та міських громад України.
Дослідження присвячено вирішенню проблеми вибору великої мовної моделі (LLM), яка є найкращою для прикладного використання у вирішенні задач розпізнавання іменованих сутностей (NER) під час обробки документів. Сучасні дослідники визнають, що на подібний вибір суттєво впливають особливості предметної галузі та мови створення документів. Але під час вивчення доцільності застосування LLM для вирішення задач NER особливості експлуатації таких моделей практично не враховуються. Питання оцінювання таких особливостей залишаються значною мірою недослідженими.
Запропоновано метод розпізнавання обраних різновидів юридичних неструктурованих текстів українською мовою. На відміну від існуючих, цей метод вирішує задачу NER для тих документів, які підлягають розпізнаванню/класифікації. Запропоновані метрики вартості обробки вхідних та вихідних токенів та розроблено методику оцінювання вартості використання LLM. На основі цих результатів проведено порівняльне оцінювання застосування розповсюджених LLM для вирішення задачі NER над текстами українською мовою, які слід розпізнати. За результатами оцінювання визнано: (I) за точністю та якістю обробки найкращою є GPT-4o (Precision = 0.919; Recall = 0.954; F1 = 0.936); (II) за значенням середньої вартості обробки документа найкращою є GPT-4o-mini із знижками (0.00045 дол. США за документ); (III) за співвідношенням «якість/вартість» найкращою є GPT-4.1-mini із знижками (значення показника дорівнює 0.938). Як найкращу для прикладного застосування рекомендовано LLM GPT-4.1-mini.
Отримані результати оцінювання дозволяють значно спростити вибір LLM, яку доцільно використовувати для створення інформаційних систем і технології обробки неструктурованих документів, створених українською мовою.
Посилання
- Jonker, A., Gomstyn, A. (2025). Structured vs. unstructured data: What's the difference? IBM. Available at: https://www.ibm.com/think/topics/structured-vs-unstructured-data Last accessed: 26.08.2025
- What is text mining? IBM. Available at: https://www.ibm.com/think/topics/text-mining Last accessed: 26.08.2025
- What Percentage of Data is Unstructured? 3 Must-Know Statistics (2024). Edge Delta. Available at: https://edgedelta.com/company/blog/what-percentage-of-data-is-unstructured Last accessed: 26.08.2025
- Shcho take rozpiznavannia imenovanykh sutnostei (NER) – pryklad, vypadky vykorystannia, perevahy ta problemy (2025). Shaip. Available at: https://uk.shaip.com/blog/named-entity-recognition-and-its-types/ Last accessed: 26.08.2025
- Seow, W. L., Chaturvedi, I., Hogarth, A., Mao, R., Cambria, E. (2025). A review of named entity recognition: from learning methods to modelling paradigms and tasks. Artificial Intelligence Review, 58 (10). https://doi.org/10.1007/s10462-025-11321-8
- Pitsilou, V., Papadakis, G., Skoutas, D. (2024). Using LLMs to Extract Food Entities from Cooking Recipes. 2024 IEEE 40th International Conference on Data Engineering Workshops (ICDEW). Utrecht, 21–28. https://doi.org/10.1109/icdew61823.2024.00008
- Brach, W., Košťál, K., Ries, M. (2025). The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats. IEEE Access, 13, 91808–91825. https://doi.org/10.1109/access.2025.3573030
- Zeginis, D., Kalampokis, E., Tarabanis, K. (2024). Applying an ontology-aware zero-shot LLM prompting approach for information extraction in Greek: the case of DIAVGEIA gov gr. Proceedings of the 28th Pan-Hellenic Conference on Progress in Computing and Informatics. New York, 324–330. https://doi.org/10.1145/3716554.3716603
- Liu, Y., Hou, J., Chen, Y., Jin, J., Wang, W. (2025). LLM-ACNC: Aerospace Requirement Texts Knowledge Graph Construction Utilizing Large Language Model. Aerospace, 12 (6), 463. https://doi.org/10.3390/aerospace12060463
- Truhn, D., Loeffler, C. M., Müller‐Franzes, G., Nebelung, S., Hewitt, K. J., Brandner, S. et al. (2023). Extracting structured information from unstructured histopathology reports using generative pre‐trained transformer 4 (GPT‐4). The Journal of Pathology, 262 (3), 310–319. https://doi.org/10.1002/path.6232
- Hu, Y., Chen, Q., Du, J., Peng, X., Keloth, V. K., Zuo, X. et al. (2024). Improving large language models for clinical named entity recognition via prompt engineering. Journal of the American Medical Informatics Association, 31 (9), 1812–1820. https://doi.org/10.1093/jamia/ocad259
- del Moral-González, R., Gómez-Adorno, H., Ramos-Flores, O. (2025). Comparative analysis of generative LLMs for labeling entities in clinical notes. Genomics & Informatics, 23 (1). https://doi.org/10.1186/s44342-024-00036-x
- Campillos-Llanos, L., Valverde-Mateos, A., Capllonch-Carrión, A. (2025). Hybrid natural language processing tool for semantic annotation of medical texts in Spanish. BMC Bioinformatics, 26 (1). https://doi.org/10.1186/s12859-024-05949-6
- Xu, Q., Liu, Y., Wang, D., Huang, S. (2025). Automatic recognition of cross-language classic entities based on large language models. Npj Heritage Science, 13 (1). https://doi.org/10.1038/s40494-025-01624-y
- Shyshatskyi, O. (2025). Dataset and additional materials. GitHub. Available at: https://github.com/oshyshatskyi-phd/public-docs-processing Last accessed: 26.08.2025
- Gemini models that support batch predictions. Google Cloud. Available at: https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/batch-prediction-gemini#models_that_support_batch_predictions Last accessed: 21.06.2025
- Pricing. OpenAI platform. Available at: https://platform.openai.com/docs/pricing Last accessed: 21.06.2025
- Models & Pricing. Deepseek API Docs. Available at: https://api-docs.deepseek.com/quick_start/pricing Last accessed: 21.06.2025
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Oleksandr Shyshatskyi, Borys Moroz, Maksym Ievlanov, Ihor Levykin, Dmytro Moroz

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.




