Оцінювання ефективності великих мовних моделей для вилучення сутностей з неструктурованих документів

Автор(и)

  • Олександр Олександрович Шишацький Національний технічний університет «Дніпровська політехніка», Україна https://orcid.org/0009-0008-6008-7079
  • Борис Іванович Мороз Національний технічний університет «Дніпровська політехніка», Україна https://orcid.org/0000-0002-5625-0864
  • Максим Вікторович Євланов Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0002-6703-5166
  • Ігор Вікторович Левикін Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0001-8086-237X
  • Дмитро Максимович Мороз Національний технічний університет «Дніпровська політехніка», Україна https://orcid.org/0000-0003-2577-3352

DOI:

https://doi.org/10.15587/2706-5448.2025.341926

Ключові слова:

юридичний неструктурований документ, структурована анотація документу, вартість обробки токенів, GPT-4.1-mini

Анотація

Об’єкт дослідження – масиви неструктурованих документів, які розташовано на публічних веб-сайтах сільських та міських громад України.

Дослідження присвячено вирішенню проблеми вибору великої мовної моделі (LLM), яка є найкращою для прикладного використання у вирішенні задач розпізнавання іменованих сутностей (NER) під час обробки документів. Сучасні дослідники визнають, що на подібний вибір суттєво впливають особливості предметної галузі та мови створення документів. Але під час вивчення доцільності застосування LLM для вирішення задач NER особливості експлуатації таких моделей практично не враховуються. Питання оцінювання таких особливостей залишаються значною мірою недослідженими.

Запропоновано метод розпізнавання обраних різновидів юридичних неструктурованих текстів українською мовою. На відміну від існуючих, цей метод вирішує задачу NER для тих документів, які підлягають розпізнаванню/класифікації. Запропоновані метрики вартості обробки вхідних та вихідних токенів та розроблено методику оцінювання вартості використання LLM. На основі цих результатів проведено порівняльне оцінювання застосування розповсюджених LLM для вирішення задачі NER над текстами українською мовою, які слід розпізнати. За результатами оцінювання визнано: (I) за точністю та якістю обробки найкращою є GPT-4o (Precision = 0.919; Recall = 0.954; F1 = 0.936); (II) за значенням середньої вартості обробки документа найкращою є GPT-4o-mini із знижками (0.00045 дол. США за документ); (III) за співвідношенням «якість/вартість» найкращою є GPT-4.1-mini із знижками (значення показника дорівнює 0.938). Як найкращу для прикладного застосування рекомендовано LLM GPT-4.1-mini.

Отримані результати оцінювання дозволяють значно спростити вибір LLM, яку доцільно використовувати для створення інформаційних систем і технології обробки неструктурованих документів, створених українською мовою.

Біографії авторів

Олександр Олександрович Шишацький, Національний технічний університет «Дніпровська політехніка»

Аспірант

Кафедра програмного забезпечення комп’ютерних систем

Борис Іванович Мороз, Національний технічний університет «Дніпровська політехніка»

Доктор технічних наук

Кафедра програмного забезпечення комп’ютерних систем

Максим Вікторович Євланов, Харківський національний університет радіоелектроніки

Доктор технічних наук

Кафедра інформаційних управляючих систем

Ігор Вікторович Левикін, Харківський національний університет радіоелектроніки

Доктор технічних наук

Кафедра медіасистем та технологій

Дмитро Максимович Мороз, Національний технічний університет «Дніпровська політехніка»

Доктор філософії

Кафедра програмного забезпечення комп’ютерних систем

Посилання

  1. Jonker, A., Gomstyn, A. (2025). Structured vs. unstructured data: What's the difference? IBM. Available at: https://www.ibm.com/think/topics/structured-vs-unstructured-data Last accessed: 26.08.2025
  2. What is text mining? IBM. Available at: https://www.ibm.com/think/topics/text-mining Last accessed: 26.08.2025
  3. What Percentage of Data is Unstructured? 3 Must-Know Statistics (2024). Edge Delta. Available at: https://edgedelta.com/company/blog/what-percentage-of-data-is-unstructured Last accessed: 26.08.2025
  4. Shcho take rozpiznavannia imenovanykh sutnostei (NER) – pryklad, vypadky vykorystannia, perevahy ta problemy (2025). Shaip. Available at: https://uk.shaip.com/blog/named-entity-recognition-and-its-types/ Last accessed: 26.08.2025
  5. Seow, W. L., Chaturvedi, I., Hogarth, A., Mao, R., Cambria, E. (2025). A review of named entity recognition: from learning methods to modelling paradigms and tasks. Artificial Intelligence Review, 58 (10). https://doi.org/10.1007/s10462-025-11321-8
  6. Pitsilou, V., Papadakis, G., Skoutas, D. (2024). Using LLMs to Extract Food Entities from Cooking Recipes. 2024 IEEE 40th International Conference on Data Engineering Workshops (ICDEW). Utrecht, 21–28. https://doi.org/10.1109/icdew61823.2024.00008
  7. Brach, W., Košťál, K., Ries, M. (2025). The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats. IEEE Access, 13, 91808–91825. https://doi.org/10.1109/access.2025.3573030
  8. Zeginis, D., Kalampokis, E., Tarabanis, K. (2024). Applying an ontology-aware zero-shot LLM prompting approach for information extraction in Greek: the case of DIAVGEIA gov gr. Proceedings of the 28th Pan-Hellenic Conference on Progress in Computing and Informatics. New York, 324–330. https://doi.org/10.1145/3716554.3716603
  9. Liu, Y., Hou, J., Chen, Y., Jin, J., Wang, W. (2025). LLM-ACNC: Aerospace Requirement Texts Knowledge Graph Construction Utilizing Large Language Model. Aerospace, 12 (6), 463. https://doi.org/10.3390/aerospace12060463
  10. Truhn, D., Loeffler, C. M., Müller‐Franzes, G., Nebelung, S., Hewitt, K. J., Brandner, S. et al. (2023). Extracting structured information from unstructured histopathology reports using generative pre‐trained transformer 4 (GPT‐4). The Journal of Pathology, 262 (3), 310–319. https://doi.org/10.1002/path.6232
  11. Hu, Y., Chen, Q., Du, J., Peng, X., Keloth, V. K., Zuo, X. et al. (2024). Improving large language models for clinical named entity recognition via prompt engineering. Journal of the American Medical Informatics Association, 31 (9), 1812–1820. https://doi.org/10.1093/jamia/ocad259
  12. del Moral-González, R., Gómez-Adorno, H., Ramos-Flores, O. (2025). Comparative analysis of generative LLMs for labeling entities in clinical notes. Genomics & Informatics, 23 (1). https://doi.org/10.1186/s44342-024-00036-x
  13. Campillos-Llanos, L., Valverde-Mateos, A., Capllonch-Carrión, A. (2025). Hybrid natural language processing tool for semantic annotation of medical texts in Spanish. BMC Bioinformatics, 26 (1). https://doi.org/10.1186/s12859-024-05949-6
  14. Xu, Q., Liu, Y., Wang, D., Huang, S. (2025). Automatic recognition of cross-language classic entities based on large language models. Npj Heritage Science, 13 (1). https://doi.org/10.1038/s40494-025-01624-y
  15. Shyshatskyi, O. (2025). Dataset and additional materials. GitHub. Available at: https://github.com/oshyshatskyi-phd/public-docs-processing Last accessed: 26.08.2025
  16. Gemini models that support batch predictions. Google Cloud. Available at: https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/batch-prediction-gemini#models_that_support_batch_predictions Last accessed: 21.06.2025
  17. Pricing. OpenAI platform. Available at: https://platform.openai.com/docs/pricing Last accessed: 21.06.2025
  18. Models & Pricing. Deepseek API Docs. Available at: https://api-docs.deepseek.com/quick_start/pricing Last accessed: 21.06.2025
Evaluation of the efficiency of large language models for extracting entities from unstructured documents

##submission.downloads##

Опубліковано

2025-12-29

Як цитувати

Шишацький, О. О., Мороз, Б. І., Євланов, М. В., Левикін, І. В., & Мороз, Д. М. (2025). Оцінювання ефективності великих мовних моделей для вилучення сутностей з неструктурованих документів. Technology Audit and Production Reserves, 6(2(86), 57–67. https://doi.org/10.15587/2706-5448.2025.341926

Номер

Розділ

Системи та процеси керування