Evaluation of the efficiency of large language models for extracting entities from unstructured documents

Олександр Олександрович Шишацький; Борис Іванович Мороз; Максим Вікторович Євланов; Ігор Вікторович Левикін; Дмитро Максимович Мороз

doi:10.15587/2706-5448.2025.341926

Автор(и)

Олександр Олександрович Шишацький Національний технічний університет «Дніпровська політехніка», Україна https://orcid.org/0009-0008-6008-7079
Борис Іванович Мороз Національний технічний університет «Дніпровська політехніка», Україна https://orcid.org/0000-0002-5625-0864
Максим Вікторович Євланов Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0002-6703-5166
Ігор Вікторович Левикін Харківський національний університет радіоелектроніки, Україна https://orcid.org/0000-0001-8086-237X
Дмитро Максимович Мороз Національний технічний університет «Дніпровська політехніка», Україна https://orcid.org/0000-0003-2577-3352

DOI:

https://doi.org/10.15587/2706-5448.2025.341926

Ключові слова:

юридичний неструктурований документ, структурована анотація документу, вартість обробки токенів, GPT-4.1-mini

Анотація

Об’єкт дослідження – масиви неструктурованих документів, які розташовано на публічних веб-сайтах сільських та міських громад України.

Дослідження присвячено вирішенню проблеми вибору великої мовної моделі (LLM), яка є найкращою для прикладного використання у вирішенні задач розпізнавання іменованих сутностей (NER) під час обробки документів. Сучасні дослідники визнають, що на подібний вибір суттєво впливають особливості предметної галузі та мови створення документів. Але під час вивчення доцільності застосування LLM для вирішення задач NER особливості експлуатації таких моделей практично не враховуються. Питання оцінювання таких особливостей залишаються значною мірою недослідженими.

Запропоновано метод розпізнавання обраних різновидів юридичних неструктурованих текстів українською мовою. На відміну від існуючих, цей метод вирішує задачу NER для тих документів, які підлягають розпізнаванню/класифікації. Запропоновані метрики вартості обробки вхідних та вихідних токенів та розроблено методику оцінювання вартості використання LLM. На основі цих результатів проведено порівняльне оцінювання застосування розповсюджених LLM для вирішення задачі NER над текстами українською мовою, які слід розпізнати. За результатами оцінювання визнано: (I) за точністю та якістю обробки найкращою є GPT-4o (Precision = 0.919; Recall = 0.954; F1 = 0.936); (II) за значенням середньої вартості обробки документа найкращою є GPT-4o-mini із знижками (0.00045 дол. США за документ); (III) за співвідношенням «якість/вартість» найкращою є GPT-4.1-mini із знижками (значення показника дорівнює 0.938). Як найкращу для прикладного застосування рекомендовано LLM GPT-4.1-mini.

Отримані результати оцінювання дозволяють значно спростити вибір LLM, яку доцільно використовувати для створення інформаційних систем і технології обробки неструктурованих документів, створених українською мовою.

Біографії авторів

Олександр Олександрович Шишацький, Національний технічний університет «Дніпровська політехніка»

Аспірант

Кафедра програмного забезпечення комп’ютерних систем

Борис Іванович Мороз, Національний технічний університет «Дніпровська політехніка»

Доктор технічних наук

Кафедра програмного забезпечення комп’ютерних систем

Максим Вікторович Євланов, Харківський національний університет радіоелектроніки

Доктор технічних наук

Кафедра інформаційних управляючих систем

Ігор Вікторович Левикін, Харківський національний університет радіоелектроніки

Доктор технічних наук

Кафедра медіасистем та технологій

Дмитро Максимович Мороз, Національний технічний університет «Дніпровська політехніка»

Доктор філософії

Кафедра програмного забезпечення комп’ютерних систем

Посилання

Jonker, A., Gomstyn, A. (2025). Structured vs. unstructured data: What's the difference? IBM. Available at: https://www.ibm.com/think/topics/structured-vs-unstructured-data Last accessed: 26.08.2025
What is text mining? IBM. Available at: https://www.ibm.com/think/topics/text-mining Last accessed: 26.08.2025
What Percentage of Data is Unstructured? 3 Must-Know Statistics (2024). Edge Delta. Available at: https://edgedelta.com/company/blog/what-percentage-of-data-is-unstructured Last accessed: 26.08.2025
Shcho take rozpiznavannia imenovanykh sutnostei (NER) – pryklad, vypadky vykorystannia, perevahy ta problemy (2025). Shaip. Available at: https://uk.shaip.com/blog/named-entity-recognition-and-its-types/ Last accessed: 26.08.2025
Seow, W. L., Chaturvedi, I., Hogarth, A., Mao, R., Cambria, E. (2025). A review of named entity recognition: from learning methods to modelling paradigms and tasks. Artificial Intelligence Review, 58 (10). https://doi.org/10.1007/s10462-025-11321-8
Pitsilou, V., Papadakis, G., Skoutas, D. (2024). Using LLMs to Extract Food Entities from Cooking Recipes. 2024 IEEE 40th International Conference on Data Engineering Workshops (ICDEW). Utrecht, 21–28. https://doi.org/10.1109/icdew61823.2024.00008
Brach, W., Košťál, K., Ries, M. (2025). The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats. IEEE Access, 13, 91808–91825. https://doi.org/10.1109/access.2025.3573030
Zeginis, D., Kalampokis, E., Tarabanis, K. (2024). Applying an ontology-aware zero-shot LLM prompting approach for information extraction in Greek: the case of DIAVGEIA gov gr. Proceedings of the 28th Pan-Hellenic Conference on Progress in Computing and Informatics. New York, 324–330. https://doi.org/10.1145/3716554.3716603
Liu, Y., Hou, J., Chen, Y., Jin, J., Wang, W. (2025). LLM-ACNC: Aerospace Requirement Texts Knowledge Graph Construction Utilizing Large Language Model. Aerospace, 12 (6), 463. https://doi.org/10.3390/aerospace12060463
Truhn, D., Loeffler, C. M., Müller‐Franzes, G., Nebelung, S., Hewitt, K. J., Brandner, S. et al. (2023). Extracting structured information from unstructured histopathology reports using generative pre‐trained transformer 4 (GPT‐4). The Journal of Pathology, 262 (3), 310–319. https://doi.org/10.1002/path.6232
Hu, Y., Chen, Q., Du, J., Peng, X., Keloth, V. K., Zuo, X. et al. (2024). Improving large language models for clinical named entity recognition via prompt engineering. Journal of the American Medical Informatics Association, 31 (9), 1812–1820. https://doi.org/10.1093/jamia/ocad259
del Moral-González, R., Gómez-Adorno, H., Ramos-Flores, O. (2025). Comparative analysis of generative LLMs for labeling entities in clinical notes. Genomics & Informatics, 23 (1). https://doi.org/10.1186/s44342-024-00036-x
Campillos-Llanos, L., Valverde-Mateos, A., Capllonch-Carrión, A. (2025). Hybrid natural language processing tool for semantic annotation of medical texts in Spanish. BMC Bioinformatics, 26 (1). https://doi.org/10.1186/s12859-024-05949-6
Xu, Q., Liu, Y., Wang, D., Huang, S. (2025). Automatic recognition of cross-language classic entities based on large language models. Npj Heritage Science, 13 (1). https://doi.org/10.1038/s40494-025-01624-y
Shyshatskyi, O. (2025). Dataset and additional materials. GitHub. Available at: https://github.com/oshyshatskyi-phd/public-docs-processing Last accessed: 26.08.2025
Gemini models that support batch predictions. Google Cloud. Available at: https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/batch-prediction-gemini#models_that_support_batch_predictions Last accessed: 21.06.2025
Pricing. OpenAI platform. Available at: https://platform.openai.com/docs/pricing Last accessed: 21.06.2025
Models & Pricing. Deepseek API Docs. Available at: https://api-docs.deepseek.com/quick_start/pricing Last accessed: 21.06.2025

Оцінювання ефективності великих мовних моделей для вилучення сутностей з неструктурованих документів

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Олександр Олександрович Шишацький, Національний технічний університет «Дніпровська політехніка»

Борис Іванович Мороз, Національний технічний університет «Дніпровська політехніка»

Максим Вікторович Євланов, Харківський національний університет радіоелектроніки

Ігор Вікторович Левикін, Харківський національний університет радіоелектроніки

Дмитро Максимович Мороз, Національний технічний університет «Дніпровська політехніка»

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Information site

Мова

Інформація

##plugins.block.developedBy.blockTitle##

Поточний номер