Розробка методу LLM запитів на основі правил для забезпечення високої точності в задачах еволюції схем подій
DOI:
https://doi.org/10.15587/2706-5448.2025.342365Ключові слова:
еволюція даних, прийняття рішень, джерело подій, великі мовні моделіАнотація
Об’єктом цього дослідження є процес вибору архітектурної стратегії для еволюції схеми подій у системах, що використовують підхід джерела подій. Цей процес включає складні архітектурні компроміси та є критично важливим завданням для підтримки цілісності та довгострокової життєздатності незмінного журналу подій.
Проблема, що вирішується, полягає в нестабільній продуктивності та обмеженій надійності стандартних технік запитів до ВММ, таких як навчання на кількох прикладах. Ці методи покладаються на евристичне зіставлення шаблонів і тому не мають систематичної основи, необхідної для ухвалення архітектурних рішень із високими ставками. Ця проблема ускладнюється суб'єктивністю, властивою ручному процесу вибору, що здійснюється інженерами.
Основним результатом є розробка методу «атомної таксономії», що базується на правилах. Цей підхід дозволив великомасштабним моделям (GPT-5, Gemini-2.5-pro) досягти ідеальної прогностичної продуктивності (1.0 Макро F1-оцінка), водночас погіршивши показники більшості моделей середнього розміру порівняно з базовим методом запитів на кількох прикладах.
Така розбіжність пояснюється когнітивними вимогами завдання. Запропонований метод переводить процес від евристичного зіставлення шаблонів до структурованого, композиційного мислення. Результати вказують, що великі моделі мають необхідні архітектурні можливості для виконання цієї формальної логіки, тоді як моделі середнього розміру перевантажені її когнітивною складністю, що робить простіший підхід на основі прикладів більш ефективним для них.
На практиці отримані результати надають чіткі, дієві рекомендації для архітекторів. Атомна таксономія слугує надійною основою для допомоги в ухваленні рішень вручну. Для автоматизованих систем підтримки її застосування рекомендується виключно з великомасштабними ВММ, здатними до просунутого мислення. Дослідження доходить висновку, що для систем, які використовують менші, більш ефективні моделі, традиційні запити на кількох прикладах залишаються більш надійною та кращою стратегією.
Посилання
- Alongi, F., Bersani, M. M., Ghielmetti, N., Mirandola, R., Tamburri, D. A. (2022). Event‐sourced, observable software architectures: An experience report. Software: Practice and Experience, 52 (10), 2127–2151. https://doi.org/10.1002/spe.3116
- Lima, S., Correia, J., Araujo, F., Cardoso, J. (2021). Improving observability in Event Sourcing systems. Journal of Systems and Software, 181, 111015. https://doi.org/10.1016/j.jss.2021.111015
- Overeem, M., Spoor, M., Jansen, S. (2017). The dark side of event sourcing: Managing data conversion. 2017 IEEE 24th International Conference on Software Analysis, Evolution and Reengineering (SANER). Klagenfurt: IEEE, 193–204. https://doi.org/10.1109/saner.2017.7884621
- Lytvynov, O., Hruzin, D. (2025). Decision-making on Command Query Responsibility Segregation with Event Sourcing architectural variations. Technology Audit and Production Reserves, 4 (2 (84)), 37–59. https://doi.org/10.15587/2706-5448.2025.337168
- Remadi, A., El Hage, K., Hobeika, Y., Bugiotti, F. (2024). To prompt or not to prompt: Navigating the use of Large Language Models for integrating and modeling heterogeneous data. Data & Knowledge Engineering, 152, 102313. https://doi.org/10.1016/j.datak.2024.102313
- Zhou, X., Zhao, X., Li, G. (2024). LLM-Enhanced Data Management. arXiv. https://doi.org/10.48550/arxiv.2402.02643
- Vyshnevskyy, O., Zhuravchak, L. (2025). Combined Large Language Models and Ontology Approach for Energy Consumption Analysis Software. CEUR Workshop Proceedings, 4035, 213–226. Available at: https://ceur-ws.org/Vol-4035/Paper18.pdf
- Ojuri, S., Han, T. A., Chiong, R., Di Stefano, A. (2025). Optimizing text-to-SQL conversion techniques through the integration of intelligent agents and large language models. Information Processing & Management, 62 (5), 104136. https://doi.org/10.1016/j.ipm.2025.104136
- Bajgoti, A., Gupta, R., Dwivedi, R. (2025). ASKSQL: Enabling cost-effective natural language to SQL conversion for enhanced analytics and search. Machine Learning with Applications, 20, 100641. https://doi.org/10.1016/j.mlwa.2025.100641
- Overeem, M., Spoor, M., Jansen, S., Brinkkemper, S. (2021). An empirical characterization of event sourced systems and their schema evolution – Lessons from industry. Journal of Systems and Software, 178, 110970. https://doi.org/10.1016/j.jss.2021.110970
- López Espejel, J., Ettifouri, E. H., Yahaya Alassan, M. S., Chouham, E. M., Dahhane, W. (2023). GPT-3.5, GPT-4, or BARD? Evaluating LLMs reasoning ability in zero-shot setting and performance boosting through prompts. Natural Language Processing Journal, 5, 100032. https://doi.org/10.1016/j.nlp.2023.100032
- Loo, A., Pavlick, E., Feiman, R. (2026). LLMs model how humans induce logically structured rules. Journal of Memory and Language, 146, 104675. https://doi.org/10.1016/j.jml.2025.104675
- Musker, S., Duchnowski, A., Millière, R., Pavlick, E. (2025). LLMs as models for analogical reasoning. Journal of Memory and Language, 145, 104676. https://doi.org/10.1016/j.jml.2025.104676
- Wang, Y., Coiera, E., Gallego, B., Concha, O. P., Ong, M.-S., Tsafnat, G. et al. (2016). Measuring the effects of computer downtime on hospital pathology processes. Journal of Biomedical Informatics, 59, 308–315. https://doi.org/10.1016/j.jbi.2015.12.016
- Klettke, M., Storl, U., Shenavai, M., Scherzinger, S. (2016). NoSQL schema evolution and big data migration at scale. 2016 IEEE International Conference on Big Data (Big Data). Washington: IEEE, 2764–2774. https://doi.org/10.1109/bigdata.2016.7840924
- Carvalho, I., Sá, F., Bernardino, J. (2023). Performance Evaluation of NoSQL Document Databases: Couchbase, CouchDB, and MongoDB. Algorithms, 16 (2), 78. https://doi.org/10.3390/a16020078
- Jolak, R., Karlsson, S., Dobslaw, F. (2025). An empirical investigation of the impact of architectural smells on software maintainability. Journal of Systems and Software, 225, 112382. https://doi.org/10.1016/j.jss.2025.112382
- Fedushko, S., Malyi, R., Syerov, Y., Serdyuk, P. (2024). NoSQL document data migration strategy in the context of schema evolution. Data & Knowledge Engineering, 154, 102369. https://doi.org/10.1016/j.datak.2024.102369
- Chen, B., Zhang, Z., Langrené, N., Zhu, S. (2025). Unleashing the potential of prompt engineering for large language models. Patterns, 6 (6), 101260. https://doi.org/10.1016/j.patter.2025.101260
- Malyi, R., Serdyuk, P. (2025). Test Cases. Zenodo. https://doi.org/10.5281/zenodo.17455591
- Malyi, R., Serdyuk, P. (2025). Few-shot and atomic prompts. Zenodo. https://doi.org/10.5281/zenodo.17455986
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Roman Malyi, Pavlo Serdyuk

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.




