Development of a rule-based LLM prompting method for high-accuracy event-schema evolution

Роман Михайлович Малий; Павло Віталійович Сердюк

doi:10.15587/2706-5448.2025.342365

Автор(и)

Роман Михайлович Малий Національний університет "Львівська Політехніка", Україна https://orcid.org/0000-0002-2255-1132
Павло Віталійович Сердюк Національний університет "Львівська Політехніка", Україна https://orcid.org/0000-0002-2677-3170

DOI:

https://doi.org/10.15587/2706-5448.2025.342365

Ключові слова:

еволюція даних, прийняття рішень, джерело подій, великі мовні моделі

Анотація

Об’єктом цього дослідження є процес вибору архітектурної стратегії для еволюції схеми подій у системах, що використовують підхід джерела подій. Цей процес включає складні архітектурні компроміси та є критично важливим завданням для підтримки цілісності та довгострокової життєздатності незмінного журналу подій.

Проблема, що вирішується, полягає в нестабільній продуктивності та обмеженій надійності стандартних технік запитів до ВММ, таких як навчання на кількох прикладах. Ці методи покладаються на евристичне зіставлення шаблонів і тому не мають систематичної основи, необхідної для ухвалення архітектурних рішень із високими ставками. Ця проблема ускладнюється суб'єктивністю, властивою ручному процесу вибору, що здійснюється інженерами.

Основним результатом є розробка методу «атомної таксономії», що базується на правилах. Цей підхід дозволив великомасштабним моделям (GPT-5, Gemini-2.5-pro) досягти ідеальної прогностичної продуктивності (1.0 Макро F1-оцінка), водночас погіршивши показники більшості моделей середнього розміру порівняно з базовим методом запитів на кількох прикладах.

Така розбіжність пояснюється когнітивними вимогами завдання. Запропонований метод переводить процес від евристичного зіставлення шаблонів до структурованого, композиційного мислення. Результати вказують, що великі моделі мають необхідні архітектурні можливості для виконання цієї формальної логіки, тоді як моделі середнього розміру перевантажені її когнітивною складністю, що робить простіший підхід на основі прикладів більш ефективним для них.

На практиці отримані результати надають чіткі, дієві рекомендації для архітекторів. Атомна таксономія слугує надійною основою для допомоги в ухваленні рішень вручну. Для автоматизованих систем підтримки її застосування рекомендується виключно з великомасштабними ВММ, здатними до просунутого мислення. Дослідження доходить висновку, що для систем, які використовують менші, більш ефективні моделі, традиційні запити на кількох прикладах залишаються більш надійною та кращою стратегією.

Біографії авторів

Роман Михайлович Малий, Національний університет "Львівська Політехніка"

Аспірант, асистент

Кафедра програмного забезпечення

Павло Віталійович Сердюк, Національний університет "Львівська Політехніка"

Кандидат технічних наук, доцент

Кафедра програмного забезпечення

Посилання

Alongi, F., Bersani, M. M., Ghielmetti, N., Mirandola, R., Tamburri, D. A. (2022). Event‐sourced, observable software architectures: An experience report. Software: Practice and Experience, 52 (10), 2127–2151. https://doi.org/10.1002/spe.3116
Lima, S., Correia, J., Araujo, F., Cardoso, J. (2021). Improving observability in Event Sourcing systems. Journal of Systems and Software, 181, 111015. https://doi.org/10.1016/j.jss.2021.111015
Overeem, M., Spoor, M., Jansen, S. (2017). The dark side of event sourcing: Managing data conversion. 2017 IEEE 24th International Conference on Software Analysis, Evolution and Reengineering (SANER). Klagenfurt: IEEE, 193–204. https://doi.org/10.1109/saner.2017.7884621
Lytvynov, O., Hruzin, D. (2025). Decision-making on Command Query Responsibility Segregation with Event Sourcing architectural variations. Technology Audit and Production Reserves, 4 (2 (84)), 37–59. https://doi.org/10.15587/2706-5448.2025.337168
Remadi, A., El Hage, K., Hobeika, Y., Bugiotti, F. (2024). To prompt or not to prompt: Navigating the use of Large Language Models for integrating and modeling heterogeneous data. Data & Knowledge Engineering, 152, 102313. https://doi.org/10.1016/j.datak.2024.102313
Zhou, X., Zhao, X., Li, G. (2024). LLM-Enhanced Data Management. arXiv. https://doi.org/10.48550/arxiv.2402.02643
Vyshnevskyy, O., Zhuravchak, L. (2025). Combined Large Language Models and Ontology Approach for Energy Consumption Analysis Software. CEUR Workshop Proceedings, 4035, 213–226. Available at: https://ceur-ws.org/Vol-4035/Paper18.pdf
Ojuri, S., Han, T. A., Chiong, R., Di Stefano, A. (2025). Optimizing text-to-SQL conversion techniques through the integration of intelligent agents and large language models. Information Processing & Management, 62 (5), 104136. https://doi.org/10.1016/j.ipm.2025.104136
Bajgoti, A., Gupta, R., Dwivedi, R. (2025). ASKSQL: Enabling cost-effective natural language to SQL conversion for enhanced analytics and search. Machine Learning with Applications, 20, 100641. https://doi.org/10.1016/j.mlwa.2025.100641
Overeem, M., Spoor, M., Jansen, S., Brinkkemper, S. (2021). An empirical characterization of event sourced systems and their schema evolution – Lessons from industry. Journal of Systems and Software, 178, 110970. https://doi.org/10.1016/j.jss.2021.110970
López Espejel, J., Ettifouri, E. H., Yahaya Alassan, M. S., Chouham, E. M., Dahhane, W. (2023). GPT-3.5, GPT-4, or BARD? Evaluating LLMs reasoning ability in zero-shot setting and performance boosting through prompts. Natural Language Processing Journal, 5, 100032. https://doi.org/10.1016/j.nlp.2023.100032
Loo, A., Pavlick, E., Feiman, R. (2026). LLMs model how humans induce logically structured rules. Journal of Memory and Language, 146, 104675. https://doi.org/10.1016/j.jml.2025.104675
Musker, S., Duchnowski, A., Millière, R., Pavlick, E. (2025). LLMs as models for analogical reasoning. Journal of Memory and Language, 145, 104676. https://doi.org/10.1016/j.jml.2025.104676
Wang, Y., Coiera, E., Gallego, B., Concha, O. P., Ong, M.-S., Tsafnat, G. et al. (2016). Measuring the effects of computer downtime on hospital pathology processes. Journal of Biomedical Informatics, 59, 308–315. https://doi.org/10.1016/j.jbi.2015.12.016
Klettke, M., Storl, U., Shenavai, M., Scherzinger, S. (2016). NoSQL schema evolution and big data migration at scale. 2016 IEEE International Conference on Big Data (Big Data). Washington: IEEE, 2764–2774. https://doi.org/10.1109/bigdata.2016.7840924
Carvalho, I., Sá, F., Bernardino, J. (2023). Performance Evaluation of NoSQL Document Databases: Couchbase, CouchDB, and MongoDB. Algorithms, 16 (2), 78. https://doi.org/10.3390/a16020078
Jolak, R., Karlsson, S., Dobslaw, F. (2025). An empirical investigation of the impact of architectural smells on software maintainability. Journal of Systems and Software, 225, 112382. https://doi.org/10.1016/j.jss.2025.112382
Fedushko, S., Malyi, R., Syerov, Y., Serdyuk, P. (2024). NoSQL document data migration strategy in the context of schema evolution. Data & Knowledge Engineering, 154, 102369. https://doi.org/10.1016/j.datak.2024.102369
Chen, B., Zhang, Z., Langrené, N., Zhu, S. (2025). Unleashing the potential of prompt engineering for large language models. Patterns, 6 (6), 101260. https://doi.org/10.1016/j.patter.2025.101260
Malyi, R., Serdyuk, P. (2025). Test Cases. Zenodo. https://doi.org/10.5281/zenodo.17455591
Malyi, R., Serdyuk, P. (2025). Few-shot and atomic prompts. Zenodo. https://doi.org/10.5281/zenodo.17455986