Розробка стандартизованого підходу до оцінювання бізнес-інсайтів систем потокової обробки даних на основі технічних метрик
DOI:
https://doi.org/10.15587/2706-5448.2025.325717Ключові слова:
зняття метрик, розподілені системи, вимірювання продуктивності, цілі рівня обслуговування (SLO), опрацювання даних в режимі реального часуАнотація
Об'єктом дослідження є процес оцінки потокових обчислювальних фреймворків, зокрема оцінка впливу цілей рівня обслуговування (SLO) у системах обробки даних у реальному часі. Одним з найбільш проблемних місць є відсутність стандартизації у визначенні SLO, що призводить до невідповідності між технічними показниками продуктивності (затримкою, пропускною здатністю) та потребами бізнесу. Також, наявні методології оцінювання переважно оцінюють технічні показники, не враховуючи їхню бізнесову значущість.
В ході дослідження використовувалися методи експериментального аналізу взаємозв’язку затримки та пропускної здатності за різних умов навантаження. Було проведено серію експериментів із потоковою обробкою даних у середовищі Kafka Streams, змінюючи параметри навантаження та ресурсні обмеження. Результати демонструють нелінійний характер взаємозалежності між затримкою та пропускною здатністю. Збільшення швидкості надходження подій може як покращити, так і погіршити продуктивність залежно від ресурсних обмежень і налаштувань Kafka Streams. Дослідження показало, що за стабільних умов затримка знижується з 21 с до 6,2 с, тоді як пропускна здатність зростає з 0,6 подій/с до 72 подій/с. При виникненні обчислювальних навантажень затримка різко зростає до 349 с, а пропускна здатність падає до 32 подій/с, що вказує на значне погіршення продуктивності. Водночас розподілена обробка дозволяє зменшити затримку до 11 с та збільшити пропускну здатність до 169,9 подій/с. Хоча загалом підвищене навантаження сприяє зростанню пропускної здатності, надмірні затримки можуть несподівано її знизити через конкуренцію за ресурси.
Отримані висновки є основою для динамічного коригування SLO з метою оптимізації обробки даних у реальному часі. Запропонований підхід дозволяє уникнути узагальнених і неефективних методів оцінювання продуктивності потокових обчислювальних фреймворків.
Посилання
- Tantalaki, N., Souravlas, S., Roumeliotis, M. (2019). A review on big data real-time stream processing and its scheduling techniques. International Journal of Parallel, Emergent and Distributed Systems, 35 (5), 571–601. https://doi.org/10.1080/17445760.2019.1585848
- Zaharia, M., Das, T., Li, H., Hunter, T., Shenker, S., Stoica, I. (2013). Discretized streams: fault-tolerant streaming computation at scale. Proceedings of the Twenty-Fourth ACM Symposium on Operating Systems Principles, 423–438. https://doi.org/10.1145/2517349.2522737
- Noghabi, S. A., Paramasivam, K., Pan, Y., Ramesh, N., Bringhurst, J., Gupta, I., Campbell, R. H. (2017). Samza: Stateful scalable stream processing at LinkedIn. Proceedings of the VLDB Endowment, 10 (12), 1634–1645. https://doi.org/10.14778/3137765.3137770
- Saxena, S., Gupta, S. (2017). Practical real-time data processing and analytics: distributed computing and event processing using Apache Spark, Flink, Storm, and Kafka. Packt Publishing Ltd., 360.
- Raptis, T. P., Passarella, A. (2023). A Survey on Networked Data Streaming With Apache Kafka. IEEE Access, 11, 85333–85350. https://doi.org/10.1109/access.2023.3303810
- Dias de Assunção, M., da Silva Veith, A., Buyya, R. (2018). Distributed data stream processing and edge computing: A survey on resource elasticity and future directions. Journal of Network and Computer Applications, 103, 1–17. https://doi.org/10.1016/j.jnca.2017.12.001
- Kalim, F. (2020). Satisfying service level objectives in stream processing systems. [Doctoral dissertation; University of Illinois at Urbana-Champaign]. Available at: https://www.ideals.illinois.edu/items/116227
- Benchmarking Streaming Computation Engines at Yahoo! Yahoo. Available at: http://yahooeng.tumblr.com/post/135321837876/benchmarkingstreaming-computation-engines-at
- Wang, Y., Boissier, M., Rabl, T. (2024). A survey of stream processing system benchmarks. Proceedings of the 16th TPC Technology Conference on Performance Evaluation and Benchmarking (TPCTC 2024). Guangzhou.
- Lu, R., Wu, G., Xie, B., Hu, J. (2014). Stream Bench: Towards Benchmarking Modern Distributed Stream Computing Frameworks. 2014 IEEE/ACM 7th International Conference on Utility and Cloud Computing, 69–78. https://doi.org/10.1109/ucc.2014.15
- van Dongen, G., Poel, D. V. D. (2021). A Performance Analysis of Fault Recovery in Stream Processing Frameworks. IEEE Access, 9, 93745–93763. https://doi.org/10.1109/access.2021.3093208
- Henning, S., Vogel, A., Leichtfried, M., Ertl, O., Rabiser, R. (2024). ShuffleBench: A Benchmark for Large-Scale Data Shuffling Operations with Distributed Stream Processing Frameworks. Proceedings of the 15th ACM/SPEC International Conference on Performance Engineering, 2–13. https://doi.org/10.1145/3629526.3645036
- Hesse, G., Matthies, C., Perscheid, M., Uflacker, M., Plattner, H. (2021). ESPBench: The Enterprise Stream Processing Benchmark. Proceedings of the ACM/SPEC International Conference on Performance Engineering, 201–212. https://doi.org/10.1145/3427921.3450242
- Xu, H., Liu, P., Ahmed, S. T., Da Silva, D., Hu, L. (2023). Adaptive Fragment-Based Parallel State Recovery for Stream Processing Systems. IEEE Transactions on Parallel and Distributed Systems, 34 (8), 2464–2478. https://doi.org/10.1109/tpds.2023.3251997
- Dongen, G. V. (2021). Open stream processing benchmark: An extensive analysis of distributed stream processing frameworks. [Doctoral dissertation; Ghent University].
- van Dongen, G., Steurtewagen, B., Van den Poel, D. (2018). Latency Measurement of Fine-Grained Operations in Benchmarking Distributed Stream Processing Frameworks. 2018 IEEE International Congress on Big Data (BigData Congress). San Francisco, 247–250. https://doi.org/10.1109/bigdatacongress.2018.00043
- Jayasekara, S., Karunasekera, S., Harwood, A. (2021). Optimizing checkpoint‐based fault‐tolerance in distributed stream processing systems: Theory to practice. Software: Practice and Experience, 52 (1), 296–315. https://doi.org/10.1002/spe.3021
- Henning, S., Hasselbring, W. (2021). Theodolite: Scalability Benchmarking of Distributed Stream Processing Engines in Microservice Architectures. Big Data Research, 25, 100209. https://doi.org/10.1016/j.bdr.2021.100209
- Kavuri, S., Narne, S. (2020). Implementing Effective SLO Monitoring in High-Volume Data Processing Systems. International Journal of Scientific Research in Computer Science, Engineering and Information Technology, 5 (6), 558–578. https://doi.org/10.32628/cseit206479
- Kalim, F., Xu, L., Bathey, S., Meherwal, R., Gupta, I. (2018). Henge: Intent-driven multi-tenant stream processing. Proceedings of the ACM Symposium on Cloud Computing, 249–262. https://doi.org/10.1145/3267809.3267832
- Griebler, D., Vogel, A., De Sensi, D., Danelutto, M., Fernandes, L. G. (2020). Simplifying and implementing service level objectives for stream parallelism. The Journal of Supercomputing, 76 (6), 4603–4628. https://doi.org/10.1007/s11227-019-02914-6
- Kayser, C., Dias de Assunção, M., Ferreto, T. (2024). Lapse: Latency & Power-Aware Placement of Data Stream Applications on Edge Computing. Proceedings of the 14th International Conference on Cloud Computing and Services Science. SciTePress, 358–366. https://doi.org/10.5220/0012737400003711
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Artem Bashtovyi, Andrii Fechan

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.




