Сучасні підходи до зберігання даних: порівняння реляційних і хмарних сховищ з використанням ETL та ELT методів

Автор(и)

DOI:

https://doi.org/10.31498/2225-6733.48.2024.310669

Ключові слова:

база даних, реляційні бази даних, Озеро даних, Polyglot Persistence, Apache Iceberg, Apache Parquet

Анотація

У дослідженні проаналізовано різні аспекти використання реляційних і хмарних сховищ даних, а також методи інтеграції даних ETL та ELT. Наведено порівняльний аналіз цих підходів, їх переваги та недоліки. Запропоновано центральне реляційне сховище даних, яке забезпечує єдину версію правди (Single Version of Truth), що дозволяє стандартизувати та структуризувати дані, усуваючи розбіжності і забезпечуючи доступ до однакової інформації для всіх користувачів організації. Проаналізовано методологічні підходи для реалізації сховища даних: зверху вниз, знизу вгору та із середини. Розглянуті хмарні сховища даних, які використовують хмарні технології для забезпечення масштабованості, доступності та відмовостійкості, що є важливим для компаній з великими обсягами даних. Проаналізовано переваги та недоліки ETL та ELT: ETL виконує трансформацію даних перед їх завантаженням у сховище, що спрощує дотримання конфіденційності даних. ELT виконує трансформацію після завантаження, що дозволяє більш гнучко обробляти дані безпосередньо в сховищі. В статті розглянуто підходи до реалізації сховища даних: зверху вниз підходить для стратегічного планування, знизу вгору дозволяє швидше отримувати результати, а підхід із середини комбінує обидва методи для досягнення оптимальної ефективності. Розглянуто хмарні сховища даних: порівняно з реляційними сховищами, хмарні сховища є більш гнучкими, масштабованими та ефективними, забезпечуючи швидкість і зниження витрат на інфраструктуру. Наведені архітектури хмарних сховищ: масова паралельна обробка, гібридні архітектури, лямбда-архітектури та багатоструктурні архітектури. Вони забезпечують високу продуктивність та гнучкість у обробці даних. Наведені технології зберігання даних: Data lake, Polyglot Persistence, Apache Iceberg, Apache Parquet та стовпчасті бази даних, які забезпечують ефективне зберігання та обробку великих обсягів даних

Біографії авторів

Н.I. Бойко , Національний університет «Львівська політехніка», м. Львів

Кандидат економічних наук, доцент

A.В. Черненко , Національний університет «Львівська політехніка», м. Львів

Студент

Посилання

Rehman K. U., Ahmad U., Mahmood S. A comparative analysis of traditional and cloud data warehouse. VAWKUM Transactions on Computer Sciences. 2018. Vol. 6(1). Pp. 34-40. DOI: https://doi.org/10.21015/vtcs.v15i1.487.

Migrating a research data warehouse to a public cloud: challenges and opportunities / M. G. Kahn et al. Journal of the American Medical Informatics Association. 2022. Vol. 29(4). Pp. 592-600. DOI: https://doi.org/10.1093/jamia/ocab278.

Verma H. Data-warehousing on cloud computing. International Journal of Advanced Research in Computer Engineering & Technology (IJARCET). 2013. Vol. 2. Iss. 2. Pp. 411-416.

Integration methods and advantages of machine learning with cloud data warehouses / H. Li et al. International Journal of Computer Science and Information Technology. 2024. Vol. 2(1). Pp. 348-358. DOI: https://doi.org/10.62051/ijcsit.v2n1.36.

A Data Warehouse Approach for Business Intelligence / G. Garani, A. Chernov, I. Savvas, M. Butakova. Infrastructure for Collaborative Enterprises (WETICE): IEEE 28th International Conference on Enabling Technologies, Napoli, Italy, 12-14 June, 2019. Pp. 70-75. DOI: https://doi.org/10.1109/WETICE.2019.00022.

Sina A. Optimizing data warehousing performance through machine learning algorithms in the cloud. International Journal of Science and Research (IJSR). 2023. Vol. 12(12). Pp. 1859-1867. DOI: https://dx.doi.org/10.21275/SR231224074241.

Heinonen J. From classical DW to cloud data warehouse : Masters Thesis. Helsinki, 2020. 79 p.

Kawthar K., Nabli A., Gargouri F. Privacy and availability in cloud data warehouse. Proceedings of the 10th International Conference on Education Technology and Computers. 2018. Pp. 388-391. DOI: https://doi.org/10.1145/3290511.3290580.

Cloud Data Warehouse. URL: https://www.qlik.com/us/cloud-data-migration/cloud-data-warehouse (дата звернення: 10.06.2023).

Data Set: Amazon Books Reviews. URL: https://www.kaggle.com/datasets/mohamedbakhet/amazon-books-reviews (дата звернення: 12.06.2023).

Deep Dive into AWS DynamoDB: A NoSQL Database for High-Performance Applications. URL: https://medium.com/@christopheradamson253/deep-dive-into-aws-dynamodb-a-nosql-database-for-high-performance-applications-4c80d1410533 (дата звернення: 01.08.2023).

PostgreSQL. URL: https://kinsta.com/knowledgebase/what-is-postgresql/ (дата звернення: 12.09.2023).

What is extract, load, transform (ELT). URL: https://www.ibm.com/topics/elt (дата звернення: 10.12.2023).

Column databases. URL: https://www.tinybird.co/blog-posts/what-is-a-columnar-database (дата звернення: 08.01.2024).

What is an MPP Database. URL: https://airbyte.com/data-engineering-resources/mpp-database (дата звернення: 13.11.2023).

Exploring the Basics of Amazon Simple Storage Service (S3). URL: https://medium.com/@dbrandonbawe/exploring-the-basics-of-amazon-simple-storage-service-s3-f8ad2af0a6f9 (дата звернення: 10.11.2023).

What is a Cloud Data Warehouse. URL: https://www.astera.com/type/blog/cloud-data-warehouse/ (дата звернення: 10.11.2023).

The Lambda Architecture: A Hybrid Approach to Data Processing. URL: https://www.linkedin.com/pulse/lambda-architecture-hybrid-approach-data-processing-midhun-pottammal (дата звернення: 10.01.2024).

Introduction to Data Lakes. URL: https://www.databricks.com/discover/data-lakes (дата звернен-ня: 11.01.2024).

What is Polyglot Persistence. URL: https://www.harperdb.io/post/what-is-polyglot-persistence-and-why-is-it-awful (дата звернення: 01.02.2024).

Exploring the Benefits of Hybrid Architecture in Data Warehousing. URL: https://reconfigured.io/blog/exploring-benefits-of-hybrid-architecture-in-data-warehousing (дата звернення: 30.11.2023).

The Apache Iceberg Open Table Format. URL: https://www.dremio.com/resources/guides/apache-iceberg/ (дата звернення: 28.11.2023).

Parquet. URL: https://www.databricks.com/glossary/what-is-parquet (дата звернення: 02.09.2023).

ETL Process in Data Warehouse. URL: https://www.geeksforgeeks.org/etl-process-in-data-warehouse/ (дата звернення: 10.10.2023).

##submission.downloads##

Опубліковано

2024-06-27

Як цитувати

Бойко , Н., & Черненко A. . (2024). Сучасні підходи до зберігання даних: порівняння реляційних і хмарних сховищ з використанням ETL та ELT методів. Вісник Приазовського Державного Технічного Університету. Серія: Технічні науки, (48), 7–19. https://doi.org/10.31498/2225-6733.48.2024.310669

Номер

Розділ

122 Комп'ютерні науки та інформаційні технології