Сучасні підходи до зберігання даних: порівняння реляційних і хмарних сховищ з використанням ETL та ELT методів
DOI:
https://doi.org/10.31498/2225-6733.48.2024.310669Ключові слова:
база даних, реляційні бази даних, Озеро даних, Polyglot Persistence, Apache Iceberg, Apache ParquetАнотація
У дослідженні проаналізовано різні аспекти використання реляційних і хмарних сховищ даних, а також методи інтеграції даних ETL та ELT. Наведено порівняльний аналіз цих підходів, їх переваги та недоліки. Запропоновано центральне реляційне сховище даних, яке забезпечує єдину версію правди (Single Version of Truth), що дозволяє стандартизувати та структуризувати дані, усуваючи розбіжності і забезпечуючи доступ до однакової інформації для всіх користувачів організації. Проаналізовано методологічні підходи для реалізації сховища даних: зверху вниз, знизу вгору та із середини. Розглянуті хмарні сховища даних, які використовують хмарні технології для забезпечення масштабованості, доступності та відмовостійкості, що є важливим для компаній з великими обсягами даних. Проаналізовано переваги та недоліки ETL та ELT: ETL виконує трансформацію даних перед їх завантаженням у сховище, що спрощує дотримання конфіденційності даних. ELT виконує трансформацію після завантаження, що дозволяє більш гнучко обробляти дані безпосередньо в сховищі. В статті розглянуто підходи до реалізації сховища даних: зверху вниз підходить для стратегічного планування, знизу вгору дозволяє швидше отримувати результати, а підхід із середини комбінує обидва методи для досягнення оптимальної ефективності. Розглянуто хмарні сховища даних: порівняно з реляційними сховищами, хмарні сховища є більш гнучкими, масштабованими та ефективними, забезпечуючи швидкість і зниження витрат на інфраструктуру. Наведені архітектури хмарних сховищ: масова паралельна обробка, гібридні архітектури, лямбда-архітектури та багатоструктурні архітектури. Вони забезпечують високу продуктивність та гнучкість у обробці даних. Наведені технології зберігання даних: Data lake, Polyglot Persistence, Apache Iceberg, Apache Parquet та стовпчасті бази даних, які забезпечують ефективне зберігання та обробку великих обсягів даних
Посилання
Rehman K. U., Ahmad U., Mahmood S. A comparative analysis of traditional and cloud data warehouse. VAWKUM Transactions on Computer Sciences. 2018. Vol. 6(1). Pp. 34-40. DOI: https://doi.org/10.21015/vtcs.v15i1.487.
Migrating a research data warehouse to a public cloud: challenges and opportunities / M. G. Kahn et al. Journal of the American Medical Informatics Association. 2022. Vol. 29(4). Pp. 592-600. DOI: https://doi.org/10.1093/jamia/ocab278.
Verma H. Data-warehousing on cloud computing. International Journal of Advanced Research in Computer Engineering & Technology (IJARCET). 2013. Vol. 2. Iss. 2. Pp. 411-416.
Integration methods and advantages of machine learning with cloud data warehouses / H. Li et al. International Journal of Computer Science and Information Technology. 2024. Vol. 2(1). Pp. 348-358. DOI: https://doi.org/10.62051/ijcsit.v2n1.36.
A Data Warehouse Approach for Business Intelligence / G. Garani, A. Chernov, I. Savvas, M. Butakova. Infrastructure for Collaborative Enterprises (WETICE): IEEE 28th International Conference on Enabling Technologies, Napoli, Italy, 12-14 June, 2019. Pp. 70-75. DOI: https://doi.org/10.1109/WETICE.2019.00022.
Sina A. Optimizing data warehousing performance through machine learning algorithms in the cloud. International Journal of Science and Research (IJSR). 2023. Vol. 12(12). Pp. 1859-1867. DOI: https://dx.doi.org/10.21275/SR231224074241.
Heinonen J. From classical DW to cloud data warehouse : Masters Thesis. Helsinki, 2020. 79 p.
Kawthar K., Nabli A., Gargouri F. Privacy and availability in cloud data warehouse. Proceedings of the 10th International Conference on Education Technology and Computers. 2018. Pp. 388-391. DOI: https://doi.org/10.1145/3290511.3290580.
Cloud Data Warehouse. URL: https://www.qlik.com/us/cloud-data-migration/cloud-data-warehouse (дата звернення: 10.06.2023).
Data Set: Amazon Books Reviews. URL: https://www.kaggle.com/datasets/mohamedbakhet/amazon-books-reviews (дата звернення: 12.06.2023).
Deep Dive into AWS DynamoDB: A NoSQL Database for High-Performance Applications. URL: https://medium.com/@christopheradamson253/deep-dive-into-aws-dynamodb-a-nosql-database-for-high-performance-applications-4c80d1410533 (дата звернення: 01.08.2023).
PostgreSQL. URL: https://kinsta.com/knowledgebase/what-is-postgresql/ (дата звернення: 12.09.2023).
What is extract, load, transform (ELT). URL: https://www.ibm.com/topics/elt (дата звернення: 10.12.2023).
Column databases. URL: https://www.tinybird.co/blog-posts/what-is-a-columnar-database (дата звернення: 08.01.2024).
What is an MPP Database. URL: https://airbyte.com/data-engineering-resources/mpp-database (дата звернення: 13.11.2023).
Exploring the Basics of Amazon Simple Storage Service (S3). URL: https://medium.com/@dbrandonbawe/exploring-the-basics-of-amazon-simple-storage-service-s3-f8ad2af0a6f9 (дата звернення: 10.11.2023).
What is a Cloud Data Warehouse. URL: https://www.astera.com/type/blog/cloud-data-warehouse/ (дата звернення: 10.11.2023).
The Lambda Architecture: A Hybrid Approach to Data Processing. URL: https://www.linkedin.com/pulse/lambda-architecture-hybrid-approach-data-processing-midhun-pottammal (дата звернення: 10.01.2024).
Introduction to Data Lakes. URL: https://www.databricks.com/discover/data-lakes (дата звернен-ня: 11.01.2024).
What is Polyglot Persistence. URL: https://www.harperdb.io/post/what-is-polyglot-persistence-and-why-is-it-awful (дата звернення: 01.02.2024).
Exploring the Benefits of Hybrid Architecture in Data Warehousing. URL: https://reconfigured.io/blog/exploring-benefits-of-hybrid-architecture-in-data-warehousing (дата звернення: 30.11.2023).
The Apache Iceberg Open Table Format. URL: https://www.dremio.com/resources/guides/apache-iceberg/ (дата звернення: 28.11.2023).
Parquet. URL: https://www.databricks.com/glossary/what-is-parquet (дата звернення: 02.09.2023).
ETL Process in Data Warehouse. URL: https://www.geeksforgeeks.org/etl-process-in-data-warehouse/ (дата звернення: 10.10.2023).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Журнал "Вісник Приазовського державного технічного університету. Серія: Технічні науки" видається під ліцензією СС-BY (Ліцензія «Із зазначенням авторства»).
Дана ліцензія дозволяє поширювати, редагувати, поправляти і брати твір за основу для похідних навіть на комерційній основі із зазначенням авторства. Це найзручніша з усіх пропонованих ліцензій. Рекомендується для максимального поширення і використання неліцензійних матеріалів.
Автори, які публікуються в цьому журналі, погоджуються з наступними умовами:
1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, яка дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи в цьому журналі.
2. Автори мають право укладати самостійні додаткові угоди, які стосуються неексклюзивного поширення роботи в тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи в цьому журналі.