Підвищення продуктивності розподілених систем обробки великих даних з Hadoop та PolyBase
DOI:
https://doi.org/10.15587/1729-4061.2018.139630Ключові слова:
Hadoop, MapReduce, HDFS, PolyBase SQL Server, T-SQL, розподілені обчислення, масштабування, масштабована група PolyBase, зовнішні об'єкти, Hortonworks Data PlatformАнотація
Розглянуто підхід до підвищення продуктивності розподілених інформаційних систем на основі спільного використання технологій кластера Hadoop та компонента PolyBase SQL Server. Показано, що актуальність вирішуваної в роботі проблеми пов'язана з необхідністю обробки великих даних, що мають різний спосіб подання відповідно до рішення різнопланових задач бізнес-проектів. Проведено аналіз методів та технологій створення гібридних сховищ даних на основі різних даних типу SQL та NoSQL. Показано, що в даний час найбільш поширеною є технологія обробки великих даних з використанням середовища розподілених обчислень Hadoop. Проаналізовано існуючі технології організації та доступу до даних в кластері Hadoop із SQL-подібних СУБД за допомогою конекторів. Наведено порівняльні кількісні оцінки використання конекторів Hive та Sqoop при експорті даних у сховище Hadoop. Проведено аналіз та особливості обробки великих даних в архітектурі розподілених кластерних обчислень на базі Hadoop. Наведені та описані особливості технології PolyBase як компонента SQL Server для організації моста між SQL Server та Hadoopданих типу SQL та NoSQL. Наведений склад модельної обчислювальної установки на базі віртуальної машини для спільного налаштування PolyBase та Hadoop для рішення тестових завдань. Розроблено методичне забезпечення установки та конфігурування програмного забезпечення Hadoop і PolyBase SQL Server з урахуванням обмежень на обчислювальні потужності. Розглянуто запити для використання PolyBase та сховища даних Hadoop при обробці великих даних. Для оцінки продуктивності системи запропоновано абсолютні та відносні метрики. Для тестових даних великих об'ємів приведені результати експериментів і проведений їх аналіз, що ілюструє підвищення продуктивності інформаційної системи – часу виконання запитів і величини тимчасових таблиць, що створюються при цьому. Проведений порівняльний аналіз досліджуваної технології з існуючими конекторами з кластером Hadoop, який показав перевагу PolyBase над конекторами Sqoop та Hive. Результати проведених досліджень можуть бути використані при проведенні наукових і тренінгових експериментів для вдосконалення бізнес-процесів організацій при впровадженні надсучасних ІТ-технологійПосилання
- Bajaber, F., Elshawi, R., Batarfi, O., Altalhi, A., Barnawi, A., Sakr, S. (2016). Big Data 2.0 Processing Systems: Taxonomy and Open Challenges. Journal of Grid Computing, 14 (3), 379–405. doi: https://doi.org/10.1007/s10723-016-9371-1
- Big Data Taxonomy (2014). BIG DATA WORKING GROUP, 33. Available at: https://downloads.cloudsecurityalliance.org/initiatives/bdwg/Big_Data_Taxonomy.pdf
- Fedko, V. V., Tarasov, O. V., Losiev, M. Yu. (2013). Orhanizatsiya baz danykh ta znan. Kharkiv: Vyd. KhNEU, 200.
- Fedko, V. V., Tarasov, O. V., Losiev, M. Yu. (2014). Suchasni zasoby dostupu do danykh. Kharkiv: Vyd. KhNEU im. S. Kuznetsia, 328.
- Priyanka, AmitPal (2016). A Review of NoSQL Databases, Types and Comparison with Relational Database. International Journal of Engineering Science and Computing, 6 (5), 4963–4966.
- Mohamed, M. A., Altrafi, O. G., Ismail, M. O. (2014). Relational vs. NoSQL Databases: A Survey. International Journal of Computer and Information Technology, 03 (03), 598–602.
- Jatana, N., Puri, S., Ahuja, M., Kathuria, I., Gosain, D. (2012). A Survey and Comparison of Relational and Non-Relational Database. International Journal of Engineering Research & Technology, 1 (6), 1–5.
- Abdullah, A., Zhuge, Q. (2015). From Relational Databases to NoSQL Databases: Performance Evaluation. Research Journal of Applied Sciences, Engineering and Technology, 11 (4), 434–439. doi: https://doi.org/10.19026/rjaset.11.1799
- AH Al Hinai (2016). A Performance Comparison of SQL and NoSQL Databases for Large Scale Analysis of Persistent Logs. Uppsala University, 111.
- Schulz, W. L., Nelson, B. G., Felker, D. K., Durant, T. J. S., Torres, R. (2016). Evaluation of relational and NoSQL database architectures to manage genomic annotations. Journal of Biomedical Informatics, 64, 288–295. doi: https://doi.org/10.1016/j.jbi.2016.10.015
- SQL and data analysis. Some implications for data analysits and higher education. Data Scientist Master’s Program. Available at: https://www.simplilearn.com/big-data-and-analytics/senior-data-scientist-masters-program-training
- Elshawi, R., Sakr, S. Big Data Systems Meet Machine Learning Challenges: Towards Big Data Science as a Service. Available at: https://arxiv.org/pdf/1709.07493.pdf
- Jeonga, S., Houb, R., Lynchc, J. P., Sohnc, H., Law, K. H. (2017). An information modeling framework for bridge monitoring. Advances in Engineering Software, 114, 11–31.
- Scaling Social Science with Apache Hadoop. Available at: http://blog.cloudera.com/blog/2010/04/scaling-social-science-with-hadoop/
- Liu, X. (2015). An Analysis of Relational Database and NoSQL Database on an Ecommerce Platform Master of Science in Computer Science. University of Dublin, Trinity College, 81.
- Ferreira, L. (2012). Bridging the gap between SQL and NoSQL. Universidade do Monho, 97. Available at: http://mei.di.uminho.pt/sites/default/files/dissertacoes/eeum_di_dissertacao_pg15533.pdf
- Roijackers, J. (2012). Bridging SQL and NoSQL. Eindhoven University of Technology Department of Mathematics and Computer Science Master’s thesis, 100.
- Oluwafemi, E., Sahalu, B., Abdullahi, S. E. (2016). TripleFetchQL: A Platform for Integrating Relational and NoSQL Databases. International Journal of Applied Information Systems, 10 (5), 54. doi: https://doi.org/10.5120/ijais2016451513
- Roijackers, J., Fletcher, G. H. L. (2013). On Bridging Relational and Document-Centric Data Stores. Lecture Notes in Computer Science, 135–148. doi: https://doi.org/10.1007/978-3-642-39467-6_14
- Liao, Y.-T., Zhou, J., Lu, C.-H., Chen, S.-C., Hsu, C.-H., Chen, W. et. al. (2016). Data adapter for querying and transformation between SQL and NoSQL database. Future Generation Computer Systems, 65, 111–121. doi: https://doi.org/10.1016/j.future.2016.02.002
- Kuderu, N., Kumari, V. (2016). Relational Database to NoSQL Conversion by Schema Migration and Mapping. International Journal of Computer Engineering in Research Trends, 3 (9), 506. doi: https://doi.org/10.22362/ijcert/2016/v3/i9/48900
- Maislos, A. Hybrid Databases: Combining Relational and NoSQL. Available at: https://www.stratoscale.com/blog/dbaas/hybrid-databases-combining-relational-nosql/
- Blessing, E. J., Asagba, P. O. (2017). Hybrid Database System for Big Data Storage and Management. International Journal of Computer Science, Engineering and Applications, 7 (3/4), 15–27. doi: https://doi.org/10.5121/ijcsea.2017.7402
- Yuhanna, N., Gualtieri, M. The Forrester Wave™: Translytical Data Platforms, Q4 2017. Available at: https://www.forrester.com/report/The+Forrester+Wave+Translytical+Data+Platforms+Q4+2017/-/E-RES134282
- DB-Engines Ranking. Available at: https://db-engines.com/en/ranking
- Magic Quadrant for Operational Database Management Systems. Available at: https://www.gartner.com/doc/3823563/magic-quadrant-operational-database-management
- DevOps for Hadoop. Available at: http://agilealmdevops.com/2017/10/22/devops-for-hadoop/
- Özcan, F., Tian, Y., Tözün, P. (2017). Hybrid Transactional/Analytical Processing. Proceedings of the 2017 ACM International Conference on Management of Data – SIGMOD '17. doi: https://doi.org/10.1145/3035918.3054784
- Apache Sqoop. Available at: http://sqoop.apache.org
- Hadapt Inc. Available at: http://www.hadapt.com
- The Apache Hive. Available at: https://hive.apache.org
- Apache Pig: Overview. Available at: https://www.tutorialspoint.com/apache_pig/apache_pig_overview.htm
- The Apache Software Foundation. Available at: https://hbase.apache.org
- Apache Hbase. Available at: https://hortonworks.com/apache/hbase
- CASSANDRA. Available at: http://cassandra.apache.org
- The Cassandra Query Language (CQL). Available at: http://cassandra.apache.org/doc/latest/cql
- MongoDB Connector for Hadoop. Available at: https://docs.mongodb.com/ecosystem/tools/hadoop
- Liao, Y.-T., Zhou, J., Lu, C.-H., Chen, S.-C., Hsu, C.-H., Chen, W. et. al. (2016). Data adapter for querying and transformation between SQL and NoSQL database. Future Generation Computer Systems, 65, 111–121. doi: https://doi.org/10.1016/j.future.2016.02.002
- High Performance Connectors for Load and Access of Data from Hadoop to Oracle Database. Available at: http://www.oracle.com/technetwork/bdc/hadoop-loader/connectors-hdfs-wp-1674035.pdf
- Greenplum. Available at: https://greenplum.org
- Asterdata. Available at: http://www.asterdata.com
- Shvachko, K. (2011). Apache Hadoop. The Scalability Update. Login: The usenix Magazine, 36 (3), 7–13.
- Shuffling and Sorting in Hadoop MapReduce. Available at: https://data-flair.training/blogs/shuffling-and-sorting-in-hadoop/
- Kawa, A. Introduction to YARN. Available at: https://www.ibm.com/developerworks/library/bd-yarn-intro/index.html
- Banker, K. (2012). MongoDB in Action. Manning Publications, 287.
- Performance Tuning Data Load into Hadoop with Sqoop. Available at: http://www.xmsxmx.com/performance-tuning-data-load-into-hadoop-with-sqoop/
- Sqoop Performance Tuning Guidelines. Available at: https://kb.informatica.com/h2l/HowTo%20Library/1/0930-SqoopPerformanceTuningGuidelines-H2L.pdf
- Hadoop and Hive as scalable alternatives to RDBMS: a case study. Available at: https://scholarworks.boisestate.edu/cgi/viewcontent.cgi?referer=https://www.google.com.ua/&httpsredir=1&article=1001&context=cs_gradproj
- PolyBase Queries. Available at: https://docs.microsoft.com/en-us/sql/relational-databases/polybase/polybase-queries
- Gankidi, V. R., Teletia, N., Patel, J. M., Halverson, A., DeWitt, D. J. (2014). Indexing HDFS data in PDW. Proceedings of the VLDB Endowment, 7 (13), 1520–1528. doi: https://doi.org/10.14778/2733004.2733023
- DeWitt, D. J., Halverson, A., Nehme, R., Shankar, S., Aguilar-Saborit, J., Avanes, A. et. al. (2013). Split query processing in polybase. Proceedings of the 2013 International Conference on Management of Data – SIGMOD ’13. doi: https://doi.org/10.1145/2463676.2463709
- Cloudera vs Hortonworks vs MapR: Comparing Hadoop Distributions. Available at: https://www.experfy.com/blog/cloudera-vs-hortonworks-comparing-hadoop-distributions
- PolyBase scale-out groups. Available at: https://docs.microsoft.com/en-us/sql/relational-databases/polybase/polybase-scale-out-groups?view=sql-server-2017
- CREATE EXTERNAL DATA SOURCE (Transact-SQL). Available at: https://docs.microsoft.com/en-us/sql/t-sql/statements/create-external-data-source-transact-sql?view=sql-server-2017
- CREATE EXTERNAL FILE FORMAT (Transact-SQL). Available at: https://docs.microsoft.com/en-us/sql/t-sql/statements/create-external-file-format-transact-sql?view=sql-server-2017
- CREATE EXTERNAL TABLE (Transact-SQL). Available at: https://docs.microsoft.com/en-us/sql/t-sql/statements/create-external-table-transact-sql?view=sql-server-2017
- Generate Test CSV Data. Available at: http://www.convertcsv.com/generate-test-data.htm
- System Properties Comparison Microsoft SQL Server vs. Oracle. Available at: https://db-engines.com/en/system/Microsoft+SQL+Server%3BOracle
- Please, Please Stop Complaining about SQL Server Licensing Costs and Complexity. Available at: https://joeydantoni.com/2016/08/18/please-please-stop-complaining-about-sql-server-licensing-costs-and-complexity/
- Ramel D. Microsoft Takes Aim at Oracle with SQL Server 2016. Available at: https://rcpmag.com/articles/2016/03/10/microsoft-vs-oracle-at-data-driven.aspx
- «Za tu zhe funkcional'nost', kotoruyu daet SQL Server, Oracle prosit v 10 raz bol'she», – Konstantin Taranov o SQL Server. Available at: https://habr.com/company/pgdayrussia/blog/329842/
- Oracle Big Data Connectors. Available at: https://shop.oracle.com/apex/product?p1=OracleBigDataConnectors&p2=&p3=&p4=&p5=&intcmp=ocom_big_data_connectors
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2018 Sergii Minukhin, Victor Fedko, Yurii Gnusov
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.