Порівняльний аналіз методів прогнозування неперервних числових ознак на великих наборах даних
DOI:
https://doi.org/10.15587/2706-5448.2021.244003Ключові слова:
машинне навчання, аналіз даних, великі дані, лінійна регресія, дерево рішень, випадковий лісАнотація
Об'єктом дослідження є процес вибору методу прогнозування неперервних числових ознак на великих наборах даних. Важливість дослідження зумовлена тим, що на сьогодні в різних предметних галузях необхідним є вирішення задачі прогнозування показників діяльності на основі даних, зібраних з різних джерел та представлених у різних форматах, що є задачею аналізу великих даних. Для вирішення поставленої задачі було розглянуто методи статистичного аналізу, а саме множинної лінійної регресії, дерева рішень та випадкового лісу. Побудовано масив великих даних без вказання предметної області, проведено його попередню обробку, аналіз для встановлення кореляції між ознаками. Обробка масиву великих даних здійснювалася з використанням технології паралельних обчислень засобами бібліотеки Dask мови Python. Оскільки робота з великими даними потребує значних обчислювальних ресурсів, такий підхід не потребує застосування потужної комп’ютерної техніки. Побудовано моделі прогнозування за методами множинної лінійної регресії, дерева рішень та випадкового лісу, виконано візуалізацію результатів прогнозування та аналіз достовірності побудованих моделей. За результатами обчислення похибки прогнозування було встановлено, що найбільшу точність прогнозування серед розглянутих методів має метод випадкового лісу. При застосуванні цього методу точність прогнозування для набору даних числових ознак склала приблизно 97 %, що свідчить про високу достовірність побудованої моделі. Таким чином, можна зробити висновок, шо метод випадкового лісу є придатним для вирішення задач прогнозування з використанням великих масивів даних, він може використовуватися для наборів даних з великим числом ознак та не чутливий до масштабування даних. Розроблений програмний додаток мовою Python може бути використаний для прогнозування числових ознак з різних предметних областей, результати прогнозування імпортуються у текстовий файл.
Посилання
- Rahmani, A. M., Azhir, E., Ali, S., Mohammadi, M., Ahmed, O. H., Yassin Ghafour, M. et. al. (2021). Artificial intelligence approaches and mechanisms for big data analytics: a systematic study. PeerJ Computer Science, 7, e488. doi: http://doi.org/10.7717/peerj-cs.488
- Labrinidis, A., Jagadish, H. V. (2012). Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 5 (12), 2032–2033. doi: http://doi.org/10.14778/2367502.2367572
- Oussous, A., Benjelloun, F.-Z., Ait Lahcen, A., Belfkih, S. (2018). Big Data technologies: A survey. Journal of King Saud University – Computer and Information Sciences, 30 (4), 431–448. doi: http://doi.org/10.1016/j.jksuci.2017.06.001
- Joseph, R. C., Johnson, N. A. (2013). Big Data and Transformational Government. IT Professional, 15 (6), 43–48. doi: http://doi.org/10.1109/mitp.2013.61
- Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35 (2), 137–144. doi: http://doi.org/10.1016/j.ijinfomgt.2014.10.007
- Khine, K. L. L., Nyunt, T. T. S.; Zin, T., Lin, J. W. (Eds.) (2019) Predictive Big Data Analytics Using Multiple Linear Regression Model. Big Data Analysis and Deep Learning Applications. ICBDL, 9–19. doi: http://doi.org/10.1007/978-981-13-0869-7_2
- Song, Y.-Y., Lu, Y. (2015). Decision tree methods: applications for classification and prediction. Shanghai archives of psychiatry, 27. doi: http://doi.org/10.11919/j.issn.1002-0829.215044
- Islam, S., Amin, S. H. (2020). Prediction of probable backorder scenarios in the supply chain using Distributed Random Forest and Gradient Boosting Machine learning techniques. Journal of Big Data, 7 (1). doi: http://doi.org/10.1186/s40537-020-00345-2
- Zrazhevskyi, O. H. (2010). Metody pobudovy modelei dlia dovhostrokovoho prohnozuvannia finansovykh chasovykh riadiv. Systemni doslidzhennnia ta informatsiini tekhnolohii, 1, 123–142.
- Tangirala, S. (2020). Evaluating the Impact of GINI Index and Information Gain on Classification using Decision Tree Classifier Algorithm. International Journal of Advanced Computer Science and Applications, 11 (2), 612–619. doi: http://doi.org/10.14569/ijacsa.2020.0110277
- Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32. doi: http://doi.org/10.1023/a:1010933404324
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2021 Eduard Kinshakov, Yuliia Parfenenko, Vira Shendryk
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.