Порівняльний аналіз методів прогнозування неперервних числових ознак на великих наборах даних

Автор(и)

DOI:

https://doi.org/10.15587/2706-5448.2021.244003

Ключові слова:

машинне навчання, аналіз даних, великі дані, лінійна регресія, дерево рішень, випадковий ліс

Анотація

Об'єктом дослідження є процес вибору методу прогнозування неперервних числових ознак на великих наборах даних. Важливість дослідження зумовлена тим, що на сьогодні в різних предметних галузях необхідним є вирішення задачі прогнозування показників діяльності на основі даних, зібраних з різних джерел та представлених у різних форматах, що є задачею аналізу великих даних. Для вирішення поставленої задачі було розглянуто методи статистичного аналізу, а саме множинної лінійної регресії, дерева рішень та випадкового лісу. Побудовано масив великих даних без вказання предметної області, проведено його попередню обробку, аналіз для встановлення кореляції між ознаками. Обробка масиву великих даних здійснювалася з використанням технології паралельних обчислень засобами бібліотеки Dask мови Python. Оскільки робота з великими даними потребує значних обчислювальних ресурсів, такий підхід не потребує застосування потужної комп’ютерної техніки. Побудовано моделі прогнозування за методами множинної лінійної регресії, дерева рішень та випадкового лісу, виконано візуалізацію результатів прогнозування та аналіз достовірності побудованих моделей. За результатами обчислення похибки прогнозування було встановлено, що найбільшу точність прогнозування серед розглянутих методів має метод випадкового лісу. При застосуванні цього методу точність прогнозування для набору даних числових ознак склала приблизно 97 %, що свідчить про високу достовірність побудованої моделі. Таким чином, можна зробити висновок, шо метод випадкового лісу є придатним для вирішення задач прогнозування з використанням великих масивів даних, він може використовуватися для наборів даних з великим числом ознак та не чутливий до масштабування даних. Розроблений програмний додаток мовою Python може бути використаний для прогнозування числових ознак з різних предметних областей, результати прогнозування імпортуються у текстовий файл.

Біографії авторів

Едуард Віталійович Кіншаков, Сумський державний університет

Аспірант

Кафедра інформаційних технологій

Юлія Вікторівна Парфененко, Сумський державний університет

Кандидат технічних наук, доцент

Кафедра інформаційних технологій

Віра Вікторівна Шендрик, Сумський державний університет

Кандидат технічних наук, доцент

Кафедра інформаційних технологій

Посилання

  1. Rahmani, A. M., Azhir, E., Ali, S., Mohammadi, M., Ahmed, O. H., Yassin Ghafour, M. et. al. (2021). Artificial intelligence approaches and mechanisms for big data analytics: a systematic study. PeerJ Computer Science, 7, e488. doi: http://doi.org/10.7717/peerj-cs.488
  2. Labrinidis, A., Jagadish, H. V. (2012). Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 5 (12), 2032–2033. doi: http://doi.org/10.14778/2367502.2367572
  3. Oussous, A., Benjelloun, F.-Z., Ait Lahcen, A., Belfkih, S. (2018). Big Data technologies: A survey. Journal of King Saud University – Computer and Information Sciences, 30 (4), 431–448. doi: http://doi.org/10.1016/j.jksuci.2017.06.001
  4. Joseph, R. C., Johnson, N. A. (2013). Big Data and Transformational Government. IT Professional, 15 (6), 43–48. doi: http://doi.org/10.1109/mitp.2013.61
  5. Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35 (2), 137–144. doi: http://doi.org/10.1016/j.ijinfomgt.2014.10.007
  6. Khine, K. L. L., Nyunt, T. T. S.; Zin, T., Lin, J. W. (Eds.) (2019) Predictive Big Data Analytics Using Multiple Linear Regression Model. Big Data Analysis and Deep Learning Applications. ICBDL, 9–19. doi: http://doi.org/10.1007/978-981-13-0869-7_2
  7. Song, Y.-Y., Lu, Y. (2015). Decision tree methods: applications for classification and prediction. Shanghai archives of psychiatry, 27. doi: http://doi.org/10.11919/j.issn.1002-0829.215044
  8. Islam, S., Amin, S. H. (2020). Prediction of probable backorder scenarios in the supply chain using Distributed Random Forest and Gradient Boosting Machine learning techniques. Journal of Big Data, 7 (1). doi: http://doi.org/10.1186/s40537-020-00345-2
  9. Zrazhevskyi, O. H. (2010). Metody pobudovy modelei dlia dovhostrokovoho prohnozuvannia finansovykh chasovykh riadiv. Systemni doslidzhennnia ta informatsiini tekhnolohii, 1, 123–142.
  10. Tangirala, S. (2020). Evaluating the Impact of GINI Index and Information Gain on Classification using Decision Tree Classifier Algorithm. International Journal of Advanced Computer Science and Applications, 11 (2), 612–619. doi: http://doi.org/10.14569/ijacsa.2020.0110277
  11. Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32. doi: http://doi.org/10.1023/a:1010933404324

##submission.downloads##

Опубліковано

2021-12-07

Як цитувати

Кіншаков, Е. В., Парфененко, Ю. В., & Шендрик, В. В. (2021). Порівняльний аналіз методів прогнозування неперервних числових ознак на великих наборах даних. Technology Audit and Production Reserves, 6(2(62), 15–17. https://doi.org/10.15587/2706-5448.2021.244003

Номер

Розділ

Інформаційні технології: Звіт про науково-дослідну роботу