Determining the influence of data on working with video materials on the accuracy of student success prediction models

Владислав Ігорович Пилипенко; Володимир Володимирович Стаценко; Тетяна Яківна Біла; Дмитро Володимирович Стаценко

doi:10.15587/1729-4061.2024.313333

Автор(и)

Владислав Ігорович Пилипенко Київський національний університет технологій та дизайну, Україна https://orcid.org/0000-0002-2761-4817
Володимир Володимирович Стаценко Київський національний університет технологій та дизайну, Україна https://orcid.org/0000-0002-3932-792X
Тетяна Яківна Біла Київський національний університет технологій та дизайну, Україна https://orcid.org/0000-0002-5014-9052
Дмитро Володимирович Стаценко Київський національний університет технологій та дизайну, Україна https://orcid.org/0000-0002-3064-3109

DOI:

https://doi.org/10.15587/1729-4061.2024.313333

Ключові слова:

прогнозування успішності, випадковий ліс, логістична регресія, нейронні мережі, наївний Байєс

Анотація

Об’єктом дослідження є моделі прогнозування успішності студентів, що створені на основі методів машинного навчання. У статті представлені результати дослідження проблеми підвищення їх точності за рахунок розширення набору даних для навчання зазначених моделей. Найбільш доступними є дані про дії студентів, які автоматично збирають системи управління навчанням. Введення додаткової інформації про роботу студентів збільшує витрати часу та ресурсів, але дозволяє підвищити точність моделей. У дослідженні у вихідний набір даних введено інформацію про роботу студентів з відеоматеріалами, зокрема, кількість та тривалість переглядів. Для автоматизації збору цих даних розроблено плагін для системи Moodle, який зберігає в базі даних інформацію про дії користувача з відеопрогравачем та фактичну тривалість переглядів відеоматеріалів. Тренування моделей здійснювалось за алгоритмами наївного Байєса (NB), логістичної регресії (LR), випадкового лісу (RF) та нейронних мереж (NN) з даними про роботу з відеоматеріалами та без них. Для моделей, що використовували дані про перегляд відеоматеріалів, приріст точності склав 10 %, збалансованої точності – 15 %, а загальна ефективність, виражена площею під кривою (AUC), збільшилась на 14 %. Найвищу точність прогнозування з різницею в 1,8 % отримали моделі побудовані за алгоритмами RF – 87,1 % та NN – 85,3 %. Тоді як точність моделей отриманих за алгоритмами NB та LR склала 70,7 % та 76,5 %. Приріст точності для них склав 2,3 % та 8,1 % відповідно. Аналіз розрахунків підтверджує припущення про те, що робота студентів з навчальними відеоматеріалами корелюється з їх успішністю. Отримані результати дозволяють на етапі підготовки даних для навчання моделей знайти обґрунтований компроміс між витратами на розробку моделей та її точністю

Біографії авторів

Владислав Ігорович Пилипенко, Київський національний університет технологій та дизайну

Аспірант

Кафедра комп’ютерних наук

Володимир Володимирович Стаценко, Київський національний університет технологій та дизайну

Доктор технічних наук, доцент

Кафедра комп’ютерної інженерії та електромеханіки

Тетяна Яківна Біла, Київський національний університет технологій та дизайну

Кандидат технічних наук, доцент

Кафедра комп’ютерної інженерії та електромеханіки

Дмитро Володимирович Стаценко, Київський національний університет технологій та дизайну

Кандидат технічних наук, доцент

Кафедра комп’ютерної інженерії та електромеханіки

Посилання

Liu, M., Yu, D. (2022). Towards intelligent E-learning systems. Education and Information Technologies, 28 (7), 7845–7876. https://doi.org/10.1007/s10639-022-11479-6
Soloshych, I., Grynova, M., Kononets, N., Shvedchykova, I., Bunetska, I. (2021). Competence and Resource-Oriented Approaches to the Development of Digital Educational Resources. 2021 IEEE International Conference on Modern Electrical and Energy Systems (MEES), 2, 1–5. https://doi.org/10.1109/mees52427.2021.9598603
Panasiuk, O., Akimova, L., Kuznietsova, O., Panasiuk, I. (2021). Virtual Laboratories for Engineering Education. 2021 11th International Conference on Advanced Computer Information Technologies (ACIT), 1, 637–641. https://doi.org/10.1109/acit52158.2021.9548567
Bradley, V. M. (2020). Learning Management System (LMS) Use with Online Instruction. International Journal of Technology in Education, 4 (1), 68. https://doi.org/10.46328/ijte.36
Gamage, S. H. P. W., Ayres, J. R., Behrend, M. B. (2022). A systematic review on trends in using Moodle for teaching and learning. International Journal of STEM Education, 9 (1). https://doi.org/10.1186/s40594-021-00323-x
Bognár, L., Fauszt, T. (2022). Factors and conditions that affect the goodness of machine learning models for predicting the success of learning. Computers and Education: Artificial Intelligence, 3, 100100. https://doi.org/10.1016/j.caeai.2022.100100
Rastrollo-Guerrero, J. L., Gómez-Pulido, J. A., Durán-Domínguez, A. (2020). Analyzing and Predicting Students’ Performance by Means of Machine Learning: A Review. Applied Sciences, 10 (3), 1042. https://doi.org/10.3390/app10031042
Sáiz-Manzanares, M. C., Marticorena-Sánchez, R., García-Osorio, C. I. (2020). Monitoring Students at the University: Design and Application of a Moodle Plugin. Applied Sciences, 10 (10), 3469. https://doi.org/10.3390/app10103469
Gaftandzhieva, S., Talukder, A., Gohain, N., Hussain, S., Theodorou, P., Salal, Y. K., Doneva, R. (2022). Exploring Online Activities to Predict the Final Grade of Student. Mathematics, 10 (20), 3758. https://doi.org/10.3390/math10203758
Yağcı, M. (2022). Educational data mining: prediction of students’ academic performance using machine learning algorithms. Smart Learning Environments, 9 (1). https://doi.org/10.1186/s40561-022-00192-z
Pylypenko, V., Statsenko, V. (2024). Assessment of the efficiency of the success prediction model using machine learning methods. Herald of Khmelnytskyi National University. Technical Sciences, 1 (3 (335)), 349–356. https://doi.org/10.31891/2307-5732-2024-335-3-47
Ljubobratović, D., Matetić, M. (2020). Using LMS activity logs to predict student failure with random forest algorithm. INFuture2019: Knowledge in the Digital Age. https://doi.org/10.17234/infuture.2019.14
Aleksandrova, Y. (2019). Predicting students performance in moodle platforms using machine learning algorithms. Conferences of the department Informatics, 1, 177–187. Available at: https://informatics.ue-varna.bg/conference19/Conf.proceedings_Informatics-50.years%20177-187.pdf
Zacharis, N. (2016). Predicting Student Academic Performance in Blended Learning Using Artificial Neural Networks. International Journal of Artificial Intelligence & Applications, 7 (5), 17–29. https://doi.org/10.5121/ijaia.2016.7502
Tamada, M. M., Giusti, R., Netto, J. F. de M. (2022). Predicting Students at Risk of Dropout in Technical Course Using LMS Logs. Electronics, 11 (3), 468. https://doi.org/10.3390/electronics11030468
Althibyani, H. A. (2024). Predicting student success in MOOCs: a comprehensive analysis using machine learning models. PeerJ Computer Science, 10, e2221. https://doi.org/10.7717/peerj-cs.2221
Jabbar, H. K., Khan, R. Z. (2014). Methods to Avoid Over-Fitting and Under-Fitting in Supervised Machine Learning (Comparative Study). Computer Science, Communication and Instrumentation Devices, 163–172. https://doi.org/10.3850/978-981-09-5247-1_017
Géron, A. (2022). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media, Inc.
Sial, A. H., Rashdi, S. Y. S., Khan, A. H. (2021). Comparative Analysis of Data Visualization Libraries Matplotlib and Seaborn in Python. International Journal of Advanced Trends in Computer Science and Engineering, 10 (1), 277–281. https://doi.org/10.30534/ijatcse/2021/391012021
Sapre, A., Vartak, S. (2020). Scientific Computing and Data Analysis using NumPy and Pandas. International Research Journal of Engineering and Technology, 7, 1334–1346.
Krstinić, D., Braović, M., Šerić, L., Božić-Štulić, D. (2020). Multi-label Classifier Performance Evaluation with Confusion Matrix. Computer Science & Information Technology. https://doi.org/10.5121/csit.2020.100801
Lavazza, L., Morasca, S., Rotoloni, G. (2023). On the Reliability of the Area Under the ROC Curve in Empirical Software Engineering. Proceedings of the 27th International Conference on Evaluation and Assessment in Software Engineering. https://doi.org/10.1145/3593434.3593456
Bowers, A. J., Zhou, X. (2019). Receiver Operating Characteristic (ROC) Area Under the Curve (AUC): A Diagnostic Measure for Evaluating the Accuracy of Predictors of Education Outcomes. Journal of Education for Students Placed at Risk (JESPAR), 24 (1), 20–46. https://doi.org/10.1080/10824669.2018.1523734