ПОРІВНЯННЯ АЛГОРИТМІВ ОВЕРСЕМПЛІНГУ НАБОРІВ ДАНИХ ТА ЇХ ЗАСТОСОВНОСТІ ДЛЯ ПРОБЛЕМИ КАТЕГОРИЗАЦІЇ

Автор(и)

DOI:

https://doi.org/10.30837/ITSSI.2023.24.161

Ключові слова:

категоризація; машинне навчання; методи балансування; методи генерації даних; набір даних; незбалансовані набори даних

Анотація

Предметом дослідження є питання класифікації в машинному навчанні за наявності незбалансованості класів у наборах даних. Мета роботи – аналіз наявних рішень і алгоритмів розв’язання проблеми незбалансованості в наборах даних різних типів і різних галузей та експериментальне порівняння алгоритмів. У статті виконуються такі завдання: аналіз підходів до вирішення проблеми – методи попереднього оброблення, методи навчання, гібридні методи й алгоритмічні підходи; визначення та опис алгоритмів оверсемплінгу, що найчастіше використовуються для балансування наборів даних; вибір алгоритмів класифікації, які будуть слугувати інструментом установлення якості балансування, перевіряючи застосовність отриманих після оверсемплінгу наборів даних; визначення метрик оцінки якості класифікації для порівняння; проведення експериментів за запропонованою методикою для виокремлення оптимальних і неоптимальних алгоритмів. Для наочності розглядалися набори даних із різним ступенем незбалансованості (кількість екземплярів класу меншості дорівнювала 15, 30, 45 та 60% від кількості зразків класу більшості). Використовуються такі методи: аналітичний та індуктивний – з метою визначення необхідного набору експериментів і побудови гіпотез щодо їх результатів; експериментальний та графічний – для наочної порівняльної характеристики обраних алгоритмів. Здобуто такі результати: за допомогою метрик якості досліджено всі алгоритми на двох різних датасетах – пасажирів "Титаніку" та з виявлення шахрайських транзакцій у банківських рахунках; доведено найкращу застосовність алгоритмів SMOTE та SVM SMOTE і виявлено найгірші показники у Borderline-SMOTE та k-means-SMOTE; описано результати кожного з алгоритмів і потенціал їх використання. Висновки. Застосування аналітичного та експериментального методу надало вичерпну порівняльну характеристику алгоритмів балансування. Доведено перевагу алгоритмів оверсемплінгу над алгоритмами андерсемплінгу. Вони порівнювалися за допомогою різних алгоритмів класифікації. Результати подано в графіках і таблицях, а також продемонстровано з допомогою теплових карт. Сформульовано висновки, що можуть бути використані у виборі оптимального алгоритму балансування у сфері машинного навчання.

Біографії авторів

Денис Тесленко, Харківський національний університет радіоелектроніки

магістр кафедри програмної інженерії

Анна Сорокіна, Харківський національний університет радіоелектроніки

магістр кафедри програмної інженерії

Артем Ховрат, Харківський національний університет радіоелектроніки

магістр кафедри програмної інженерії

Нурал Гулієв, Харківський національний університет радіоелектроніки

магістр кафедри програмної інженерії

Валентина Кирій, Харківський національний університет радіоелектроніки

кандидат економічних наук, доцент, доцент кафедри економічної кібернетики та управління економічною безпекою, доцент кафедри програмної інженерії (за сумісництвом)

Посилання

References

Mary, A. J., Claret, A. (2021), "Imbalanced Classification Problems: Systematic Study and Challenges in Healthcare Insurance Fraud Detection", 5th International Conference on Trends in Electronics and Informatics (ICOEI), Tirunelveli, India, Р. 1049–1055. DOI: 10.1109/ICOEI51242.2021.9452828

Srinilta, C., Kanharattanachai, S. (2021), "Application of Natural Neighbor-based Algorithm on Oversampling SMOTE Algorithms", 7th International Conference on Engineering, Applied Sciences and Technology (ICEAST), Pattaya, Thailand, Р. 217–220. DOI: 10.1109/ICEAST52143.2021.9426310

Das, R., Biswas, S. K., Devi, D., Sarma, B. (2020), "An Oversampling Technique by Integrating Reverse Nearest Neighbor in SMOTE: Reverse-SMOTE," International Conference on Smart Electronics and Communication (ICOSEC), Trichy, India, Р. 1239–1244. DOI: 10.1109/ICOSEC49089.2020.9215387

Feng, L. (2022), "Research on Customer Churn Intelligent Prediction Model based on Borderline-SMOTE and Random Forest," IEEE 4th International Conference on Power, Intelligent Computing and Systems (ICPICS), Shenyang, China, Р. 803–807. DOI: 10.1109/ICPICS55264.2022.9873702

Dudjak, M., Martinović, G. (2021), "An empirical study of data intrinsic characteristics that make learning from imbalanced data difficult", Expert Systems with Applications, Vol. 182, DOI: https://doi.org/10.1016/j.eswa.2021.115297

Liu, C., Jin, S., Wang, D. (2020), "Constrained Oversampling: An Oversampling Approach to Reduce Noise Generation in Imbalanced Datasets with Class Overlapping," IEEE Access, Vol. 10, Р. 91452–91465. DOI: 10.1109/ACCESS.2020.3018911

Ali, H., Mohd Salleh, M., Saedudin, R., Hussain, K., Mushtaq, M. (2019). "Imbalance class problems in data mining: a review", Indonesian Journal of Electrical Engineering and Computer Science, No. 14(3), 1552. DOI: 10.11591/ijeecs.v14.i3.pp1552-1563

Medium (2022), "Undersampling and oversampling: An old and a new approach", available at: https://medium.com/analytics-vidhya/undersampling-and-oversampling-an-old-and-a-new-approach-4f984a0e8392 (last accessed: 10.05.2023)

Sandeep Kini, M., Devidas, Smitha, N. Pai, Sucheta Kolekar, Vasudeva Pai, Balasubramani, R. (2022), "Use of Machine Learning and Random OverSampling in Stroke Prediction", International Conference on Artificial Intelligence and Data Engineering (AIDE), Karkala, India, Р. 331–337. DOI: 10.1109/AIDE57180.2022.10060313

Blagus, R., Lusa, L. (2012), "Evaluation of SMOTE for High-Dimensional Class-Imbalanced Microarray Data", 11th International Conference on Machine Learning and Applications, Boca Raton, FL, USA, Р. 89–94. DOI: 10.1109/ICMLA.2012.183

Sáez, J., Luengo, J., Stefanowski, J., Herrera, F. (2015), "SMOTE–IPF: Addressing the noisy and borderline examples problem in imbalanced classification by a re-sampling method with filtering", Information Sciences, Vol. 291, Р. 184–203. DOI: https://doi.org/10.1016/j.ins.2014.08.051

Mahalakshmi, M., Ramkumar, M. P., Emil Selvan, G., S., R. (2022), "SCADA Intrusion Detection System using Cost Sensitive Machine Learning and SMOTE-SVM", 4th International Conference on Advances in Computing, Communication Control and Networking (ICAC3N), Greater Noida, India, Р. 332–337. DOI: 10.1109/ICAC3N56670.2022.10074251

Puri, A., Gupta, M. (2020), "Improved Hybrid Bag-Boost Ensemble With K-Means-SMOTE–ENN Technique for Handling Noisy Class Imbalanced Data", The Computer Journal, Oxford University Press, Vol. 65, No. 1, Р. 124–138. DOI: 10.1093/comjnl/bxab039

"Titanic–Machine Learning from Disaster", (2022), available at: https://www.kaggle.com/competitions/titanic/data?select=gender_submission.csv (last accessed: 10.05.2023)

"Salary Prediction Classification", (2022), available at: https://www.kaggle.com/datasets/ayessa/salary-prediction-classification (last accessed: 10.05.2023)

Ni, N., Wu, H., Zhang, L. (2022), "Deformable Alignment and Scale-Adaptive Feature Extraction Network for Continuous-Scale Satellite Video Super-Resolution," IEEE International Conference on Image Processing (ICIP), Bordeaux, France, Р. 2746–2750. DOI: 10.1109/ICIP46576.2022.9897998

Yu, L., Zhou, R., Chen, R., Lai, K. K. (2020), "Missing data preprocessing in credit classification: One-hot encoding or imputation?" Emerging Markets Finance and Trade, Vol. 58, No. 2, Р. 472–482. DOI: 10.1080/1540496X.2020.1825935

Dahouda, M. K., Joe, I. (2021), "A Deep-Learned Embedding Technique for Categorical Features Encoding", IEEE Access, Vol. 9, Р. 114381–114391. DOI: 10.1109/ACCESS.2021.3104357

##submission.downloads##

Опубліковано

2023-11-13

Як цитувати

Тесленко, Д., Сорокіна, А., Ховрат, А., Гулієв, Н., & Кирій, В. (2023). ПОРІВНЯННЯ АЛГОРИТМІВ ОВЕРСЕМПЛІНГУ НАБОРІВ ДАНИХ ТА ЇХ ЗАСТОСОВНОСТІ ДЛЯ ПРОБЛЕМИ КАТЕГОРИЗАЦІЇ. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (2 (24), 161–171. https://doi.org/10.30837/ITSSI.2023.24.161