Бінарна класифікація на основі поєднання теорії приблизних множин та дерев рішень

Автор(и)

DOI:

https://doi.org/10.30837/ITSSI.2023.26.087

Ключові слова:

класифікація дерев рішень, теорія приблизних множин, алгебраїчний підхід, машинне навчання

Анотація

Предмет дослідження – підвищення точності та ефективності алгоритмів класифікації за допомогою дерев рішень за рахунок інтеграції принципів теорії приблизних множин(Rough Set), математичного підходу до апроксимації множин. Мета дослідження – розробка гібридної моделі, яка об'єднує теорію приблизних множин з алгоритмами дерев рішень, тим самим вирішуючи вроджені обмеження цих алгоритмів у роботі з невизначеністю в даних. Ця інтеграція повинна суттєво покращити точність та ефективність бінарної класифікації на основі дерев рішень, роблячи їх більш стійкими до різних вхідних даних. Дослідницькі завдання включають в себе глибоке вивчення можливих синергій між теорією приблизних множин та алгоритмами дерев рішень. З цією метою ми проводимо комплексне дослідження інтеграції теорії приблизних множин у рамках алгоритмів дерев рішень. Це включає розробку моделі, яка використовує принципи та алгебраїчні інструменти теорії приблизних множин для більш ефективного відбору ознак у системах, що базуються на деревах рішень.        Модель використовує теорію приблизних множин для ефективної роботи з невизначеністю та вагомістю, що дозволяє удосконалювати та розширювати процеси відбору ознак у системах дерев рішень. Проводяться серія експериментів на різних наборах даних для демонстрації ефективності та практичності цього підходу. Ці набори даних обрані для представлення спектру складностей та невизначеностей, забезпечуючи грунтовну та ретельну оцінку можливостей моделі. Методологія використовує передові алгебраїчні інструменти теорії приблизних множин, включаючи формулювання алгебраїчних виразів та розробку нових правил та технік, для спрощення та підвищення точності процесів класифікації даних, за допомогою систем дерев рішень. Знахідки дослідження є важливими, оскільки вони свідчать про те, що інтеграція теорії приблизних множин у алгоритми дерев рішень дійсно може забезпечити більш точні та ефективні результати класифікації. Така гібридна модель демонструє значні переваги у роботі з даними з вбудованою невизначеністю, що є загальним викликом у багатьох додаткових сценаріях. Універсальність та ефективність інтегрованого підходу продемонстровано його успішним застосуванням у сферах кредитного скорингу та кібербезпеки, що підкреслює його потенціал як універсального інструмента у галузі видобутку даних та машинного навчання. Висновки показують, що інтеграція теорії приблизних множин може призвести до більш точних та ефективних результатів класифікації. Покращуючи можливість дерев рішень враховувати невизначеність та неточності в даних, дослідження відкриває нові можливості для надійного та вишуканого аналізу та інтерпретації даних у різних галузях, від охорони здоров'я до фінансів та далі. Інтеграція теорії приблизних множин та дерев рішень є важливим кроком у розвитку більш вдосконалених, ефективних та точних інструментів класифікації в епоху великих обсягів даних.

Біографії авторів

Дмитро Чернишов, Харківський національний університет радіоелектроніки

бакалавр комп’ютерних наук

Дмитро Ситніков, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент, професор кафедри системотехніки

Посилання

Список літератури

Costa V. G. and Pedreira C. E. Recent advances in decision trees: an updated survey. Artificial Intelligence Review, Springer Science and Business Media LLC. Vol. 56. No. 5. P. 4765–4800. 2022. DOI: 10.1007/s10462-022-10275-5.

Hafeez M. A., Rashid M., Tariq H., Abideen Z. U., Alotaibi S. S., and Sinky M. H. Performance Improvement of Decision Tree: A Robust Classifier Using Tabu Search Algorithm. Applied Sciences, MDPI AG. Vol. 11. No. 15. 6728 р. 2021. DOI: 10.3390/app11156728.

Wang Z., Zhang X., and Deng J. The uncertainty measures for covering rough set models. Soft Computing, Springer Science and Business Media LLC. Vol. 24. No. 16. P. 11909–11929. 2020. DOI: 10.1007/s00500-020-05098-x.

Geetha M. A., Acharjya D. P., and Iyengar N. Ch. S. N. Algebraic properties and measures of uncertainty in rough set on two universal sets based on multi-granulation. Proceedings of the 6th ACM India Computing Convention, ACM. Р. 1-8. 2013. DOI: 10.1145/2522548.2523168.

Qian Y., Xu H., Liang J., Liu B., and Wang J. Fusing Monotonic Decision Trees. IEEE Transactions on Knowledge and Data Engineering. Vol. 27. No. 10. P. 2717–2728. 2015. DOI: 10.1109/TKDE.2015.2429133.

Sitnikov D. and Ryabov O. An Algebraic Approach to Defining Rough Set Approximations and Generating Logic Rules. Data Mining V, WIT Press. 10 р. 2004. DOI: 10.2495/data040171.

Sitnikov D., Titova O., Romanenko O., and Ryabov O. A method for finding minimal sets of features adequately describing discrete information objects. Data Mining X, WIT Press. 8 р. 2009. DOI: 10.2495/data090141.

Wang D., Liu X., Jiang L., Zhang X., and Zhao Y. Rough Set Approach to Multivariate Decision Trees Inducing. Journal of Computers, International Academy Publishing (IAP). Vol. 7. No. 4. P. 870–879. 2012. DOI: 10.4304/jcp.7.4.870-879.

Blockeel H., Devos L., Frénay B., Nanfack G., and Nijssen S. Decision trees: from efficient prediction to responsible AI. Frontiers in Artificial Intelligence, Frontiers Media SA. Vol. 6. Jul. 26. 2023. DOI: 10.3389/frai.2023.1124553.

Hu X., Rudin C., and Seltzer M. Optimal Sparse Decision Trees. arXiv. 2019. DOI: 10.48550/ARXIV.1904.12847.

Chiaselotti G., Gentile T., and Infusino F. Decision systems in rough set theory: A set operatorial perspective. Journal of Algebra and Its Applications, World Scientific Pub Co Pte Lt. Vol. 18. No. 01. 2019. 1950004 р. DOI: 10.1142/s021949881950004x.

Xu J., Qu K., Meng X., Sun Y., and Hou Q. Feature selection based on multiview entropy measures in multiperspective rough set. International Journal of Intelligent Systems, Hindawi Limited. Vol. 37. No. 10. 2022. P. 7200–7234. DOI: 10.1002/int.22878.

Duan G., Ding D., Tian Y., and You X. An Improved Medical Decision Model Based on Decision Tree Algorithms. 2016 IEEE International Conferences on Big Data and Cloud Computing (BDCloud), Social Computing and Networking (SocialCom), Sustainable Computing and Communications (SustainCom) (BDCloud-SocialCom-SustainCom), Atlanta, GA, USA IEEE. 2016. P. 151-156. DOI: 10.1109/BDCloud-SocialCom-SustainCom.2016.33.

Cukierski W. Titanic - Machine Learning from Disaster. Kaggle. 2012. URL: https://kaggle.com/competitions/titanic.

Ronen R., Radu M., Feuerstein C., Yom-Tov E., and Ahmadi M. Microsoft Malware Classification Challenge. arXiv. 2018. DOI: 10.48550/ARXIV.1802.10135.

Montoya A., Odintsov K., and Kotek M. Home Credit Default Risk. Kaggle. 2018. URL: https://kaggle.com/competitions/home-credit-default-risk.

References

Costa, V. G. and Pedreira, C. E. (2022), “Recent advances in decision trees: an updated survey”. Artificial Intelligence Review, Springer Science and Business Media LLC. Vol. 56, No. 5. P. 4765–4800. DOI: 10.1007/s10462-022-10275-5.

Hafeez, M. A., Rashid, M., Tariq, H., Abideen, Z. U., Alotaibi, S. S., and Sinky, M. H. (2021), “Performance Improvement of Decision Tree: A Robust Classifier Using Tabu Search Algorithm”. Applied Sciences, MDPI AG. Vol. 11, No. 15. 6728 р. DOI: 10.3390/app11156728.

Wang, Z., Zhang, X., and Deng, J. (2020), “The uncertainty measures for covering rough set models”. Soft Computing, Springer Science and Business Media LLC. Vol. 24, No. 16. P. 11909–11929. DOI: 10.1007/s00500-020-05098-x.

Geetha, M. A., Acharjya, D. P., and Iyengar, N. Ch. S. N. (2013), “Algebraic properties and measures of uncertainty in rough set on two universal sets based on multi-granulation”. Proceedings of the 6th ACM India Computing Convention, ACM. Р. 1-8. DOI: 10.1145/2522548.2523168.

Qian, Y., Xu, H., Liang, J., Liu, B., and Wang, J. (2015), “Fusing Monotonic Decision Trees”. IEEE Transactions on Knowledge and Data Engineering. Vol. 27, No. 10. P. 2717–2728. DOI: 10.1109/TKDE.2015.2429133.

Sitnikov, D. and Ryabov, O. (2004), “An Algebraic Approach to Defining Rough Set Approximations and Generating Logic Rules”. Data Mining V, WIT Press. 10 р. DOI: 10.2495/data040171.

Sitnikov, D., Titova, O., Romanenko, O., and Ryabov, O. (2009), “A method for finding minimal sets of features adequately describing discrete information objects”. Data Mining X, WIT Press. 8 р. DOI: 10.2495/data090141.

Wang, D., Liu, X., Jiang, L., Zhang, X., and Zhao, Y. (2012), “Rough Set Approach to Multivariate Decision Trees Inducing”. Journal of Computers, International Academy Publishing (IAP). Vol. 7, No. 4. P. 870–879. DOI: 10.4304/jcp.7.4.870-879.

Blockeel, H., Devos, L., Frénay, B., Nanfack, G., and Nijssen, S. (2023), “Decision trees: from efficient prediction to responsible AI”. Frontiers in Artificial Intelligence, Frontiers Media SA. Vol. 6. Jul. 26. DOI: 10.3389/frai.2023.1124553.

Hu, X., Rudin, C., and Seltzer, M. (2019), “Optimal Sparse Decision Trees”. arXiv. DOI: 10.48550/ARXIV.1904.12847.

Chiaselotti, G., Gentile, T., and Infusino, F. (2019), “Decision systems in rough set theory: A set operatorial perspective”. Journal of Algebra and Its Applications, World Scientific Pub Co Pte Lt. Vol. 18, No. 01. 1950004 р. DOI: 10.1142/s021949881950004x.

Xu, J., Qu, K., Meng, X., Sun, Y., and Hou, Q. (2022), “Feature selection based on multiview entropy measures in multiperspective rough set”. International Journal of Intelligent Systems, Hindawi Limited. Vol. 37, No. 10. P. 7200–7234. DOI: 10.1002/int.22878.

Duan, G., Ding, D., Tian, Y., and You, X. (2016), “An Improved Medical Decision Model Based on Decision Tree Algorithms”. 2016 IEEE International Conferences on Big Data and Cloud Computing (BDCloud), Social Computing and Networking (SocialCom), Sustainable Computing and Communications (SustainCom) (BDCloud-SocialCom-SustainCom), IEEE. P. 151-156. DOI: 10.1109/BDCloud-SocialCom-SustainCom.2016.33.

Cukierski, W. (2012), “Titanic - Machine Learning from Disaster”. Kaggle. available at: https://kaggle.com/competitions/titanic.

Ronen, R., Radu, M., Feuerstein, C., Yom-Tov, E., and Ahmadi, M. (2018), “Microsoft Malware Classification Challenge”. arXiv. DOI: 10.48550/ARXIV.1802.10135.

Montoya, A., Odintsov, K., and Kotek, M. (2018), “Home Credit Default Risk”. Kaggle. available at: https://kaggle.com/competitions/home-credit-default-risk.

##submission.downloads##

Опубліковано

2023-12-27

Як цитувати

Чернишов, Д., & Ситніков, Д. (2023). Бінарна класифікація на основі поєднання теорії приблизних множин та дерев рішень. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (4(26), 87–94. https://doi.org/10.30837/ITSSI.2023.26.087