НОВА ОРГАНІЗАЦІЯ ПРОЦЕСУ ВИБОРУ ОЗНАК ЗА ДОПОМОГОЮ ФІЛЬТРА НА ОСНОВІ КОРЕЛЯЦІЇ

Автор(и)

DOI:

https://doi.org/10.30837/ITSSI.2022.21.039

Ключові слова:

вибір ознак на основі кореляції (CFS), симетрична невизначеність (SU), кореляція Пірсона (PearCorr), критерій якості, точність, коефіцієнт детермінації

Анотація

Предметом статті є методи вибору ознак, які використовуються на етапі попередньої обробки даних перед побудовою моделей машинного навчання. У цьому документі увага приділяється методу фільтра, коли він використовує вибір ознак на основі кореляції (далі CFS) та метод симетричної невизначеності (далі CFS-SU) або кореляцію Пірсона (далі PearCorr). Метою роботи є підвищення ефективності вибору ознак за допомогою фільтра з CFS шляхом нової організації процесу вибору ознак. Завдання, які вирішуються в статті: огляд та аналіз існуючої організації процесу виділення ознак фільтром з CFS; визначення причин, що спричинюють погіршення якості моделі; розробка нового підходу; оцінка запропонованого підходу. Для реалізації поставлених завдань використовувалися такі методи: теорія інформації, теорія процесів, теорія алгоритмів, теорія статистики, методи вибірки, теорія моделювання даних, наукові експерименти. Результати. На основі отриманих результатів доведено: 1) функція оцінки вибраної підмножини ознак не може базуватися лише на CFS оцінці, оскільки це спричиняє погіршення результатів алгоритму навчання; 2) точність алгоритмів навчання класифікації покращилася, а значення коефіцієнта детермінації алгоритмів регресії зросли, коли ознаки вибираються відповідно до запропонованого процесу. Висновки. Новий процес організації для вибору ознак, який пропонується в даній роботі, поєднує властивості фільтра та алгоритму навчання в стратегію оцінювання, яка допомагає вибрати оптимальну підмножину ознак для попередньо визначеного алгоритму навчання. Обчислювальна складність запропонованого підходу не залежить від розмірів набору даних, що робить його стійким до різних різновидів даних; також запропонований процес дає змогу економити час, необхідний для пошуку підмножин функцій, оскільки підмножини вибираються випадковим чином. Проведені експерименти довели, що продуктивність алгоритмів класифікації та регресії покращилась, порівняно із продуктивністю тих самих алгоритмів навчання але без застосування запропонованого процесу на етапі попередньої обробки даних.

Біографія автора

Olga Solovei, Київський національний університет будівництва і архітектури

кандидат технічних наук,доцент

Посилання

Guyon, I., Elisseeff, A. (2003), "An introduction to variable and feature selection", J. Machine Learning

Research 3, P. 1157–1182.

Dernoncourt, D., Hanczar, B., & Zucker, J.-D. (2014), "Analysis of feature selection stability on high dimension and small sample data", Computational Statistics & Data Analysis, 71, Р. 681– 693. DOI: https://doi.org/10.1016/j.csda.2013.07.012

Luan, C., Dong, G. (2018), "Experimental identification of hard data sets for classification and feature selection methods

with insights on method selection", Data Knowl. Eng. 2018, 118, Р. 41–51.

Senliol B., Gulgezen G., Yu L., Cataltepe Z. (2008), "Fast Correlation Based Filter (FCBF) with a different search

strategy", 23rd international symposium on computer and information sciences, Р. 1–4.

Yu L., Liu H. (2021), «Enhancing Big Data Feature Selection Using a Hybrid Correlation-Based Feature Selection»,

No. 10, 2984 p. DOI: https://doi.org/10.3390/electronics10232984

Alzami F., Tang J., Yu Z., Wu S., Chen P., You J., Zhang J. (2018), "Adaptive Hybrid Feature Selection-Based

Classifier Ensemble for Epileptic Seizure Classification", IEEE Access., No. 6, P. 29132 – 29145.

DOI: https://10.1109/ACCESS.2018.2838559

Jaina D., Singhb V. (2018), "An Efficient Hybrid Feature Selection model for Dimensionality Reduction", Procedia

Computer Science, No. 132, Р.333–341.

Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V. (2011), "Scikit-learn: Machine learning in Python", Journal of Machine Learning Research, No. 12, Р. 2825–2830.

Duda R., Hart P., Stork D. (2012), Pattern classification, John Wiley & Sons.

Mundra P., Rajapakseab J. (2016), "Gene and sample selection using T-score with sample selection", Journal of Biomedical Informatics, No. 59, Р. 31–41. DOI: https://doi.org/10.1016/j.jbi.2015.11.003

Tan H., Wang G., Wang W., Zhanga Z. (2022), "Feature selection based on distance correlation: a filter algorithm", Journal

of Applied Statistics, No. 49 (2), Р. 411–426.

Zhai Y., Song W., Liu X., Liu L. (2018), "A Chi-Square Statistics Based Feature Selection Method in Text

Classification", IEEE 9th International Conference on Software Engineering and Service Science (ICSESS).

DOI: https://10.1109/ICSESS.2018.8663882

Ircioa J., Lojo A., Morib U., Lozanobc J. (2020), "Mutual information based feature subset selection in multivariate time

series classification", Pattern Recognition, 108. DOI: https://doi.org/10.1016/j.patcog.2020.107525

Sarkar D., Goswami S. (2013), "Empirical Study on Filter based Feature Selection Methods for Text Classification", International Journal of Computer Applications, No. 6, Р. 38 – 43.

Li J., Cheng K., Wang S., Morstatter F., Trevino R., Tang J., Liu H. (2018), "Feature Selection: A Data Perspective",

ACM Computing Surveys, No. 50, Р. 1–45. DOI: https://doi.org/10.1145/3136625

Koller, D., Sahami, M. (1996), "Toward optimal feature selection", Proceedings of the Thirteenth International Conference

on International Conference on Machine Learning, Р. 284–292.

Ahn E., Mullen T., Yen J. (2011), "A two-population evolutionary algorithm for feature extraction: Combining filter

and wrapper", IEEE Congress of Evolutionary Computation (CEC). DOI: https://ieeexplore.ieee.org/document/5949692

Hall, M. A. (1998), Correlation-based Feature Selection for Machine Learning, Ph.D diss. Dept. of Computer Science,

Waikato Univ

##submission.downloads##

Опубліковано

2022-11-18

Як цитувати

Solovei, O. (2022). НОВА ОРГАНІЗАЦІЯ ПРОЦЕСУ ВИБОРУ ОЗНАК ЗА ДОПОМОГОЮ ФІЛЬТРА НА ОСНОВІ КОРЕЛЯЦІЇ. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (3 (21), 39–50. https://doi.org/10.30837/ITSSI.2022.21.039