НОВА ОРГАНІЗАЦІЯ ПРОЦЕСУ ВИБОРУ ОЗНАК ЗА ДОПОМОГОЮ ФІЛЬТРА НА ОСНОВІ КОРЕЛЯЦІЇ
DOI:
https://doi.org/10.30837/ITSSI.2022.21.039Ключові слова:
вибір ознак на основі кореляції (CFS), симетрична невизначеність (SU), кореляція Пірсона (PearCorr), критерій якості, точність, коефіцієнт детермінаціїАнотація
Предметом статті є методи вибору ознак, які використовуються на етапі попередньої обробки даних перед побудовою моделей машинного навчання. У цьому документі увага приділяється методу фільтра, коли він використовує вибір ознак на основі кореляції (далі CFS) та метод симетричної невизначеності (далі CFS-SU) або кореляцію Пірсона (далі PearCorr). Метою роботи є підвищення ефективності вибору ознак за допомогою фільтра з CFS шляхом нової організації процесу вибору ознак. Завдання, які вирішуються в статті: огляд та аналіз існуючої організації процесу виділення ознак фільтром з CFS; визначення причин, що спричинюють погіршення якості моделі; розробка нового підходу; оцінка запропонованого підходу. Для реалізації поставлених завдань використовувалися такі методи: теорія інформації, теорія процесів, теорія алгоритмів, теорія статистики, методи вибірки, теорія моделювання даних, наукові експерименти. Результати. На основі отриманих результатів доведено: 1) функція оцінки вибраної підмножини ознак не може базуватися лише на CFS оцінці, оскільки це спричиняє погіршення результатів алгоритму навчання; 2) точність алгоритмів навчання класифікації покращилася, а значення коефіцієнта детермінації алгоритмів регресії зросли, коли ознаки вибираються відповідно до запропонованого процесу. Висновки. Новий процес організації для вибору ознак, який пропонується в даній роботі, поєднує властивості фільтра та алгоритму навчання в стратегію оцінювання, яка допомагає вибрати оптимальну підмножину ознак для попередньо визначеного алгоритму навчання. Обчислювальна складність запропонованого підходу не залежить від розмірів набору даних, що робить його стійким до різних різновидів даних; також запропонований процес дає змогу економити час, необхідний для пошуку підмножин функцій, оскільки підмножини вибираються випадковим чином. Проведені експерименти довели, що продуктивність алгоритмів класифікації та регресії покращилась, порівняно із продуктивністю тих самих алгоритмів навчання але без застосування запропонованого процесу на етапі попередньої обробки даних.
Посилання
Guyon, I., Elisseeff, A. (2003), "An introduction to variable and feature selection", J. Machine Learning
Research 3, P. 1157–1182.
Dernoncourt, D., Hanczar, B., & Zucker, J.-D. (2014), "Analysis of feature selection stability on high dimension and small sample data", Computational Statistics & Data Analysis, 71, Р. 681– 693. DOI: https://doi.org/10.1016/j.csda.2013.07.012
Luan, C., Dong, G. (2018), "Experimental identification of hard data sets for classification and feature selection methods
with insights on method selection", Data Knowl. Eng. 2018, 118, Р. 41–51.
Senliol B., Gulgezen G., Yu L., Cataltepe Z. (2008), "Fast Correlation Based Filter (FCBF) with a different search
strategy", 23rd international symposium on computer and information sciences, Р. 1–4.
Yu L., Liu H. (2021), «Enhancing Big Data Feature Selection Using a Hybrid Correlation-Based Feature Selection»,
No. 10, 2984 p. DOI: https://doi.org/10.3390/electronics10232984
Alzami F., Tang J., Yu Z., Wu S., Chen P., You J., Zhang J. (2018), "Adaptive Hybrid Feature Selection-Based
Classifier Ensemble for Epileptic Seizure Classification", IEEE Access., No. 6, P. 29132 – 29145.
DOI: https://10.1109/ACCESS.2018.2838559
Jaina D., Singhb V. (2018), "An Efficient Hybrid Feature Selection model for Dimensionality Reduction", Procedia
Computer Science, No. 132, Р.333–341.
Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V. (2011), "Scikit-learn: Machine learning in Python", Journal of Machine Learning Research, No. 12, Р. 2825–2830.
Duda R., Hart P., Stork D. (2012), Pattern classification, John Wiley & Sons.
Mundra P., Rajapakseab J. (2016), "Gene and sample selection using T-score with sample selection", Journal of Biomedical Informatics, No. 59, Р. 31–41. DOI: https://doi.org/10.1016/j.jbi.2015.11.003
Tan H., Wang G., Wang W., Zhanga Z. (2022), "Feature selection based on distance correlation: a filter algorithm", Journal
of Applied Statistics, No. 49 (2), Р. 411–426.
Zhai Y., Song W., Liu X., Liu L. (2018), "A Chi-Square Statistics Based Feature Selection Method in Text
Classification", IEEE 9th International Conference on Software Engineering and Service Science (ICSESS).
DOI: https://10.1109/ICSESS.2018.8663882
Ircioa J., Lojo A., Morib U., Lozanobc J. (2020), "Mutual information based feature subset selection in multivariate time
series classification", Pattern Recognition, 108. DOI: https://doi.org/10.1016/j.patcog.2020.107525
Sarkar D., Goswami S. (2013), "Empirical Study on Filter based Feature Selection Methods for Text Classification", International Journal of Computer Applications, No. 6, Р. 38 – 43.
Li J., Cheng K., Wang S., Morstatter F., Trevino R., Tang J., Liu H. (2018), "Feature Selection: A Data Perspective",
ACM Computing Surveys, No. 50, Р. 1–45. DOI: https://doi.org/10.1145/3136625
Koller, D., Sahami, M. (1996), "Toward optimal feature selection", Proceedings of the Thirteenth International Conference
on International Conference on Machine Learning, Р. 284–292.
Ahn E., Mullen T., Yen J. (2011), "A two-population evolutionary algorithm for feature extraction: Combining filter
and wrapper", IEEE Congress of Evolutionary Computation (CEC). DOI: https://ieeexplore.ieee.org/document/5949692
Hall, M. A. (1998), Correlation-based Feature Selection for Machine Learning, Ph.D diss. Dept. of Computer Science,
Waikato Univ
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.