ОНЛАЙН НЕЧІТКА КЛАСТЕРИЗАЦІЯ ПОТОКІВ ДАНИХ ВЫСОКОЇ РОЗМІРНОСТІ НА ОСНОВІ АНСАМБЛІВ НЕЙРОННИХ МЕРЕЖ

Автор(и)

DOI:

https://doi.org/10.30837/2522-9818.2019.7.016

Ключові слова:

кластерування, метод нечітких C-середніх, послідовний аналіз головних компонент, ансамбль нейро-фаззі мереж, нейронна мережа Т. Кохонена, самонавчання

Анотація

Предметом дослідження в статті є нечітка кластеризація даних високої розмірності на основі ансамблевого підходу за умови, що кількість та форма кластерів невідомі. Мета роботи - створення нейро-фаззі підходу для кластеризації даних, коли потік даних подається на обробку в онлайн-режимі в припущенні, що кількість та форма кластерів невідомі. У статті вирішуються наступні завдання: компресія вхідного простору ознак в онлайн режимі, формування моделі ансамблів нейронних мереж для кластеризації даних, розробка ансамблю нейро-фаззі мереж для кластеризації даних високої розмірності, розробка підходу для кластеризації даних в онлайн режимі. Отримані наступні результати: основна ідея запропонованого підходу заснована на модифікації нечіткого алгоритму C-середніх. Для зниження розмірності вхідного простору пропонується використовувати модифіковану мережу Хебба-Сенгера, яка відрізняється підвищеною швидкодією та побудовану на основі модифікованих нейронів Ойя. Запропоновано оптимізований за швидкодією алгоритм навчання нейрона Ойя. Така мережа реалізує метод головних компонент в онлайн-режимі з високою швидкодією. Висновки: В тому випадку, якщо процедура редукції-компресії не може бути використана через можливість втрати фізичного сенсу вихідного простору, нами запропоновано новий критерій кластеризації, який містить в собі як відомий поліноміальний фаззіфікатор, так і зважування окремих компонент відхилень аналізованих образів від центроїдів кластерів. Введена рекурентна модифікація заснована на алгоритмах запропонованих в даній статті. Розроблено математичну модель для визначення якості кластеризації з використанням індекса Ксі-Бені, який був модифікований для онлайн режиму. Експериментальні результати підтвердили той факт, що запропонована система дозволяє вирішувати широкий спектр завдань Data Mining, коли набори даних обробляються в онлайн-режимі за умови, що кількість та форма кластерів не відомі, а також мають велику кількість спостережень.

Біографії авторів

Yevgeniy Bodyanskiy, Харківський національний університет радіоелектроніки

доктор технічних наук, професор, професор кафедри штучного інтелекту, науковий керівник ПНДЛ АСУ

Iryna Perova, Харківський національний університет радіоелектроніки

кандидат технічних наук, с.н.с., доцент, доцент кафедри біомедичної інженерії

Polina Zhernova, Харківський національний університет радіоелектроніки

асистент кафедри системотехніки

Посилання

Gan, G., Ma, Ch., Wu, J. (2007), Data Clustering. Theory, Algorithms and Application, SIAM, Philadelphia, 489 p.

Xu, R., Wunsch, D. C. (2009), Clustering, IEEE Press Series on Computational Intelligence, John Wiley & Sons, Inc., Hoboken, NJ, 368 p.

Bifet, A. (2010), Adaptive Stream Mining. Pattern Learning and Mining from Evolving Data Streams, Amsterdam, IOS Press, 224 p.

Bezdek, J. C. (1981), Pattern Recognition with Fuzzy Objective Function Algorithms, N.Y., Plenum Press, 272 p

Kohonen, T. (1995), Self-Organizing Maps, Springer-Verlag, Berlin, 362 p.

Pelleg, D., Moor, A. (2000), "X-means: extending K-means with efficient estimation of the number of clusters", Proc. 17th Int. Conf. on Machine Learning, Morgan Kaufmann, San Francisco, P. 727–730.

Ishioka, T. (2005), "An expansion of X-means for automatically determining the optimal number of clusters", Proc. 4th IASTED Int. Conf. Computational Intelligence, Calgary, Alberta, P. 91–96.

Strehl, A., Ghosh, J. (2002), "Cluster Ensembles – A knowledge reuse framework for combining multiple partitions", Journal of Machine Learning Research, P. 583–617.

Topchy, A., Jain, A.K., Punch, W. (2005), "Clustering ensembles: models of consensus and weak partitions", IEEE Transactions on Pattern Analysis and Machine Intelligence, No. 27, P. 1866–1881.

Alizadeh, H., Minaei-Bidgoli, B., Parvin, H. (2013), "To improve the quality of cluster ensembles by selecting a subset of base clusters", Journal of Experimental & Theoretical Artificial Intelligence, No. 26, P. 127–150.

Charkhabi, M., Dhot, T., Mojarad, S.A. (2014), "Cluster ensembles, majority vote, voter eligibility and privileged voters", Int. Journal of Machine Learning and Computing, No. 4, P. 275–278

Zhernova, P., Deyneko, A., Bodyanskiy, Ye., Riepin, V. (2018), "Adaptive kernel data streams clustering based on neural networks ensembles in conditions of uncertainty about amount and shapes of clusters", IEEE Second International Conference on Data Stream Mining & Processing, August 21-25, Lviv, Ukraine, P. 7–12.

Bezdek, J., Keller, J., Krisnapuram, R., Pal, N. (2005), Fuzzy Models and Algorithms for Pattern Recognition and Image Processing, Springer, 776 p.

Gorshkov, Ye., Kolodyazhniy, V., Bodyanskiy, Ye. (2009), "New recursive learning algoritms for fuzzy Kohonen clustering network", In Proc. 17th Int. Workshop on Nonlinear Dynamics of Electronic Systems, Rapperwil, Switzerland, P. 58–61.

Höppner, F., Klawonn, F., Kruze, R. (1999), Fuzzy Klusteranalyse, Braunschweig, Vieweg, 280 p.

Höppner, F., Klawonn, F., Kruse, R. (1996), Fuzzy-Klusteranalyse, Verfahren für die Bilderkennung, Klassifikation und Datenanalyse, Braunschweig, Vieweg, 292 p.

Oja, E. (1989), "Neural Network, principal components and subspaces", Int. J. of Neural Systems, No. 1, P. 61–68.

Sanger, T. (1989), "Optimal unsupervised learning in a single-layer linear feedforward neural network", Neural Networks, No. 2, P. 459–473.

Bodyanskiy, Ye., Mihaliov, O., Pliss I. (2000), Adaptive fault detection in control systems using artifitial neural networks, Dniepropetrovsk : System Technologies, 140 p.

Ȕberla, K. (1997), Faktorenanalyse, Springer Verlag, Berlin Heidelberg New York, 398 p.

Oja, E. (1982), "A simplified neuron model as a principal component analyzer", J. of Math. Biology, No. 15, P. 267–273.

Vazan, M. T. (1969), Stochastic approximation, Cambridge, Cambridge University Press, 289 p.

Shakhovska, N., Medykovsky, M., Stakhiv, P. (2013), "Application of algorithms of classification for uncertainty reduction", Przeglad Elektrotechniczny, No. 4, P. 284–286.

Kolchygin, B. V., Bodyanskiy, Ye. V. (2013), "Adaptive fuzzy clustering with a variable fuzzifier", Cybernetics and Systems Analysis, No. 3, P. 366–374.

Keller, A., Klawonn F. (2000), "Fuzzy Clustering with weighting of data variables", Uncertainty, Fuzziness and Knowledge Based Systems, No. 8, P. 735-746.

Bodyanskiy, Ye., Kolchygin, B., Pliss I. (2011), "Adaptive neuro-fuzzy Kohonen network with variable fuzzifier", Inform. Theories and Appl, No. 3, P. 215–223.

Bodyanskiy, Ye., Zhernova, P. (2018), “Kernel fuzzy data stream clustering based on neural networks ensemble”, Inovative Technologies & Scientific Solutions for Industries, No. 4 (6), P. 42–49. DOI: https://doi.org/10.30837/2522-9818.2018.6.042.

Xie, X. L., Beni, G. A. (1991), "Validity Measure for Fuzzy Clustering", IEEE Transactions on Pattern Analysis and Machine Intelligence, No. 13, P. 841–847.

Bodyanskiy, Ye. V., Tyshchenko, O. K., Kopaliani, D. S. (2017), "An Evolving Connectionist System for Data Stream Fuzzy Clustering and Its Online Learning", Neurocomputing, No. 262, P. 41–56.

"Dermatology dataset", available at: http://archive.ics.uci.edu/ml/machine-learning-databases/dermatology/dermatology.data (last accessed: 1st of May, 2018).

Mulesa, P., Perova, I. (2015), "Fuzzy Spacial Extrapolation Method Using Manhattan Metrics for Tasks of Medical Data Mining", Computer Science and Information Technologies, CSIT’2015, Lviv, Ukraine, P. 104–106. DOI: https://doi.org/10.1109/STC-CSIT.2015.7325443.

##submission.downloads##

Опубліковано

2019-03-22

Як цитувати

Bodyanskiy, Y., Perova, I., & Zhernova, P. (2019). ОНЛАЙН НЕЧІТКА КЛАСТЕРИЗАЦІЯ ПОТОКІВ ДАНИХ ВЫСОКОЇ РОЗМІРНОСТІ НА ОСНОВІ АНСАМБЛІВ НЕЙРОННИХ МЕРЕЖ. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (1 (7), 16–24. https://doi.org/10.30837/2522-9818.2019.7.016

Номер

Розділ

Рецензована стаття