ОНЛАЙН НЕЧІТКА КЛАСТЕРИЗАЦІЯ ПОТОКІВ ДАНИХ ВЫСОКОЇ РОЗМІРНОСТІ НА ОСНОВІ АНСАМБЛІВ НЕЙРОННИХ МЕРЕЖ
DOI:
https://doi.org/10.30837/2522-9818.2019.7.016Ключові слова:
кластерування, метод нечітких C-середніх, послідовний аналіз головних компонент, ансамбль нейро-фаззі мереж, нейронна мережа Т. Кохонена, самонавчанняАнотація
Предметом дослідження в статті є нечітка кластеризація даних високої розмірності на основі ансамблевого підходу за умови, що кількість та форма кластерів невідомі. Мета роботи - створення нейро-фаззі підходу для кластеризації даних, коли потік даних подається на обробку в онлайн-режимі в припущенні, що кількість та форма кластерів невідомі. У статті вирішуються наступні завдання: компресія вхідного простору ознак в онлайн режимі, формування моделі ансамблів нейронних мереж для кластеризації даних, розробка ансамблю нейро-фаззі мереж для кластеризації даних високої розмірності, розробка підходу для кластеризації даних в онлайн режимі. Отримані наступні результати: основна ідея запропонованого підходу заснована на модифікації нечіткого алгоритму C-середніх. Для зниження розмірності вхідного простору пропонується використовувати модифіковану мережу Хебба-Сенгера, яка відрізняється підвищеною швидкодією та побудовану на основі модифікованих нейронів Ойя. Запропоновано оптимізований за швидкодією алгоритм навчання нейрона Ойя. Така мережа реалізує метод головних компонент в онлайн-режимі з високою швидкодією. Висновки: В тому випадку, якщо процедура редукції-компресії не може бути використана через можливість втрати фізичного сенсу вихідного простору, нами запропоновано новий критерій кластеризації, який містить в собі як відомий поліноміальний фаззіфікатор, так і зважування окремих компонент відхилень аналізованих образів від центроїдів кластерів. Введена рекурентна модифікація заснована на алгоритмах запропонованих в даній статті. Розроблено математичну модель для визначення якості кластеризації з використанням індекса Ксі-Бені, який був модифікований для онлайн режиму. Експериментальні результати підтвердили той факт, що запропонована система дозволяє вирішувати широкий спектр завдань Data Mining, коли набори даних обробляються в онлайн-режимі за умови, що кількість та форма кластерів не відомі, а також мають велику кількість спостережень.
Посилання
Gan, G., Ma, Ch., Wu, J. (2007), Data Clustering. Theory, Algorithms and Application, SIAM, Philadelphia, 489 p.
Xu, R., Wunsch, D. C. (2009), Clustering, IEEE Press Series on Computational Intelligence, John Wiley & Sons, Inc., Hoboken, NJ, 368 p.
Bifet, A. (2010), Adaptive Stream Mining. Pattern Learning and Mining from Evolving Data Streams, Amsterdam, IOS Press, 224 p.
Bezdek, J. C. (1981), Pattern Recognition with Fuzzy Objective Function Algorithms, N.Y., Plenum Press, 272 p
Kohonen, T. (1995), Self-Organizing Maps, Springer-Verlag, Berlin, 362 p.
Pelleg, D., Moor, A. (2000), "X-means: extending K-means with efficient estimation of the number of clusters", Proc. 17th Int. Conf. on Machine Learning, Morgan Kaufmann, San Francisco, P. 727–730.
Ishioka, T. (2005), "An expansion of X-means for automatically determining the optimal number of clusters", Proc. 4th IASTED Int. Conf. Computational Intelligence, Calgary, Alberta, P. 91–96.
Strehl, A., Ghosh, J. (2002), "Cluster Ensembles – A knowledge reuse framework for combining multiple partitions", Journal of Machine Learning Research, P. 583–617.
Topchy, A., Jain, A.K., Punch, W. (2005), "Clustering ensembles: models of consensus and weak partitions", IEEE Transactions on Pattern Analysis and Machine Intelligence, No. 27, P. 1866–1881.
Alizadeh, H., Minaei-Bidgoli, B., Parvin, H. (2013), "To improve the quality of cluster ensembles by selecting a subset of base clusters", Journal of Experimental & Theoretical Artificial Intelligence, No. 26, P. 127–150.
Charkhabi, M., Dhot, T., Mojarad, S.A. (2014), "Cluster ensembles, majority vote, voter eligibility and privileged voters", Int. Journal of Machine Learning and Computing, No. 4, P. 275–278
Zhernova, P., Deyneko, A., Bodyanskiy, Ye., Riepin, V. (2018), "Adaptive kernel data streams clustering based on neural networks ensembles in conditions of uncertainty about amount and shapes of clusters", IEEE Second International Conference on Data Stream Mining & Processing, August 21-25, Lviv, Ukraine, P. 7–12.
Bezdek, J., Keller, J., Krisnapuram, R., Pal, N. (2005), Fuzzy Models and Algorithms for Pattern Recognition and Image Processing, Springer, 776 p.
Gorshkov, Ye., Kolodyazhniy, V., Bodyanskiy, Ye. (2009), "New recursive learning algoritms for fuzzy Kohonen clustering network", In Proc. 17th Int. Workshop on Nonlinear Dynamics of Electronic Systems, Rapperwil, Switzerland, P. 58–61.
Höppner, F., Klawonn, F., Kruze, R. (1999), Fuzzy Klusteranalyse, Braunschweig, Vieweg, 280 p.
Höppner, F., Klawonn, F., Kruse, R. (1996), Fuzzy-Klusteranalyse, Verfahren für die Bilderkennung, Klassifikation und Datenanalyse, Braunschweig, Vieweg, 292 p.
Oja, E. (1989), "Neural Network, principal components and subspaces", Int. J. of Neural Systems, No. 1, P. 61–68.
Sanger, T. (1989), "Optimal unsupervised learning in a single-layer linear feedforward neural network", Neural Networks, No. 2, P. 459–473.
Bodyanskiy, Ye., Mihaliov, O., Pliss I. (2000), Adaptive fault detection in control systems using artifitial neural networks, Dniepropetrovsk : System Technologies, 140 p.
Ȕberla, K. (1997), Faktorenanalyse, Springer Verlag, Berlin Heidelberg New York, 398 p.
Oja, E. (1982), "A simplified neuron model as a principal component analyzer", J. of Math. Biology, No. 15, P. 267–273.
Vazan, M. T. (1969), Stochastic approximation, Cambridge, Cambridge University Press, 289 p.
Shakhovska, N., Medykovsky, M., Stakhiv, P. (2013), "Application of algorithms of classification for uncertainty reduction", Przeglad Elektrotechniczny, No. 4, P. 284–286.
Kolchygin, B. V., Bodyanskiy, Ye. V. (2013), "Adaptive fuzzy clustering with a variable fuzzifier", Cybernetics and Systems Analysis, No. 3, P. 366–374.
Keller, A., Klawonn F. (2000), "Fuzzy Clustering with weighting of data variables", Uncertainty, Fuzziness and Knowledge Based Systems, No. 8, P. 735-746.
Bodyanskiy, Ye., Kolchygin, B., Pliss I. (2011), "Adaptive neuro-fuzzy Kohonen network with variable fuzzifier", Inform. Theories and Appl, No. 3, P. 215–223.
Bodyanskiy, Ye., Zhernova, P. (2018), “Kernel fuzzy data stream clustering based on neural networks ensemble”, Inovative Technologies & Scientific Solutions for Industries, No. 4 (6), P. 42–49. DOI: https://doi.org/10.30837/2522-9818.2018.6.042.
Xie, X. L., Beni, G. A. (1991), "Validity Measure for Fuzzy Clustering", IEEE Transactions on Pattern Analysis and Machine Intelligence, No. 13, P. 841–847.
Bodyanskiy, Ye. V., Tyshchenko, O. K., Kopaliani, D. S. (2017), "An Evolving Connectionist System for Data Stream Fuzzy Clustering and Its Online Learning", Neurocomputing, No. 262, P. 41–56.
"Dermatology dataset", available at: http://archive.ics.uci.edu/ml/machine-learning-databases/dermatology/dermatology.data (last accessed: 1st of May, 2018).
Mulesa, P., Perova, I. (2015), "Fuzzy Spacial Extrapolation Method Using Manhattan Metrics for Tasks of Medical Data Mining", Computer Science and Information Technologies, CSIT’2015, Lviv, Ukraine, P. 104–106. DOI: https://doi.org/10.1109/STC-CSIT.2015.7325443.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2019 Yevgeniy Bodyanskiy, Iryna Perova, Polina Zhernova
![Creative Commons License](http://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.