Підвищення якості класифікації об'єктів на зображеннях ансамблевими класифікаторами зі стекінгом

Автор(и)

DOI:

https://doi.org/10.15587/1729-4061.2023.279372

Ключові слова:

багатошаровий персептрон, нейронна мережа, ансамблевий класифікатор, вагові коефіцієнти, класифікація об'єктів на зображеннях

Анотація

Об'єктом дослідження є процес класифікації об'єктів на зображеннях. Під якістю класифікації розуміється відношення правильно розпізнаних об'єктів до кількості зображень. Одним з варіантів підвищення якості класифікації є підвищення глибини нейронних мереж, що використовуються. Основними труднощами на цьому шляху є складність навчання таких нейронних мереж і великий обсяг обчислень, що утруднюють їх використання на звичайних комп'ютерах у реальному часі. Альтернативним варіантом підвищення якості класифікації є збільшення ширини нейронних мереж, що використовуються, за рахунок спорудження ансамблевих класифікаторів зі стекінгом. Однак вони вимагають використання на першому ступені класифікаторів з різною структурованою обробкою вхідних зображень, що відрізняються високою якістю класифікації та відносно низьким обсягом обчислень. Кількість відомих таких архітектур обмежена. Тому виникає завдання збільшення кількості класифікаторів на першому ступені ансамблевого класифікатора за рахунок модифікації відомих архітектур. Запропоновано використовувати блоки повороту зображень на різні кути щодо центру зображення. Показано, що в результаті структурованості обробки зображень ісходним класифікатором обробка повернутого зображення призводить до перерозподілу помилок на наборі зображень. Цей ефект дозволяє збільшувати кількість класифікаторів у першому ступені ансамблевого класифікатора. Числові експерименти показали, що додавання двох аналогів алгоритму MLP-Mixer до відомих конфігурацій ансамблевих класифікаторів забезпечило зменшення помилки від 1 до 11 % під час роботи з набором даних CIFAR-10. Аналогічно для CCT зменшення помилки становило від 2,1 до 10 %. Крім цього показано, що збільшення конфігурації MLP-Mixer в ширину дає кращі результати, ніж збільшення в глибину. Обов'язковою умовою успішності використання запропонованого підходу на практиці є структурованість обробки зображень ісходним класифікатором

Біографії авторів

Олег Миколайович Галчонков, Національний університет "Одеська політехніка"

Кандидат технічних наук, доцент

Кафедра інформаційних систем

Інститут комп’ютерних систем

Oleksii Baranov, Oracle World Headquarters

Software Engineer

Oracle Corporation

Mykola Babych, Digitally Inspired LTD

PhD, BI Engineer (FE Developer)

Варвара Ігорівна Куваєва, Національний університет "Одеська політехніка"

Кандидат технічних наук, доцент

Кафедра інформаційних систем

Інститут комп’ютерних систем

Юлія Ігорівна Бабич, Національний університет "Одеська політехніка"

Кандидат технічних наук, доцент

Кафедра інформаційних технологій проєктування та дизайну

Інститут цифрових технологій, дизайну та транспорту

Посилання

  1. Mary Shanthi Rani, M., Chitra, P., Lakshmanan, S., Kalpana Devi, M., Sangeetha, R., Nithya, S. (2022). DeepCompNet: A Novel Neural Net Model Compression Architecture. Computational Intelligence and Neuroscience, 2022, 1–13. doi: https://doi.org/10.1155/2022/2213273
  2. Han, S., Mao, H., Dally, W. J. (2015). Deep compression: compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv. doi: https://doi.org/10.48550/arXiv.1510.00149
  3. Galchonkov, O., Nevrev, A., Glava, M., Babych, M. (2020). Exploring the efficiency of the combined application of connection pruning and source data pre­processing when training a multilayer perceptron. Eastern-European Journal of Enterprise Technologies, 2 (9 (104)), 6–13. doi: https://doi.org/10.15587/1729-4061.2020.200819
  4. Iandola, F. N., Han, S., Moskewicz, M. W., Ashraf, K., Dally, W. J., Keutzer, K. (2016). SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size. arXiv. doi: https://doi.org/10.48550/arXiv.1602.07360
  5. Wu, K., Guo, Y., Zhang, C. (2020). Compressing Deep Neural Networks With Sparse Matrix Factorization. IEEE Transactions on Neural Networks and Learning Systems, 31 (10), 3828–3838. doi: https://doi.org/10.1109/tnnls.2019.2946636
  6. Cheng, X., Rao, Z., Chen, Y., Zhang, Q. (2020). Explaining Knowledge Distillation by Quantifying the Knowledge. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). doi: https://doi.org/10.1109/cvpr42600.2020.01294
  7. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T. et al. (2021). An image is worth 16x16 words: transformers for image recognition at scale. arXiv. doi: https://doi.org/10.48550/arXiv.2010.11929
  8. Yuan, L., Chen, Y., Wang, T., Yu, W., Shi, Y., Jiang, Z. et al. (2021). Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). doi: https://doi.org/10.1109/iccv48922.2021.00060
  9. d’Ascoli, S., Touvron, H., Leavitt, M. L., Morcos, A. S., Biroli, G., Sagun, L. (2022). ConViT: improving vision transformers with soft convolutional inductive biases. Journal of Statistical Mechanics: Theory and Experiment, 2022 (11), 114005. doi: https://doi.org/10.1088/1742-5468/ac9830
  10. Yuan, K., Guo, S., Liu, Z., Zhou, A., Yu, F., Wu, W. (2021). Incorporating Convolution Designs into Visual Transformers. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). doi: https://doi.org/10.1109/iccv48922.2021.00062
  11. Wu, H., Xiao, B., Codella, N., Liu, M., Dai, X., Yuan, L., Zhang, L. (2021). CvT: Introducing Convolutions to Vision Transformers. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). doi: https://doi.org/10.1109/iccv48922.2021.00009
  12. Galchonkov, O., Babych, M., Zasidko, A., Poberezhnyi, S. (2022). Using a neural network in the second stage of the ensemble classifier to improve the quality of classification of objects in images. Eastern-European Journal of Enterprise Technologies, 3 (9 (117)), 15–21. doi: https://doi.org/10.15587/1729-4061.2022.258187
  13. Rokach, L. (2019). Ensemble Learning. Pattern Classification Using Ensemble Methods. World Scientific Publishing Co. doi: https://doi.org/10.1142/11325
  14. Hassani, A., Walton, S., Shah, N., Abuduweili, A., Li, J., Shi, H. (2021). Escaping the Big Data Paradigm with Compact Transformers. arXiv. doi: https://doi.org/10.48550/arXiv.2104.05704
  15. Guo, M.-H., Liu, Z.-N., Mu, T.-J., Hu, S.-M. (2022). Beyond Self-Attention: External Attention Using Two Linear Layers for Visual Tasks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1–13. doi: https://doi.org/10.1109/tpami.2022.3211006
  16. Lee-Thorp, J., Ainslie, J., Eckstein, I., Ontanon, S. (2022). FNet: Mixing Tokens with Fourier Transforms. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. doi: https://doi.org/10.18653/v1/2022.naacl-main.319
  17. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z. et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). doi: https://doi.org/10.1109/iccv48922.2021.00986
  18. Tolstikhin, I., Houlsby, N., Kolesnikov, A., Beyer, L., Zhai, X., Unterthiner, T. et al. (2021). MLP-Mixer: An all-MLP Architecture for Vision. arXiv. doi: https://doi.org/10.48550/arXiv.2105.01601
  19. Liu, H., Dai, Z., So, D. R., Le, Q. V. (2021). Pay Attention to MLPs. arXiv. doi: https://doi.org/10.48550/arXiv.2105.08050
  20. Brownlee, J. (2019). Deep Learning for Computer Vision. Image Classification, Object Detection, and Face Recognition in Python. Available at: https://machinelearningmastery.com/deep-learning-for-computer-vision/
  21. Brownlee, J. (2019). Better Deep Learning. Train Faster, Reduce Overfitting, and Make Better Predictions. Available at: https://machinelearningmastery.com/better-deep-learning/
  22. Krizhevsky A. The CIFAR-10 dataset. Available at: https://www.cs.toronto.edu/~kriz/cifar.html
  23. Code examples / Computer vision. Keras. Available at: https://keras.io/examples/vision/
  24. Brownlee, J. (2021). Weight Initialization for Deep Learning Neural Networks. Available at: https://machinelearningmastery.com/weight-initialization-for-deep-learning-neural-networks/
  25. Colab. Available at: https://colab.research.google.com/notebooks/welcome.ipynb
Підвищення якості класифікації об'єктів на зображеннях ансамблевими класифікаторами зі стекінгом

##submission.downloads##

Опубліковано

2023-06-30

Як цитувати

Галчонков, О. М., Baranov, O., Babych, M., Куваєва, В. І., & Бабич, Ю. І. (2023). Підвищення якості класифікації об’єктів на зображеннях ансамблевими класифікаторами зі стекінгом. Eastern-European Journal of Enterprise Technologies, 3(9 (123), 70–77. https://doi.org/10.15587/1729-4061.2023.279372

Номер

Розділ

Інформаційно-керуючі системи