Дослідження ефективності спільного використання проріджування зв'язків і передоброці вхідних даних при навчанні багатошарового персептрона

Автор(и)

  • Oleg Galchonkov Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0001-5468-7299
  • Alexander Nevrev Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0001-7673-5466
  • Maria Glava Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0002-9596-9556
  • Mykola Babych Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0002-3946-9880

DOI:

https://doi.org/10.15587/1729-4061.2020.200819

Ключові слова:

багатошаровий персептрон, нейронна мережа, проріджування, регуляризація, крива навчання, вагові коефіцієнти

Анотація

Традиційною схемою роботи з нейронними мережами до недавнього часу було завдання архітектури нейронної мережі та її подальше навчання. Однак останні дослідження в цій області показали, що задані і налаштовані таким чином нейронні мережі мають значну надмірність. Тому додатковою операцією стала ліквідація цієї надмірності за рахунок проріджування зв'язків в архітектурі нейронної мережі. Серед безлічі підходів до ліквідації надмірності найбільш перспективним представляється спільне використання декількох методів, коли їх сумарний ефект перевищує суму ефектів одиночного використання кожного з них. Проведено експериментальне дослідження ефективності спільного використання ітераційного проріджування і предобробки (предіскаженій) вхідних даних в задачі розпізнавання рукописних цифр за допомогою багатошарового персептрона. Показано, що використання предобробки вхідних даних регулярізує процедуру навчання нейронної мережі, запобігаючи її перенавчання. Спільне використання ітераційного проріджування і предобробки вхідних даних дозволило отримати меншу помилку розпізнавання рукописних цифр – 1,22 %, в порівнянні з використанням тільки проріджування (помилка зменшилася з 1,89 % до 1,81 %) і з використанням тільки предіскаженій (помилка зменшилася з 1,89 % до 1.52 %). Крім цього регуляризація за рахунок предіскаженій дозволяє отримати монотонно збільшуючуюся кількість відключених зв'язків при збереженні помилки на рівні 1,45 %. Отримані криві навчання для однієї і тієї ж задачі, які відповідають початку навчання з різних початкових умов, мають різні значення як в процесі навчання, так і в кінці навчання. Це свідчить про багатоекстремальність функції якості – точності розпізнавання. Практичне використання цього полягає в пропозиції проводити багаторазове навчання нейронної мережі з вибором найкращого результату

Біографії авторів

Oleg Galchonkov, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Кандидат технічних наук, доцент

Кафедра інформаційних систем

Інститут комп’ютерних систем

Alexander Nevrev, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Кандидат технічних наук, доцент

Кафедра інформаційних систем

Інститут комп’ютерних систем

Maria Glava, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Кандидат технічних наук, доцент

Кафедра інформаційних систем

Інститут комп’ютерних систем

Mykola Babych, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Кандидат технічних наук, доцент

Кафедра інформаційних систем

Інститут комп’ютерних систем

Посилання

  1. Nikolenko, S., Kadurin, A., Arhangel'skaya, E. (2018). Glubokoe obuchenie. Sankt-Peterburg: Piter, 480.
  2. Denil, M., Shakibi, B., Dinh, L., Ranzato, M. A., De Freitas, N. (2014). Predicting Parameters in Deep Learning. ArXiv. Available at: https://arxiv.org/pdf/1306.0543v2.pdf
  3. Han, S., Pool, J., Tran, J., Dally, W. J. (2015). Learning both Weights and Connections for Efficient Neural Networks. ArXiv. Available at: https://arxiv.org/pdf/1506.02626v3.pdf
  4. Cun, Y. L., Denker, J. S., Solla, S. A. (1990). Optimal Brain Damage. NIPS. Available at: http://yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf
  5. Denton, E. L., Zaremba, W., Bruna, J., LeCun, Y., Fergus, R. (2014). Exploiting linear structure within convolutional networks for efficient evaluation. In NIPS, 1269–1277.
  6. Sainath, T. N., Kingsbury, B., Sindhwani, V., Arisoy, E., Ramabhadran, B. (2013). Low-rank matrix factorization for Deep Neural Network training with high-dimensional output targets. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. doi: https://doi.org/10.1109/icassp.2013.6638949
  7. Molchanov, D., Ashukha, A., Vetrov, D. (2017). Variational dropout sparsifies deep neural networks. arXiv. Available at: https://arxiv.org/pdf/1701.05369.pdf
  8. Han, S., Mao, H., Dally, W. J. (2016). Deep compression: compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv. Available at: https://arxiv.org/pdf/1510.00149.pdf
  9. Qiu, J., Song, S., Wang, Y., Yang, H., Wang, J., Yao, S. et. al. (2016). Going Deeper with Embedded FPGA Platform for Convolutional Neural Network. Proceedings of the 2016 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays - FPGA’16. doi: https://doi.org/10.1145/2847263.2847265
  10. Alford, S., Robinett, R., Milechin, L., Kepner, J. (2019). Training Behavior of Sparse Neural Network Topologies. 2019 IEEE High Performance Extreme Computing Conference (HPEC). doi: https://doi.org/10.1109/hpec.2019.8916385
  11. Lee, N., Ajanthan, T., Torr, P. H. S. (2019). SNIP: Single-Shot Network Pruning Based on Connection Sensitivity. International Conference on Learning Representations (ICLR 2019).
  12. Li, Y., Zhao, W., Shang, L. (2019). Really should we pruning after model be totally trained? Pruning based on a small amount of training. arXiv. Available at: https://arxiv.org/pdf/1901.08455v1.pdf
  13. Loquercio, A., Torre, F. D., Buscema, M. (2017). Computational Eco-Systems for Handwritten Digits Recognition. arXiv. Available at: https://arxiv.org/pdf/1703.01872v1.pdf
  14. LeCun, Y., Cortes, C., Burges, C. J. C. The MNIST Database of Handwritten Digits. Available at: http://yann.lecun.com/exdb/mnist/
  15. Tabik, S., Peralta, D., Herrera-Poyatos, A., Herrera, F. (2017). A snapshot of image pre-processing for convolutional neural networks: case study of MNIST. International Journal of Computational Intelligence Systems, 10 (1), 555. doi: https://doi.org/10.2991/ijcis.2017.10.1.38
  16. Cireşan, D. C., Meier, U., Gambardella, L. M., Schmidhuber, J. (2010). Deep, Big, Simple Neural Nets for Handwritten Digit Recognition. Neural Computation, 22 (12), 3207–3220. doi: https://doi.org/10.1162/neco_a_00052
  17. Simard, P. Y., Steinkraus, D., Platt, J. C. (2003). Best practices for convolutional neural networks applied to visual document analysis. Seventh International Conference on Document Analysis and Recognition, 2003. Proceedings. doi: https://doi.org/10.1109/icdar.2003.1227801
  18. Tarik, R. (2017). Sozdaem neyronnuyu set'. Sankt-Peterburg: OOO “Al'fa-kniga”, 272.

##submission.downloads##

Опубліковано

2020-04-30

Як цитувати

Galchonkov, O., Nevrev, A., Glava, M., & Babych, M. (2020). Дослідження ефективності спільного використання проріджування зв’язків і передоброці вхідних даних при навчанні багатошарового персептрона. Eastern-European Journal of Enterprise Technologies, 2(9 (104), 6–13. https://doi.org/10.15587/1729-4061.2020.200819

Номер

Розділ

Інформаційно-керуючі системи