Вдосконалення моделі розпізнавання об’єктів на зображеннях з використанням згорткової нейронної мережі
DOI:
https://doi.org/10.15587/1729-4061.2021.233786Ключові слова:
обробка зображень, розпізнавання об’єктів, згорткові нейронні мережі, безпілотний літальний апаратАнотація
Розглянуто модель розпізнавання об’єктів на зображеннях за допомогою згорткових нейронних мереж та дослідження ефективності процесу на основі моделей із навчанням глибоких шарів згорткових нейромереж. Існують об’єктивні труднощі, пов’язані з визначенням оптимальних характеристик нейронних мереж, тому є проблема перенавчання нейромережі. Усунення перенавчання шляхом визначення лише оптимальної кількості епох недостатнє, оскільки не забезпечує високу точність.
Визначено вимоги до набору зображень для навчання та перевірки моделі. Даним вимогам найбільш відповідає набір зображень INRIA (Франція).
Встановлено, що GoogLeNet (США) є навченою моделлю і може виконувати розпізнавання об’єктів на зображеннях, проте надійність розпізнавання об’єктів недостатня. Тому виникає необхідність підвищення ефективності розпізнавання об’єктів на зображеннях. Доцільно використати архітектуру GoogLeNet для створення спеціалізованої моделі, яка за рахунок зміни параметрів та перенавчання деяких шарів дозволить краще проводити процес розпізнавання об’єктів на зображеннях.
Виконано навчання десяти моделей з використанням таких параметрів: швидкість навчання, число епох, алгоритм оптимізації, вид зміни швидкості навчання, коефіцієнт gamma чи power, попередньо навчена модель.
Розроблено згорткову нейронну мережу для підвищення точності та ефективності розпізнавання об’єктів на зображеннях. Визначено оптимальні параметри навчання нейромережі: швидкість навчання – 0,000025, число епох – 100, коефіцієнт power – 0,25 тощо. Отримано підвищення точності на 3 %, яке дозволяє стверджувати про правильність вибору архітектури розробленої мережі та підбору параметрів. Це дає можливість використовувати дану мережу для практичних задач розпізнавання об’єктів на зображеннях
Посилання
- Bilinskiy, Y. Y., Knysh, B. P., Kulyk, Y. А. (2017). Quality estimation methodology of filter performance for suppression noise in the mathcad package. Herald of Khmelnytskyi national university, 3, 125–130. Available at: http://ir.lib.vntu.edu.ua/bitstream/handle/123456789/23238/47857.pdf?sequence=2&isAllowed=y
- Gall, J., Razavi, N., Van Gool, L. (2012). An Introduction to Random Forests for Multi-class Object Detection. Outdoor and Large-Scale Real-World Scene Analysis, 243–263. doi: https://doi.org/10.1007/978-3-642-34091-8_11
- Viola, P., Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001. doi: https://doi.org/10.1109/cvpr.2001.990517
- Weiming Hu, Wei Hu, Maybank, S. (2008). AdaBoost-Based Algorithm for Network Intrusion Detection. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 38 (2), 577–583. doi: https://doi.org/10.1109/tsmcb.2007.914695
- Shang, W., Sohn, K., Almeida, D., Honglak, L. (2016). Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units. Proceedings of The 33rd International Conference on Machine Learning, 48, 2217–2225. Available at: http://proceedings.mlr.press/v48/shang16.html
- Simonyan, K., Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. ICLR. Available at: https://arxiv.org/pdf/1409.1556.pdf
- Redmon, J., Divvala, S., Girshick, R., Farhadi, A. (2016). You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). doi: https://doi.org/10.1109/cvpr.2016.91
- Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D. et. al. (2015). Going deeper with convolutions. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). doi: https://doi.org/10.1109/cvpr.2015.7298594
- Prathap, G., Afanasyev, I. (2018). Deep Learning Approach for Building Detection in Satellite Multispectral Imagery. 2018 International Conference on Intelligent Systems (IS). doi: https://doi.org/10.1109/is.2018.8710471
- Wu, K., Chen, Z., Li, W. (2018). A Novel Intrusion Detection Model for a Massive Network Using Convolutional Neural Networks. IEEE Access, 6, 50850–50859. doi: https://doi.org/10.1109/access.2018.2868993
- Maggiori, E., Tarabalka, Y., Charpiat, G., Alliez, P. (2017). Can semantic labeling methods generalize to any city? The inria aerial image labeling benchmark. 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). doi: https://doi.org/10.1109/igarss.2017.8127684
- Knysh, B., Kulyk, Y. (2021). Development of an image segmentation model based on a convolutional neural network. Eastern-European Journal of Enterprise Technologies, 2 (2 (110)), 6–15. doi: https://doi.org/10.15587/1729-4061.2021.228644
- Krizhevsky, A., Sutskever, I., Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NIPS'12: Proceedings of the 25th International Conference on Neural Information Processing Systems, 1097–1105. Available at: https://papers.nips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
- Zeiler, M. D., Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. Lecture Notes in Computer Science, 818–833. doi: https://doi.org/10.1007/978-3-319-10590-1_53
- Deep Learning: GoogLeNet Explained. Towards Data Science. Available at: https://towardsdatascience.com/deep-learning-googlenet-explained-de8861c82765
- Tao, A., Barker, J., Sarathy, S. (2016). DetectNet: Deep Neural Network for Object Detection in DIGITS. NVidia developer blog. Available at: https://developer.nvidia.com/blog/detectnet-deep-neural-network-object-detection-digits
- Kingma, D. P., Ba, J. (2015). Adam: a method for stochastic optimization. ICLR 2015. Available at: https://arxiv.org/pdf/1412.6980.pdf
- Kvetny, R. N., Masliy, R. V., Kyrylenko, O. M. (2020). Detection and classification of traffic objects using the environment digits. Optoelectronic Information-Power Technologies, 1 (39), 14–20. doi: https://doi.org/10.31649/1681-7893-2020-39-1-14-20
- Wilson, A. C., Roelofs, R., Stern, M., Srebro, N., Recht, B. (2017). The marginal value of adaptive gradient methods in machine learning. 31st Conference on Neural Information Processing Systems (NIPS 2017). Available at: https://arxiv.org/pdf/1705.08292v2.pdf
- Guo, Z., Chen, Q., Wu, G., Xu, Y., Shibasaki, R., Shao, X. (2017). Village Building Identification Based on Ensemble Convolutional Neural Networks. Sensors, 17 (11), 2487. doi: https://doi.org/10.3390/s17112487
- Erdem, F., Avdan, U. (2020). Comparison of Different U-Net Models for Building Extraction from High-Resolution Aerial Imagery. International Journal of Environment and Geoinformatics, 7 (3), 221–227. doi: https://doi.org/10.30897/ijegeo.684951
- Nvidia Aerial Drone Dataset. Available at: https://nvidia.box.com/shared/static/ft9cc5yjvrbhkh07wcivu5ji9zola6i1.gz
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2021 Bogdan Knysh, Yaroslav Kulyk
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.