Розробка комбінованої моделі розпізнавання зображень
DOI:
https://doi.org/10.15587/2312-8372.2019.173122Ключові слова:
системи комп’ютерного зору, аналіз зображень, розпізнавання та ідентифікація об’єктівАнотація
Об’єктом дослідження є процеси ідентифікації та класифікації об’єктів у задачах комп’ютерного зору. В даний час для розпізнавання зображень найкращі результати демонструють штучні нейронні мережі. Однак, навчання нейронних мереж – це погано обумовлена задача. Погана обумовленість означає, що навіть великий набір даних може нести в собі малий обсяг інформації про задачу, що вирішується. Тому ключова роль в процесі синтезу параметрів конкретної математичної моделі нейронної мережі належить навчальним даним. Підбір репрезентативної навчальної вибірки є однією з найскладніших задач в машинному навчанні і не завжди можливий на практиці.
Запропонована у роботі нова комбінована модель розпізнавання зображень з використанням теорії несилової взаємодії володіє такими ключовими особливостями:
– призначена для обробки великої кількості даних;
– виділяє корисну інформацію з довільного потоку;
– дозволяє природно додавати нові об’єкти;
– терпима до помилок та дозволяє швидко перепрограмувати поведінку системи.
В порівнянні з існуючими аналогами, достовірність розпізнавання запропонованою моделлю в усіх експериментальних дослідженнях була вище відомих методів розпізнавання. Середня достовірність розпізнавання запропонованою моделлю склала 71,3 %; методом локальних бінарних шаблонів – 59,9 %; методом аналізу головних компонент – 65,2 %; методом лінійного дискримінантного аналізу – 65,6 %. Така достовірність розпізнавання в поєднанні з обчислювальною складністю робить даний метод прийнятним для застосування в системах, які працюють в умовах наближених до реального часу. Також такий підхід дозволяє керувати достовірністю розпізнавання. Це досягається завдяки налаштуванню кількості секторів гістограм локальних бінарних шаблонів, які використовуються при описі зображень, та кількості фрагментів зображення, які використовуються на етапі класифікації інтроформаційним підходом. Значною мірою на час класифікації впливає кількість фрагментів зображення, оскільки, в такому випадку, потрібно вираховувати попарно співставлення суміщення дій системи в кожному з можливих напрямків.
Посилання
- Wagner, P. (2011). Principal Component Analysis and Linear Discriminant Analysis with GNU Octave. Available at: https://www.bytefish.de/blog/pca_lda_with_gnu_octave/
- Samal, A., Iyengar, P. A. (1992). Automatic recognition and analysis of human faces and facial expressions. Pattern Recognition, 25 (1), 65–77. doi: http://doi.org/10.1016/0031-3203(92)90007-6
- Ojala, T., Pietikainen, M., Maenpaa, T. (2002). Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24 (7), 971–987. doi: http://doi.org/10.1109/tpami.2002.1017623
- Tomashevich, N. S. (2007). Statisticheskie metody vydeleniia priznakov. Neirokompiutery v prikladnykh zadachakh obrabotki izobrazhenii, 121–128.
- Volchenkov, M. P., Samonenko, I. Iu. (2005). Ob avtomaticheskom raspoznavanii lits. Intellektualnye sistemy, 9 (1-4), 135–156.
- Simard, P. Y., Steinkraus, D., Platt, J. C. (2003). Best practices for convolutional neural networks applied to visual document analysis. 12th International Conference on Document Analysis and Recognition, 2, 958. doi: http://doi.org/10.1109/icdar.2003.1227801
- LeCun, Y., Huang, F.-J., Bottou, L. (2004). Learning methods for generic objects recognition with invariance to pose and lighting. Los Alamitos. Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR’04), 2, 97–104. doi: http://doi.org/10.1109/cvpr.2004.1315150
- Mitrofanov, C. A. (2015). Sravnenie effektivnosti razlichnykh metodov intellektualnogo analiza dannykh v zadachakh raspoznavaniia izobrazhenii. Innovatsionnaia nauka, 12 (2), 96–98.
- Mamontov, D. Iu., Karaseva, T. S. (2015). Reshenie zadach finansovogo analiza s pomoshchiu intellektualnykh informatsionnykh tekhnologii. ITSiT. Available at: https://studfiles.net/preview/5966499/
- Krizhevsky, A., Sutskever, I., Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1106–1114.
- Amsterdam Library of Object Images (ALOI). Available at: http://aloi.science.uva.nl/
- The Chars74K dataset. Available at: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
- The Database of Faces. Available at: http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
- Celebrities Data Images Set for Computer Vision. Available at: http://cdiset.blogspot.com/
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2019 Mykola Voloshyn
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.