Development of text extraction technique using optical character recognition and morphological reconstruction to eliminate artifacts of image’s background

Wasan M Jwaid

doi:10.15587/1729-4061.2022.252803

Розробка методики вилучення тексту з використанням оптичного розпізнавання символів та морфологічної реконструкції для усунення артефактів фону зображення

Автор(и)

Wasan M Jwaid University of Thi-Qar, Ірак https://orcid.org/0000-0002-1513-2554

DOI:

https://doi.org/10.15587/1729-4061.2022.252803

Ключові слова:

морфологічна реконструкція, оптичне розпізнавання символів (ОРС), зображення документів, зображення з нерівномірним освітленням

Анотація

Розпізнавання тексту на зображеннях застосовується у широкому спектрі задач комп'ютерного зору, таких як навігація роботів, аналіз документів та пошук за зображеннями. У багатьох промислових та освітніх застосуваннях простим інструментом для об'єднання функцій розпізнавання тексту є технологія оптичного розпізнавання символів (ОРС). Найкращі результати ОРС можна отримати в тому випадку, якщо фон текстового зображення є однорідним і відображається у вигляді зображення документа. Навпаки, якщо зображення має неоднорідний фон, виникають складнощі з розпізнаванням тексту, що вимагає подальшої попередньої обробки для отримання прийнятного результату ОРС. У даній роботі розглядаються три сценарії. Спочатку ОРС випробовується на звичайній візитній картці в якості зображення з однорідним фоном. Далі обговорюється розпізнавання тексту зображення клавіатури, що містить цифри з неоднорідним фоном. Для подолання негативного ефекту неоднорідного фону зображень і високої точності вилучення тексту використовуються два алгоритми попередньої обробки для посилення функції ОРС. Нарешті, розроблений метод ОРС тестується на різних відсканованих рахунках та обговорюється зміна отриманих результатів. Два алгоритми являють собою морфологічну реконструкцію для усунення артефактів та створення більш чітких зображень для подальшої обробки за допомогою ОРС та ОРС на основі області інтересів для визначення явних областей на тестованому зображенні. Перевірка ефективності ОРС на основі морфології в порівнянні з методом, заснованим на ОІ, була проведена на наборі даних відсканованих зображень рахунків за електроенергію з точністю 98,2 % для розпізнавання на основі морфології, в той час як для ОРС на основі ОІ вона становить всього близько 89,3 %.

Біографія автора

Wasan M Jwaid, University of Thi-Qar

Doctor Lecturer

Department of Banking and Finance Administration and Economics

Посилання

Singh, A., Bacchuwar, K., Bhasin, A. (2012). A Survey of OCR Applications. International Journal of Machine Learning and Computing, 314–318. doi: https://doi.org/10.7763/ijmlc.2012.v2.137
Fang, Y., Yao, J. (2014). Multi-operator combination for character segmentation in complex background. 2014 International Conference on Audio, Language and Image Processing. doi: https://doi.org/10.1109/icalip.2014.7009896
Park, J., Lee, E., Kim, Y., Kang, I., Koo, H. I., Cho, N. I. (2020). Multi-Lingual Optical Character Recognition System Using the Reinforcement Learning of Character Segmenter. IEEE Access, 8, 174437–174448. doi: https://doi.org/10.1109/access.2020.3025769
Al-Duwairi, B., Khater, I., Al-Jarrah, O. (2013). Detecting Image Spam Using Image Texture Features. International Journal for Information Security Research, 3 (4), 344–353. doi: https://doi.org/10.20533/ijisr.2042.4639.2013.0040
Qaroush, A., Awad, A., Modallal, M., Ziq, M. (2020). Segmentation-based, omnifont printed Arabic character recognition without font identification. Journal of King Saud University - Computer and Information Sciences. doi: https://doi.org/10.1016/j.jksuci.2020.10.001
Navitski, R. (2014). Reconsidering the Archive: Digitization and Latin American Film Historiography. Cinema Journal, 54 (1), 121–128. doi: https://doi.org/10.1353/cj.2014.0065
Kanagarathinam, K., Sekar, K. (2019). Text detection and recognition in raw image dataset of seven segment digital energy meter display. Energy Reports, 5, 842–852. doi: https://doi.org/10.1016/j.egyr.2019.07.004
Farhat, A., Hommos, O., Al-Zawqari, A., Al-Qahtani, A., Bensaali, F., Amira, A., Zhai, X. (2018). Optical character recognition on heterogeneous SoC for HD automatic number plate recognition system. EURASIP Journal on Image and Video Processing, 2018 (1). doi: https://doi.org/10.1186/s13640-018-0298-2
Arora, M., Jain, A., Rustagi, S., Yadav, T. (2019). Automatic Number Plate Recognition System Using Optical Character Recognition. International Journal of Scientific Research in Computer Science, Engineering and Information Technology, 986–992. doi: https://doi.org/10.32628/cseit1952280
Vaishnav, A., Mandot, M. (2019). Template Matching for Automatic Number Plate Recognition System with Optical Character Recognition. Advances in Intelligent Systems and Computing, 683–694. doi: https://doi.org/10.1007/978-981-13-7166-0_69
Akhtar, Z., & Ali, R. (2020). Automatic Number Plate Recognition Using Random Forest Classifier. SN Computer Science, 1 (3). doi: https://doi.org/10.1007/s42979-020-00145-8
Srivastava, S., Priyadarshini, J., Gopal, S., Gupta, S., Dayal, H. S. (2018). Optical Character Recognition on Bank Cheques Using 2D Convolution Neural Network. Applications of Artificial Intelligence Techniques in Engineering, 589–596. doi: https://doi.org/10.1007/978-981-13-1822-1_55
Robby, G. A., Tandra, A., Susanto, I., Harefa, J., Chowanda, A. (2019). Implementation of Optical Character Recognition using Tesseract with the Javanese Script Target in Android Application. Procedia Computer Science, 157, 499–505. doi: https://doi.org/10.1016/j.procs.2019.09.006
Rajbongshi, A., Ibadul, M., Amin, A., Mahbubur, M., Majumder, A., Ezharul, M. (2020). Bangla Optical Character Recognition and Text-to-Speech Conversion using Raspberry Pi. International Journal of Advanced Computer Science and Applications, 11 (6). doi: https://doi.org/10.14569/ijacsa.2020.0110636
Oni, O. J., Asahiah, F. O. (2020). Computational modelling of an optical character recognition system for Yorùbá printed text images. Scientific African, 9, e00415. doi: https://doi.org/10.1016/j.sciaf.2020.e00415
Michalak, H., Okarma, K. (2019). Improvement of Image Binarization Methods Using Image Preprocessing with Local Entropy Filtering for Alphanumerical Character Recognition Purposes. Entropy, 21 (6), 562. doi: https://doi.org/10.3390/e21060562
Barnouti, N. H., Abomaali, M., Al-Mayyahi, M. H. N. (2018). An efficient character recognition technique using K-nearest neighbor classifier. International Journal of Engineering & Technology, 7 (4), 3148–3153. doi: https://doi.org/10.14419/ijet.v7i4.18952
Sporici, D., Cușnir, E., Boiangiu, C.-A. (2020). Improving the Accuracy of Tesseract 4.0 OCR Engine Using Convolution-Based Preprocessing. Symmetry, 12 (5), 715. doi: https://doi.org/10.3390/sym12050715
Sowmya, R., Jagtap, S. S., Kasthuri, G. (2020). Smart Reader for Visually Challenged Using Optical Character Recognition and Text-To-Speech. Innovations in Information and Communication Technology Series, 205–208. doi: https://doi.org/10.46532/978-81-950008-1-4_045
Majumdar, J., Gupta, R. (2019). An Accuracy Examination of OCR Tools. International Journal of Innovative Technology and Exploring Engineering, 8 (9S4), 5–9. doi: https://doi.org/10.35940/ijitee.i1102.0789s419
The RVL-CDIP Dataset. Available at: https://www.cs.cmu.edu/~aharley/rvl-cdip/

##submission.downloads##

PDF (English)

Опубліковано

2022-02-25

Як цитувати

Jwaid, W. M. (2022). Розробка методики вилучення тексту з використанням оптичного розпізнавання символів та морфологічної реконструкції для усунення артефактів фону зображення. Eastern-European Journal of Enterprise Technologies, 1(2(115), 50–57. https://doi.org/10.15587/1729-4061.2022.252803

Завантажити посилання

Номер

Том 1 № 2(115) (2022): Інформаційні технології. Системи управління в промисловості

Розділ

Інформаційні технології

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.

Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.