Огляд статистичних та нейронних методів сегментації рядків для задачі офлайн розпізнавання рукописного введення

Автор(и)

  • Олег Костянтинович Яковчук Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0002-9842-9790
  • Валерій Станіславович Рогоза Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0003-2327-156X

DOI:

https://doi.org/10.15587/2706-5448.2024.298405

Ключові слова:

сегментація рядків рукописного тексту, розбиття на лінії, знаходження тексту, алгоритми розпізнавання, глибокі нейронні мережі

Анотація

Об’єктом дослідження є задача сегментації рядків рукописного тексту. Для розпізнавання рукописного тексту в документах, що мають формат зображень, застосовується технологія офлайн розпізнавання рукописного тексту. Модуль розпізнавання тексту приймає на вхід окремі рядки тексту, тому одним з важливих етапів попередньої обробки даних є знаходження та розбиття рукописного тексту на окремі лінії.

В роботі досліджується задача сегментації рядків рукописного тексту, вимоги до неї, існуючі проблеми та виклики. Було розглянуто два основні підходи до цієї задачі, що застосовується в сучасних системах розпізнавання, а саме: статистичні методи на основі проекцій та методи на основі нейронних мереж. По кожному з підходів проведено огляд сучасних робіт та досліджень. Описано основні принципи запропонованих методів, проведено аналіз їх сильних і слабких сторін, з врахуванням поставлених задач, обмежень та особливостей вхідних даних. Загальні отримані результати сформовано в спільну таблицю для порівняння методів між собою.

Базуючись на останніх роботах, що застосовують глибокі нейронні мережі, визначено нові можливості використання цих методів в системах розпізнавання, що були недоступні з традиційними статистичними підходами сегментації тексту.

На основі проведеного дослідження сформовано конструктивні висновки, що описують основні переваги та недоліки кожного з підходів до сегментації рукописного тексту. Ці результати можуть бути надалі використані для правильного вибору підходящих методів у системи розпізнавання рукописного тексту для покращення продуктивності та якості їх роботи, а також для подальших досліджень в цій області.

Біографії авторів

Олег Костянтинович Яковчук, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Аспірант, асистент

Кафедра системного проєктування

Валерій Станіславович Рогоза, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Доктор технічних наук, професор

Кафедра системного проєктування

Посилання

  1. Sumi, T., Kenji Iwana, B., Hayashi, H., Uchida, S. (2019). Modality Conversion of Handwritten Patterns by Cross Variational Autoencoders. Computer Vision and Pattern Recognition. doi: https://doi.org/10.48550/arXiv.1906.06142
  2. Volkova, V., Deriuga, I., Osadchyi, V., Radyvonenko, O. (2018). Improvement of Character Segmentation Using Recurrent Neural Networks and Dynamic Programming. 2018 IEEE Second International Conference on Data Stream Mining & Processing (DSMP), 218–222. doi: https://doi.org/10.1109/dsmp.2018.8478457
  3. Omayio, E. O., Sreedevi, I., Panda, J. (2022). Word Segmentation by Component Tracing and Association (CTA) Technique. Journal of Engineering Research. doi: https://doi.org/10.36909/jer.15207
  4. Gruning, T., Labahn, R., Diem, M., Kleber, F., Fiel, S. (2018). READ-BAD: A New Dataset and Evaluation Scheme for Baseline Detection in Archival Documents. 2018 13th IAPR International Workshop on Document Analysis Systems (DAS). Vienna, 351–356. doi: https://doi.org/10.1109/das.2018.38
  5. Moysset, B., Kermorvant, C., Wolf, C., Louradour, J. (2015). Paragraph text segmentation into lines with Recurrent Neural Networks. 2015 13th International Conference on Document Analysis and Recognition (ICDAR), 456–460. doi: https://doi.org/10.1109/icdar.2015.7333803
  6. Vo, Q. N., Lee, G. (2016). Dense prediction for text line segmentation in handwritten document images. 2016 IEEE International Conference on Image Processing (ICIP), 3264–3268. doi: https://doi.org/10.1109/icip.2016.7532963
  7. Yakovchuk, O., Cherneha, A., Zhelezniakov, D., Zaytsev, V. (2020). Methods for Lines and Matrices Segmentation in RNN-based Online Handwriting Mathematical Expression Recognition Systems. 2020 IEEE Third International Conference on Data Stream Mining & Processing (DSMP). doi: https://doi.org/10.1109/dsmp47368.2020.9204273
  8. Razak, Z., Zulkiflee, K., Idris, M., Tamil, E., Noor, M., Salleh, R. et al. (2007). Off-line handwriting text line segmentation: A review. International Journal of Computer Science and Network Security, 8 (7), 12–20.
  9. Arivazhagan, M., Srinivasan, H., Srihari, S. (2007). A statistical approach to line segmentation in handwritten documents. Document Recognition and Retrieval XIV. doi: https://doi.org/10.1117/12.704538
  10. Ptak, R., Żygadło, B., Unold, O. (2017). Projection–Based Text Line Segmentation with a Variable Threshold. International Journal of Applied Mathematics and Computer Science, 27 (1), 195–206. doi: https://doi.org/10.1515/amcs-2017-0014
  11. Renton, G., Chatelain, C., Adam, S., Kermorvant, C., Paquet, T. (2017). Handwritten Text Line Segmentation Using Fully Convolutional Network. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 5–9. doi: https://doi.org/10.1109/icdar.2017.321
  12. Zhang, Z., Zhang, C., Shen, W., Yao, C., Liu, W., Bai, X. (2016). Multi-oriented Text Detection with Fully Convolutional Networks. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4159–4167. doi: https://doi.org/10.1109/cvpr.2016.451
  13. Liao, M., Wan, Z., Yao, C., Chen, K., Bai, X. (2020). Real-Time Scene Text Detection with Differentiable Binarization. Proceedings of the AAAI Conference on Artificial Intelligence, 34 (7), 11474–11481. doi: https://doi.org/10.1609/aaai.v34i07.6812
  14. Xu, Y., Yin, X., Huang, K., Hao, H. W. (2013). Robust Text Detection in Natural Scene Images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36 (5), 970–983. doi: https://doi.org/10.1109/tpami.2013.182
An overview of statistical and neural-based line segmentation methods for offline handwriting recognition task

##submission.downloads##

Опубліковано

2024-02-12

Як цитувати

Яковчук, О. К., & Рогоза, В. С. (2024). Огляд статистичних та нейронних методів сегментації рядків для задачі офлайн розпізнавання рукописного введення. Technology Audit and Production Reserves, 1(2(75), 14–19. https://doi.org/10.15587/2706-5448.2024.298405

Номер

Розділ

Інформаційні технології