Збільшення точності розпізнавання рукописного тексту в лікарських рецептах за допомогою генеративного штучного інтелекту

Автор(и)

  • Олег Костянтинович Яковчук Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0002-9842-9790
  • Максим Сергійович Васін Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0009-0005-1903-9874

DOI:

https://doi.org/10.15587/2706-5448.2023.284998

Ключові слова:

розпізнавання рукописного тексту, генеративний штучний інтелект, алгоритми розпізнавання, глибокі нейронні мережі

Анотація

Об’єктом дослідження в цій роботі є система розпізнавання рукописного тексту в лікарських рецептах. Особливості рукописного написання, різноманітності почерків та стилів, а також специфіка лікарських рецептів створюють багато проблем та викликів для алгоритмів розпізнавання, що спричиняє виникнення помилок та зменшення точності розпізнавання.

В роботі представлено нову систему з додатковими компонентами пост-обробки результатів розпізнавання для збільшення точності кінцевих результатів. Запропоновано алгоритм об’єднання слів у лінії та блоки, що дає змогу згрупувати слова, зберігаючи контекстні зв’язки між ними. Також використано генеративну нейронну мережу з великою мовною моделлю для аналізу результату розпізнавання та виправлення можливих помилок. Результати тестування показали покращення точності розпізнавання на 0.13 %. Проведено аналіз успішних випадків роботи генеративного штучного інтелекту, а також наведено приклади погіршення результатів, які пов’язані з граматичними помилками в початкових вхідних даних.

Отримані результати показують, що використання генеративного штучного інтелекту як додаткового кроку для обробки результатів розпізнавання дійсно може покращити якість систем для обробки та розпізнавання тексту. Результати дослідження можуть бути використані для подальших експериментів з покращенням результатів розпізнавання в інших задачах, пов’язаних з розпізнаванням тексту, та в суміжних сферах

Біографії авторів

Олег Костянтинович Яковчук, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Асистент, аспірант

Кафедра системного проектування

Максим Сергійович Васін, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кафедра системного проектування

Посилання

  1. Baniulyte, G., Rogerson, N., Bowden, J. (2023). Evolution – removing paper and digitising the hospital. Health and Technology, 13 (2), 263–271. doi: https://doi.org/10.1007/s12553-023-00740-8
  2. Dhar, D., Garain, A., Singh, P. K., Sarkar, R. (2020). HP_DocPres: a method for classifying printed and handwritten texts in doctor’s prescription. Multimedia Tools and Applications, 80 (7), 9779–9812. doi: https://doi.org/10.1007/s11042-020-10151-w
  3. Hucka, M. (2022). Caltechlibrary/handprint: Release 1.5.6 (v1.5.6). CaltechDATA. doi: https://doi.org/10.22002/D1.20059
  4. Schmidt, R. (2019). Recurrent Neural Networks (RNNs): A gentle Introduction and Overview. doi: https://doi.org/10.48550/arXiv.1912.05911
  5. Graves, A., Fernández, S., Gomez, F., Schmidhuber, J. (2006). Connectionist temporal classification. Proceedings of the 23rd International Conference on Machine Learning – ICML ’06. doi: https://doi.org/10.1145/1143844.1143891
  6. Dhar, D., Garain, A., Singh, P. K., Sarkar, R. (2020). HP_DocPres: a method for classifying printed and handwritten texts in doctor’s prescription. Multimedia Tools and Applications, 80 (7), 9779–9812. doi: https://doi.org/10.1007/s11042-020-10151-w
  7. Yakovchuk, O., Cherneha, A., Zhelezniakov, D., Zaytsev, V. (2020). Methods for Lines and Matrices Segmentation in RNN-based Online Handwriting Mathematical Expression Recognition Systems. 2020 IEEE Third International Conference on Data Stream Mining & Processing (DSMP). doi: https://doi.org/10.1109/dsmp47368.2020.9204273
  8. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I. (2019) Language Models are Unsupervised Multitask Learners. Available at: https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe
  9. Child, R., Gray, S., Radford, A., Sutskever, I. (2019). Generating Long Sequences with Sparse Transformers. doi: https://doi.org/10.48550/arXiv.1904.10509
  10. Vaswani, A., Shazeer, N., Parmar, N. (2017). Attention Is All You Need. doi: https://doi.org/10.48550/arXiv.1706.03762
  11. Brown, B., Mann, B., Ryder, N., Subbiah, M. (2020). Language Models are Few-Shot Learners. Available at: https://arxiv.org/pdf/2005.14165.pdf
Increasing the accuracy of handwriting text recognition in medical prescriptions with generative artificial intelligence

##submission.downloads##

Опубліковано

2023-08-28

Як цитувати

Яковчук, О. К., & Васін, М. С. (2023). Збільшення точності розпізнавання рукописного тексту в лікарських рецептах за допомогою генеративного штучного інтелекту. Technology Audit and Production Reserves, 4(2(72), 18–21. https://doi.org/10.15587/2706-5448.2023.284998

Номер

Розділ

Інформаційні технології