Збільшення точності розпізнавання рукописного тексту в лікарських рецептах за допомогою генеративного штучного інтелекту
DOI:
https://doi.org/10.15587/2706-5448.2023.284998Ключові слова:
розпізнавання рукописного тексту, генеративний штучний інтелект, алгоритми розпізнавання, глибокі нейронні мережіАнотація
Об’єктом дослідження в цій роботі є система розпізнавання рукописного тексту в лікарських рецептах. Особливості рукописного написання, різноманітності почерків та стилів, а також специфіка лікарських рецептів створюють багато проблем та викликів для алгоритмів розпізнавання, що спричиняє виникнення помилок та зменшення точності розпізнавання.
В роботі представлено нову систему з додатковими компонентами пост-обробки результатів розпізнавання для збільшення точності кінцевих результатів. Запропоновано алгоритм об’єднання слів у лінії та блоки, що дає змогу згрупувати слова, зберігаючи контекстні зв’язки між ними. Також використано генеративну нейронну мережу з великою мовною моделлю для аналізу результату розпізнавання та виправлення можливих помилок. Результати тестування показали покращення точності розпізнавання на 0.13 %. Проведено аналіз успішних випадків роботи генеративного штучного інтелекту, а також наведено приклади погіршення результатів, які пов’язані з граматичними помилками в початкових вхідних даних.
Отримані результати показують, що використання генеративного штучного інтелекту як додаткового кроку для обробки результатів розпізнавання дійсно може покращити якість систем для обробки та розпізнавання тексту. Результати дослідження можуть бути використані для подальших експериментів з покращенням результатів розпізнавання в інших задачах, пов’язаних з розпізнаванням тексту, та в суміжних сферах
Посилання
- Baniulyte, G., Rogerson, N., Bowden, J. (2023). Evolution – removing paper and digitising the hospital. Health and Technology, 13 (2), 263–271. doi: https://doi.org/10.1007/s12553-023-00740-8
- Dhar, D., Garain, A., Singh, P. K., Sarkar, R. (2020). HP_DocPres: a method for classifying printed and handwritten texts in doctor’s prescription. Multimedia Tools and Applications, 80 (7), 9779–9812. doi: https://doi.org/10.1007/s11042-020-10151-w
- Hucka, M. (2022). Caltechlibrary/handprint: Release 1.5.6 (v1.5.6). CaltechDATA. doi: https://doi.org/10.22002/D1.20059
- Schmidt, R. (2019). Recurrent Neural Networks (RNNs): A gentle Introduction and Overview. doi: https://doi.org/10.48550/arXiv.1912.05911
- Graves, A., Fernández, S., Gomez, F., Schmidhuber, J. (2006). Connectionist temporal classification. Proceedings of the 23rd International Conference on Machine Learning – ICML ’06. doi: https://doi.org/10.1145/1143844.1143891
- Dhar, D., Garain, A., Singh, P. K., Sarkar, R. (2020). HP_DocPres: a method for classifying printed and handwritten texts in doctor’s prescription. Multimedia Tools and Applications, 80 (7), 9779–9812. doi: https://doi.org/10.1007/s11042-020-10151-w
- Yakovchuk, O., Cherneha, A., Zhelezniakov, D., Zaytsev, V. (2020). Methods for Lines and Matrices Segmentation in RNN-based Online Handwriting Mathematical Expression Recognition Systems. 2020 IEEE Third International Conference on Data Stream Mining & Processing (DSMP). doi: https://doi.org/10.1109/dsmp47368.2020.9204273
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I. (2019) Language Models are Unsupervised Multitask Learners. Available at: https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe
- Child, R., Gray, S., Radford, A., Sutskever, I. (2019). Generating Long Sequences with Sparse Transformers. doi: https://doi.org/10.48550/arXiv.1904.10509
- Vaswani, A., Shazeer, N., Parmar, N. (2017). Attention Is All You Need. doi: https://doi.org/10.48550/arXiv.1706.03762
- Brown, B., Mann, B., Ryder, N., Subbiah, M. (2020). Language Models are Few-Shot Learners. Available at: https://arxiv.org/pdf/2005.14165.pdf
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 Oleg Yakovchuk, Maksym Vasin
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.