Розробка параметро-ефективного методу синтезу біомедичних зображень шляхом заміни текстового кондиціювання ембедінгами фундаментальної моделі патології у латентній дифузії

Автор(и)

  • Сергій Олександрович Кузьмін Національний університет «Львівська політехніка», Україна https://orcid.org/0009-0001-7182-2883
  • Олег Миколайович Березький Західноукраїнський національний університет, Україна https://orcid.org/0000-0001-9931-4154

DOI:

https://doi.org/10.15587/2706-5448.2026.355663

Ключові слова:

латентні дифузійні моделі, фундаментальні моделі патології, синтез гістопатологічних зображень, генерація медичних зображень

Анотація

Об’єктом дослідження є процес синтезу патчів гістопатологічних зображень, кондиційованих ембедінгами фундаментальної моделі патології. Однією з ключових проблем є те, що наявні підходи до дифузійного синтезу або спираються на текстове кондиціювання через CLIP-енкодери, яким бракує морфологічного розуміння, або потребують повного донавчання генеративної базової моделі, що вимагає значних обчислювальних ресурсів.

У ході дослідження використовувалася параметроефективна адаптація попередньо навченої латентної дифузійної моделі з використанням низькорангової адаптації (LoRA) шарів уваги U-Net у поєднанні з навченим MLP-проєктором, який відображає ембедінги фундаментальної моделі патології UNI2-h у простір кондиціювання механізму перехресної уваги. Проведено абляційні дослідження 12 конфігурацій із варіюванням рангу адаптера, кількості токенів кондиціювання та архітектури проєктора.

Отримано підтвердження того, що ембедінги фундаментальної моделі патології можуть ефективно замінити текстове кондиціювання для синтезу гістопатологічних зображень у параметроефективному режимі. Оптимальна конфігурація досягла FID 77,59 на валідаційній вибірці та FID 84,17 на тестовій вибірці при навчанні лише 5,53 млн параметрів, що становить 0,64% параметрів базової моделі. Це зумовлено тим, що запропонований метод має низку характерних особливостей, зокрема: ембедінги фундаментальної моделі забезпечують морфологічно багатший сигнал кондиціювання, ніж текстові CLIP-представлення, а низькорангова адаптація обмежує простір навчуваних параметрів шляхом кондиціювання.

Завдяки цьому забезпечується можливість генерації гістопатологічних зображень без текстових анотацій та без повного донавчання моделі, використовуючи орієнтовно 12 ГБ відеопам’яті. Порівняно з попереднім текстово-кондиційованим підходом на тому самому наборі даних, який демонстрував покласові значення FID у діапазоні від 113 до 138, метод кондиціювання ембедінгами забезпечує істотно вищу якість генерації зі збереженням параметроефективності.

Біографії авторів

Сергій Олександрович Кузьмін, Національний університет «Львівська політехніка»

Аспірант

Кафедра автоматизованих систем управління

Олег Миколайович Березький, Західноукраїнський національний університет

Доктор технічних наук, професор

Кафедра комп’ютерної інженерії

 

Посилання

  1. Litjens, G., Bandi, P., Ehteshami Bejnordi, B., Geessink, O., Balkenhol, M., Bult, P. et al. (2018). 1399 H&E-stained sentinel lymph node sections of breast cancer patients: the CAMELYON dataset. GigaScience, 7 (6). https://doi.org/10.1093/gigascience/giy065
  2. Walsh, E., Orsi, N. M. (2024). The current troubled state of the global pathology workforce: a concise review. Diagnostic Pathology, 19 (1). https://doi.org/10.1186/s13000-024-01590-2
  3. Guan, H., Yap, P.-T., Bozoki, A., Liu, M. (2024). Federated learning for medical image analysis: A survey. Pattern Recognition, 151, 110424. https://doi.org/10.1016/j.patcog.2024.110424
  4. Zhang, Y., Kang, B., Hooi, B., Yan, S., Feng, J. (2023). Deep Long-Tailed Learning: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45 (9), 10795–10816. https://doi.org/10.1109/tpami.2023.3268118
  5. Campanella, G., Hanna, M. G., Geneslaw, L., Miraflor, A., Werneck Krauss Silva, V., Busam, K. J. et al. (2019). Clinical-grade computational pathology using weakly supervised deep learning on whole slide images. Nature Medicine, 25 (8), 1301–1309. https://doi.org/10.1038/s41591-019-0508-1
  6. Jose, L., Liu, S., Russo, C., Nadort, A., Di Ieva, A. (2021). Generative Adversarial Networks in Digital Pathology and Histopathological Image Processing: A Review. Journal of Pathology Informatics, 12 (1), 43. https://doi.org/10.4103/jpi.jpi_103_20
  7. Saad, M. M., O’Reilly, R., Rehmani, M. H. (2024). A survey on training challenges in generative adversarial networks for biomedical image analysis. Artificial Intelligence Review, 57 (2). https://doi.org/10.1007/s10462-023-10624-y
  8. Dhariwal, P., Nichol, A. (2021). Diffusion models beat GANs on image synthesis. arXiv:2105.05233. https://doi.org/10.48550/arXiv.2105.05233
  9. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10674–10685. https://doi.org/10.1109/cvpr52688.2022.01042
  10. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S. et al. (2021). Learning transferable visual models from natural language supervision. arXiv:2103.00020. https://doi.org/10.48550/arXiv.2103.00020
  11. Chen, R. J., Ding, T., Lu, M. Y., Williamson, D. F. K., Jaume, G., Song, A. H. et al. (2024). Towards a general-purpose foundation model for computational pathology. Nature Medicine, 30, 850–862. https://doi.org/10.1038/s41591-024-02857-3
  12. Yellapragada, S., Graikos, A., Prasanna, P., Kurc, T., Saltz, J., Samaras, D. (2024). PathLDM: Text conditioned Latent Diffusion Model for Histopathology. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 5170–5179. https://doi.org/10.1109/wacv57701.2024.00510
  13. Graikos, A., Yellapragada, S., Le, M.-Q., Kapse, S., Prasanna, P., Saltz, J., Samaras, D. (2024). Learned Representation-Guided Diffusion Models for Large-Image Generation. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8532–8542. https://doi.org/10.1109/cvpr52733.2024.00815
  14. Boada, J. C., Umer, R. M., Marr, C. (2025). CytoDiff: AI-Driven Cytomorphology Image Synthesis for Medical Diagnostics. 2025 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), 1136–1144. https://doi.org/10.1109/iccvw69036.2025.00122
  15. Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S. et al. (2022). LoRA: low-rank adaptation of large language models. arXiv:2106.09685. https://doi.org/10.48550/arXiv.2106.09685
  16. Ho, J., Jain, A., Abbeel, P. (2020). Denoising diffusion probabilistic models. Proceedings of the 34th International Conference on Neural Information Processing Systems, 34, 6840–6851. https://doi.org/10.48550/arXiv.2006.11239
  17. Yellapragada, S., Graikos, A., Triaridis, K., Prasanna, P., Gupta, R., Saltz, J., Samaras, D. (2025). ZoomLDM: Latent Diffusion Model for multi-scale image generation. 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 23453–23463. https://doi.org/10.1109/cvpr52734.2025.02184
  18. Mao, Y., Li, H., Pang, W., Papanastasiou, G., Yang, G., Wang, C. (2024). SeLoRA: self-expanding low-rank adaptation of latent diffusion model for medical image synthesis. arXiv:2408.07196. https://doi.org/10.48550/arXiv.2408.07196
  19. Berezsky, O., Melnyk, G., Liashchynskyi, P., Pitsun, O.; Babichev, S., Lytvynenko, V. (Eds.) (2025). Biomedical Image Datasets. Lecture Notes on Data Engineering and Communications Technologies, vol 244. Cham: Springer, 61–82. https://doi.org/10.1007/978-3-031-88483-2_3
  20. Berezsky, O., Liashchynskyi, P., Melnyk, G., Dombrovskyi, M., Berezkyi, M. (2024). Synthesis of biomedical images based on generative intelligence tools. Proceedings of the 7th International Conference on Informatics & Data-Driven Medicine (IDDM 2024). Birmingham. CEUR Workshop Proceedings, 3892, 349–362. Available at: https://ceur-ws.org/Vol-3892/paper23.pdf
  21. Berezsky, O., Liashchynskyi, P., Pitsun, O., Izonin, I. (2024). Synthesis of Convolutional Neural Network architectures for biomedical image classification. Biomedical Signal Processing and Control, 95, 106325. https://doi.org/10.1016/j.bspc.2024.106325
  22. Berezsky, O., Liashchynskyi, P., Pitsun, O., Melnyk, G. (2024). Method and Software Tool for Generating Artificial Databases of Biomedical Images Based on Deep Neural Networks. 6th International Conference on Informatics & Data-Driven Medicine Bratislava. https://doi.org/10.48550/arXiv.2405.16119
  23. Kuzmin, S., Berezsky, O. (2025). Analysis of diffusion models and biomedical image generation tools. Computer Systems and Information Technologies, 2, 8–19. https://doi.org/10.31891/csit-2025-2-1
  24. Zhu, C., Chen, W., Peng, T., Wang, Y., Jin, M. (2022). Hard Sample Aware Noise Robust Learning for Histopathology Image Classification. IEEE Transactions on Medical Imaging, 41 (4), 881–894. https://doi.org/10.1109/tmi.2021.3125459
  25. Ho, J., Salimans, T. (2022). Classifier-free diffusion guidance. arXiv:2207.12598. https://doi.org/10.48550/arXiv.2207.12598
  26. Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S. (2017). GANs trained by a two time-scale update rule converge to a local Nash equilibrium. 31st Conference on Neural Information Processing Systems (NIPS 2017). Long Beac. https://doi.org/10.48550/arXiv.1706.08500
  27. Bińkowski, M., Sutherland, D. J., Arbel, M., Gretton, A. (2018). Demystifying MMD GANs. International Conference on Learning Representations (ICLR). https://doi.org/10.48550/arXiv.1801.01401
Development of a parameter-efficient method for biomedical image synthesis by substituting text conditioning with pathology foundation model embeddings in latent diffusion

##submission.downloads##

Опубліковано

2026-04-30

Як цитувати

Кузьмін, С. О., & Березький, О. М. (2026). Розробка параметро-ефективного методу синтезу біомедичних зображень шляхом заміни текстового кондиціювання ембедінгами фундаментальної моделі патології у латентній дифузії. Technology Audit and Production Reserves, 2(2(88), 66–75. https://doi.org/10.15587/2706-5448.2026.355663

Номер

Розділ

Системи та процеси керування