Гібридна імпутація біомедичних даних на основі трансформерів та автоенкодерів для оцінки біологічного віку людини

Автор(и)

  • Володимир Георгійович Сліпченко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0002-3405-0781
  • Любов Григорівна Полягушко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0003-3287-8523
  • Олександр Володимирович Волков Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0009-0003-6834-8118
  • Владислав Валерійович Шатило Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0001-5395-2097

DOI:

https://doi.org/10.15587/1729-4061.2025.340325

Ключові слова:

відновлення пропусків, гібридна архітектура, глибинне навчання, функціональний вік, PhenoAge, NHANES

Анотація

Об’єктом дослідження є процес відновлення пропущених біомедичних і соціальних даних для оцінки біологічного віку людини. Проблема полягає у великій кількості пропусків у наборах, зокрема NHANES – до 40%. Це знижує точність прогнозів здоров’я та ефективність профілактики. В дослідженні було використано методи глибинного навчання – автоенкодери та трансформери. Автоенкодер забезпечив швидку імпутацію (37.4 с, MAE = 7.54), але поступився точністю. Трансформер досяг найменшої похибки (246.3 с, MAE = 1.10), однак вимагав значних ресурсів і мав ризик перенавчання. Запропоновано гібридну архітектуру, що поєднує переваги підходів. На наборі NHANES (55081 спостережень, 84 біомаркери) вона показала оптимальний баланс (54.2 с, MAE = 5.26). Модель стабільна при 50% пропущених даних і підвищує точність оцінки біологічного віку на 25% порівняно із заповненням середнім значенням. Переваги пояснюються поєднанням швидкодії автоенкодера та контекстної чутливості трансформера. Показано, що для гібридної моделі R2 = 0.9875, а RMSE = 35.9, що свідчить про високу узгодженість відновлених значень. Аналіз чутливості підтвердив збереження точності при збільшенні частки пропусків до критичного рівня 55%, після якого відбувається деградація моделі. Унікальною рисою гібридного підходу є поєднання високої точності та помірних обчислювальних витрат. Це робить модель придатною для медичних інформаційних систем із неповними даними. Практичне застосування – профілактична медицина, оцінка старіння та виявлення груп ризику. В Україні модель може підвищити ефективність медичних досліджень та цифрової медицини. Вона також здатна стати основою для майбутніх досліджень у сфері біоінформатики та прогнозування тривалості життя

Біографії авторів

Володимир Георгійович Сліпченко, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Доктор технічних наук, професор

Кафедра цифрових технологій в енергетиці

Любов Григорівна Полягушко, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кандидат технічних наук, доцент

Кафедра цифрових технологій в енергетиці

Олександр Володимирович Волков, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кафедра цифрових технологій в енергетиці

Владислав Валерійович Шатило, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кафедра цифрових технологій в енергетиці

Посилання

  1. Poliahushko, L., Volkov, O. (2024). Socioeconomic influence on biological age: an overview of current studies and role of artificial intelligence. Telecommunication and information technologies, 3 (84), 120–130. https://doi.org/10.31673/2412-4338.2024.03041234
  2. Lau, D. T., Ahluwalia, N., Fryar, C. D., Kaufman, M., Arispe, I. E., Paulose-Ram, R. (2023). Data Related to Social Determinants of Health Captured in the National Health and Nutrition Examination Survey. American Journal of Public Health, 113 (12), 1290–1295. https://doi.org/10.2105/ajph.2023.307490
  3. Kowsar, I., Rabbani, S. B., Samad, M. D. (2024). Attention-Based Imputation of Missing Values in Electronic Health Records Tabular Data. 2024 IEEE 12th International Conference on Healthcare Informatics (ICHI), 177–182. https://doi.org/10.1109/ichi61247.2024.00030
  4. Casella, M., Milano, N., Dolce, P., Marocco, D. (2024). Transformers deep learning models for missing data imputation: an application of the ReMasker model on a psychometric scale. Frontiers in Psychology, 15. https://doi.org/10.3389/fpsyg.2024.1449272
  5. Lim, D. K., Rashid, N. U., Oliva, J. B., Ibrahim, J. G. (2024). Unsupervised Imputation of Non-Ignorably Missing Data Using Importance-Weighted Autoencoders. Statistics in Biopharmaceutical Research, 17 (2), 222–234. https://doi.org/10.1080/19466315.2024.2368787
  6. Horvath, S. (2013). DNA methylation age of human tissues and cell types. Genome Biology, 14 (10). https://doi.org/10.1186/gb-2013-14-10-r115
  7. Levine, M. E., Lu, A. T., Quach, A., Chen, B. H., Assimes, T. L., Bandinelli, S. et al. (2018). An epigenetic biomarker of aging for lifespan and healthspan. Aging, 10 (4), 573–591. https://doi.org/10.18632/aging.101414
  8. Aracri, F., Bianco, M. G., Quattrone, A., Sarica, A. (2025). Bridging the Gap: Missing Data Imputation Methods and Their Effect on Dementia Classification Performance. Brain Sciences, 15 (6), 639. https://doi.org/10.3390/brainsci15060639
  9. Altamimi, A., Alarfaj, A. A., Umer, M., Alabdulqader, E. A., Alsubai, S., Kim, T., Ashraf, I. (2024). An automated approach to predict diabetic patients using KNN imputation and effective data mining techniques. BMC Medical Research Methodology, 24 (1). https://doi.org/10.1186/s12874-024-02324-0
  10. Madley-Dowd, P., Curnow, E., Hughes, R. A., Cornish, R. P., Tilling, K., Heron, J. (2024). Analyses using multiple imputation need to consider missing data in auxiliary variables. American Journal of Epidemiology, 194 (6), 1756–1763. https://doi.org/10.1093/aje/kwae306
  11. Beaulieu-Jones, B. K., Moore, J. H. (2017). Missing data imputation in the electronic health record using deeply learned autoencoders. Biocomputing 2017, 207–218. https://doi.org/10.1142/9789813207813_0021
  12. Gondara, L., Wang, K. (2018). MIDA: Multiple Imputation Using Denoising Autoencoders. Advances in Knowledge Discovery and Data Mining, 260–272. https://doi.org/10.1007/978-3-319-93040-4_21
  13. Li, Y., Rao, S., Solares, J. R. A., Hassaine, A., Ramakrishnan, R., Canoy, D. et al. (2020). BEHRT: Transformer for Electronic Health Records. Scientific Reports, 10 (1). https://doi.org/10.1038/s41598-020-62922-y
  14. Khan, M. A. (2024). A Comparative Study on Imputation Techniques: Introducing a Transformer Model for Robust and Efficient Handling of Missing EEG Amplitude Data. Bioengineering, 11 (8), 740. https://doi.org/10.3390/bioengineering11080740
  15. He, S., Grant, P. E., Ou, Y. (2022). Global-Local Transformer for Brain Age Estimation. IEEE Transactions on Medical Imaging, 41 (1), 213–224. https://doi.org/10.1109/tmi.2021.3108910
  16. Urban, A., Sidorenko, D., Zagirova, D., Kozlova, E., Kalashnikov, A., Pushkov, S. et al. (2023). Precious1GPT: multimodal transformer-based transfer learning for aging clock development and feature importance analysis for aging and age-related disease target discovery. Aging. https://doi.org/10.18632/aging.204788
  17. Wang, X., Chen, H., Zhang, J., Fan, J. (2024). Generative adversarial learning for missing data imputation. Neural Computing and Applications, 37 (3), 1403–1416. https://doi.org/10.1007/s00521-024-10652-x
  18. Hong, S., Lynn, H. S. (2020). Accuracy of random-forest-based imputation of missing data in the presence of non-normality, non-linearity, and interaction. BMC Medical Research Methodology, 20 (1). https://doi.org/10.1186/s12874-020-01080-1
  19. Zhou, Y.-H., Saghapour, E. (2021). ImputEHR: A Visualization Tool of Imputation for the Prediction of Biomedical Data. Frontiers in Genetics, 12. https://doi.org/10.3389/fgene.2021.691274
  20. Bae, C.-Y., Im, Y., Lee, J., Park, C.-S., Kim, M., Kwon, H. et al. (2021). Comparison of Biological Age Prediction Models Using Clinical Biomarkers Commonly Measured in Clinical Practice Settings: AI Techniques Vs. Traditional Statistical Methods. Frontiers in Analytical Science, 1. https://doi.org/10.3389/frans.2021.709589
  21. United States Department of Health and Human Services. Centers for Disease Control and Prevention. National Center for Health Statistics. National Health and Nutrition Examination Survey (NHANES), 1999-2000 (2012). Inter-university Consortium for Political and Social Research [distributor]. https://doi.org/10.3886/icpsr25501.v4
  22. Mack, C., Su, Z., Weistreich, D. (2018). Managing Missing Data in Patient Registries. Agency for Healthcare Research and Quality (AHRQ). https://doi.org/10.23970/ahrqregistriesmissingdata
  23. Chicco, D., Warrens, M. J., Jurman, G. (2021). The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation. PeerJ Computer Science, 7, e623. https://doi.org/10.7717/peerj-cs.623
  24. da Silva, I. N., Hernane Spatti, D., Andrade Flauzino, R., Liboni, L. H. B., dos Reis Alves, S. F. (2016). Multilayer Perceptron Networks. Artificial Neural Networks, 55–115. https://doi.org/10.1007/978-3-319-43162-8_5
  25. Jinbo, Z., Yufu, L., Haitao, M. (2025). Handling missing data of using the XGBoost-based multiple imputation by chained equations regression method. Frontiers in Artificial Intelligence, 8. https://doi.org/10.3389/frai.2025.1553220
Гібридна імпутація біомедичних даних на основі трансформерів та автоенкодерів для оцінки біологічного віку людини

##submission.downloads##

Опубліковано

2025-10-30

Як цитувати

Сліпченко, В. Г., Полягушко, Л. Г., Волков, О. В., & Шатило, В. В. (2025). Гібридна імпутація біомедичних даних на основі трансформерів та автоенкодерів для оцінки біологічного віку людини. Eastern-European Journal of Enterprise Technologies, 5(4 (137), 31–40. https://doi.org/10.15587/1729-4061.2025.340325

Номер

Розділ

Математика та кібернетика - прикладні аспекти