Transformer-based models application for bug detection in source code

Ілля Анатолійович Вохранов; Богдан Вікторович Булах

doi:10.15587/2706-5448.2024.310822

Автор(и)

Ілля Анатолійович Вохранов Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0009-0000-1702-0460
Богдан Вікторович Булах Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0001-5880-6101

DOI:

https://doi.org/10.15587/2706-5448.2024.310822

Ключові слова:

трансформатори, великі мовні моделі, виявлення помилок, виявлення дефектів, статичний аналіз коду, нейронні мережі

Анотація

У цій роботі досліджується використання трансформаторних моделей для виявлення помилок у вихідному коді з метою кращого розуміння здатності цих моделей вивчати складні шаблони та зв’язки в коді. Традиційні інструменти статичного аналізу дуже обмежені у своїй здатності виявляти семантичні помилки, що призводить до численних дефектів, які переходять до етапу виконання коду. Це дослідження є кроком до вдосконалення статичного аналізу коду за допомогою нейронних мереж.

Експерименти були розроблені як завдання бінарної класифікації для виявлення помилкових фрагментів коду, кожен з яких націлений на певний тип дефекту, як-от NameError, TypeError, IndexError, AttributeError, ValueError, EOFError, SyntaxError і ModuleNotFoundError. Використовуючи набір даних «RunBugRun», який ґрунтується на результатах виконання коду, моделі – BERT, CodeBERT, GPT-2 і CodeT5 – були налаштовані та порівняні за ідентичних умов і гіперпараметрів. Ефективність оцінювалася за допомогою F1-Score, Precision і Recall.

Результати показали, що моделі на основі трансформаторів, особливо CodeT5 і CodeBERT, були ефективними у виявленні різних дефектів, демонструючи їхню здатність вивчати складні шаблони коду. Однак продуктивність різнилася залежно від типу дефекту, причому деякі дефекти, такі як IndexError і TypeError, виявити складніше. Результати підкреслюють важливість високоякісних, різноманітних навчальних даних і висвітлюють потенціал моделей на основі трансформаторів для досягнення більш точного раннього виявлення дефектів.

Майбутні дослідження мають продовжити дослідження передових архітектур трансформаторів для виявлення складних дефектів і дослідити інтеграцію додаткової контекстної інформації в процес виявлення. Це дослідження підкреслює потенціал сучасних архітектур машинного навчання для вдосконалення практики розробки програмного забезпечення, що веде до більш ефективної та надійної розробки програмного забезпечення.

Біографії авторів

Ілля Анатолійович Вохранов, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Аспірант

Кафедра системного проектування

Богдан Вікторович Булах, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кандидат технічних наук, доцент

Кафедра системного проектування

Посилання

Tassey, G. (2002). The Economic Impacts of Inadequate Infrastructure for Software Testing (NIST Planning Report 02-3). RTI International. National Institute of Standards and Technology. Available at: https://www.nist.gov/system/files/documents/director/planning/report02-3.pdf Last accessed: 22.07.2024.
Nachtigall, M., Schlichtig, M., Bodden, E. (2022). A large-scale study of usability criteria addressed by static analysis tools. Proceedings of the 31st ACM SIGSOFT International Symposium on Software Testing and Analysis. https://doi.org/10.1145/3533767.3534374
Vaswani, A., Shazeer, N. M., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N. et al. (2017). Attention is All you Need. Neural Information Processing Systems. https://doi.org/10.48550/arXiv.1706.03762
Bahdanau, D., Cho, K., Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. CoRR, abs/1409.0473. https://doi.org/10.48550/arXiv.1409.0473
Hou, X., Zhao, Y., Liu, Y., Yang, Z., Wang, K., Li, L. et al. (2023). Large Language Models for Software Engineering: A Systematic Literature Review. ArXiv, abs/2308.10620. https://doi.org/10.48550/arXiv.2308.10620
Sun, Z., Li, L., Liu, Y., Du, X. (2022). On the Importance of Building High-quality Training Datasets for Neural Code Search. 2022 IEEE/ACM 44th International Conference on Software Engineering (ICSE), 1609–1620. https://doi.org/10.1145/3510003.3510160
Prenner, J. A., Robbes, R. (2023). RunBugRun – An Executable Dataset for Automated Program Repair. ArXiv, abs/2304.01102. https://doi.org/10.48550/arXiv.2304.01102
Hu, J. E., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Chen, W. (2021). LoRA: Low-Rank Adaptation of Large Language Models. ArXiv, abs/2106.09685. https://doi.org/10.48550/arXiv.2106.09685
Built-in exceptions. Python Documentation. Python Software Foundation. Available at: https://docs.python.org/3/library/exceptions.html Last accessed: 22.07.2024
Marjanov, T., Pashchenko, I., Massacci, F. (2022). Machine Learning for Source Code Vulnerability Detection: What Works and What Isn’t There Yet. IEEE Security & Privacy, 20 (5), 60–76. https://doi.org/10.1109/msec.2022.3176058
Fang, C., Miao, N., Srivastav, S., Liu, J., Zhang, R., Fang, R. et al. (2023). Large Language Models for Code Analysis: Do LLMs Really Do Their Job? ArXiv, abs/2310.12357. https://doi.org/10.48550/arXiv.2310.12357
Xiao, Y., Zuo, X., Xue, L., Wang, K., Dong, J. S., Beschastnikh, I. (2023). Empirical Study on Transformer-based Techniques for Software Engineering. ArXiv, abs/2310.00399. https://doi.org/10.48550/arXiv.2310.00399