Метод визначення ймовірного походження та ліцензійних умов програмного коду, згенерованого великими мовними моделями

Автор(и)

  • С.О. Романенко Військовий інститут телекомунікацій та інформатизації імені Героїв Крут, м. Київ, Україна https://orcid.org/0009-0004-0240-0777

DOI:

https://doi.org/10.31498/2225-6733.53.1.2026.359775

Ключові слова:

великі мовні моделі, генерація програмного коду, походження програмного коду, аналіз подібності коду, ліцензування програмного забезпечення, програмна інженерія, штучний інтелект

Анотація

Активне впровадження великих мовних моделей у процес розроблення програмного забезпечення істотно змінює підходи до створення програмного коду. Одним із найбільш поширених сценаріїв використання таких моделей є автоматична генерація програмних фрагментів, що дозволяє підвищити продуктивність розробників та скоротити час реалізації програмних проєктів. Водночас застосування автоматично згенерованого коду породжує низку нових проблем, пов’язаних із відсутністю інформації про його походження, що ускладнює перевірку надійності джерела, а також може призводити до порушення авторських прав і ліцензійних умов. У роботі розглянуто проблему визначення походження програмного коду, створеного за допомогою великих мовних моделей, та запропоновано підхід до її вирішення. Метою дослідження є розроблення методу встановлення ймовірних джерел програмного коду та визначення можливих ліцензій його використання на основі аналізу подібності між згенерованими та знайденими у відкритих джерелах фрагментами. Запропонований підхід передбачає поєднання можливостей мовних моделей із механізмами вебпошуку, подальшим аналізом текстової подібності та виявленням клонів програмного коду. У результаті формується перелік вебресурсів, що можуть містити схожі фрагменти коду, а також здійснюється спроба автоматичного визначення їхніх ліцензійних умов. Отримані результати демонструють можливість ефективної фільтрації нерелевантних джерел та підвищення прозорості використання автоматично згенерованого програмного забезпечення. Наукова новизна дослідження полягає у поєднанні методів аналізу подібності програмного коду з інструментами вебпошуку для встановлення його ймовірного походження. Практична значущість роботи полягає у можливості використання запропонованого підходу для підвищення надійності програмних продуктів і зменшення ризиків порушення ліцензійних вимог. Перспективним напрямом подальших досліджень є удосконалення алгоритмів пошуку програмного коду та розширення методів автоматичного визначення його ліцензійних характеристик

Посилання

  1. Extracting Training Data from Large Language Models / N. Carlini et al. Proceedings of the 30-th USENIX Security Symposium, 11–13 August 2021. Pp. 2633–2650.
  2. Quantifying Memorization Across Neural Language Models / N. Carlini et al. arXiv preprint. arXiv:2202.07646. 2023. Pp. 1–34. DOI: https://doi.org/10.48550/arXiv.2202.07646.
  3. Evaluating Large Language Models Trained on Code / M. Chen et al. arXiv preprint. arXiv:2107.03374. 2021. Pp. 3–14. DOI: https://doi.org/10.48550/arXiv.2107.03374.
  4. GitHub Copilot AI pair programmer: Asset or Lia-bility? / A. M. Dakhel et al. Journal of Systems and Software. 2023. Vol. 203. Article 111734. DOI: https://doi.org/10.1016/j.jss.2023.111734.
  5. GitHub Copilot Documentation. URL: https://docs.github.com/en/copilot (дата звернення: 11.08.2025).
  6. Google Open Source. License Classifier. URL: https://github.com/google/licenseclassifier (дата звернення: 11.08.2025).
  7. Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation / Liu J., Xia C. S., Wang Y., Zhang L. arXiv preprint. arXiv:2305.01210. 2023. DOI: https://doi.org/10.48550/arXiv.2305.01210.
  8. CodeSearchNet Challenge: Evaluating the State of Semantic Code Search / H. Husain et al. arXiv pre-print. arXiv:1909.09436. 2019. DOI: https://doi.org/10.48550/arXiv.1909.09436.
  9. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? / Bender E. M., Gebru T., McMillan-Major A., Shmitchell S. Proceedings of the 2021 ACM Conference on Fairness, Ac-countability, and Transparency, 3–10 March 2021. Pp. 610–623. DOI: https://doi.org/10.1145/3442188.3445922.
  10. SPDX License List. Software Package Data Exchange (SPDX). URL: https://spdx.org/licenses/ (дата звернення: 11.08.2025).
  11. Training language models to follow instructions with human feedback / L. Ouyang et al. arXiv pre-print. arXiv:2203.02155. 2022. Pp. 1–46. DOI: https://doi.org/10.48550/arXiv.2203.02155.
  12. Unveiling Memorization in Code Models / Z. Yang et al. arXiv preprint. arXiv:2308.09932. 2023. Pp. 1–11. DOI: https://doi.org/10.48550/arXiv.2308.09932.
  13. Kamiya T., Kusumoto S., Inoue K. CCFinder: a multilinguistic token-based code clone detection system for large scale source code. IEEE Transactions on Software Engineering. 2002. Vol. 28, no. 7. Pp. 654–670. DOI: https://doi.org/10.1109/TSE.2002.1019480.
  14. Deep Learning Meets Software Engineering: A Survey on Pre-Trained Models of Source Code / Niu C., Li C., Luo B., Ng V. Thirty-First International Joint Conference on Artificial Intelligence (IJCAI-22), Vienna, Austria, 23-29 July 2022. Pp. 5546–5555. DOI: https://doi.org/10.24963/ijcai.2022/775.
  15. Code Clone Detection based on Event Embedding and Event Dependency / Huang C., Zhou H., Ye C., Li B. arXiv preprint. arXiv:2111.14183. 2021. DOI: https://doi.org/10.48550/arXiv.2111.14183.
  16. Program Synthesis with Large Language Models / J. Austin et al. arXiv preprint. arXiv:2108.07732. 2021. Pp. 1–12. DOI: https://doi.org/10.48550/arXiv.2108.07732.

##submission.downloads##

Опубліковано

2026-03-26

Як цитувати

Романенко , С. (2026). Метод визначення ймовірного походження та ліцензійних умов програмного коду, згенерованого великими мовними моделями. Вісник Приазовського Державного Технічного Університету. Серія: Технічні науки, 1(53), 54–60. https://doi.org/10.31498/2225-6733.53.1.2026.359775

Номер

Розділ

122 Комп'ютерні науки та інформаційні технології