Архітектура автоматизованого програмного комплексу на основі багатоядерного SVM-класифікатора для аналізу шкідливих виконуваних файлів

Автор(и)

  • Алан Нафієв Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Україна https://orcid.org/0009-0004-8604-377X
  • Андрій Родіонов Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Україна http://orcid.org/0000-0001-7284-9458

DOI:

https://doi.org/10.30837/2522-9818.2024.29.039

Ключові слова:

кібербезпека; виявлення шкідливих програм; автоматизований програмний комплекс; статичний аналіз; динамічний аналіз; Drakvuf; IDA Pro; багатоядерне навчання.

Анотація

Тематика дослідження. У статті запропоновано розроблення та архітектуру автоматизованого програмного комплексу, призначеного для ідентифікації та аналізу шкідливих виконуваних файлів за допомогою класифікатора на основі багатоядерного навчання машини опорних векторів (SVM). Мета – створення автоматизованої системи, що підвищує точність і ефективність виявлення шкідливого програмного забезпечення завдяки поєднанню статичного й динамічного аналізу в єдину структуру, здатну обробляти значні обсяги даних з оптимальними витратами часу. Завдання статті. Для досягнення окресленої мети розроблено програмний комплекс, що автоматизує збір статичних і динамічних відомостей із виконуваних файлів за допомогою таких інструментів, як IDA Pro, IDAPython і Drakvuf; застосовано інтеграцію багатоядерного класифікатора SVM для аналізу зібраних різнорідних даних; виконано валідацію ефективності системи на основі значного датасету, що містить 1 389 виконуваних зразків; продемонстровано масштабованість і практичну застосовність системи в реальних умовах. Методи передбачали гібридний підхід, що поєднує статичний аналіз – витяг байт-коду, дизасембльованих інструкцій та графів потоку керування за допомогою IDA Pro та IDAPython – з динамічним аналізом, який полягав у моніторингу поведінки в реальному часі за допомогою Drakvuf. Багатоядерний класифікатор SVM інтегрує різні подання даних, використовуючи різні ядра, що дає змогу брати до уваги як лінійні, так і нелінійні взаємозв’язки в процесі класифікації. Результати дослідження продемонстрували, що система досягає високого рівня точності та повноти, про що свідчать ключові метрики ефективності, зокрема F-міра 0,93 та значення ROC AUC і PR AUC. Автоматизований програмний комплекс зменшує час аналізу одного файлу з середніх 11 хв до приблизно 5 хв, що фактично подвоює пропускну здатність порівняно з попередніми методами. Це значне скорочення часу оброблення є критично важливим для впровадження в середовищах, де необхідне швидке й точне виявлення шкідливого програмного забезпечення. Крім того, масштабованість системи дає змогу ефективно обробляти значні обсяги даних, що робить її придатною для реального застосування. Висновки. Розроблений у межах цього дослідження автоматизований програмний комплекс демонструє значні поліпшення щодо точності та ефективності виявлення шкідливого програмного забезпечення. Інтегруючи багатоядерну класифікацію SVM зі статичним і динамічним аналізом, система виявляє потенціал для аналізу шкідливого ПЗ в реальних умовах. Її масштабованість та практична застосовність свідчать про те, що система може стати важливим інструментом у боротьбі із сучасними кіберзагрозами, надаючи організаціям ефективний засіб для підвищення їх кібербезпеки.

Біографії авторів

Алан Нафієв, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

аспірант, фізико-технічний інститут

Андрій Родіонов, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

кандидат технічних наук, доцент,Фізико-технічний інститут

Посилання

References

Raff, E., et al. (2018), "Malware Detection by Eating a Whole EXE." Workshop on Binary Analysis Research (BAR).

Santos, I., et al. (2013), "Opcode Sequences as Representation of Executables for Data-Mining-Based Unknown Malware Detection." Information Sciences, vol. 231, pp. 64–82.

Tu, K., Li, J., Towsley, D. and Braines, D. (2019), "gl2vec: Learning feature representation using graphlets for directed networks", Proceedings of the 2019 Workshop on Binary Analysis Research. DOI: 10.1145/3341161.3342908

Aziz, F., Ullah, A. and Shah, F. (2020), "Feature selection and learning for graphlet kernel", Pattern Recognition Letters, 140, pp. 45–51. DOI: 10.1016/j.patrec.2020.05.019

Paakkola, S. (2020), "Assessing performance overhead of Virtual Machine Introspection and its suitability for malware analysis", University of Turku. Available at: https://core.ac.uk/download/pdf/347180664.pdf

Khater, I.M., Meng, F., Nabi, I.R. and Hamarneh, G. (2019), "Identification of caveolin-1 domain signatures via machine learning and graphlet analysis of single-molecule super-resolution data", Bioinformatics, 35(18), pp. 3468–3474. DOI: 10.1093/bioinformatics/btz951

Nafiiev Alan, Kholodulkin Hlib, Rodionov Andrii, (2021) "Comparative analysis of machine learning methods for detecting malicious files". Theoretical and Applied Cybersecurity, Vol. 3 No. 1, pp 46–51.

Alan Nafiiev, Hlib Kholodulkin, Andrii Rodionov, (2022), "Malware dynamic analysis system based on virtual machine introspection and machine learning methods", Information Technologies and Security. Proceedings of the XXII International Scientific and Practical Conference ITB-2022. Issue 22: pp 53–58.

Nafiiev Alan, Lande Dmytro, (2023), "Malware detection model based on machine learning". Bulletin of Cherkasy State Technological University, No. 3, pp. 40–50.

Nafiiev Alan, Rodionov Andrii, (2023), "Malware detection system based on static and dynamic analysis using machine learning", Theoretical and Applied Cybersecurity, Vol. 5 No. 2, pp. 97–104.

Rizvi, S.K.J., Aslam, W., Shahzad, M., Saleem, S. (2022), "PROUD-MAL: static analysis-based progressive framework for deep unsupervised malware classification of windows portable executable", Complex & Intelligent Systems, 8(1), pp. 1345–1361. DOI: 10.1007/s40747-021-00560-1

Faloutsos, M. (2019), "IDAPro for IoT Malware analysis?", Workshop on Binary Analysis Research (BAR), Available at: https://escholarship.org/content/qt4rp172kk/qt4rp172kk.pdf

Chen, Z., Brophy, E., Ward, T. (2021), "Malware classification using static disassembly and machine learning", arXiv preprint arXiv:2201.07649.

Talukder, S. (2020), "Tools and techniques for malware detection and analysis", arXiv preprint arXiv:2002.06819, Available at: https://www.researchgate.net/publication/339301928_Tools_and_Techniques_for_Malware_Detection_and_Analysis

Aziz, F., Ullah, A. and Shah, F. (2020), "Feature selection and learning for graphlet kernel", Pattern Recognition Letters, 140, pp. 45–51. DOI: 10.1016/j.patrec.2020.05.019

Singh, S. (2023), "DRAKVUF Malware Sandbox", World Forum on Engineering and Science, 5(1), pp. 23–30. DOI: 10.5281/zenodo.5544337

Dietz, C., Antzek, M., Dreo, G., Sperotto, A. (2022), "Dmef: Dynamic malware evaluation framework", International Journal of Information Security, 21(1), pp. 67–85. DOI: 10.1007/s10207-021-00554-1

Sidey-Gibbons, J.A.M. and Sidey-Gibbons, C.J. (2019), "Machine learning in medicine: a practical introduction", BMC Medical Research Methodology, 19(1). DOI: 10.1186/s12874-019-0681-4

Starink, J.A.L. (2021), "Analysis and automated detection of host-based code injection techniques in malware", Journal of Computer Virology and Hacking Techniques, 17(1), pp. 1–12. DOI: 10.1007/s11416-020-00356-0

Leszczyński, M. and Stopczański, K. (2020), "A new open-source hypervisor-level malware monitoring and extraction system-current state and further challenges", Virus Bulletin 2020, Available at: https://vblocalhost.com/uploads/VB2020-Leszczynski-Stopczanski.pdf (Accessed: 14 July 2024).

##submission.downloads##

Опубліковано

2024-09-30

Як цитувати

Нафієв, А., & Родіонов, А. (2024). Архітектура автоматизованого програмного комплексу на основі багатоядерного SVM-класифікатора для аналізу шкідливих виконуваних файлів. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (3 (29), 39–47. https://doi.org/10.30837/2522-9818.2024.29.039