Архітектура автоматизованого програмного комплексу на основі багатоядерного SVM-класифікатора для аналізу шкідливих виконуваних файлів
DOI:
https://doi.org/10.30837/2522-9818.2024.29.039Ключові слова:
кібербезпека; виявлення шкідливих програм; автоматизований програмний комплекс; статичний аналіз; динамічний аналіз; Drakvuf; IDA Pro; багатоядерне навчання.Анотація
Тематика дослідження. У статті запропоновано розроблення та архітектуру автоматизованого програмного комплексу, призначеного для ідентифікації та аналізу шкідливих виконуваних файлів за допомогою класифікатора на основі багатоядерного навчання машини опорних векторів (SVM). Мета – створення автоматизованої системи, що підвищує точність і ефективність виявлення шкідливого програмного забезпечення завдяки поєднанню статичного й динамічного аналізу в єдину структуру, здатну обробляти значні обсяги даних з оптимальними витратами часу. Завдання статті. Для досягнення окресленої мети розроблено програмний комплекс, що автоматизує збір статичних і динамічних відомостей із виконуваних файлів за допомогою таких інструментів, як IDA Pro, IDAPython і Drakvuf; застосовано інтеграцію багатоядерного класифікатора SVM для аналізу зібраних різнорідних даних; виконано валідацію ефективності системи на основі значного датасету, що містить 1 389 виконуваних зразків; продемонстровано масштабованість і практичну застосовність системи в реальних умовах. Методи передбачали гібридний підхід, що поєднує статичний аналіз – витяг байт-коду, дизасембльованих інструкцій та графів потоку керування за допомогою IDA Pro та IDAPython – з динамічним аналізом, який полягав у моніторингу поведінки в реальному часі за допомогою Drakvuf. Багатоядерний класифікатор SVM інтегрує різні подання даних, використовуючи різні ядра, що дає змогу брати до уваги як лінійні, так і нелінійні взаємозв’язки в процесі класифікації. Результати дослідження продемонстрували, що система досягає високого рівня точності та повноти, про що свідчать ключові метрики ефективності, зокрема F-міра 0,93 та значення ROC AUC і PR AUC. Автоматизований програмний комплекс зменшує час аналізу одного файлу з середніх 11 хв до приблизно 5 хв, що фактично подвоює пропускну здатність порівняно з попередніми методами. Це значне скорочення часу оброблення є критично важливим для впровадження в середовищах, де необхідне швидке й точне виявлення шкідливого програмного забезпечення. Крім того, масштабованість системи дає змогу ефективно обробляти значні обсяги даних, що робить її придатною для реального застосування. Висновки. Розроблений у межах цього дослідження автоматизований програмний комплекс демонструє значні поліпшення щодо точності та ефективності виявлення шкідливого програмного забезпечення. Інтегруючи багатоядерну класифікацію SVM зі статичним і динамічним аналізом, система виявляє потенціал для аналізу шкідливого ПЗ в реальних умовах. Її масштабованість та практична застосовність свідчать про те, що система може стати важливим інструментом у боротьбі із сучасними кіберзагрозами, надаючи організаціям ефективний засіб для підвищення їх кібербезпеки.
Посилання
References
Raff, E., et al. (2018), "Malware Detection by Eating a Whole EXE." Workshop on Binary Analysis Research (BAR).
Santos, I., et al. (2013), "Opcode Sequences as Representation of Executables for Data-Mining-Based Unknown Malware Detection." Information Sciences, vol. 231, pp. 64–82.
Tu, K., Li, J., Towsley, D. and Braines, D. (2019), "gl2vec: Learning feature representation using graphlets for directed networks", Proceedings of the 2019 Workshop on Binary Analysis Research. DOI: 10.1145/3341161.3342908
Aziz, F., Ullah, A. and Shah, F. (2020), "Feature selection and learning for graphlet kernel", Pattern Recognition Letters, 140, pp. 45–51. DOI: 10.1016/j.patrec.2020.05.019
Paakkola, S. (2020), "Assessing performance overhead of Virtual Machine Introspection and its suitability for malware analysis", University of Turku. Available at: https://core.ac.uk/download/pdf/347180664.pdf
Khater, I.M., Meng, F., Nabi, I.R. and Hamarneh, G. (2019), "Identification of caveolin-1 domain signatures via machine learning and graphlet analysis of single-molecule super-resolution data", Bioinformatics, 35(18), pp. 3468–3474. DOI: 10.1093/bioinformatics/btz951
Nafiiev Alan, Kholodulkin Hlib, Rodionov Andrii, (2021) "Comparative analysis of machine learning methods for detecting malicious files". Theoretical and Applied Cybersecurity, Vol. 3 No. 1, pp 46–51.
Alan Nafiiev, Hlib Kholodulkin, Andrii Rodionov, (2022), "Malware dynamic analysis system based on virtual machine introspection and machine learning methods", Information Technologies and Security. Proceedings of the XXII International Scientific and Practical Conference ITB-2022. Issue 22: pp 53–58.
Nafiiev Alan, Lande Dmytro, (2023), "Malware detection model based on machine learning". Bulletin of Cherkasy State Technological University, No. 3, pp. 40–50.
Nafiiev Alan, Rodionov Andrii, (2023), "Malware detection system based on static and dynamic analysis using machine learning", Theoretical and Applied Cybersecurity, Vol. 5 No. 2, pp. 97–104.
Rizvi, S.K.J., Aslam, W., Shahzad, M., Saleem, S. (2022), "PROUD-MAL: static analysis-based progressive framework for deep unsupervised malware classification of windows portable executable", Complex & Intelligent Systems, 8(1), pp. 1345–1361. DOI: 10.1007/s40747-021-00560-1
Faloutsos, M. (2019), "IDAPro for IoT Malware analysis?", Workshop on Binary Analysis Research (BAR), Available at: https://escholarship.org/content/qt4rp172kk/qt4rp172kk.pdf
Chen, Z., Brophy, E., Ward, T. (2021), "Malware classification using static disassembly and machine learning", arXiv preprint arXiv:2201.07649.
Talukder, S. (2020), "Tools and techniques for malware detection and analysis", arXiv preprint arXiv:2002.06819, Available at: https://www.researchgate.net/publication/339301928_Tools_and_Techniques_for_Malware_Detection_and_Analysis
Aziz, F., Ullah, A. and Shah, F. (2020), "Feature selection and learning for graphlet kernel", Pattern Recognition Letters, 140, pp. 45–51. DOI: 10.1016/j.patrec.2020.05.019
Singh, S. (2023), "DRAKVUF Malware Sandbox", World Forum on Engineering and Science, 5(1), pp. 23–30. DOI: 10.5281/zenodo.5544337
Dietz, C., Antzek, M., Dreo, G., Sperotto, A. (2022), "Dmef: Dynamic malware evaluation framework", International Journal of Information Security, 21(1), pp. 67–85. DOI: 10.1007/s10207-021-00554-1
Sidey-Gibbons, J.A.M. and Sidey-Gibbons, C.J. (2019), "Machine learning in medicine: a practical introduction", BMC Medical Research Methodology, 19(1). DOI: 10.1186/s12874-019-0681-4
Starink, J.A.L. (2021), "Analysis and automated detection of host-based code injection techniques in malware", Journal of Computer Virology and Hacking Techniques, 17(1), pp. 1–12. DOI: 10.1007/s11416-020-00356-0
Leszczyński, M. and Stopczański, K. (2020), "A new open-source hypervisor-level malware monitoring and extraction system-current state and further challenges", Virus Bulletin 2020, Available at: https://vblocalhost.com/uploads/VB2020-Leszczynski-Stopczanski.pdf (Accessed: 14 July 2024).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.