Використання моделі Isolation Forest для виявлення аномалій у даних вимірювань
DOI:
https://doi.org/10.30837/ITSSI.2024.27.236Ключові слова:
невизначеність; виявлення аномалій; вимірювання; метрологія; оброблення даних; алгоритми машинного навчання; статистичні методи.Анотація
Предметом дослідження є модель ізольованого лісу, яка є потужним та ефективним інструментом для виявлення аномалій у вимірюваних показниках та викидів, що може застосовуватися в різних сферах, де важливо забезпечити високу точність і надійність вимірювань. Мета роботи – застосування моделі ізольованого лісу для виявлення незвичайних або аномальних зразків, що відрізняються від типових патернів у вихідних показниках. Це досягається з допомогою ізоляції аномальних зразків від нормальних з допомогою побудови багатьох різних дерев рішень. Завданням статті є виявлення викидів у результатах, які були отримані в процесі дослідження з підготовки до міжнародних порівнянь на державному первинному еталоні масової та об’ємної витрати рідини, маси та об’єму рідини, що протікає по трубопроводу, з допомогою вимірювання коріолісового витратоміра. Показники, зібрані під час метрологічних досліджень, обробляються моделлю для виявлення аномалій. Ця модель аналізує результати та визначає аномальні або викидні значення, що можуть свідчити про систематичні або випадкові помилки вимірювань. Вона дає змогу швидко та ефективно виявити навіть найменші відхилення в показниках, що допомагає підтримувати високу точність і достовірність результатів вимірювань. Основними методами вияву викидів у статистичному аналізі, які не залежать від розподілу показників, є критерій Граббса, міжквартильний розподіл, середньоквадратичне відхилення. Вони чутливі до розміру вибірки, але є простими та зрозумілими інструментами. Проте модель ізольованого лісу також має обмеження, зокрема вона може бути вимогливою до обчислювальних ресурсів за умови великих обсягів інформації. Крім того, необхідно брати до уваги, що використання моделі вимагає належного налаштування параметрів для досягнення оптимальних результатів. Результатом дослідження є оцінка ефективності моделі ізольованого лісу способом порівняння її з традиційними методами виявлення викидів. Порівняльний аналіз результатів різних підходів до одного завдання є ефективним методом оцінювання ефективності роботи моделі. Висновки. Наприкінці статті сформульовано перспективу подальшого дослідження з окресленого напряму. Робота буде спрямована на впровадження методів виявлення аномалій у вимірюваних показниках і покращення точності та достовірності результатів вимірювань у різних галузях, що може широко застосовуватися в науці та промисловості.
Посилання
Список літератури
Chun S., Furuichi N. Final report of the APMP water flow supplementary comparison (APMP.M.FF-S1), Metrologia, Vol. 59, 2022. DOI: 10.1088/0026-1394/59/1A/07004
Frahm E., Arias R., Maldonado M., Vargas J., Mendoza J., Arredondo A., Silvosa M. Supplementary comparison SIM.M.FF-S9.2016 for water flow measurement, Metrologia, Vol. 61, 2024. DOI: 10.1088/0026-1394/61/1A/07001
Huovinen M., Frahm E. EURAMET.M.FF-S13 final report, Metrologia, Vol. 59, 2022. DOI: 10.1088/0026-1394/59/1A/07010.
ДСТУ-Н РМГ 43:2006 Метрологія. Застосування. Посібники з вираження невизначеності вимірювань, 2006.
Zakharov I., Serhiienko M., Chunikhina T. Measurement uncertainty evaluation by kurtosis method at calibration of a household water meter, Metrology and Metrology Assurance (MMA). P. 83–86. 2020. DOI: 10.1109/MMA49863.2020.9254260
Vallejo M., Espriella C., Gómez-Santamaría J., Ramírez-Barrera A., Delgado-Trejos E. Soft metrology based on machine learning: a review, Measurement Science and Technology, Vol. 31, No. 3. Р. 1–16. 2019. DOI:10.1088/1361-6501/ab4b39
Kebir S., Tabia K. Anomaly Detection in Real Scarce Data: A Case Study on Monitoring Elderly's Physical Activity and Sleep, IEEE 23rd International Conference on Bioinformatics and Bioengineering (BIBE), 2023, P. 385–392, DOI: 10.1109/BIBE60311.2023.00069
Yu B., Yu Y., Xu J., Xiang G., Yang Z. MAG: A Novel Approach for Effective Anomaly Detection in Spacecraft Telemetry Data, IEEE Transactions on Industrial Informatics, Vol. 20, No. 3, Р. 3891–3899. 2014. DOI: 10.1109/TII.2023.3314852
Li Z., Wang P., Wang Z., Zhan D. FlowGANAnomaly: Flow-Based Anomaly Network Intrusion Detection with Adversarial Learning, Chinese Journal of Electronics, Vol. 33, No. 1, 2022. Р. 58–71. DOI: 10.23919/cje.2022.00.173
Barbieri L., Brambilla M., Stefanutti M., Romano C., Carlo N., Roveri M. A Tiny Transformer-Based Anomaly Detection Framework for IoT Solutions, IEEE Open Journal of Signal Processing, Vol. 4, 2023. Р. 462–478. DOI: 10.1109/OJSP.2023.3333756.
Guo N., Lin C., Yan H., Zang J., Xiong M. Real-Time Pantograph Anomaly Detection Using Unsupervised Deep Learning and K-Nearest Neighbor Classification, IEEE Transactions on Instrumentation and Measurement, Vol. 73, 2024. Р. 1–13. DOI: 10.1109/TIM.2024.3370747
Occorso M., An M., Olsen R., Perry V.Anomaly Detection as a Data Reduction Approach for Test Event Analysis at the Edge, IEEE International Conference on Big Data (BigData), 2023. Р. 3863–3867, DOI: 10.1109/BigData59044.2023.10386215
Xiang H., Zhang X., Dras M., Beheshti A., Dou W., Xu X. Deep Optimal Isolation Forest with Genetic Algorithm for Anomaly Detection, IEEE International Conference on Data Mining (ICDM), 2023 P. 678–687, DOI: 10.1109/ICDM58522.2023.00077
Liu F., Ting K., Zhou Z. Isolation Forest, IEEE International Conference on Data Mining, 2008. Р. 413–422, DOI: 10.1109/ICDM.2008.17
Jurado K., Ludvigson S., Ng S. Measuring Uncertainty, American Economic Review, Vol. 105 (3). 2015. Р. 1177–1216. DOI: 10.1257/aer.20131193
References
Chun, S., Furuichi, N. (2022), "Final report of the APMP water flow supplementary comparison (APMP.M.FF-S1)" Metrologia, Vol. 59. DOI: 10.1088/0026-1394/59/1A/07004
Frahm, E., Arias, R., Maldonado, M., Vargas, J., Mendoza, J., Arredondo, A., Silvosa, M. (2024), "Supplementary comparison SIM.M.FF-S9.2016 for water flow measurement" Metrologia, Vol. 61, DOI: 10.1088/0026-1394/61/1A/07001
Huovinen, M., Frahm, E. (2022), "EURAMET.M.FF-S13 final report", Metrologia, Vol. 59, DOI: 10.1088/0026-1394/59/1A/07010.
DSTU-N RMG 43:2006 Metrology. Guidance on expressing measurement uncertainty [Metrolohiia. Kerivni vkazivky z vyrazhennia nevyznachennosti vymiriuvannia], 2006.
Zakharov, I., Serhiienko, M., Chunikhina, T. (2020), "Measurement uncertainty evaluation by kurtosis method at calibration of a household water meter", Metrology and Metrology Assurance (MMA) Р. 83–86. DOI: 10.1109/MMA49863.2020.9254260
Vallejo, M., Espriella, C., Gómez-Santamaría, J., Ramírez-Barrera, A., Delgado-Trejos, E. (2019), "Soft metrology based on machine learning: a review", Measurement Science and Technology, Vol. 31, No. 3. Р. 1–16. DOI: 10.1088/1361-6501/ab4b39
Kebir, S., Tabia, K. (2023), "Anomaly Detection in Real Scarce Data: A Case Study on Monitoring Elderly's Physical Activity and Sleep", IEEE 23rd International Conference on Bioinformatics and Bioengineering (BIBE), P. 385–392, DOI: 10.1109/BIBE60311.2023.00069
Yu, B., Yu, Y., Xu, J., Xiang, G., Yang, Z. (2014), "MAG: A Novel Approach for Effective Anomaly Detection in Spacecraft Telemetry Data", IEEE Transactions on Industrial Informatics, Vol. 20, No. 3, Р. 3891–3899, DOI: 10.1109/TII.2023.3314852
Li, Z., Wang, P., Wang, Z., Zhan, D., (2022), "FlowGANAnomaly: Flow-Based Anomaly Network Intrusion Detection with Adversarial Learning", Chinese Journal of Electronics, Vol. 33, No. 1, Р. 58–71, DOI: 10.23919/cje.2022.00.173
Barbieri, L., Brambilla, M., Stefanutti, M., Romano, C., Carlo, N., Roveri, M. (2023), "A Tiny Transformer-Based Anomaly Detection Framework for IoT Solutions", IEEE Open Journal of Signal Processing, Vol. 4, Р. 462–478, DOI: 10.1109/OJSP.2023.3333756
Guo, N., Lin, C., Yan, H., Zang, J., Xiong, M. (2024), "Real-Time Pantograph Anomaly Detection Using Unsupervised Deep Learning and K-Nearest Neighbor Classification", IEEE Transactions on Instrumentation and Measurement, Vol. 73, Р. 1–13, DOI: 10.1109/TIM.2024.3370747
Occorso, M., An, M., Olsen, R., Perry, V. (2023), "Anomaly Detection as a Data Reduction Approach for Test Event Analysis at the Edge", IEEE International Conference on Big Data (BigData), Р. 3863–3867, DOI: 10.1109/BigData59044.2023.10386215
Xiang, H., Zhang, X., Dras, M., Beheshti, A., Dou, W., Xu, X. (2023), "Deep Optimal Isolation Forest with Genetic Algorithm for Anomaly Detection", IEEE International Conference on Data Mining (ICDM), P. 678–687, DOI: 10.1109/ICDM58522.2023.00077
Liu, F., Ting, K., Zhou, Z. (2008), "Isolation Forest", IEEE International Conference on Data Mining, Р. 413–422, DOI: 10.1109/ICDM.2008.17
Jurado, K., Ludvigson, S., Ng, S. (2015), "Measuring Uncertainty", American Economic Review, Vol. 105 (3). Р. 1177–1216. DOI: 10.1257/aer.20131193
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.