Метод кластеризації повідомлень за допомогою архівуючого перетворення

Олексій Олександрович Сірий

doi:10.15587/2313-8416.2015.44364

Метод кластеризації повідомлень за допомогою архівуючого перетворення

Автор(и)

Олексій Олександрович Сірий Київський національний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056, Україна

DOI:

https://doi.org/10.15587/2313-8416.2015.44364

Ключові слова:

архівація, ентропія, розпізнавання тексту, спам, фішинг, LZ77, алгоритм Хаффмана

Анотація

В даній статті представлено метод визначення характеристик текстів та їх класифікації за допомогою архівування. Використовуючи прямий зв’язок архівування за допомогою алгоритмів LZ77 і Хаффмана з ентропією, виділяються ознаки тексту, що дозволяють визначати мову його написання, стиль, авторство, кластеризувати масиви даних за їх належністю до певної тематики

Біографія автора

Олексій Олександрович Сірий, Київський національний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056

Кафедра захисту інформації

Фізико-технічний інститут

Посилання

Thiago, S. G., Walmir, M. C. (2009). A review of machine learning approaches to Spam filtering. Expert Systems with Applications, 36 (7), 10206–10222. doi: 10.1016/j.eswa.2009.02.037

Schwarts, A. (2004). SpamAssasin. O’Reilly Media, 224.

Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. (1998). A Bayesian approach to filtering junk email. AAAI Technical Report, WS-98-05.

Vatolin, D., Ratushnyak, A., Smirnov, M., Yoockin, V. (2002). Data compression methods. Structure of archivers, image and video compression. Moscow, Russia: Dialog-MIFI, 384.

Ziv, J., Lempel, A. (1977). A Universal Algorithm for Sequential Data Compression. IEEE Transactions on Information Theory, IT-23 (3), 337–343.

Benedetto, D., Caglioti, E., Loreto, V. (2002). Language Trees and Zipping. Physical review letter, 88 (4), 1–4. doi: 10.1103/physrevlett.88.048702

Algorithms, methods, source codes. Available at: http://algolist.manual.ru/compress/standard/huffman.php

##submission.downloads##

Опубліковано

2015-06-21

Номер

Том 6 № 2(11) (2015)

Розділ

Технічні науки

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Наше видання використовує положення про авторські права Creative Commons CC BY для журналів відкритого доступу.

Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:

1. Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.

2. Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.