Метод кластеризації повідомлень за допомогою архівуючого перетворення

Автор(и)

  • Олексій Олександрович Сірий Київський національний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056, Україна

DOI:

https://doi.org/10.15587/2313-8416.2015.44364

Ключові слова:

архівація, ентропія, розпізнавання тексту, спам, фішинг, LZ77, алгоритм Хаффмана

Анотація

В даній статті представлено метод визначення характеристик текстів та їх класифікації за допомогою архівування. Використовуючи прямий зв’язок архівування за допомогою алгоритмів LZ77 і Хаффмана з ентропією, виділяються ознаки тексту, що дозволяють визначати мову його написання, стиль, авторство, кластеризувати масиви даних за їх належністю до певної тематики

Біографія автора

Олексій Олександрович Сірий, Київський національний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056

Кафедра захисту інформації

Фізико-технічний інститут

Посилання

Thiago, S. G., Walmir, M. C. (2009). A review of machine learning approaches to Spam filtering. Expert Systems with Applications, 36 (7), 10206–10222. doi: 10.1016/j.eswa.2009.02.037

Schwarts, A. (2004). SpamAssasin. O’Reilly Media, 224.

Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. (1998). A Bayesian approach to filtering junk email. AAAI Technical Report, WS-98-05.

Vatolin, D., Ratushnyak, A., Smirnov, M., Yoockin, V. (2002). Data compression methods. Structure of archivers, image and video compression. Moscow, Russia: Dialog-MIFI, 384.

Ziv, J., Lempel, A. (1977). A Universal Algorithm for Sequential Data Compression. IEEE Transactions on Information Theory, IT-23 (3), 337–343.

Benedetto, D., Caglioti, E., Loreto, V. (2002). Language Trees and Zipping. Physical review letter, 88 (4), 1–4. doi: 10.1103/physrevlett.88.048702

Algorithms, methods, source codes. Available at: http://algolist.manual.ru/compress/standard/huffman.php

##submission.downloads##

Опубліковано

2015-06-21

Номер

Розділ

Технічні науки