Метод кластеризації повідомлень за допомогою архівуючого перетворення

Авторы

  • Олексій Олександрович Сірий Киевский национальный университет Украины «Киевский политехнический институт» пр. Победы, 37, г. Киев, Украина, 03056, Ukraine

DOI:

https://doi.org/10.15587/2313-8416.2015.44364

Ключевые слова:

архівація, ентропія, розпізнавання тексту, спам, фішинг, LZ77, алгоритм Хаффмана

Аннотация

В даній статті представлено метод визначення характеристик текстів та їх класифікації за допомогою архівування. Використовуючи прямий зв’язок архівування за допомогою алгоритмів LZ77 і Хаффмана з ентропією, виділяються ознаки тексту, що дозволяють визначати мову його написання, стиль, авторство, кластеризувати масиви даних за їх належністю до певної тематики

Биография автора

Олексій Олександрович Сірий, Киевский национальный университет Украины «Киевский политехнический институт» пр. Победы, 37, г. Киев, Украина, 03056

Кафедра защиты информации

Физико-технический институт

Библиографические ссылки

Thiago, S. G., Walmir, M. C. (2009). A review of machine learning approaches to Spam filtering. Expert Systems with Applications, 36 (7), 10206–10222. doi: 10.1016/j.eswa.2009.02.037

Schwarts, A. (2004). SpamAssasin. O’Reilly Media, 224.

Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. (1998). A Bayesian approach to filtering junk email. AAAI Technical Report, WS-98-05.

Vatolin, D., Ratushnyak, A., Smirnov, M., Yoockin, V. (2002). Data compression methods. Structure of archivers, image and video compression. Moscow, Russia: Dialog-MIFI, 384.

Ziv, J., Lempel, A. (1977). A Universal Algorithm for Sequential Data Compression. IEEE Transactions on Information Theory, IT-23 (3), 337–343.

Benedetto, D., Caglioti, E., Loreto, V. (2002). Language Trees and Zipping. Physical review letter, 88 (4), 1–4. doi: 10.1103/physrevlett.88.048702

Algorithms, methods, source codes. Available at: http://algolist.manual.ru/compress/standard/huffman.php

Опубликован

2015-06-21

Выпуск

Раздел

Технические науки