Метод кластеризації повідомлень за допомогою архівуючого перетворення

Autor

  • Олексій Олександрович Сірий Київський національний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056, Ukraine

DOI:

https://doi.org/10.15587/2313-8416.2015.44364

Słowa kluczowe:

архівація, ентропія, розпізнавання тексту, спам, фішинг, LZ77, алгоритм Хаффмана

Abstrakt

В даній статті представлено метод визначення характеристик текстів та їх класифікації за допомогою архівування. Використовуючи прямий зв’язок архівування за допомогою алгоритмів LZ77 і Хаффмана з ентропією, виділяються ознаки тексту, що дозволяють визначати мову його написання, стиль, авторство, кластеризувати масиви даних за їх належністю до певної тематики

Biogram autora

Олексій Олександрович Сірий, Київський національний університет України «Київський політехнічний інститут» пр. Перемоги, 37, м. Київ, Україна, 03056

Кафедра захисту інформації

Фізико-технічний інститут

Bibliografia

Thiago, S. G., Walmir, M. C. (2009). A review of machine learning approaches to Spam filtering. Expert Systems with Applications, 36 (7), 10206–10222. doi: 10.1016/j.eswa.2009.02.037

Schwarts, A. (2004). SpamAssasin. O’Reilly Media, 224.

Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. (1998). A Bayesian approach to filtering junk email. AAAI Technical Report, WS-98-05.

Vatolin, D., Ratushnyak, A., Smirnov, M., Yoockin, V. (2002). Data compression methods. Structure of archivers, image and video compression. Moscow, Russia: Dialog-MIFI, 384.

Ziv, J., Lempel, A. (1977). A Universal Algorithm for Sequential Data Compression. IEEE Transactions on Information Theory, IT-23 (3), 337–343.

Benedetto, D., Caglioti, E., Loreto, V. (2002). Language Trees and Zipping. Physical review letter, 88 (4), 1–4. doi: 10.1103/physrevlett.88.048702

Algorithms, methods, source codes. Available at: http://algolist.manual.ru/compress/standard/huffman.php

##submission.downloads##

Opublikowane

2015-06-21

Numer

Dział

Technical Sciences