Метод кластеризації повідомлень за допомогою архівуючого перетворення
DOI:
https://doi.org/10.15587/2313-8416.2015.44364Ключевые слова:
архівація, ентропія, розпізнавання тексту, спам, фішинг, LZ77, алгоритм ХаффманаАннотация
В даній статті представлено метод визначення характеристик текстів та їх класифікації за допомогою архівування. Використовуючи прямий зв’язок архівування за допомогою алгоритмів LZ77 і Хаффмана з ентропією, виділяються ознаки тексту, що дозволяють визначати мову його написання, стиль, авторство, кластеризувати масиви даних за їх належністю до певної тематики
Библиографические ссылки
Thiago, S. G., Walmir, M. C. (2009). A review of machine learning approaches to Spam filtering. Expert Systems with Applications, 36 (7), 10206–10222. doi: 10.1016/j.eswa.2009.02.037
Schwarts, A. (2004). SpamAssasin. O’Reilly Media, 224.
Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. (1998). A Bayesian approach to filtering junk email. AAAI Technical Report, WS-98-05.
Vatolin, D., Ratushnyak, A., Smirnov, M., Yoockin, V. (2002). Data compression methods. Structure of archivers, image and video compression. Moscow, Russia: Dialog-MIFI, 384.
Ziv, J., Lempel, A. (1977). A Universal Algorithm for Sequential Data Compression. IEEE Transactions on Information Theory, IT-23 (3), 337–343.
Benedetto, D., Caglioti, E., Loreto, V. (2002). Language Trees and Zipping. Physical review letter, 88 (4), 1–4. doi: 10.1103/physrevlett.88.048702
Algorithms, methods, source codes. Available at: http://algolist.manual.ru/compress/standard/huffman.php
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
Copyright (c) 2015 Олексій Олександрович Сірий
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Наше издание использует положения об авторских правах Creative Commons CC BY для журналов открытого доступа.
Авторы, которые публикуются в этом журнале, соглашаются со следующими условиями:
1. Авторы оставляют за собой право на авторство своей работы и передают журналу право первой публикации этой работы на условиях лицензии Creative Commons CC BY, которая позволяет другим лицам свободно распространять опубликованную работу с обязательной ссылкой на авторов оригинальной работы и первую публикацию работы в этом журнале.
2. Авторы имеют право заключать самостоятельные дополнительные соглашения, которые касаются неэксклюзивного распространения работы в том виде, в котором она была опубликована этим журналом (например, размещать работу в электронном хранилище учреждения или публиковать в составе монографии), при условии сохранения ссылки на первую публикацию работы в этом журнале .