Удосконалення алгоритму стеммер Портера

Автор(и)

DOI:

https://doi.org/10.15587/1729-4061.2021.225362

Ключові слова:

алгоритм стеммінга, обробка природної мови, пошук інформації, ВАСП, алгоритм Портера

Анотація

Алгоритм стеммер Портера є широко використовуваним і важливим інструментом для обробки природної мови в області доступу до інформації. Стеммінг використовується для видалення слів, які додають морфологічні та діакритичні закінчення слів в англійській мові до їх кореневої форми для вилучення кореня слова, так званого стема, на етапі первинної обробки тексту. Іншими словами, це лінгвістичний процес, який просто витягує основну частину, яка може бути близькою до відносного та спорідненого кореня. Класифікація текстів є одним з основних завдань при добуванні відповідної інформації з великого обсягу даних. У даній роботі ми пропонуємо способи поліпшення версії алгоритму Портера з метою обробки і подолання його обмежень, а також економії часу і пам'яті за рахунок зменшення розміру слів. Система використовує вдосконалену техніку виведення Портера для скорочення слів в той час як виконує когнітивні обчислення для виявлення морфологічно пов'язаних слів з корпусу без будь-якого втручання людини або спеціальних мовних знань. Вдосконалений алгоритм Портера порівнюється з вихідним стеммером. Вдосконалений алгоритм Портера має більш високу продуктивність і забезпечує більш точний пошук інформації (ПІ).

Біографії авторів

Manhal Elias Polus, Al-Mustansiriyah University

Postgraduate Student

Department of Computer Science

College of Science

Thekra Abbas, Al-Mustansiriyah University

PhD, Assistant Professor, Head of Department

Department of Computer Science

College of Science

Посилання

  1. Seddiqui, H., Maruf, A. A. M., Chy, A. N. (2016). Recursive Suffix Stripping to Augment Bangla Stemmer. ICAICT-2016-Paper. Available at: http://www.ciu.edu.bd/icaict2016/publications/ICAICT-2016-Paper%20(50).pdf
  2. Shah, F. P., Patel, V. (2016). A review on feature selection and feature extraction for text classification. 2016 International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET). doi: https://doi.org/10.1109/wispnet.2016.7566545
  3. Saeed, A. M., Rashid, T. A., Mustafa, A. M., Agha, R. A. A.-R., Shamsaldin, A. S., Al-Salihi, N. K. (2018). An evaluation of Reber stemmer with longest match stemmer technique in Kurdish Sorani text classification. Iran Journal of Computer Science, 1 (2), 99–107. doi: https://doi.org/10.1007/s42044-018-0007-4
  4. Agbele, K., Adesina, A., Azeez, N., Abidoye, A. (2012). Context-Aware Stemming algorithm for semantically related root words. African Journal of Computing & ICT, 5 (4), 33–42.
  5. Akkus, B. K., Cakici, R. (2013). Categorization of Turkish News Documents with Morphological Analysis. 51st Annual Meeting of the Association for Computational Linguistics Proceedings of the Student Research Workshop. Sofia, 1–8. Available at: https://www.aclweb.org/anthology/P13-3001.pdf
  6. Kumar, R., Mansotra, V. (2016). Applications of stemming algorithms in information retrieval-a review. International Journal of Advanced Research in Computer Science and Software Engineering, 6 (2), 418–423.
  7. Biba, M., Gjati, E. (2014). Boosting Text Classification through Stemming of Composite Words. Recent Advances in Intelligent Informatics, 185–194. doi: https://doi.org/10.1007/978-3-319-01778-5_19
  8. Farrar, D., Huffman Hayes, J. (2019). A Comparison of Stemming Techniques in Tracing. 2019 IEEE/ACM 10th International Symposium on Software and Systems Traceability (SST). doi: https://doi.org/10.1109/sst.2019.00017
  9. Al-Sharhan, S., Al-Hunaiyyan, A., Alhajri, R., Al-Huwail, N. (2019). Utilization of Learning Management System (LMS) Among Instructors and Students. Advances in Electronics Engineering, 15–23. doi: https://doi.org/10.1007/978-981-15-1289-6_2
  10. Joshi, A., Thomas, N., Dabhade, M. (2016). Modified Porter Stemming Algorithm. International Journal of Computer Science and Information Technologies, 7 (1), 266–269.

##submission.downloads##

Опубліковано

2021-02-26

Як цитувати

Elias Polus, M., & Abbas, T. (2021). Удосконалення алгоритму стеммер Портера. Eastern-European Journal of Enterprise Technologies, 1(2 (109), 6–13. https://doi.org/10.15587/1729-4061.2021.225362

Номер

Розділ

Інформаційні технології. Системи управління в промисловості