Development for performance of Porter stemmer algorithm

Manhal Elias Polus; Thekra Abbas

doi:10.15587/1729-4061.2021.225362

Удосконалення алгоритму стеммер Портера

Автор(и)

Manhal Elias Polus Al-Mustansiriyah University, Ірак https://orcid.org/0000-0001-9168-6447
Thekra Abbas Al-Mustansiriyah University, Ірак https://orcid.org/0000-0002-4435-3188

DOI:

https://doi.org/10.15587/1729-4061.2021.225362

Ключові слова:

алгоритм стеммінга, обробка природної мови, пошук інформації, ВАСП, алгоритм Портера

Анотація

Алгоритм стеммер Портера є широко використовуваним і важливим інструментом для обробки природної мови в області доступу до інформації. Стеммінг використовується для видалення слів, які додають морфологічні та діакритичні закінчення слів в англійській мові до їх кореневої форми для вилучення кореня слова, так званого стема, на етапі первинної обробки тексту. Іншими словами, це лінгвістичний процес, який просто витягує основну частину, яка може бути близькою до відносного та спорідненого кореня. Класифікація текстів є одним з основних завдань при добуванні відповідної інформації з великого обсягу даних. У даній роботі ми пропонуємо способи поліпшення версії алгоритму Портера з метою обробки і подолання його обмежень, а також економії часу і пам'яті за рахунок зменшення розміру слів. Система використовує вдосконалену техніку виведення Портера для скорочення слів в той час як виконує когнітивні обчислення для виявлення морфологічно пов'язаних слів з корпусу без будь-якого втручання людини або спеціальних мовних знань. Вдосконалений алгоритм Портера порівнюється з вихідним стеммером. Вдосконалений алгоритм Портера має більш високу продуктивність і забезпечує більш точний пошук інформації (ПІ).

Біографії авторів

Manhal Elias Polus, Al-Mustansiriyah University

Postgraduate Student

Department of Computer Science

College of Science

Thekra Abbas, Al-Mustansiriyah University

PhD, Assistant Professor, Head of Department

Department of Computer Science

College of Science

Посилання

Seddiqui, H., Maruf, A. A. M., Chy, A. N. (2016). Recursive Suffix Stripping to Augment Bangla Stemmer. ICAICT-2016-Paper. Available at: http://www.ciu.edu.bd/icaict2016/publications/ICAICT-2016-Paper%20(50).pdf
Shah, F. P., Patel, V. (2016). A review on feature selection and feature extraction for text classification. 2016 International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET). doi: https://doi.org/10.1109/wispnet.2016.7566545
Saeed, A. M., Rashid, T. A., Mustafa, A. M., Agha, R. A. A.-R., Shamsaldin, A. S., Al-Salihi, N. K. (2018). An evaluation of Reber stemmer with longest match stemmer technique in Kurdish Sorani text classification. Iran Journal of Computer Science, 1 (2), 99–107. doi: https://doi.org/10.1007/s42044-018-0007-4
Agbele, K., Adesina, A., Azeez, N., Abidoye, A. (2012). Context-Aware Stemming algorithm for semantically related root words. African Journal of Computing & ICT, 5 (4), 33–42.
Akkus, B. K., Cakici, R. (2013). Categorization of Turkish News Documents with Morphological Analysis. 51st Annual Meeting of the Association for Computational Linguistics Proceedings of the Student Research Workshop. Sofia, 1–8. Available at: https://www.aclweb.org/anthology/P13-3001.pdf
Kumar, R., Mansotra, V. (2016). Applications of stemming algorithms in information retrieval-a review. International Journal of Advanced Research in Computer Science and Software Engineering, 6 (2), 418–423.
Biba, M., Gjati, E. (2014). Boosting Text Classification through Stemming of Composite Words. Recent Advances in Intelligent Informatics, 185–194. doi: https://doi.org/10.1007/978-3-319-01778-5_19
Farrar, D., Huffman Hayes, J. (2019). A Comparison of Stemming Techniques in Tracing. 2019 IEEE/ACM 10th International Symposium on Software and Systems Traceability (SST). doi: https://doi.org/10.1109/sst.2019.00017
Al-Sharhan, S., Al-Hunaiyyan, A., Alhajri, R., Al-Huwail, N. (2019). Utilization of Learning Management System (LMS) Among Instructors and Students. Advances in Electronics Engineering, 15–23. doi: https://doi.org/10.1007/978-981-15-1289-6_2
Joshi, A., Thomas, N., Dabhade, M. (2016). Modified Porter Stemming Algorithm. International Journal of Computer Science and Information Technologies, 7 (1), 266–269.

##submission.downloads##

PDF (English)

Опубліковано

2021-02-26

Як цитувати

Elias Polus, M., & Abbas, T. (2021). Удосконалення алгоритму стеммер Портера. Eastern-European Journal of Enterprise Technologies, 1(2 (109), 6–13. https://doi.org/10.15587/1729-4061.2021.225362

Завантажити посилання

Номер

Том 1 № 2 (109) (2021): Інформаційні технології. Системи управління в промисловості

Розділ

Інформаційні технології. Системи управління в промисловості

Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.

Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.