Розробка мультиагентної системи для вирішення задачі побудови словника предметної області

Автор(и)

  • Vadym Yaremenko Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056, Україна https://orcid.org/0000-0001-8557-6938
  • Oleksandr Syrotiuk Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056, Україна https://orcid.org/0000-0002-4531-6290

DOI:

https://doi.org/10.15587/2706-5448.2020.208400

Ключові слова:

TF-IDF, RAKE, TextRank, Word2Vec, метод Шульце, текстові дані, частотний аналіз, паралельні обчислення, мультиагентна система.

Анотація

Об’єктом дослідження є використання мультиагентних систем для аналізу текстових даних. Необхідність даного дослідження виникла з тенденцією до збільшення кількості текстової інформації, що генерується у світі. Відповідно, потрібно розробляти та досліджувати методи її обробки, а також – способи використання результатів даної обробки, адже методи не можуть існувати у відриві від практики. Одночасно з цим відбувається розвиток мультиагентних систем (МАС), в яких агенти наділені деякого роду інтелектом, дані системи можуть легко масштабуватися. Використання МАС для аналізу текстів є перспективним напрямком.

В даному дослідженні було використані наступні методи аналізу текстових даних: методи TF-IDF та RAKE, моделі нейронних мереж Word2Vec, а також TextRank. Проводилося порівняння алгоритмів на предмет їх роботи та порівняння результатів. У ролі тестового набору було використано корпуси документів (10–12 текстів, 5732–12331 слів) з предметних областей фізика та біологія. За результатами дослідження було обрано один метод, на основі якого було побудовано МАС для вирішення поставленої задачі. Додатково використано методи Шульце (з одним та декількома переможцями) для голосування. З отриманою системою проведені додаткові дослідження щодо точності та швидкості роботи, а також – впливу параметрів системи на її роботу.

Виявлено, що для пошуку термінів в документах зі слабким контекстом доцільним є аналіз на основі TF-IDF. Отримана система показує точність в межах 75 % (3 з 4 запропонованих системою слів є термінами). Максимальний час роботи на тестових корпусах 23 секунди, що досягається за допомогою використання паралельних обчислень та модифікації методу Шульце. Отримані в даній роботі результати є евристичними (онтологія є досить нечітким поняттям) та потребують додаткового опрацювання експертами з відповідних напрямів. Проте результати є позитивними в межах даного експерименту.

Біографії авторів

Vadym Yaremenko, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056

Аспірант, асистент

Кафедра системного проектування

Oleksandr Syrotiuk, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», пр. Перемоги, 37, Київ, Україна, 03056

Кафедра системного проектування

Посилання

  1. Mikolov, T., Le, Q. V., Sutskever, I. (2013). Exploiting Similarities among Languages for Machine Translation. ArXiv. Available at: https://arxiv.org/abs/1309.4168
  2. Wu, H. C., Luk, R. W. P., Wong, K. F., Kwok, K. L. (2008). Interpreting TF-IDF term weights as making relevance decisions. ACM Transactions on Information Systems, 26 (3), 1–37. doi: http://doi.org/10.1145/1361684.1361686
  3. Aref, M.M. (2003). A multi-agent system for natural language understanding. IEMC '03 Proceedings. Managing Technologically Driven Organizations: The Human Side of Innovation and Change (IEEE Cat. No.03CH37502), 36–40. doi: http://doi.org/10.1109/kimas.2003.1245018
  4. Fum, D., Guida, G., Tasso, C. (1988). A distributed multi-agent architecture for natural language processing. Proceedings of the 12th conference on Computational linguistics, 812–814. doi: http://doi.org/10.3115/991719.991801
  5. Mihalcea, R., Tarau, P. (2004). TextRank: Bringing Order into Text. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 404–411.
  6. Rose, S. R., Engel, D., Cramer, N., Cowley, W. (2010). Automatic keyword extraction from individual documents. Text Mining. doi: http://doi.org/10.1002/9780470689646.ch1
  7. Twardowski, B., Ryzko, D. (2014). Multi-agent Architecture for Real-Time Big Data Processing. 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), 3, 333–337. doi: http://doi.org/10.1109/wi-iat.2014.185
  8. Kiran, M., Murphy, P., Monga, I., Dugan, J., Baveja, S. S. (2015). Lambda architecture for cost-effective batch and speed big data processing. 2015 IEEE International Conference on Big Data (Big Data), 2785–2792. doi: http://doi.org/10.1109/bigdata.2015.7364082
  9. Singh, K., Behera, R., Mantri, J. (2019). Big Data Ecosystem: Review on Architectural Evolution. Advances in Intelligent Systems and Computing, 335–345. doi: http://doi.org/10.1007/978-981-13-1498-8_30
  10. Schulze, M. (2018). The Schulze Method of Voting. ArXiv. Available at: https://arxiv.org/abs/1804.02973
  11. Amdahl, Gene. (2007). Validity of the Single Processor Approach to Achieving Large Scale Computing Capabilities, Reprinted from the AFIPS Conference Proceedings, Vol. 30 (Atlantic City, N. J., Apr. 18–20). IEEE Solid-State Circuits Newsletter, 12, 19–20. doi: http://doi.org/10.1109/n-ssc.2007.4785615

##submission.downloads##

Опубліковано

2020-08-31

Як цитувати

Yaremenko, V., & Syrotiuk, O. (2020). Розробка мультиагентної системи для вирішення задачі побудови словника предметної області. Technology Audit and Production Reserves, 4(2(54), 27–30. https://doi.org/10.15587/2706-5448.2020.208400

Номер

Розділ

Звіт про науково-дослідні роботи