Прискорення процесу генерування корпусів текстових даних детермінованим методом

Автор(и)

  • Яків Олексійович Юсин Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0001-6971-3808
  • Тетяна Миколаївна Заболотня Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0001-8570-7571

DOI:

https://doi.org/10.15587/1729-4061.2024.298670

Ключові слова:

оброблення природної мови, метод CorDeGen, корпуси текстових даних, генерування корпусів

Анотація

Об’єктом даного дослідження є процес генерування корпусів текстових даних методом CorDeGen. Проблемою, що вирішується у даному дослідженні, є недостатня ефективність генерування корпусів текстових даних методом CorDeGen за критерієм швидкості.

На основі проведеного аналізу базового методу CorDeGen – кроків, з яких він складається, алгоритму, що його реалізовує – визначено можливості його паралелізації. В результаті розроблено два нових методи-модифікації базового методу CorDeGen: «наївний» паралельний та паралельний. Методи відрізняються один від одного тим, чи зберігають вони порядок термів у генерованих текстах в порівнянні з текстами, що генеровані базовим методом («наївний» паралельний не зберігає, паралельний зберігає). Використовуючи платформу .NET та мову програмування C#, у даній роботі виконана програмна реалізація обох запропонованих методів-модифікацій; для валідації обох реалізацій використана методологія тестування на основі властивостей.

Отримані результати тестування ефективності обох паралельних методів показали, що для корпусів достатньо великих розмірів використання паралельних методів CorDeGen прискорює час генерування в 2 рази, порівняно з базовим методом. Ефект прискорення пояснюється саме паралелізацією процесу генерування чергового терму – його створення, визначення кількості входжень до текстів та запису – який займає більшість часу у базовому методі. Це означає, що за необхідності генерувати достатньо великі корпуси за обмежений час, на практиці є доцільним використання саме розроблених паралельних методів CorDeGen замість базового. Вибір конкретного паралельного методу («наївного» чи звичайного) для практичного застосування залежить від того, чи є важливою можливість передбачити порядок термів у генерованих текстах, чи ні

Біографії авторів

Яків Олексійович Юсин, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Доктор філософії

Кафедра програмного забезпечення комп’ютерних систем

Тетяна Миколаївна Заболотня, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

Кандидат технічних наук

Кафедра програмного забезпечення комп’ютерних систем

Посилання

  1. Dash, N. S., Arulmozi, S. (2018). Definition of ‘Corpus.’ History, Features, and Typology of Language Corpora, 1–15. https://doi.org/10.1007/978-981-10-7458-5_1
  2. Boujelbane, R., Ellouze Khemekhem, M., Belguith, L. (2013). Mapping Rules for Building a Tunisian Dialect Lexicon and Generating Corpora. Proceedings of the Sixth International Joint Conference on Natural Language Processing. Nagoya, 419–428. Available at: https://aclanthology.org/I13-1048
  3. Javed, N., Muralidhara, B. L.(2015). Automating Corpora Generation with Semantic Cleaning and Tagging of Tweets for Multi-dimensional Social Media Analytics. International Journal of Computer Applications, 127 (12), 11–16. https://doi.org/10.5120/ijca2015906548
  4. Alberti, C., Andor, D., Pitler, E., Devlin, J., Collins, M. (2019). Synthetic QA Corpora Generation with Roundtrip Consistency. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. https://doi.org/10.18653/v1/p19-1620
  5. Lichtarge, J., Alberti, C., Kumar, S., Shazeer, N., Parmar, N., Tong, S. (2019). Corpora Generation for Grammatical Error Correction. Proceedings of the 2019 Conference of the North. https://doi.org/10.18653/v1/n19-1333
  6. Al-Thwaib, E., Hammo, B. H., Yagi, S. (2020). An academic Arabic corpus for plagiarism detection: design, construction and experimentation. International Journal of Educational Technology in Higher Education, 17 (1). https://doi.org/10.1186/s41239-019-0174-x
  7. Tanaka, K., Chu, C., Kajiwara, T., Nakashima, Y., Takemura, N., Nagahara, H., Fujikawa, T. (2022). Corpus Construction for Historical Newspapers: A Case Study on Public Meeting Corpus Construction Using OCR Error Correction. SN Computer Science, 3 (6). https://doi.org/10.1007/s42979-022-01393-6
  8. Yusyn, Y. O., Zabolotnia, T. M. (2021). Text data corpora generation on the basis of the deterministic method. KPI Science News, 3, 38–45. Available at: http://scinews.kpi.ua/article/view/240780
  9. Yusyn, Ya. O. (2022). Metody ta prohramni zasoby metamorfichnoho testuvannia prohramnykh system avtomatychnoi klasteryzatsiyi pryrodnomovnykh tekstovykh danykh. Kyiv, 357. Available at: https://ela.kpi.ua/handle/123456789/52417
  10. Parallel programming in .NET: A guide to the documentation (2022). Microsoft Learn. Available at: https://learn.microsoft.com/en-us/dotnet/standard/parallel-programming/
  11. Claessen, K., Hughes, J. (2000). QuickCheck. Proceedings of the Fifth ACM SIGPLAN International Conference on Functional Programming. https://doi.org/10.1145/351240.351266
  12. Aichernig, B. K., Schumi, R. (2016). Property-Based Testing with FsCheck by Deriving Properties from Business Rule Models. 2016 IEEE Ninth International Conference on Software Testing, Verification and Validation Workshops (ICSTW). https://doi.org/10.1109/icstw.2016.24
  13. Overview | BenchmarkDotNet. .NET Foundation and contributors. BenchmarkDotNet. Available at: https://benchmarkdotnet.org/articles/overview.html
  14. Akinshin, A. (2019). Pro .NET Benchmarking. Apress. https://doi.org/10.1007/978-1-4842-4941-3
  15. Soukhanov, A. H. (1992). The American Heritage Dictionary of the English Language. Houghton Mifflin.
Прискорення процесу генерування корпусів текстових даних детермінованим методом

##submission.downloads##

Опубліковано

2024-02-28

Як цитувати

Юсин, Я. О., & Заболотня, Т. М. (2024). Прискорення процесу генерування корпусів текстових даних детермінованим методом. Eastern-European Journal of Enterprise Technologies, 1(2 (127), 26–34. https://doi.org/10.15587/1729-4061.2024.298670