Визначення граматичних категорій турецької та казахської мов з використанням алгоритмів машинного навчання та складання словників синтаксичного аналізатора на основі граматики зв'язків

Автор(и)

DOI:

https://doi.org/10.15587/1729-4061.2021.238743

Ключові слова:

обробка природної мови, частина мови, алгоритми машинного навчання, аглютинативна мова, Word2vec

Анотація

Дане дослідження спрямоване на визначення частин мови казахської та турецької мов в інформаційно-пошуковій системі. Запропоновані алгоритми засновані на методах машинного навчання. У роботі розглядається двійкова класифікація слів за частинами мови. Ми вирішили використовувати найвідоміші алгоритми машинного навчання. У даній статті вивчаються і розглядаються наступні підходи і відомі алгоритми машинного навчання. Ми визначили 7 словників і відзначили 135 мільйонів слів казахською мовою і 9 словників і 50 мільйонів слів турецькою мовою.

Головним завданням, що розглядається в роботі, є створення алгоритмів складання словників так званої системи синтаксичного аналізатора на основі граматики зв'язків (LGP), зокрема казахської та турецької мов, з використанням методів машинного навчання.

Основна увага в дослідженні приділяється аналізу та порівнянню алгоритмів і методів машинного навчання, які дали результати в різних задачах обробки природної мови, таких як визначення граматичних категорій.

Для системи LGP створюється словник, в якому для кожного слова вказується зв'язка – тип зв'язки, яку можна створити за допомогою цього слова. Авторами розглянуто методи складання словників LGP з використанням машинного навчання.

Однак складності обробки природної мови не виключають можливості визначення більш вузьких задач, які вже можуть вирішуватися алгоритмічно: наприклад, визначення частин мови або розбиття текстів на логічні групи. Втім деякі особливості природних мов значно знижують ефективність цих рішень. Таким чином, врахування всіх словоформ для кожного слова в казахській і турецькій мовах збільшує складність обробки тексту на порядок

Спонсор дослідження

  • Firstly, we would like to offer special thanks to Dr. Feodor Murzin who, although no longer with us, continues to inspire by his example and dedication to the students he served over the course of his career. This research has been funded by the Science Committee of the Ministry of Education and Science of the Republic of Kazakhstan (Grant No. AP08857179)

Біографії авторів

Aigerim Yerimbetova, Institute of Information and Computational Technologies

PhD, Associate Professor, Leading Researcher

Madina Tussupova, ENGIE IT

Master of Science in Applied Mathematics and Informatics, Data Scientist

Madina Sambetbayeva, Institute of Information and Computational Technologies

PhD, Associate Professor, Senior Researcher

Mussa Turdalyuly, Institute of Automation and Information Technologies

PhD, Head of Department

Department of Software Engineering

Bakzhan Sakenov, Institute of Information and Computational Technologies

Software-Engineer

Посилання

  1. StanfordNLP v0.2.0. python 3.6 | 3.7. Available at: https://stanfordnlp.github.io/stanfordnlp/performance.html
  2. Batura, T. V., Murzin, F. A. (2008). Mashinno-orientirovannye logicheskie metody otobrazheniya semantiki teksta na estestvennom yazyke. Novosibirsk: Izd. NGTU, 248.
  3. Yerimbetova, A. S., Sagnayeva, S. K., Murzin, F. A., Tussupov, J. A. (2018). Creation of Tools and Algorithms for Assessing the Relevance of Documents. 2018 3rd Russian-Pacific Conference on Computer Technology and Applications (RPC). doi: https://doi.org/10.1109/rpc.2018.8482202
  4. Index to Link Grammar Documentation. Available at: https://www.link.cs.cmu.edu/link/dict/index.html
  5. Mel'chuk, I. A. (1974). Opyt teorii lingvisticheskih modeley «Smysl ↔ Tekst». Moscow: Nauka.
  6. Paducheva, E. V. (2010). Semanticheskie issledovaniya: Semantika vremeni i vida v russkom yazyke. Semantika narrativa. Moscow: Yazyki slavyanskoy kul'tury, 480.
  7. Kasekeyeva, A. B., Batura, T. V., Efimova, L. V., Murzin, F. A., Tussupov, J. A., Yerimbetova, A. S., Doshtayev, K. Zh. (2020). Link grammar and formal analysis of paraphrased sentences in a natural language. Journal of Theoretical and Applied Information Technology, 98 (10), 1724–1736. Available at: http://www.jatit.org/volumes/Vol98No10/10Vol98No10.pdf
  8. Kumar, N., Srinathan, K., Varma, V. (2012). Using Graph Based Mapping of Co-occurring Words and Closeness Centrality Score for Summarization Evaluation. Lecture Notes in Computer Science, 353–365. doi: https://doi.org/10.1007/978-3-642-28601-8_30
  9. Exactus. Available at: http://www.exactus.ru/
  10. Avtomaticheskaya Obrabotka Teksta. Available at: http://www.aot.ru/
  11. Sochenkov, I. V. (2013). Metod sravneniya tekstov dlya resheniya poiskovo-analiticheskih zadach. Iskusstvennyy intellekt i prinyatie resheniy, 2, 32–43. Available at: http://www.isa.ru/aidt/images/documents/2013-02/32_43.pdf
  12. Batura, T. V., Murzin, F. A., Semich, D. F., Sagnayeva, S. K., Tazhibayeva, S. Z., Bakiyev, M. N. et. al. (2016). Using the link grammar parser in the study of turkic languages. Eurasian Journal of Mathematical and Computer Applications, 4 (2), 14–22. doi: https://doi.org/10.32523/2306-6172-2016-4-2-14-22
  13. Zura, D., Doyle, W. J. (2018). A Grammar of Kazakh. Durhame: Duke University, Duke Center for Slavic, Eurasian, and East European Studies, 69. Available at: https://www.twirpx.com/file/2587861/
  14. Göksel, A. (2015). Phrasal compounds in Turkish: Distinguishing citations from quotations. STUF - Language Typology and Universals, 68 (3), 359–394. doi: https://doi.org/10.1515/stuf-2015-0017
  15. Sultanova, N., Kozhakhmet, K., Jantayev, R., Botbayeva, A. (2019). Stemming algorithm for Kazakh Language using rule-based approach. 2019 15th International Conference on Electronics, Computer and Computation (ICECCO). doi: https://doi.org/10.1109/icecco48375.2019.9043253
  16. Makhambetov, O., Makazhanov, A., Yessenbayev, Z., Matkarimov, B., Sabyrgaliyev, I., Sharafudinov, A. (2013). Assembling the Kazakh Language Corpus. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 1022–1031. Available at: https://aclanthology.org/D13-1104.pdf
  17. Aksan, Y., Aksan, M., Koltuksuz, A., Sezer, T., Mersinli, Ü., Demirhan, U. U. et. al. (2012). Construction of the Turkish National Corpus (TNC). Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 3223–3227. Available at: http://www.lrec-conf.org/proceedings/lrec2012/pdf/991_Paper.pdf
  18. Smola, A., Vishwanathan, S. V. N. (2008). Introduction to machine learning. Cambridge University Press, 234. Available at: https://alex.smola.org/drafts/thebook.pdf
  19. Markus, S. (1970). Teoretiko-mnozhestvennye modeli yazykov. Moscow: Nauka, 332.
  20. Murzin, F. A., Tussupova, M. J., Yerimbetova, A. S. (2018). Filling up Link Grammar Parser dictionaries by using Word2Vec techniques. Joint issue of the International Conference, Computational and Information Technologies in Science, Engineering and Education (CITech-2018). Ust-Kamenogorsk-Novosibirsk, 169–176. Available at: http://www.ict.nsc.ru/jct/getfile.php?id=1920
  21. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. arXiv.org. Available at: https://arxiv.org/abs/1310.4546
  22. Batura, T. V., Bakieva, A. M., Erimbetova, A. S., Murzin, F. A., Sagnaeva, S. K. (2018). Grammatika svyazey, relevantnost' i opredelenie tem tekstov. Novosibirsk: Izd-vo SO RAN, 91. Available at: http://lib.iis.nsk.su/node/277940
  23. Krippes, K. A. (1996). Kazakh Grammar with Affix List. Dunwoody Press, 84. Available at: http://www-lib.tufs.ac.jp/opac/en/recordID/catalog.bib/BA36636430
  24. Makazhanov, A., Yessenbayev, Z., Sabyrgaliyev, I., Sharafudinov, A., Makhambetov, O. (2014). On certain aspects of Kazakh part-of-speech tagging. 2014 IEEE 8th International Conference on Application of Information and Communication Technologies (AICT). doi: https://doi.org/10.1109/icaict.2014.7035953
  25. The CMU Link Grammar natural language parser. Available at: https://github.com/opencog/link-grammar

##submission.downloads##

Опубліковано

2021-10-31

Як цитувати

Yerimbetova, A., Tussupova, M., Sambetbayeva, M., Turdalyuly, M., & Sakenov, B. (2021). Визначення граматичних категорій турецької та казахської мов з використанням алгоритмів машинного навчання та складання словників синтаксичного аналізатора на основі граматики зв’язків. Eastern-European Journal of Enterprise Technologies, 5(2 (113), 55–65. https://doi.org/10.15587/1729-4061.2021.238743