Визначення граматичних категорій турецької та казахської мов з використанням алгоритмів машинного навчання та складання словників синтаксичного аналізатора на основі граматики зв'язків
DOI:
https://doi.org/10.15587/1729-4061.2021.238743Ключові слова:
обробка природної мови, частина мови, алгоритми машинного навчання, аглютинативна мова, Word2vecАнотація
Дане дослідження спрямоване на визначення частин мови казахської та турецької мов в інформаційно-пошуковій системі. Запропоновані алгоритми засновані на методах машинного навчання. У роботі розглядається двійкова класифікація слів за частинами мови. Ми вирішили використовувати найвідоміші алгоритми машинного навчання. У даній статті вивчаються і розглядаються наступні підходи і відомі алгоритми машинного навчання. Ми визначили 7 словників і відзначили 135 мільйонів слів казахською мовою і 9 словників і 50 мільйонів слів турецькою мовою.
Головним завданням, що розглядається в роботі, є створення алгоритмів складання словників так званої системи синтаксичного аналізатора на основі граматики зв'язків (LGP), зокрема казахської та турецької мов, з використанням методів машинного навчання.
Основна увага в дослідженні приділяється аналізу та порівнянню алгоритмів і методів машинного навчання, які дали результати в різних задачах обробки природної мови, таких як визначення граматичних категорій.
Для системи LGP створюється словник, в якому для кожного слова вказується зв'язка – тип зв'язки, яку можна створити за допомогою цього слова. Авторами розглянуто методи складання словників LGP з використанням машинного навчання.
Однак складності обробки природної мови не виключають можливості визначення більш вузьких задач, які вже можуть вирішуватися алгоритмічно: наприклад, визначення частин мови або розбиття текстів на логічні групи. Втім деякі особливості природних мов значно знижують ефективність цих рішень. Таким чином, врахування всіх словоформ для кожного слова в казахській і турецькій мовах збільшує складність обробки тексту на порядок
Спонсор дослідження
- Firstly, we would like to offer special thanks to Dr. Feodor Murzin who, although no longer with us, continues to inspire by his example and dedication to the students he served over the course of his career. This research has been funded by the Science Committee of the Ministry of Education and Science of the Republic of Kazakhstan (Grant No. AP08857179)
Посилання
- StanfordNLP v0.2.0. python 3.6 | 3.7. Available at: https://stanfordnlp.github.io/stanfordnlp/performance.html
- Batura, T. V., Murzin, F. A. (2008). Mashinno-orientirovannye logicheskie metody otobrazheniya semantiki teksta na estestvennom yazyke. Novosibirsk: Izd. NGTU, 248.
- Yerimbetova, A. S., Sagnayeva, S. K., Murzin, F. A., Tussupov, J. A. (2018). Creation of Tools and Algorithms for Assessing the Relevance of Documents. 2018 3rd Russian-Pacific Conference on Computer Technology and Applications (RPC). doi: https://doi.org/10.1109/rpc.2018.8482202
- Index to Link Grammar Documentation. Available at: https://www.link.cs.cmu.edu/link/dict/index.html
- Mel'chuk, I. A. (1974). Opyt teorii lingvisticheskih modeley «Smysl ↔ Tekst». Moscow: Nauka.
- Paducheva, E. V. (2010). Semanticheskie issledovaniya: Semantika vremeni i vida v russkom yazyke. Semantika narrativa. Moscow: Yazyki slavyanskoy kul'tury, 480.
- Kasekeyeva, A. B., Batura, T. V., Efimova, L. V., Murzin, F. A., Tussupov, J. A., Yerimbetova, A. S., Doshtayev, K. Zh. (2020). Link grammar and formal analysis of paraphrased sentences in a natural language. Journal of Theoretical and Applied Information Technology, 98 (10), 1724–1736. Available at: http://www.jatit.org/volumes/Vol98No10/10Vol98No10.pdf
- Kumar, N., Srinathan, K., Varma, V. (2012). Using Graph Based Mapping of Co-occurring Words and Closeness Centrality Score for Summarization Evaluation. Lecture Notes in Computer Science, 353–365. doi: https://doi.org/10.1007/978-3-642-28601-8_30
- Exactus. Available at: http://www.exactus.ru/
- Avtomaticheskaya Obrabotka Teksta. Available at: http://www.aot.ru/
- Sochenkov, I. V. (2013). Metod sravneniya tekstov dlya resheniya poiskovo-analiticheskih zadach. Iskusstvennyy intellekt i prinyatie resheniy, 2, 32–43. Available at: http://www.isa.ru/aidt/images/documents/2013-02/32_43.pdf
- Batura, T. V., Murzin, F. A., Semich, D. F., Sagnayeva, S. K., Tazhibayeva, S. Z., Bakiyev, M. N. et. al. (2016). Using the link grammar parser in the study of turkic languages. Eurasian Journal of Mathematical and Computer Applications, 4 (2), 14–22. doi: https://doi.org/10.32523/2306-6172-2016-4-2-14-22
- Zura, D., Doyle, W. J. (2018). A Grammar of Kazakh. Durhame: Duke University, Duke Center for Slavic, Eurasian, and East European Studies, 69. Available at: https://www.twirpx.com/file/2587861/
- Göksel, A. (2015). Phrasal compounds in Turkish: Distinguishing citations from quotations. STUF - Language Typology and Universals, 68 (3), 359–394. doi: https://doi.org/10.1515/stuf-2015-0017
- Sultanova, N., Kozhakhmet, K., Jantayev, R., Botbayeva, A. (2019). Stemming algorithm for Kazakh Language using rule-based approach. 2019 15th International Conference on Electronics, Computer and Computation (ICECCO). doi: https://doi.org/10.1109/icecco48375.2019.9043253
- Makhambetov, O., Makazhanov, A., Yessenbayev, Z., Matkarimov, B., Sabyrgaliyev, I., Sharafudinov, A. (2013). Assembling the Kazakh Language Corpus. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 1022–1031. Available at: https://aclanthology.org/D13-1104.pdf
- Aksan, Y., Aksan, M., Koltuksuz, A., Sezer, T., Mersinli, Ü., Demirhan, U. U. et. al. (2012). Construction of the Turkish National Corpus (TNC). Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 3223–3227. Available at: http://www.lrec-conf.org/proceedings/lrec2012/pdf/991_Paper.pdf
- Smola, A., Vishwanathan, S. V. N. (2008). Introduction to machine learning. Cambridge University Press, 234. Available at: https://alex.smola.org/drafts/thebook.pdf
- Markus, S. (1970). Teoretiko-mnozhestvennye modeli yazykov. Moscow: Nauka, 332.
- Murzin, F. A., Tussupova, M. J., Yerimbetova, A. S. (2018). Filling up Link Grammar Parser dictionaries by using Word2Vec techniques. Joint issue of the International Conference, Computational and Information Technologies in Science, Engineering and Education (CITech-2018). Ust-Kamenogorsk-Novosibirsk, 169–176. Available at: http://www.ict.nsc.ru/jct/getfile.php?id=1920
- Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. arXiv.org. Available at: https://arxiv.org/abs/1310.4546
- Batura, T. V., Bakieva, A. M., Erimbetova, A. S., Murzin, F. A., Sagnaeva, S. K. (2018). Grammatika svyazey, relevantnost' i opredelenie tem tekstov. Novosibirsk: Izd-vo SO RAN, 91. Available at: http://lib.iis.nsk.su/node/277940
- Krippes, K. A. (1996). Kazakh Grammar with Affix List. Dunwoody Press, 84. Available at: http://www-lib.tufs.ac.jp/opac/en/recordID/catalog.bib/BA36636430
- Makazhanov, A., Yessenbayev, Z., Sabyrgaliyev, I., Sharafudinov, A., Makhambetov, O. (2014). On certain aspects of Kazakh part-of-speech tagging. 2014 IEEE 8th International Conference on Application of Information and Communication Technologies (AICT). doi: https://doi.org/10.1109/icaict.2014.7035953
- The CMU Link Grammar natural language parser. Available at: https://github.com/opencog/link-grammar
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2021 Aigerim Yerimbetova, Madina Tussupova, Madina Sambetbayeva, Mussa Turdalyuly, Bakzhan Sakenov
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.