Технології вирівнювання та розширення паралельних корпусів казахської мови
DOI:
https://doi.org/10.15587/1729-4061.2022.259452Ключові слова:
паралельні корпуси, вирівнювання, казахська мова, англійська мова, побудова речень, технологія розширенняАнотація
У роботі представлені методи двоетапного вирівнювання та розширення паралельних корпусів казахської мови. Казахська мова є аглютинативною, має багату морфологію та відноситься до тюркської мовної групи. Тому традиційні методи вирівнювання з подібними мовами не підходять для казахської мови. Вирівнювання використовується в першу чергу для знаходження у перекладі фрагмента, що відповідає оригіналу. Після цього ідентичні фрагменти паралельних текстів порівнюють один з одним. На початковому етапі питання полягає у тому, що підлягає вирівнюванню. Можна виконати послівне вирівнювання, але часто це стає практично неможливим з кількох причин: набори лексем та виразів у різних мовах не співпадають. Враховуючи лінгвістичні особливості мов, розроблені технології та способи універсального вирівнювання паралельного тексту можуть не підійти для мов з аглютинацією. Це означає, що форма слова утворюється додатковими афіксами та допоміжними словами, що несуть семантичну і морфологічну інформацію. Підхід, представлений в даній роботі, полягає у застосуванні двоетапного вирівнювання з використанням двомовного словника синонімів. Оцінка з використанням англо-казахського корпусу підтверджує правильність вирівнювання нашим методом в середньому на 89 %. Другий метод призначений для розширення паралельного корпусу у зв'язку із відсутністю хорошої якості природних паралельних корпусів казахсько-англійської мовної пари. У розробленому методі використовується комбінаторна техніка з урахуванням семантичних та граматичних особливостей казахської мови. Для побудови речень використовують різні часи казахської мови, а також враховуються різні закінчення частин мови.
Спонсор дослідження
- Thіs rеsеаrсh wаs pеrfоrmеd аnd fіnаnсеd bу thе grаnt Prоjесt ІRN АP08052421 of Ministry of Science and Higher Education of the Republic of Kazakhstan.
Посилання
- R. Nazar, “Parallel corpus alignment at the document, sentence and vocabulary levels,” Natural Language Processing. No. 47, ISSN 1135-5948, pp. 129-136, 2011.
- A. Bharati, V. Sriram, A.Vamshi Krishna, R. Sangal, and S.M.Bendre, “An Algorithm for Aligning Sentences in Bilingual Corpora Using Lexical Information,” In Proceedings of ICON-2002: International Conference on Natural Language Processing, Mumbai, India, pp. 1-12, 2002
- P. Brown, J. Lai, and R. Mercer, “Aligning Sentences in Parallel Corpora,” IBM Report submitted to 29th Annual Meeting of the Association for Computational Linguistics, pp. 169-171, 1991.
- E. Bicici, “Context-Based Sentence Alignment in Parallel Corpora,” in Proc. International Conference on Intelligent Text Processing and Computational Linguistics, pp. 434-444, 2008.
- S. F. Adafre and M. de Rijke.” Finding similar sentences across multiple languages in wikipedia,” in: Proceedings of the Workshop on NEW TEXT Wikis and blogs and other dynamic text sources, 2006.
- J. R. Smith, Ch. Quirk, and K.Toutanova, “Extracting parallel sentences from comparable corpora using document level alignment,” in: Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Association for Computational Linguistics, pp 403–411, 2010.
- M. Saad, D. Langlois, and K. Smaıli, “Extracting comparable articles from Wikipedia and measuring their comparabilities,” in Procedia-Social and Behavioral Sciences, 95:40–47, 2013.
- R. Sennrich and M. Volk, “Iterative, MTbased Sentence Alignment of Parallel Texts,” in Proc. the 18th Nordic Conference of Computational Linguistics, Riga, Latvia, Vol. 11, pp. -175-182, 2011.
- M. Mohammadi and N. G. Aghaee, “Building bilingual parallel corpora based on wikipedia,” in: 2010 Second International Conference on Computer Engineering and Applications, IEEE, vol 2, pp 264–268, 2010.
- P. G. Otero and I. G. Lopez, “Wikipedia as multilingual source of comparable corpora,” in Proceedings of the 3rd Workshop on Building and Using Comparable Corpora, LREC, pages 21–25, 2010.
- P.G. Otero and I. G. López, “Measuring comparability of multilingual corpora extracted from Wikipedia,” in Iberian Cross-Language Natural Language Processings Tasks (ICL), pp. 8, 2010.
- R. Sennrich and M. Volk, “Iterative, MTbased Sentence Alignment of Parallel Texts,” in Proceedings of the 18th Nordic Conference of Computational Linguistics, Riga, Latvia, Vol. 11, pp. -175-182, 2011.
- Y. Xu and A. Max and F.Yvon, “Sentence Alignment for Literary Texts. Linguistic Issues in Language Technology,” in Linguistic Issues in Language Technology, Volume 12, 2015 - Literature Lifts up Computational Linguistics, LiLT. Volume 12, Issue 6, 2015.
- V. Chaudhary, Y.Tang, F. Guzmán, H. Schwenk, and P.Koehn, “LowResource Corpus Filtering Using Multilingual Sentence Embeddings,” in Proceedings of the Fourth Conference on Machine Translation, Volume 3: Shared Task Papers, Florence, Italy, pp. 261-266, 2019.
- M. Artetxe and H. Schwenk, “Margin based parallel corpus mining with multilingual sentence embeddings,” in Proc. the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, pp. 3197-3203, 2019.
- Zh. Zhumanov, A. Madiyeva, and D. Rakhimova, “New Kazakh Parallel Text Corpora with On-line Access,” in Proc. Conference on Computational Collective Intelligence Technologies and Applications, pp. 501-508, 2017.
- A. Kartbaev, “Refining Kazakh Word Alignment Using Simulation Modeling Methods for Statistical Machine Translation,” in Proc. Natural Language Processing and Chinese Computing (NLPCC), Nanchang, China, pp. 421-427, 2015.
- D.R. Rakhimova and A.O. Turganbaeva, ”Normalization of Kazakh language words,” Scientific and Technical Journal of Information Technologies, Mechanics and Optics, Vol. 20(4), St. Petersburg, Russia, pp. 545–551, 2020.
- N. Khairova, O. Mamyrbayev, and K. Mukhsina, “The Aligned Kazakh-Russian Parallel Corpus Focused on the Criminal Theme,” in Proc. 3rd COLINS: Computational linguistics and intelligent systems, Volume 1, Kharkiv, Ukraine, pp. 116-125, 2019.
- Zh. Assylbekov, A. Makazhanov, and B. Myrzakhmetov, “Experiments with Russian to Kazakh sentence alignment,” in Proc. The Kyrgyz State Technical University named I. Razzakova., pp. 18-23, 2016.
- Hunalign tool. Avaiable: https://github.com/danielvarga/hunalign
- A. Singhal, C. Buckley, and M. Mitra, “Pivoted document length normalization,” in Proc. The 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Zurich, Switzerland, pp. 176-184, 1996.
- H. C. Wu, R. W. P. Luk, K. F. Wong, and K. L. Kwok, “Interpreting tf-idf term weights as making relevance decisions,” ACM Transactions on Information Systems (TOIS), vol. 26, no. 3, pp. 1-37, 2008
- M. J. Lavin, “Analyzing Documents with TF-IDF,” The Programming Historian journal. no. 8, [Online], Available: https://programminghistorian.org/en/lessons/analyzing-documents-with-tfidf
- I. Arroyo-Fernández, C.F. Méndez-Cruz, G. Sierra, J.M. Torres-Moreno, and G. Sidorov, “Unsupervised sentence representations as word information series: Revisiting tf–idf,” Computer Speech and Language, vol. 56, pp. 107–129, 2019.
- Nazarbayev University site. Available: https://nu.edu.kz/
- Akorda site. Aviable: https://www.akorda.kz/ru
- H. T. Sueno, B. D. Gerardo, and R. P. Medina, “Converting text to numerical representation using modified Bayesian vectorization technique for multiclass classification,” International Journal of Advanced Trends in Computer Science and Engineering, vol. 9, no. 4, pp. 5618–5623, 2020.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2022 Diana Rakhimova, Aidana Karibayeva
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.