Технології вирівнювання та розширення паралельних корпусів казахської мови




Ключові слова:

паралельні корпуси, вирівнювання, казахська мова, англійська мова, побудова речень, технологія розширення


У роботі представлені методи двоетапного вирівнювання та розширення паралельних корпусів казахської мови. Казахська мова є аглютинативною, має багату морфологію  та відноситься до тюркської мовної групи. Тому традиційні методи вирівнювання з подібними мовами не підходять для казахської мови. Вирівнювання використовується в першу чергу для знаходження у перекладі фрагмента, що відповідає оригіналу. Після цього ідентичні фрагменти паралельних текстів порівнюють один з одним. На початковому етапі питання полягає у тому, що підлягає вирівнюванню. Можна виконати послівне вирівнювання, але часто це стає практично неможливим з кількох причин: набори лексем та виразів у різних мовах не співпадають. Враховуючи лінгвістичні особливості мов, розроблені технології та способи універсального вирівнювання паралельного тексту можуть не підійти для мов з аглютинацією. Це означає, що форма слова утворюється додатковими афіксами та допоміжними словами, що несуть семантичну і морфологічну інформацію. Підхід, представлений в даній роботі, полягає у застосуванні двоетапного вирівнювання з використанням двомовного словника синонімів. Оцінка з використанням англо-казахського корпусу підтверджує правильність вирівнювання нашим методом в середньому на 89 %. Другий метод призначений для розширення паралельного корпусу у зв'язку із відсутністю хорошої якості природних паралельних корпусів казахсько-англійської мовної пари. У розробленому методі використовується комбінаторна техніка з урахуванням семантичних та граматичних особливостей казахської мови. Для побудови речень використовують різні часи казахської мови, а також враховуються різні закінчення частин мови.

Спонсор дослідження

  • Thіs rеsеаrсh wаs pеrfоrmеd аnd fіnаnсеd bу thе grаnt Prоjесt ІRN АP08052421 of Ministry of Science and Higher Education of the Republic of Kazakhstan.

Біографії авторів

Diana Rakhimova, Al-Farabi Kazakh National University


Department of Information Systems

Aidana Karibayeva, Al-Farabi Kazakh National University


Department of Information Systems


Як цитувати

Rakhimova, D., & Karibayeva, A. (2022). Технології вирівнювання та розширення паралельних корпусів казахської мови. Eastern-European Journal of Enterprise Technologies, 4(2(118), 32–39. https://doi.org/10.15587/1729-4061.2022.259452