Виявлення закономірностей внутрішньої розмірності семантичних просторів природних мов із використанням графових алгоритмів

Автор(и)

DOI:

https://doi.org/10.15587/1729-4061.2026.351509

Ключові слова:

внутрішня розмірність, семантичні простори, графові алгоритми, фрактальна структура, векторні представлення

Анотація

Об’єктом дослідження є семантичні простори n-грам (уніграм, біграм і триграм), сформовані на основі текстів природних мов. Розглянута проблема пов’язана з обмеженістю традиційних підходів, що використовують семантичні простори фіксованої високої розмірності без урахування їхньої внутрішньої геометричної структури. Виконано експериментальне дослідження внутрішньої розмірності векторних представлень мовних об’єктів, які застосовуються в задачах обробки природної мови.

Для розв’язання поставленої задачі застосовано графові алгоритми оцінювання внутрішньої розмірності, засновані на аналізі статистик мінімальних остовних дерев, що дають змогу отримувати оцінки як гаусдорфової, так і топологічної розмірності. Експериментальні дослідження проведено на корпусах національної літератури шести мов — російської, англійської, казахської, киргизької, татарської та узбецької, які належать до різних типологічних груп. Векторні представлення n-грам формувалися з використанням сингулярного розкладу матриці контекстів, що дозволило варіювати розмірність embedding-просторів без перенавчання моделей.

Отримані результати виявили стійкі відмінності у внутрішніх розмірностях семантичних просторів досліджуваних мов і підтвердили їхню мультифрактальну природу. Інтерпретація результатів свідчить, що виявлені відмінності зумовлені типологічними та структурними особливостями мов. Отримані оцінки є стійкими до шуму та змін розмірності простору вкладення, що забезпечує відтворюваність результатів. Практична значущість роботи полягає у можливості використання внутрішньої розмірності як інженерного параметра під час проєктування та оптимізації систем обробки природної мови з метою зниження обчислювальних і ресурсних витрат

Біографії авторів

Assel S. Yerbolova, Manash Kozybayev North Kazakhstan University

Master of Computer Sciences, Doctoral Student

Department of Information and Communication Technologies

Ildar G. Kurmashev, Manash Kozybayev North Kazakhstan University

Candidate of Technical Sciences, Associate Professor

Department of Information and Communication Technologies

Посилання

  1. Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., Zettlemoyer, L. (2018). Deep Contextualized Word Representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2227–2237. https://doi.org/10.18653/v1/n18-1202
  2. Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv. https://doi.org/10.48550/arXiv.1810.04805
  3. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P. et al. (2020). Language Models are Few-Shot Learners. arXiv. https://arxiv.org/abs/2005.14165
  4. Dębowski, Ł. (2020). Information Theory Meets Power Laws. John Wiley & Sons. https://doi.org/10.1002/9781119625384
  5. Tanaka-Ishii, K. (2021). Language as a Complex System. Statistical Universals of Language, 19–30. https://doi.org/10.1007/978-3-030-59377-3_3
  6. Semple, S., Ferrer-i-Cancho, R., Gustison, M. L. (2022). Linguistic laws in biology. Trends in Ecology & Evolution, 37 (1), 53–66. https://doi.org/10.1016/j.tree.2021.08.012
  7. Gromov, V. A., Migrina, A. M. (2017). A Language as a Self-Organized Critical System. Complexity, 2017, 1–7. https://doi.org/10.1155/2017/9212538
  8. Malinetsky, G. G., Potapov, A. B. (2000). Sovremennye problemy nelineinoi dinamiki. Moscow: Editorial URSS.
  9. Pestov, V. (2007). Intrinsic dimension of a dataset: what properties does one expect? 2007 International Joint Conference on Neural Networks, 2959–2964. https://doi.org/10.1109/ijcnn.2007.4371431
  10. Gromov, M. (2007). Metric Structures for Riemannian and Non-Riemannian Spaces. Birkhäuser, 586. https://doi.org/10.1007/978-0-8176-4583-0
  11. Kantz, H., Schreiber, T. (2003). Nonlinear Time Series Analysis. https://doi.org/10.1017/cbo9780511755798
  12. Panda, S. K., Nagy, A. M., Vijayakumar, V., Hazarika, B. (2023). Stability analysis for complex-valued neural networks with fractional order. Chaos, Solitons & Fractals, 175, 114045. https://doi.org/10.1016/j.chaos.2023.114045
  13. Brito, M. R., Quiroz, A. J., Yukich, J. E. (2013). Intrinsic dimension identification via graph-theoretic methods. Journal of Multivariate Analysis, 116, 263–277. https://doi.org/10.1016/j.jmva.2012.12.007
  14. Adams, H., Aminian, M., Farnell, E., Kirby, M., Mirth, J., Neville, R. et al. (2020). A Fractal Dimension for Measures via Persistent Homology. Topological Data Analysis, 1–31. https://doi.org/10.1007/978-3-030-43408-3_1
  15. Golub, G., Kahan, W. (1965). Calculating the Singular Values and Pseudo-Inverse of a Matrix. Journal of the Society for Industrial and Applied Mathematics Series B Numerical Analysis, 2 (2), 205–224. https://doi.org/10.1137/0702016
  16. Bellegarda, J. R. (2007). Latent Semantic Mapping. Latent Semantic Mapping: Principles & Applications, 9–13. https://doi.org/10.1007/978-3-031-02556-3_2
  17. Kalman, D. (1996). A Singularly Valuable Decomposition: The SVD of a Matrix. The College Mathematics Journal, 27 (1), 2–23. https://doi.org/10.1080/07468342.1996.11973744
  18. Schweinhart, B. (2020). Fractal dimension and the persistent homology of random geometric complexes. Advances in Mathematics, 372, 107291. https://doi.org/10.1016/j.aim.2020.107291
  19. Steele, J. M. (1988). Growth Rates of Euclidean Minimal Spanning Trees with Power Weighted Edges. The Annals of Probability, 16 (4). https://doi.org/10.1214/aop/1176991596
  20. Gromov, V. A., Borodin, N. S., Yerbolova, A. S. (2024). A Language and Its Dimensions: Intrinsic Dimensions of Language Fractal Structures. Complexity, 2024 (1). https://doi.org/10.1155/2024/8863360
  21. Kuznetsov, S. O., Gromov, V. A., Borodin, N. S., Divavin, A. M. (2023). Formal Concept Analysis for Evaluating Intrinsic Dimension of a Natural Language. Pattern Recognition and Machine Intelligence, 331–339. https://doi.org/10.1007/978-3-031-45170-6_34
  22. Kuznetsov, S. O. (2009). Pattern Structures for Analyzing Complex Data. Rough Sets, Fuzzy Sets, Data Mining and Granular Computing, 33–44. https://doi.org/10.1007/978-3-642-10646-0_4
Виявлення закономірностей внутрішньої розмірності семантичних просторів природних мов із використанням графових алгоритмів

##submission.downloads##

Опубліковано

2026-02-27

Як цитувати

Yerbolova, A. S., & Kurmashev, I. G. (2026). Виявлення закономірностей внутрішньої розмірності семантичних просторів природних мов із використанням графових алгоритмів. Eastern-European Journal of Enterprise Technologies, 1(2 (139), 68–76. https://doi.org/10.15587/1729-4061.2026.351509