Застосування ймовірнісного латентного семантичного аналізу для ідентифікації предметних наукових просторів та оцінювання повноти висвітлення результатів дисертаційних досліджень

Автор(и)

  • Petro Lizunov Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03680, Україна https://orcid.org/0000-0003-2924-3025
  • Andrii Biloshchytskyi Київський національний університет імені Тараса Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033 Astana IT University вул. Туркістан, м. Нур-Султан, Казахстан, 020000, Україна https://orcid.org/0000-0001-9548-1959
  • Alexander Kuchansky Київський національний університет імені Тараса Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033, Україна https://orcid.org/0000-0003-1277-8031
  • Yurii Andrashko Державний вищий навчальний заклад «Ужгородський національний університет» пл. Народна, 3, м. Ужгород, Україна, 88000, Україна https://orcid.org/0000-0003-2306-8377
  • Svitlana Biloshchytska Київський національний університет імені Тараса Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033, Україна https://orcid.org/0000-0002-0856-5474

DOI:

https://doi.org/10.15587/1729-4061.2020.209886

Ключові слова:

ймовірнісний латентний семантичний аналіз, кластеризація, предметний науковий простір, тематична модель

Анотація

Розглядається дослідження можливостей застосування латентного семантичного аналізу для задач ідентифікації предметних наукових просторів та виявлення повноти висвітлення результатів дисертаційних досліджень здобувачами наукового ступеня.

Побудовано ймовірнісну тематичну модель, яка дозволяє виконати кластеризацію публікацій науковців за науковими напрямами з врахуванням мережі цитування, що є важливим кроком для розв’язування задачі ідентифікації предметних наукових просторів. В результаті побудови моделі вирішена проблема зростання нестабільності кластеризації графу цитування у зв’язку зі зменшенням кількості кластерів. Ця проблема виникає при об'єднанні кластерів, побудованих на основі кластеризації графу цитування з врахуванням подібності анотацій наукових публікацій.

Описано представлення текстових документів на основі ймовірнісної тематичної моделі з використанням n-грамів. Побудовано ймовірнісну тематичну модель для задачі встановлення повноти висвітлення матеріалів дисертаційних досліджень автора в його наукових публікаціях. Розраховано наближені значення порогових коефіцієнтів, які визначають чи враховані в статтях автора положення, які відображені в тексті автореферату дисертації. Було проведене навчання ймовірнісної тематичної моделі за публікаціями автора на основі інструменту BigARTM. Використовуючи навчену модель та з використанням спеціального регуляризатора було знайдено матрицю належності тем, які визначаються сегментами авторефератів дисертації автора до документів, які визначаються публікаціями автора.

Pозглянуті важливі аспекти можливостей застосування латентного семантичного аналізу для задач ідентифікації предметних наукових просторів та виявлення повноти висвітлення результатів дисертаційних досліджень здобувачами наукового ступеня

Біографії авторів

Petro Lizunov, Київський національний університет будівництва і архітектури пр. Повітрофлотський, 31, м. Київ, Україна, 03680

Доктор технічних наук, професор

Кафедра основ інформатики

Andrii Biloshchytskyi, Київський національний університет імені Тараса Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033 Astana IT University вул. Туркістан, м. Нур-Султан, Казахстан, 020000

Доктор технічних наук, професор

Кафедра інформаційних систем та технологій

Alexander Kuchansky, Київський національний університет імені Тараса Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033

Кандидат технічних наук, доцент

Кафедра інформаційних систем та технологій

Yurii Andrashko, Державний вищий навчальний заклад «Ужгородський національний університет» пл. Народна, 3, м. Ужгород, Україна, 88000

Кандидат технічних наук, доцент

Кафедра системного аналізу і теорії оптимізації

Svitlana Biloshchytska, Київський національний університет імені Тараса Шевченка вул. Володимирська, 60, м. Київ, Україна, 01033

Кандидат технічних наук, доцент

Кафедра інтелектуальних технологій

Посилання

  1. Dumais, S. T. (2005). Latent semantic analysis. Annual Review of Information Science and Technology, 38 (1), 188–230. doi: https://doi.org/10.1002/aris.1440380105
  2. Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41 (6), 391–407. doi: https://doi.org/10.1002/(sici)1097-4571(199009)41:6<391::aid-asi1>3.0.co;2-9
  3. Hofmann, T. (1999). Probabilistic latent semantic indexing. Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR ’99. doi: https://doi.org/10.1145/312624.312649
  4. Dai, A. M., Olah, C., Le, Q. V. (2015). Document embedding with paragraph vectors. arXiv. Available at: https://arxiv.org/pdf/1507.07998v1.pdf
  5. Rosen-Zvi, M., Griffiths, T., Steyvers, M., Smyth, P. (2004). The Author-Topic Model for Authors and Documents. Conference: UAI '04, Proceedings of the 20th Conference in Uncertainty in Artificial Intelligence.
  6. Pagliardini, M., Gupta, P., Jaggi, M. (2018). Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 528–540. doi: https://doi.org/10.18653/v1/n18-1049
  7. Lifchitz, A., Jhean-Larose, S., Denhière, G. (2009). Effect of tuned parameters on an LSA multiple choice questions answering model. Behavior Research Methods, 41 (4), 1201–1209. doi: https://doi.org/10.3758/brm.41.4.1201
  8. Gálvez, R. H., Gravano, A. (2017). Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science, 19, 43–56. doi: https://doi.org/10.1016/j.jocs.2017.01.001
  9. Scopus Preview. Eastern-European Journal of Enterprise Technologies. Available at: https://www.scopus.com/sourceid/21100450083
  10. Mendeley. Available at: https://www.mendeley.com/?interaction_required=true
  11. Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., Biloshchytska, S., Kuzka, O., Shabala, Y., Lyashchenko, T. (2017). A method for the identification of scientists' research areas based on a cluster analysis of scientific publications. Eastern-European Journal of Enterprise Technologies, 5 (2 (89)), 4–11. doi: https://doi.org/10.15587/1729-4061.2017.112323
  12. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., Biloshchytska, S. (2019). Improvement of the method for scientific publications clustering based on n-gram analysis and fuzzy method for selecting research partners. Eastern-European Journal of Enterprise Technologies, 4 (4 (100)), 6–14. doi: https://doi.org/10.15587/1729-4061.2019.175139
  13. Bykov, V. Y., Kuchanskyi, O. Y., Biloshchytskyi, A. O., Andrashko, Y. V., Dikhtiarenko, O. V., Budnik, S. V. (2019). Development of information technology for complex evaluation of higher education institutions. Information Technologies and Learning Tools, 73 (5), 293–306. doi: https://doi.org/10.33407/itlt.v73i5.3397
  14. Kuchansky, A., Andrashko, Yu., Biloshchytskyi, A., Danchenko, O., Ilarionov, O., Vatskel, I., Honcharenko, T. (2018). The method for evaluation of educational environment subjects' performance based on the calculation of volumes of m­simplexes. Eastern-European Journal of Enterprise Technologies, 2 (4 (92)), 15–25. doi: https://doi.org/10.15587/1729-4061.2018.126287
  15. Kuchansky, A., Biloshchytskyi, A., Andrashko, Y., Biloshchytska, S., Shabala, Y., Myronov, O. (2018). Development of adaptive combined models for predicting time series based on similarity identification. Eastern-European Journal of Enterprise Technologies, 1 (4 (91)), 32–42. doi: https://doi.org/10.15587/1729-4061.2018.121620
  16. Biloshchytskyi, A., Biloshchytska, S., Kuchansky, A., Bielova, O., Andrashko, Y. (2018). Infocommunication system of scientific activity management on the basis of project-vector methodology. 2018 14th International Conference on Advanced Trends in Radioelecrtronics, Telecommunications and Computer Engineering (TCSET). doi: https://doi.org/10.1109/tcset.2018.8336186
  17. Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., Biloshchytska, S., Danchenko, O. (2018). Development of Infocommunication System for Scientific Activity Administration of Educational Environment’s Subjects. 2018 International Scientific-Practical Conference Problems of Infocommunications. Science and Technology (PIC S&T). doi: https://doi.org/10.1109/infocommst.2018.8632036
  18. Biloshchytskyi, A., Kuchansky, A., Paliy, S., Biloshchytska, S., Bronin, S., Andrashko, Y. et. al. (2018). Development of technical component of the methodology for project­vector management of educational environments. Eastern-European Journal of Enterprise Technologies, 2 (2 (92)), 4–13. doi: https://doi.org/10.15587/1729-4061.2018.126301
  19. Mulesa, O., Snytyuk, V., Myronyuk, I. (2019). Optimal alternative selection models in a multi-stage decision-making process. EUREKA: Physics and Engineering, 6, 43–50. doi: https://doi.org/10.21303/2461-4262.2019.001005
  20. Ostakhov, V., Artykulna, N., Morozov, V. (2018). Models of IT Projects KPIs and Metrics. 2018 IEEE Second International Conference on Data Stream Mining & Processing (DSMP). doi: https://doi.org/10.1109/dsmp.2018.8478464
  21. Ostakhov, V., Morozov, V. (2019). Models and Methods of IT and Infocommunications Portfolio Management Using the System of Metrics and KPIs. 2019 IEEE International Scientific-Practical Conference Problems of Infocommunications, Science and Technology (PIC S&T). doi: https://doi.org/10.1109/picst47496.2019.9061328
  22. Kolesnіkov, O., Gogunskii, V., Kolesnikova, K., Lukianov, D., Olekh, T. (2016). Development of the model of interaction among the project, team of project and project environment in project system. Eastern-European Journal of Enterprise Technologies, 5 (9 (83)), 20–26. doi: https://doi.org/10.15587/1729-4061.2016.80769
  23. Morozov, V., Kalnichenko, O., Liubyma, I. (2017). Managing projects configuration in development distributed information systems. 2017 2nd International Conference on Advanced Information and Communication Technologies (AICT). doi: https://doi.org/10.1109/aiact.2017.8020088
  24. Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Biloshchytska, S., Chala, L. (2016). Detection of near dublicates in tables based on the locality-sensitive hashing method and the nearest neighbor method. Eastern-European Journal of Enterprise Technologies, 6 (4 (84)), 4–10. doi: https://doi.org/10.15587/1729-4061.2016.86243
  25. Rossi, R. J. (2018). Mathematical Statistics: An Introduction to Likelihood Based Inference. John Wiley & Sons. doi: https://doi.org/10.1002/9781118771075
  26. Tihonov, A. N., Arsenin, V. Ya. (1986). Metody resheniya nekorrektnyh zadach. Moscow: Nauka, 287.
  27. Blei, D. M., Ng, A. Y., Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3, 993–1022.
  28. Dietz, L., Bickel, S., Scheffer, T. (2007). Unsupervised prediction of citation influences. Proceedings of the 24th International Conference on Machine Learning - ICML ’07. doi: https://doi.org/10.1145/1273496.1273526
  29. Andrzejewski, D., Zhu, X. (2009). Latent Dirichlet Allocation with topic-in-set knowledge. Proceedings of the NAACL HLT 2009 Workshop on Semi-Supervised Learning for Natural Language Processing - SemiSupLearn ’09. doi: https://doi.org/10.3115/1621829.1621835
  30. BigARTM. Available at: https://bigartm.readthedocs.io/en/stable/intro.html
  31. Vorontsov, K. V. (2013). Veroyatnostnoe tematicheskoe modelirovanie. Available at: http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

##submission.downloads##

Опубліковано

2020-08-31

Як цитувати

Lizunov, P., Biloshchytskyi, A., Kuchansky, A., Andrashko, Y., & Biloshchytska, S. (2020). Застосування ймовірнісного латентного семантичного аналізу для ідентифікації предметних наукових просторів та оцінювання повноти висвітлення результатів дисертаційних досліджень. Eastern-European Journal of Enterprise Technologies, 4(4 (106), 21–28. https://doi.org/10.15587/1729-4061.2020.209886

Номер

Розділ

Математика та кібернетика - прикладні аспекти