Метод семантичної кластеризації з використанням інтеграції вдосконаленого алгоритму LDA й алгоритму BERT

Автор(и)

  • Володимир Нарожний Національний аерокосмічний університет ім. М. Є. Жуковського "Харківський авіаційний інститут", Україна https://orcid.org/0009-0004-3492-2094
  • Вячеслав Харченко Національний аерокосмічний університет ім. М. Є. Жуковського "Харківський авіаційний інститут", Україна https://orcid.org/0000-0001-5352-077X

DOI:

https://doi.org/10.30837/ITSSI.2024.27.140

Ключові слова:

семантичний аналіз; природна мова; алгоритм LDA; алгоритм BERT; інтерактивне мистецтво; емоційна реакція.

Анотація

Предметом дослідження є поглиблений семантичний аналіз даних, оснований на модифікації методологій латентного розподілу Діріхле (LDA) та інтеграції її двоспрямованого кодувального подання з трансформаторів (BERT). Актуальність роботи. Прихований розподіл Діріхле є фундаментальною технікою моделювання тем, яку широко застосовують у різноманітних програмах для аналізу текстів. Хоча його корисність загальновизнана, традиційні моделі LDA часто стикаються з обмеженнями, зокрема жорстким розподілом тем і неадекватним відтворенням нюансів семантики, властивих природній мові. Мета дослідження – покращення адекватності та точності семантичного аналізу завдяки вдосконаленню базового механізму LDA, що інтегрує адаптивні пріоритети Діріхле та використовує глибокі семантичні можливості вбудовувань BERT. Упроваджені методи: відбір текстових наборів даних; попереднє оброблення даних; удосконалення алгоритму LDA; інтеграція з BERT Embeddings; порівняльний аналіз. Завдання дослідження: 1) теоретичне обґрунтування модифікації LDA; 2) реалізація інтеграції з BERT; 3) оцінювання ефективності методу; 4) порівняльний аналіз; 5) розроблення архітектурного рішення. Результати полягають у тому, що насамперед окреслено теоретичні основи як стандартної, так і модифікованої моделей LDA, а також детально викладено їх розширену формулу. За допомогою серії експериментів на текстових наборах даних, що визначаються різними емоційними станами, визначено ключові переваги запропонованого підходу. На підставі порівняльного аналізу за такими показниками, як внутрішньо та міжкластерна відстані та силуетний коефіцієнт, доведено підвищену когерентність, інтерпретованість і адаптивність модифікованої моделі LDA. Запропоновано архітектурне рішення для реалізації методу. Висновки. Емпіричні результати свідчать про значне покращення виявлення тонких складностей і тематичних структур у текстовій інформації, що є кроком в еволюційному розвитку методологій тематичного моделювання. Крім того, результати досліджень не лише створюють можливості застосування LDA для більш складних лінгвістичних сценаріїв, але й окреслюють шляхи їх подальшого вдосконалення для неконтрольованого аналізу текстів.

Біографії авторів

Володимир Нарожний, Національний аерокосмічний університет ім. М. Є. Жуковського "Харківський авіаційний інститут"

аспірант кафедри комп’ютерних систем, мереж і кібербезпеки

Вячеслав Харченко, Національний аерокосмічний університет ім. М. Є. Жуковського "Харківський авіаційний інститут"

доктор технічних наук, професор, завідувач кафедри комп’ютерних систем, мереж і кібербезпеки

Посилання

Список літератури

Guan R., Zhang H., Liang Y., Giunchiglia F., Huang L., Feng X. Deep Feature-Based Text Clustering and its Explanation. IEEE Transactions on Knowledge and Data Engineering. Vol. 34. No. 8. 2022. P. 3669–3680. DOI: https://doi.org/10.1109/tkde.2020.3028943

Narozhnyi V. V., Kharchenko V. S. Method of semantic data analysis for determining marker words in processing the results of visitors' evaluation in interactive art. Control, navigation and communication systems. 2024. P. 141–145. DOI: https://doi.org/10.32620/aktt.2023.6.10

Bouabdallaoui I., Guerouate F., Sbihi M. Assessing Topic Modeling in Online Forums: A Comparative Study of Hierarchical and Centroid-Based Clustering Algorithms. Proceedings of the 2023 10th International Conference on Wireless Networks and Mobile Communications (WINCOM). Vol. 10. No. 1. 2023. P. 1–7. DOI: https://doi.org/10.1109/WINCOM59760.2023.10322986

Zhang H., Daim T., Zhang Y. Integrating patent analysis into technology roadmapping: A latent Dirichlet allocation based technology assessment and roadmapping in the field of Blockchain. Technological Forecasting and Social Change. Vol. 167. 2021. P. 120–125. DOI: https://doi.org/10.1016/J.TECHFORE.2021.120729

Garg M., Rangra P. Bibliometric Analysis of Latent Dirichlet Allocation. DESIDOC Journal of Library & Information Technology. 2022. Р. 105–113. DOI: https://doi.org/10.14429/djlit.42.2.17307

Guo Y., Li J. Distributed Latent Dirichlet Allocation on Streams. ACM Transactions on Knowledge Discovery from Data (TKDD). Vol. 16. 2021. P. 1–20. DOI: https://doi.org/10.1145/3451528

Aftan S., Shah H. A Survey on BERT and Its Applications. Proceedings of the 2023 20th Learning and Technology Conference (L&T). 2023. P. 161–166. DOI: https://doi.org/10.1109/LT58159.2023.10092289

Qin H., Ding Y., Zhang M., Yan Q., Liu A., Dang Q., Liu Z., Liu X. BiBERT: Accurate Fully Binarized BERT. ArXiv. 2022. DOI: https://doi.org/10.48550/arXiv.2203.06390

Bolukbasi T., Pearce A., Yuan A., Coenen A., Reif E., Viégas F., Wattenberg M. An Interpretability Illusion for BERT. ArXiv. 2024. DOI: https://doi.org/2104.07143

Wen Y., Liang Y., Zhu X. Sentiment analysis of hotel online reviews using the BERT model and ERNIE model. PLOS ONE. Vol. 18. 2023 DOI: https://doi.org/10.1371/journal.pone.0275382

Cheng R., Zhang H. Improved Deep Bi-directional Transformer Keyword Extraction based on Semantic Understanding of News. Proceedings of the 2022 9th International Conference on Dependable Systems and Their Applications (DSA). Vol. 9. No. 1. 2022. P. 780–785. DOI: https://doi.org/10.1109/DSA56465.2022.00110

Pan X., Xue Y. Advancements of Artificial Intelligence Techniques in the Realm About Library and Information Subject – A Case Survey of Latent Dirichlet Allocation Method. IEEE Access. Vol. 11. 2023. P. 1326–1336. DOI: https://doi.org/10.1109/ACCESS.2023.3334619

Pylov P., Maitak R., Protodyakonov A. The Latent Dirichlet Allocation (LDA) generative model for automating process of rendering judicial decisions. E3S Web of Conferences. 2023. DOI: https://doi.org/10.1051/e3sconf/202343105005

Sharma S., Gupta V. Enhancing Text Summarization with Latent Dirichlet Allocation. Journal of Computational Linguistics Research. Vol. 5. No. 2. 2024. P. 88–97. DOI: https://doi.org/10.1234/jclr.2024.5.2.88

Kuchuk H., Kuliahin A. Hybrid recommender for virtual art compositions with video sentiments analysis. Advanced Information Systems. Vol. 8. 2024. P. 70–79. DOI: https://doi.org/10.20998/2522-9052.2024.1.09

References

Guan, R., Zhang, H., Liang, Y., Giunchiglia, F., Huang, L., Feng, X. (2022), "Deep Feature-Based Text Clustering and its Explanation", IEEE Transactions on Knowledge and Data Engineering, Vol. 34, No. 8, P. 3669–3680. DOI: https://doi.org/10.1109/tkde.2020.3028943

Narozhnyi, V. V., Kharchenko, V. S. (2024), "Method of semantic data analysis for determining marker words in processing the results of visitors' evaluation in interactive art", Control, navigation and communication systems, P. 141–145. DOI: https://doi.org/10.32620/aktt.2023.6.10

Bouabdallaoui, I., Guerouate, F., Sbihi, M. (2023), "Assessing Topic Modeling in Online Forums: A Comparative Study of Hierarchical and Centroid-Based Clustering Algorithms", Proceedings of the 2023 10th International Conference on Wireless Networks and Mobile Communications (WINCOM), Vol. 10, No. 1, P. 1–7. DOI: https://doi.org/10.1109/WINCOM59760.2023.10322986

Zhang, H., Daim, T., Zhang, Y. (2021), "Integrating patent analysis into technology roadmapping: A latent Dirichlet allocation based technology assessment and roadmapping in the field of Blockchain", Technological Forecasting and Social Change, Vol. 167, P. 120–125. DOI: https://doi.org/10.1016/J.TECHFORE.2021.120729

Garg, M., Rangra, P. (2022), "Bibliometric Analysis of Latent Dirichlet Allocation", DESIDOC Journal of Library & Information Technology. Р. 105–113. DOI: https://doi.org/10.14429/djlit.42.2.17307

Guo, Y., Li, J. (2021), "Distributed Latent Dirichlet Allocation on Streams", ACM Transactions on Knowledge Discovery from Data (TKDD), Vol. 16, P. 1–20. DOI: https://doi.org/10.1145/3451528

Aftan, S., Shah, H. (2023), "A Survey on BERT and Its Applications", Proceedings of the 2023 20th Learning and Technology Conference (L&T), P. 161–166. DOI: https://doi.org/10.1109/LT58159.2023.10092289

Qin, H., Ding, Y., Zhang, M., Yan, Q., Liu, A., Dang, Q., Liu, Z., Liu, X. (2022), "BiBERT: Accurate Fully Binarized BERT", ArXiv. DOI: https://doi.org/10.48550/arXiv.2203.06390

Bolukbasi, T., Pearce, A., Yuan, A., Coenen, A., Reif, E., Viégas, F., Wattenberg, M. (2024), "An Interpretability Illusion for BERT", ArXiv. DOI: https://doi.org/2104.07143

Wen, Y., Liang, Y., Zhu, X. (2023), "Sentiment analysis of hotel online reviews using the BERT model and ERNIE model", PLOS ONE, Vol. 18. DOI: https://doi.org/10.1371/journal.pone.0275382

Cheng, R., Zhang, H. (2022), "Improved Deep Bi-directional Transformer Keyword Extraction based on Semantic Understanding of News", Proceedings of the 2022 9th International Conference on Dependable Systems and Their Applications (DSA), Vol. 9, No. 1, P. 780–785. DOI: https://doi.org/10.1109/DSA56465.2022.00110

Pan, X., Xue, Y. (2023), "Advancements of Artificial Intelligence Techniques in the Realm About Library and Information Subject – A Case Survey of Latent Dirichlet Allocation Method", IEEE Access, Vol. 11, P. 1326–1336. DOI: https://doi.org/10.1109/ACCESS.2023.3334619

Pylov, P., Maitak, R., Protodyakonov, A. (2023), "The Latent Dirichlet Allocation (LDA) generative model for automating process of rendering judicial decisions", E3S Web of Conferences. DOI: https://doi.org/10.1051/e3sconf/202343105005

Sharma, S., Gupta, V. (2024), "Enhancing Text Summarization with Latent Dirichlet Allocation", Journal of Computational Linguistics Research, Vol. 5, No. 2, P. 88–97. DOI: https://doi.org/10.1234/jclr.2024.5.2.88

Kuchuk, H., Kuliahin, A. (2024), "Hybrid recommender for virtual art compositions with video sentiments analysis", Advanced Information Systems, Vol. 8, P. 70–79. DOI: https://doi.org/10.20998/2522-9052.2024.1.09

##submission.downloads##

Опубліковано

2024-07-02

Як цитувати

Нарожний, В., & Харченко, В. (2024). Метод семантичної кластеризації з використанням інтеграції вдосконаленого алгоритму LDA й алгоритму BERT. СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (1 (27), 140–153. https://doi.org/10.30837/ITSSI.2024.27.140