Метод семантичної кластеризації з використанням інтеграції вдосконаленого алгоритму LDA й алгоритму BERT
DOI:
https://doi.org/10.30837/ITSSI.2024.27.140Ключові слова:
семантичний аналіз; природна мова; алгоритм LDA; алгоритм BERT; інтерактивне мистецтво; емоційна реакція.Анотація
Предметом дослідження є поглиблений семантичний аналіз даних, оснований на модифікації методологій латентного розподілу Діріхле (LDA) та інтеграції її двоспрямованого кодувального подання з трансформаторів (BERT). Актуальність роботи. Прихований розподіл Діріхле є фундаментальною технікою моделювання тем, яку широко застосовують у різноманітних програмах для аналізу текстів. Хоча його корисність загальновизнана, традиційні моделі LDA часто стикаються з обмеженнями, зокрема жорстким розподілом тем і неадекватним відтворенням нюансів семантики, властивих природній мові. Мета дослідження – покращення адекватності та точності семантичного аналізу завдяки вдосконаленню базового механізму LDA, що інтегрує адаптивні пріоритети Діріхле та використовує глибокі семантичні можливості вбудовувань BERT. Упроваджені методи: відбір текстових наборів даних; попереднє оброблення даних; удосконалення алгоритму LDA; інтеграція з BERT Embeddings; порівняльний аналіз. Завдання дослідження: 1) теоретичне обґрунтування модифікації LDA; 2) реалізація інтеграції з BERT; 3) оцінювання ефективності методу; 4) порівняльний аналіз; 5) розроблення архітектурного рішення. Результати полягають у тому, що насамперед окреслено теоретичні основи як стандартної, так і модифікованої моделей LDA, а також детально викладено їх розширену формулу. За допомогою серії експериментів на текстових наборах даних, що визначаються різними емоційними станами, визначено ключові переваги запропонованого підходу. На підставі порівняльного аналізу за такими показниками, як внутрішньо та міжкластерна відстані та силуетний коефіцієнт, доведено підвищену когерентність, інтерпретованість і адаптивність модифікованої моделі LDA. Запропоновано архітектурне рішення для реалізації методу. Висновки. Емпіричні результати свідчать про значне покращення виявлення тонких складностей і тематичних структур у текстовій інформації, що є кроком в еволюційному розвитку методологій тематичного моделювання. Крім того, результати досліджень не лише створюють можливості застосування LDA для більш складних лінгвістичних сценаріїв, але й окреслюють шляхи їх подальшого вдосконалення для неконтрольованого аналізу текстів.
Посилання
Список літератури
Guan R., Zhang H., Liang Y., Giunchiglia F., Huang L., Feng X. Deep Feature-Based Text Clustering and its Explanation. IEEE Transactions on Knowledge and Data Engineering. Vol. 34. No. 8. 2022. P. 3669–3680. DOI: https://doi.org/10.1109/tkde.2020.3028943
Narozhnyi V. V., Kharchenko V. S. Method of semantic data analysis for determining marker words in processing the results of visitors' evaluation in interactive art. Control, navigation and communication systems. 2024. P. 141–145. DOI: https://doi.org/10.32620/aktt.2023.6.10
Bouabdallaoui I., Guerouate F., Sbihi M. Assessing Topic Modeling in Online Forums: A Comparative Study of Hierarchical and Centroid-Based Clustering Algorithms. Proceedings of the 2023 10th International Conference on Wireless Networks and Mobile Communications (WINCOM). Vol. 10. No. 1. 2023. P. 1–7. DOI: https://doi.org/10.1109/WINCOM59760.2023.10322986
Zhang H., Daim T., Zhang Y. Integrating patent analysis into technology roadmapping: A latent Dirichlet allocation based technology assessment and roadmapping in the field of Blockchain. Technological Forecasting and Social Change. Vol. 167. 2021. P. 120–125. DOI: https://doi.org/10.1016/J.TECHFORE.2021.120729
Garg M., Rangra P. Bibliometric Analysis of Latent Dirichlet Allocation. DESIDOC Journal of Library & Information Technology. 2022. Р. 105–113. DOI: https://doi.org/10.14429/djlit.42.2.17307
Guo Y., Li J. Distributed Latent Dirichlet Allocation on Streams. ACM Transactions on Knowledge Discovery from Data (TKDD). Vol. 16. 2021. P. 1–20. DOI: https://doi.org/10.1145/3451528
Aftan S., Shah H. A Survey on BERT and Its Applications. Proceedings of the 2023 20th Learning and Technology Conference (L&T). 2023. P. 161–166. DOI: https://doi.org/10.1109/LT58159.2023.10092289
Qin H., Ding Y., Zhang M., Yan Q., Liu A., Dang Q., Liu Z., Liu X. BiBERT: Accurate Fully Binarized BERT. ArXiv. 2022. DOI: https://doi.org/10.48550/arXiv.2203.06390
Bolukbasi T., Pearce A., Yuan A., Coenen A., Reif E., Viégas F., Wattenberg M. An Interpretability Illusion for BERT. ArXiv. 2024. DOI: https://doi.org/2104.07143
Wen Y., Liang Y., Zhu X. Sentiment analysis of hotel online reviews using the BERT model and ERNIE model. PLOS ONE. Vol. 18. 2023 DOI: https://doi.org/10.1371/journal.pone.0275382
Cheng R., Zhang H. Improved Deep Bi-directional Transformer Keyword Extraction based on Semantic Understanding of News. Proceedings of the 2022 9th International Conference on Dependable Systems and Their Applications (DSA). Vol. 9. No. 1. 2022. P. 780–785. DOI: https://doi.org/10.1109/DSA56465.2022.00110
Pan X., Xue Y. Advancements of Artificial Intelligence Techniques in the Realm About Library and Information Subject – A Case Survey of Latent Dirichlet Allocation Method. IEEE Access. Vol. 11. 2023. P. 1326–1336. DOI: https://doi.org/10.1109/ACCESS.2023.3334619
Pylov P., Maitak R., Protodyakonov A. The Latent Dirichlet Allocation (LDA) generative model for automating process of rendering judicial decisions. E3S Web of Conferences. 2023. DOI: https://doi.org/10.1051/e3sconf/202343105005
Sharma S., Gupta V. Enhancing Text Summarization with Latent Dirichlet Allocation. Journal of Computational Linguistics Research. Vol. 5. No. 2. 2024. P. 88–97. DOI: https://doi.org/10.1234/jclr.2024.5.2.88
Kuchuk H., Kuliahin A. Hybrid recommender for virtual art compositions with video sentiments analysis. Advanced Information Systems. Vol. 8. 2024. P. 70–79. DOI: https://doi.org/10.20998/2522-9052.2024.1.09
References
Guan, R., Zhang, H., Liang, Y., Giunchiglia, F., Huang, L., Feng, X. (2022), "Deep Feature-Based Text Clustering and its Explanation", IEEE Transactions on Knowledge and Data Engineering, Vol. 34, No. 8, P. 3669–3680. DOI: https://doi.org/10.1109/tkde.2020.3028943
Narozhnyi, V. V., Kharchenko, V. S. (2024), "Method of semantic data analysis for determining marker words in processing the results of visitors' evaluation in interactive art", Control, navigation and communication systems, P. 141–145. DOI: https://doi.org/10.32620/aktt.2023.6.10
Bouabdallaoui, I., Guerouate, F., Sbihi, M. (2023), "Assessing Topic Modeling in Online Forums: A Comparative Study of Hierarchical and Centroid-Based Clustering Algorithms", Proceedings of the 2023 10th International Conference on Wireless Networks and Mobile Communications (WINCOM), Vol. 10, No. 1, P. 1–7. DOI: https://doi.org/10.1109/WINCOM59760.2023.10322986
Zhang, H., Daim, T., Zhang, Y. (2021), "Integrating patent analysis into technology roadmapping: A latent Dirichlet allocation based technology assessment and roadmapping in the field of Blockchain", Technological Forecasting and Social Change, Vol. 167, P. 120–125. DOI: https://doi.org/10.1016/J.TECHFORE.2021.120729
Garg, M., Rangra, P. (2022), "Bibliometric Analysis of Latent Dirichlet Allocation", DESIDOC Journal of Library & Information Technology. Р. 105–113. DOI: https://doi.org/10.14429/djlit.42.2.17307
Guo, Y., Li, J. (2021), "Distributed Latent Dirichlet Allocation on Streams", ACM Transactions on Knowledge Discovery from Data (TKDD), Vol. 16, P. 1–20. DOI: https://doi.org/10.1145/3451528
Aftan, S., Shah, H. (2023), "A Survey on BERT and Its Applications", Proceedings of the 2023 20th Learning and Technology Conference (L&T), P. 161–166. DOI: https://doi.org/10.1109/LT58159.2023.10092289
Qin, H., Ding, Y., Zhang, M., Yan, Q., Liu, A., Dang, Q., Liu, Z., Liu, X. (2022), "BiBERT: Accurate Fully Binarized BERT", ArXiv. DOI: https://doi.org/10.48550/arXiv.2203.06390
Bolukbasi, T., Pearce, A., Yuan, A., Coenen, A., Reif, E., Viégas, F., Wattenberg, M. (2024), "An Interpretability Illusion for BERT", ArXiv. DOI: https://doi.org/2104.07143
Wen, Y., Liang, Y., Zhu, X. (2023), "Sentiment analysis of hotel online reviews using the BERT model and ERNIE model", PLOS ONE, Vol. 18. DOI: https://doi.org/10.1371/journal.pone.0275382
Cheng, R., Zhang, H. (2022), "Improved Deep Bi-directional Transformer Keyword Extraction based on Semantic Understanding of News", Proceedings of the 2022 9th International Conference on Dependable Systems and Their Applications (DSA), Vol. 9, No. 1, P. 780–785. DOI: https://doi.org/10.1109/DSA56465.2022.00110
Pan, X., Xue, Y. (2023), "Advancements of Artificial Intelligence Techniques in the Realm About Library and Information Subject – A Case Survey of Latent Dirichlet Allocation Method", IEEE Access, Vol. 11, P. 1326–1336. DOI: https://doi.org/10.1109/ACCESS.2023.3334619
Pylov, P., Maitak, R., Protodyakonov, A. (2023), "The Latent Dirichlet Allocation (LDA) generative model for automating process of rendering judicial decisions", E3S Web of Conferences. DOI: https://doi.org/10.1051/e3sconf/202343105005
Sharma, S., Gupta, V. (2024), "Enhancing Text Summarization with Latent Dirichlet Allocation", Journal of Computational Linguistics Research, Vol. 5, No. 2, P. 88–97. DOI: https://doi.org/10.1234/jclr.2024.5.2.88
Kuchuk, H., Kuliahin, A. (2024), "Hybrid recommender for virtual art compositions with video sentiments analysis", Advanced Information Systems, Vol. 8, P. 70–79. DOI: https://doi.org/10.20998/2522-9052.2024.1.09
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
![Creative Commons License](http://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.