Розробка моделей кластеризації холдерів розширених думок на основі агрегованих стилометричних та сентимен-ознак повідомлень у чатах
DOI:
https://doi.org/10.15587/2706-5448.2025.344630Ключові слова:
моделі кластеризації, обробка природної мови, семантичний та сентимент-аналіз, поясненний штучний інтелектАнотація
Об'єктом дослідження є процес моніторингу груп авторів думок у соціальних медіа на основі стилометричних та сентимент-ознак. Предметом дослідження є методи та технології моніторингу груп авторів думок у соціальних медіа на основі стилометричних та сентимент-ознак. Однією з найважливіших проблем є зростаюча складність текстового контенту, що ускладнює аналіз поведінки користувачів через анонімність, неформальну мову, сленг, емодзі та нестандартні стилі письма. Стабільні, довгострокові моделі поведінки не вловлюються методами, заснованими на оцінці окремих повідомлень.
У цьому дослідженні пропонується метод кластеризації на рівні холдера, заснований на агрегованих стилометричних та сентимент-ознаках, взятих з кількох повідомлень на користувача. Методологія включає агломеративну ієрархічну кластеризацію, покращену аналізом дерева рішень для вибору ознак та інтерпретації кластерів, нормалізацією квантилів, зменшенням розмірності за допомогою PCA (LiveJournal надав шість компонентів, що пояснюють 81,7% дисперсії, тоді як Instagram надав чотири компоненти, що пояснюють 83,5% дисперсії) та попередньою обробкою даних (VarianceThreshold, видалення висококорельованих ознак). Зрештою, більшість користувачів були охоплені двома кластерами для LiveJournal та трьома кластерами для Instagram. Результатом є набір моделей кластеризації, які ефективно групують холдерів у логічні, зрозумілі кластери на основі їхнього загального стилю спілкування та емоційного вираження. Основні переваги запропонованого підходу полягають у наступному: агрегація на рівні холдерів забезпечує стабільність та узгодженість профілювання; двоетапна кластеризація з проміжним вибором ознак покращує поясненність; метод демонструє кросплатформну застосовність, перевірену як на LiveJournal, так і в Instagram. Як результат, з часом можна розробити точніші та динамічніші профілі користувачів, що дозволить покращити аналіз настроїв, автоматизувати модерацію та налаштувати взаємодію з користувачами. Цей підхід пропонує значні переваги порівняно з методами аналізу окремих повідомлень з точки зору прозорості результатів, глибини поведінкового розуміння та стабільності профілю. Індивідуальні рекомендації в соціальних мережах, автоматизована модерація та аналіз соціальних настроїв можуть отримати користь від результатів дослідження.
Посилання
- Sydorenko, V., Kravchenko, S., Rychok, Y., Zeman, K. (2020). Method of Classification of Tonal Estimations Time Series in Problems of Intellectual Analysis of Text Content. Transportation Research Procedia, 44, 102–109. https://doi.org/10.1016/j.trpro.2020.02.015
- Sydorenko, V., Rychok, Y., Oladko, M. (2022). Method for Evaluation the Pattern of Internet Service Customers Based on Stylometric Analysis Oof their Text Content. 2022 IEEE 4th International Conference on Modern Electrical and Energy System (MEES), 1–6. https://doi.org/10.1109/mees58014.2022.10005654
- F. Mosteller and D.L. Wallace Inference and Disputed Authorship; The Federalist. Addison-Wesley Series in Behavioral Science; Quantitative Methods. Reading, Mass., Palo Alto, London, Addison-Wesley Publishing Company, Inc., 1964, XV p. 287 p., $ 12.50. (1965). Recherches Économiques de Louvain, 31 (8), 721–721. https://doi.org/10.1017/s0770451800020777
- Stamatatos, E. (2008). A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 60 (3), 538–556. https://doi.org/10.1002/asi.21001
- Rangel, F., Rosso, P., Koppel, M., Stamatatos, E., Inches, G. (2013). Overview of the Author Profiling Task at PAN 2013. Working Notes of CLEF 2013 Conference. Valencia: CEUR, 1179. https://ceur-ws.org/Vol-1179/CLEF2013wn-PAN-RangelEt2013.pdf
- Giorgi, S., Preoţiuc-Pietro, D., Buffone, A., Rieman, D., Ungar, L., Schwartz, H. A. (2018). The Remarkable Benefit of User-Level Aggregation for Lexical-based Population-Level Predictions. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 1167–1172. https://doi.org/10.18653/v1/d18-1148
- Chyzhmak, H., Sydorenko, V. (2023). Classification models of direct opinion holders in the space of stylometric and sentiment features of chat messages. 2023 IEEE 5th International Conference on Modern Electrical and Energy System (MEES), 1–6. https://doi.org/10.1109/mees61502.2023.10402395
- Rychok, Yu. S., Sydorenko, V. M. (2021). Model otsinky sentyment-komponent u zadachakh sentyment-analizu skladnoho tekstovoho kontenta. Fizychni protsesy ta polia tekhnichnykh i biolohichnykh obiektiv. Kremenchuk, 83–86.
- LiveJournal. Available at: https://www.livejournal.com/
- Instagram. Available at: https://www.instagram.com
- Ali, S., Abuhmed, T., El-Sappagh, S., Muhammad, K., Alonso-Moral, J. M., Confalonieri, R. et al. (2023). Explainable Artificial Intelligence (XAI): What we know and what is left to attain Trustworthy Artificial Intelligence. Information Fusion, 99, 101805. https://doi.org/10.1016/j.inffus.2023.101805
- GitHub – agentcooper/node-livejournal: LiveJournal API. Available at: https://github.com/agentcooper/node-livejournal
- 7 000 000 Russian comments from Instagram (2025). Available at: https://t.me/danokhlopkov/395
- VarianceThreshold. Scikit-learn. Available at: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html
- Kuhn, M., Johnson, K. (2013). Applied Predictive Modeling. New York: Springer. https://doi.org/10.1007/978-1-4614-6849-3
- Amaratunga, D., Cabrera, J. (2001). Analysis of Data From Viral DNA Microchips. Journal of the American Statistical Association, 96 (456), 1161–1170. https://doi.org/10.1198/016214501753381814
- Aitchison, J., Brown, J. A. C. (1958). The Lognormal Distribution. The Incorporated Statistician, 8 (3), 145. https://doi.org/10.2307/2986416
- Box, G. E. P., Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical Society, Series B, 26 (2), 211–252. Available at: http://www.econ.illinois.edu/~econ508/Papers/boxcox64.pdf
- Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2 (11), 559–572. https://doi.org/10.1080/14786440109462720
- Nielsen, F. (2016). Hierarchical Clustering. Introduction to HPC with MPI for Data Science. Cham: Springer, 195–211. https://doi.org/10.1007/978-3-319-21903-5_8
- Rudin, C. (2019). Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence, 1 (5), 206–215. https://doi.org/10.1038/s42256-019-0048-x
- Phillips, P. J., Hahn, C. A., Fontana, P. C., Yates, A. N., Greene, K., Broniatowski, D. A., Przybocki, M. A. (2021). Four principles of explainable artificial intelligence. National Institute of Standards and Technology. https://doi.org/10.6028/nist.ir.8312
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Heorhii Chyzhmak, Valeriy Sydorenko

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.




