Розробка інструменту виявлення фейкових новин для в'єтнамської мови на основі методів глибокого навчання
DOI:
https://doi.org/10.15587/1729-4061.2022.265317Ключові слова:
виявлення фейкових новин, обробка природної мови, глибоке навчання, ЗНМ, РНМАнотація
З розвитком Інтернету, соціальних мереж і різних каналів комунікації люди можуть отримувати інформацію швидко та легко. Однак, крім реальних та корисних новин, ми також отримуємо неправдиву і несправжню інформацію. Проблема фейкових новин стала складним та невирішеним питанням. Для мов з невеликою кількістю користувачів, таких як в'єтнамська, дослідження з виявлення фейкових новин все ще дуже обмежені і не отримали великої уваги.
У даній роботі представлені результати дослідження по створенню інструменту виявлення фейкових новин для в'єтнамської мови. Наша ідея полягає у застосуванні методів класифікації тексту для виявлення фейкових новин. Нами створена база даних з 4 груп за 2 темами про політику (фейкові новини та реальні новини) і про Covid-19 (фейкові новини та реальні новини). Потім використані методи глибокого навчання ЗНМ (згорткова нейронна мережа) та РНМ (рекурентна нейронна мережа) для створення відповідних моделей. При появі нових новин, які необхідно перевірити, потрібно просто застосувати класифікацію, щоб побачити, до якої з чотирьох груп вони належать, щоб вирішити, чи є вони фейковими новинами чи ні. Даний інструмент дозволив швидко і легко виявити фейкові новини з імовірністю близько 85 %. Цей результат може бути поліпшений при збільшенні набору навчальних даних і налаштуванні параметрів моделі машинного навчання. Дані результати вносять важливий внесок у дослідження з виявлення фейкових новин для в'єтнамської мови і можуть бути застосовані до інших мов. Надалі, окрім використання методів класифікації (заснованих на контент-аналізі), ми можемо комбінувати багато інших методів, таких як перевірка джерела, перевірка інформації автора, перевірка процесу поширення для підвищення ефективності виявлення фейковий новин.
Спонсор дослідження
- This research was funded by the Ministry of Education and Training (Vietnam) through the project code B2022-DNA-17.
Посилання
- Watson, A. (2022). Trust in media worldwide 2021. Statista. Available at: https://www.statista.com/statistics/683336/media-trust-worldwide/
- Fallis, D. (2015). What Is Disinformation? Library Trends, 63 (3), 401–426. doi: https://doi.org/10.1353/lib.2015.0014
- Wardle, C., Derakhshan, H. (2017). Information disorder: Toward an interdisciplinary framework for research and policy making. Council of Europe, 109.
- Nguyen, D. Q., Tuan Nguyen, A. (2020). PhoBERT: Pre-trained language models for Vietnamese. Findings of the Association for Computational Linguistics: EMNLP 2020. doi: https://doi.org/10.18653/v1/2020.findings-emnlp.92
- Le, D.-T., Vu, X.-S., To, N.-D., Nguyen, H.-Q., Nguyen, T.-T., Le, L. et. al. (2020). ReINTEL: A multimodal data challenge for responsible information identification on social network sites. arXiv. doi: https://doi.org/10.48550/arXiv.2012.08895
- Molina, M. D., Sundar, S. S., Le, T., Lee, D. (2019). “Fake News” Is Not Simply False Information: A Concept Explication and Taxonomy of Online Content. American Behavioral Scientist, 65 (2), 180–212. doi: https://doi.org/10.1177/0002764219878224
- Miller, T., Howe, P., Sonenberg, L. (2017). Explainable AI: Beware of inmates running the asylum or: How I learnt to stop worrying and love the social and behavioural sciences. arXiv. doi: https://doi.org/10.48550/arXiv.1712.00547
- Chadwick, A., Stanyer, J. (2021). Deception as a Bridging Concept in the Study of Disinformation, Misinformation, and Misperceptions: Toward a Holistic Framework. Communication Theory, 32 (1), 1–24. doi: https://doi.org/10.1093/ct/qtab019
- Zhou, X., Wu, J., Zafarani, R. (2020). SAFE: Similarity-Aware Multi-modal Fake News Detection. Lecture Notes in Computer Science, 354–367. doi: https://doi.org/10.1007/978-3-030-47436-2_27
- Zhou, X., Zafarani, R. (2019). Network-based Fake News Detection. ACM SIGKDD Explorations Newsletter, 21 (2), 48–60. doi: https://doi.org/10.1145/3373464.3373473
- Kollias, D., Zafeiriou, S. (2021). Exploiting Multi-CNN Features in CNN-RNN Based Dimensional Emotion Recognition on the OMG in-the-Wild Dataset. IEEE Transactions on Affective Computing, 12 (3), 595–606. doi: https://doi.org/10.1109/taffc.2020.3014171
- Elhadad, M. K., Li, K. F., Gebali, F. (2019). A Novel Approach for Selecting Hybrid Features from Online News Textual Metadata for Fake News Detection. Lecture Notes in Networks and Systems, 914–925. doi: https://doi.org/10.1007/978-3-030-33509-0_86
- Keeling, R., Chhatwal, R., Huber-Fliflet, N., Zhang, J., Wei, F., Zhao, H. et. al. (2019). Empirical Comparisons of CNN with Other Learning Algorithms for Text Classification in Legal Document Review. 2019 IEEE International Conference on Big Data (Big Data). doi: https://doi.org/10.1109/bigdata47090.2019.9006248
- Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). doi: https://doi.org/10.3115/v1/d14-1181
- Yu, Y., Si, X., Hu, C., Zhang, J. (2019). A Review of Recurrent Neural Networks: LSTM Cells and Network Architectures. Neural Computation, 31 (7), 1235–1270. doi: https://doi.org/10.1162/neco_a_01199
- Ketkar, N. (2017). Introduction to Keras. Deep Learning with Python, 97–111. doi: https://doi.org/10.1007/978-1-4842-2766-4_7
![Development of a fake news detection tool for Vietnamese based on deep learning techniques](https://journals.uran.ua/public/journals/3/submission_265317_303264_coverImage_uk_UA.jpg)
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2022 Trung Hung Vo, Thi Le Thuyen Phan, Khanh Chi Ninh
![Creative Commons License](http://i.creativecommons.org/l/by/4.0/88x31.png)
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.