ВИКОРИСТАННЯ ІНЖЕНЕРІЇ ОЗНАК У МОДЕЛЯХ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ ФЕЙКОВИХ НОВИН

Igor Olenych, M. Prytula, Ya. Boyko, O. Sinkevych, O. Khamar

Анотація


Стрімке збільшення обсягу інформаційних потоків, інтернет-новин і повідомлень у соціальних мережах створює нові виклики для суспільства і потребує сучасних інструментів для структуризації та аналізу інформації в режимі реального часу, а також визначення її достовірності. Важливість протидії дезінформації та забезпечення інформаційної безпеки значно зросла з початком повномасштабного російського вторгнення в Україну. Тому розробка нових, пристосованих до сучасних умов технічних засобів виявлення джерел фейкових новин та агресивної риторики є необхідними заходами для нейтралізації цифрових загроз.

У роботі запропоновано моделі класифікації текстової інформації українською та російською мовами для виявлення фейкових повідомлень. Для навчання та тестування розроблених моделей машинного навчання було використано набір із понад 4000 новин в електронних засобах масової інформації та соціальних мережах, пов’язаних із повномасштабною російською агресією. На основі аналізу новинних повідомлень за допомогою наївного класифікатора Байєса та методів опорних векторів, k-найближчих сусідів, логістичної регресії та випадкового лісу порівняно ефективність класифікації інформаційних матеріалів різними моделями машинного навчання. Особливу увагу зосереджено на шляхах підвищення ефективності класифікації новинних матеріалів. Враховуючи виявлену кореляцію між фейковими та агресивними повідомленнями, запропоновано розширити вектор ознак класифікаційних моделей інформацією емоційного характеру. Зокрема, вектор ознак, одержаний за допомогою статистичного показника Term Frequency – Inverse Document Frequency (TF–IDF), був доповнений даними про наявність агресивної риторики у повідомленні та його обсяг, значенням тональності тексту та кількістю позитивних і негативних слів.

Встановлено, що інженерія ознак дає змогу підвищити точність виявлення фейкових новин на 2–6 % для моделей машинного навчання, навчених на вибірці повідомлень українською та російською мовами. Методи опорних векторів і логістичної регресії демонструють найкращі результати класифікації текстової інформації.

Ключові слова:  комп’ютерний аналіз тексту, виявлення фейків, машинне навчання, інженерія ознак. 


Повний текст:

PDF (English)

Посилання


  1. Zhang X., Ghorbani A.A. An overview of online fake news: Characterization, detection, and discussion // Inf. Process. Manag. – 2020. – Vol. 57, no. 2. – P. 1–26.
  2. Aimeur E., Amri S., Brassard G. Fake news, disinformation and misinformation in social media: a review // Social Network Analysis and Mining. – 2023. – Vol. 13. – 30. https://doi.org/10.1007/s13278-023-01028-5.
  3. Rubin V. On deception and deception detection: Content analysis of computer-mediated stated beliefs // Proceedings of the American Society for Information Science and Technology. - 2010. https://doi.org/10.1002/meet.14504701124
  4. Zhou Z., Guan H., Bhat M.M., Hsu J. Fake News Detection via NLP is Vulnerable to Adversarial Attacks // 11th International Conference on Agents and Artificial Intelligence. – 2019. https://doi.org/10.5220/0007566307940800
  5. Villela H.F., Correa F., Ribeiro J.S. de A.N., Rabelo A., Carvalho D.B.F. Fake news detection: a systematic literature review of machine learning algorithms and datasets // Journal on Interactive Systems. - 2023. - Vol. 14. - P. 47 - 58. https://doi.org/10.5753/jis.2023.3020.
  6. Khanam Z., Alwasel B.N., Sirafi H., Rashid M. Fake News Detection Using Machine Learning Approaches // IOP Conf. Series: Materials Science and Engineering. – 2021. – Vol. 1099. – 012040. https://doi.org/10.1088/1757-899X/1099/1/012040.
  7. Umer M., Imtiaz Z., Ullah S., Mehmood A., Choi G.S., On B.W. Fake news stance detection using deep learning architecture (CNN-LSTM) // IEEE Access. – 2020. – Vol. 8. – P. 156695–156706. https://doi.org/10.1109/ACCESS.2020.3019735.
  8. Zhang G., Giachanou A., Rosso P. SceneFND: Multimodal fake news detection by modelling scene context information // Journal of Information Science. – 2022. – P. 1–13. https://doi.org/10.1177/01655515221087683
  9. Cao J., Qi P., Sheng Q., Yang T., Guo J., Li J. Exploring the role of visual content in fake news detection // In book: Disinformation, Misinformation, and Fake News in Social Media. – 2020. – P. 141–161. https://doi.org/10.1007/978-3-030-42699-6_8
  10. Song C., Ning N., Zhang Y., Wu B. A multimodal fake news detection model based on crossmodal attention residual and multichannel convolutional neural networks // Information Processing and Management. – 2021. – Vol. 58. – P. 1–14. https://doi.org/10.1016/j.ipm.2020.102437
  11. Prytula M., Olenych I. Detection of aggressive rhetoric in text using machine learning algorithms // Electronics and information technologies. – 2023. – Issue 22. – P. 34–45. https://doi.org/10.30970/eli.22.4.
  12. Thelwall M., Buckley K., Paltoglou G., Kappas A., Cai D. Sentiment strength detection in short informal text // Journal of the American Society for Information Science and Technology. – 2010. – No. 61. – P. 2544–2558.
  13. Robertson S. Understanding Inverse Document Frequency: On Theoretical Arguments for IDF // Journal of Documentation. – 2004. – Vol. 60, No. 5. – P. 503–520.
  14. Ukrainian tonal dictionary [Electronic resource]. - Mode of access: https://github.com/lang-uk/tone-dict-uk/blob/master/tone-dict-uk.tsv.
  15. Ukrainian tonal dictionary [Electronic resource]. - Mode of access: https://github.com/lang-uk/tone-dict-uk/blob/master/tone-dict-uk-manual.tsv.
  16. Russian tonal dictionary [Electronic resource]. - Mode of access: https://github.com/dkulagin/kartaslov.
  17. Vijayarani S., Nithya M.N. Efficient machine learning classifiers for automatic information classification // Int. J. Mod. Trends Eng. Res. – 2015. – Vol. 2. – P. 685–694.




DOI: http://dx.doi.org/10.30970/eli.24.5

Посилання

  • Поки немає зовнішніх посилань.