АУГМЕНТАЦІЯ ДАНИХ У КЛАСИФІКАЦІЇ ТЕКСТУ З КІЛЬКОМА КАТЕГОРІЯМИ

Bohdan Pavlyshenko, M. Stasiuk

Анотація


У сучасному світі кількість текстових даних, яка генерується кожного дня є надзвичайно великою. Однак, через різницю у використанні різних мов у повсякденному житті, кількість даних, згенерованих англійською, є набагато більшою, ніж, наприклад, українською. Більше того, є велика кількість мов, які можуть зникнути у близькому майбутньому. Через це, з’являється необхідність у методах та технологіях, які дозволяють зберегти вимираючі мови та зроблять ефективним використання цих мов у підходах машинного навчання. Одним з розроблених підходів для створення нових даних на основі вже існуючих є аугментація.

Мета цієї статті дослідити вплив аугментації даних на завдання багатокласової текстової класифікації, яке виконується різними моделями трансформерів: BERT, DistilBERT, ALBERT, and XLM-RoBERTa. Дані для тренування та тестування моделей отримано з порталу HuggingFace. Зокрема, записи з даних модифікувалися різними аугментаційними техніками, а саме: на рівні слів використані аугментації антонімами, синонімами і контекстуальними вбудуваннями слів; на рівні речень використано аугментації абстрактного формування висновку та ламбада. Замість прямого тренування та оцінки, використано тренувальну інфраструктуру, яку надає портал HuggingFace. Розглянуто різні метрики ефективності моделей, такі як: точність, влучність, f1-оцінка та відклик.

Результати роботи дозволяють порівнювати ефективність роботи кожної розглянутої моделі у завданні багатокласової класифікації. Разом з тим, оцінено ефективність різних аугментацій текстових даних. Це є важливим у процесі визначення об’єднання трансофрмерної моделі та аугментації, яке дозволяє отримати найкращі результати у завдані класифікації тексту з множиною категорій.

Ключові слова: аугментація, багатокласова класифікація тексту, BERT, ALBERT, DistilBERT, XLM-RoBERTa.


Повний текст:

PDF (English)

Посилання


  1. Shorten C., Khoshgoftaar T. M., Furht B. (2021). Text data augmentation for deep learning. Journal of big Data, 8, 1-34.
  2. Wei J., Zou K. (2019). Eda: Easy data augmentation techniques for boosting performance on text classification tasks. arXiv preprint arXiv:1901.11196.
  3. Romaine S. (2007). Preserving endangered languages. Language and Linguistics Compass, 1(1‐2), 115-132.
  4. Magueresse A., Carles V., Heetderks E. (2020). Low-resource languages: A review of past work and future challenges. arXiv preprint arXiv:2006.07264.
  5. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Polosukhin I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  6. Pavlyshenko B. M. (2023). Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model. arXiv preprint arXiv:2309.04704.
  7. Pavlyshenko B. M. (2023). Financial News Analytics Using Fine-Tuned Llama 2 GPT Model. arXiv preprint arXiv:2308.13032.
  8. Pavlyshenko B. M. (2022). Methods of Informational Trends Analytics and Fake News Detection on Twitter. arXiv preprint arXiv:2204.04891.
  9. Devlin J., Chang M. W., Lee K., Toutanova K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  10. Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Stoyanov V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
  11. Sanh V., Debut L., Chaumond J., Wolf T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.
  12. Lan Z., Chen M., Goodman S., Gimpel, K, Sharma P., Soricut R. (2019). Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.
  13. Zhang X., Zhao J., LeCun Y. (2015). Character-level convolutional networks for text classification. Advances in neural information processing systems, 28.
  14. HuggingFace [Electronic resource]. Access mode: https://huggingface.co/
  15. Ma E. (2019). Nlp augmentation.




DOI: http://dx.doi.org/10.30970/eli.25.6

Посилання

  • Поки немає зовнішніх посилань.