АУГМЕНТАЦІЯ ДАНИХ У КЛАСИФІКАЦІЇ ТЕКСТУ З КІЛЬКОМА КАТЕГОРІЯМИ
Анотація
У сучасному світі кількість текстових даних, яка генерується кожного дня є надзвичайно великою. Однак, через різницю у використанні різних мов у повсякденному житті, кількість даних, згенерованих англійською, є набагато більшою, ніж, наприклад, українською. Більше того, є велика кількість мов, які можуть зникнути у близькому майбутньому. Через це, з’являється необхідність у методах та технологіях, які дозволяють зберегти вимираючі мови та зроблять ефективним використання цих мов у підходах машинного навчання. Одним з розроблених підходів для створення нових даних на основі вже існуючих є аугментація.
Мета цієї статті дослідити вплив аугментації даних на завдання багатокласової текстової класифікації, яке виконується різними моделями трансформерів: BERT, DistilBERT, ALBERT, and XLM-RoBERTa. Дані для тренування та тестування моделей отримано з порталу HuggingFace. Зокрема, записи з даних модифікувалися різними аугментаційними техніками, а саме: на рівні слів використані аугментації антонімами, синонімами і контекстуальними вбудуваннями слів; на рівні речень використано аугментації абстрактного формування висновку та ламбада. Замість прямого тренування та оцінки, використано тренувальну інфраструктуру, яку надає портал HuggingFace. Розглянуто різні метрики ефективності моделей, такі як: точність, влучність, f1-оцінка та відклик.
Результати роботи дозволяють порівнювати ефективність роботи кожної розглянутої моделі у завданні багатокласової класифікації. Разом з тим, оцінено ефективність різних аугментацій текстових даних. Це є важливим у процесі визначення об’єднання трансофрмерної моделі та аугментації, яке дозволяє отримати найкращі результати у завдані класифікації тексту з множиною категорій.
Ключові слова: аугментація, багатокласова класифікація тексту, BERT, ALBERT, DistilBERT, XLM-RoBERTa.
Повний текст:
PDF (English)Посилання
- Shorten C., Khoshgoftaar T. M., Furht B. (2021). Text data augmentation for deep learning. Journal of big Data, 8, 1-34.
- Wei J., Zou K. (2019). Eda: Easy data augmentation techniques for boosting performance on text classification tasks. arXiv preprint arXiv:1901.11196.
- Romaine S. (2007). Preserving endangered languages. Language and Linguistics Compass, 1(1‐2), 115-132.
- Magueresse A., Carles V., Heetderks E. (2020). Low-resource languages: A review of past work and future challenges. arXiv preprint arXiv:2006.07264.
- Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Polosukhin I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
- Pavlyshenko B. M. (2023). Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model. arXiv preprint arXiv:2309.04704.
- Pavlyshenko B. M. (2023). Financial News Analytics Using Fine-Tuned Llama 2 GPT Model. arXiv preprint arXiv:2308.13032.
- Pavlyshenko B. M. (2022). Methods of Informational Trends Analytics and Fake News Detection on Twitter. arXiv preprint arXiv:2204.04891.
- Devlin J., Chang M. W., Lee K., Toutanova K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Stoyanov V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
- Sanh V., Debut L., Chaumond J., Wolf T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.
- Lan Z., Chen M., Goodman S., Gimpel, K, Sharma P., Soricut R. (2019). Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.
- Zhang X., Zhao J., LeCun Y. (2015). Character-level convolutional networks for text classification. Advances in neural information processing systems, 28.
- HuggingFace [Electronic resource]. Access mode: https://huggingface.co/
- Ma E. (2019). Nlp augmentation.
DOI: http://dx.doi.org/10.30970/eli.25.6
Посилання
- Поки немає зовнішніх посилань.