Bohdan Pavlyshenko, I. Bulka


У роботі проведено комплексний аналіз і порівняльне дослідження двох великих мовних моделей, а саме LLaMA 2 і Mixtral, з акцентом на їхній продуктивності при виконанні навчальних завдань. Це моделі з відкритим кодом і доступні для широкого загалу. Дані моделі уже навчені на великих наборах даних і нашею задачею було їхнє тонке налаштування.

Моделі були налаштовані за допомогою методів, таких як LoRA та QLoRA, які застосовувалися до великих наборів даних інструкцій. Основною ідеєю даних методів - є ефективне використання ресурсів за рахунок оптимізації тренувального процесу і параметрів. Тренувальний датасет складався з 10 тисяч інструкцій. Задачею тонкого налаштування було навчити моделі ефективно слідувати інструкціям.

Процес тонкого налаштування було покращено завдяки реалізації параметрів-ефективного тонкого налаштування (PEFT) з використанням графічного процесора NVIDIA A100 Tensor Core GPU, що забезпечує оптимальну продуктивність. Обидві моделі LLaMA 2 і Mixtral були налаштовані за допомогою платформ Hugging Face і PyTorch, використовуючи підтримку однакових параметрів для забезпечення порівняння. Тонке налаштування обох моделей відбувалось на протязі 2 епох.

На протязі навчання, моделі евалюейтились, щоб зрозуміти наскільки ефективно проходить навчання. Основною метрикою для евалюейшину моделі була лосс функція.

Аналіз моделей був зроблений на основі даних, які не були включені у фазу навчання і евалюейшину. Цей підхід було прийнято для перевірки здатності моделей узагальнювати та адаптуватися до нових, невідомих даних, забезпечуючи таким чином більш надійну оцінку їх ефективності. З  допомогою бібліотеки RAGAS і спеціально створеної метрики GPT-4 score було створено систему оцінювання ефективності  LLM моделей. Дані моделі оцінювались на основі декількох метрик для більш надійної оцінки.

Хоча модель LLaMA 2 демонструє швидшу швидкість тонкого налаштування, вона чутлива до перенавчання. З іншого боку, Mixtrail, незважаючи на те, що вимагає більше часу для навчання, показує кращі метрики, що робить його більш надійним інструментом для виконання завдань зв’язаних зі виконанням інструкцій.

Ключові слова: великі мовні моделі PEFT, Lora, Qlora, Mixtral, LLaMA, тонке налаштування великих мовних моделей.

