Чому саме tulu3.1 Supernova?

Elite Intel це інструмент для розбору команд та аналізу даних, а не розмовний чат-бот. Це накладає специфічні вимоги до моделі. Генерувати природньо звучачу розмову недостатньо. Модель має правильно виводити дії з голосового введення та виконувати структурований аналіз даних. Вона повинна повертати результати у форматованому JSON, а не у вигляді розмітки чи HTML. Не всі моделі такого розміру надійно виконують це завдання.

Tulu 3 (базовий рецепт навчання) є справді виключним

Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF

Більшість instruct-моделей навчаються з RLHF, який використовує навчену модель винагороди для оцінки результатів. Ця модель винагороди сама є нейронною мережею, тому успадковує всі звичайні упередження та непослідовності. Tulu 3 замінив це на RLVR (Reinforcement Learning with Verifiable Rewards). Замість навченої моделі винагороди навчання використовує детерміновану функцію оцінки: відповідь або правильна, або ні. Бінарно, без упереджень. Це особливо впливово для завдань слідування інструкціям, де сигнал винагороди є об'єктивним.

Конвеєр навчання є чотириетапним підходом: підготовка даних для розвитку ключових навичок, контрольоване тонке налаштування, Direct Preference Optimization та RLVR поверх для загострення продуктивності на верифікованих завданнях. Кожен етап будується на попередньому. Саме тому Tulu 3 на базі 8B Llama досягає результатів, що перевершують instruct-версії Llama 3.1, Qwen 2.5, Mistral і навіть закриті моделі, як-от GPT-4o-mini та Claude 3.5 Haiku.

Для EliteIntel етап класифікації команд є завданням слідування інструкціям із верифікованими правильними відповідями (JSON-дія X або Y). Це саме той тип завдань, який оптимізує RLVR. Модель спеціально навчена для детермінованого структурованого виводу.

Чому варіант «Supernova»

Варіант Supernova відрізняється від стандартного Tulu 3. Tulu-3.1-8B-SuperNova створений шляхом лінійного злиття трьох моделей: Llama-3.1-MedIT-SUN-8B (медицина/міркування), Llama-3.1-Tulu-3-8B (слідування інструкціям) та Llama-3.1-SuperNova-Lite (дистильована модель Arcee), кожна з рівною вагою 1,0 з використанням mergekit.

Батьківська модель SuperNova-Lite є дистильованою з більшої бази Arcee, що забезпечує щільність знань, яка перевищує стандартну 8B-модель. Лінійне злиття усереднює тензори ваг безпосередньо, комбінуючи знання без додаткових обчислювальних витрат на навчання. Це досягає особливо сильних результатів на завданнях слідування інструкціям, що підтверджується оцінкою IFEval.

Продуктивність: Модель використовує архітектуру 8B Llama. При квантизації Q4_K_M на 3090 24 GB вона вміщується у VRAM поряд із грою з запасом. Це дозволяє уникнути вивантаження на CPU та підтримує максимальну пропускну здатність інференсу. Порівнянні моделі Qwen використовують інші конфігурації attention head (наприклад, співвідношення GQA у Qwen2.5), які можуть працювати повільніше у GGUF-бекенді llama.cpp.

Також працює на карті з 12 GB VRAM, якщо відсутні інші навантаження, що споживають VRAM. Для цього гра має запускатися на окремому GPU або окремій машині.

Чи можу я використати іншу модель?

Альтернативні моделі можна використовувати, але вони навряд чи зрівняються зі швидкістю та точністю tulu3.1-supernova.

Поширені проблеми з альтернативними моделями включають неправильний формат відповіді. Найчастіша помилка модель повертає відформатований текст замість структурованої дії або результату аналізу.