Почему именно tulu3.1 Supernova?

Elite Intel это инструмент разбора команд и анализа данных, а не разговорный чат-бот. Это накладывает специфические требования к модели. Генерировать естественно звучащий диалог недостаточно. Модель должна правильно выводить действия из голосового ввода и выполнять структурированный анализ данных. Она должна возвращать результаты в форматированном JSON, а не в виде размеченного текста или HTML. Не все модели такого размера надёжно справляются с этой задачей.

Tulu 3 (базовый рецепт обучения) действительно исключителен

Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF

Большинство instruct-моделей обучаются с RLHF, который использует обученную модель вознаграждения для оценки результатов. Эта модель вознаграждения сама является нейронной сетью, поэтому наследует все обычные смещения и непоследовательности. Tulu 3 заменил это на RLVR (Reinforcement Learning with Verifiable Rewards). Вместо обученной модели вознаграждения обучение использует детерминированную функцию оценки: ответ либо правильный, либо нет. Бинарно, без смещений. Это особенно значимо для задач следования инструкциям, где сигнал вознаграждения объективен.

Конвейер обучения представляет собой четырёхэтапный подход: подготовка данных для развития ключевых навыков, контролируемая тонкая настройка, Direct Preference Optimization и RLVR поверх для оттачивания производительности на верифицируемых задачах. Каждый этап строится на предыдущем. Именно поэтому Tulu 3 на базе 8B Llama достигает результатов, превосходящих instruct-версии Llama 3.1, Qwen 2.5, Mistral и даже закрытые модели, такие как GPT-4o-mini и Claude 3.5 Haiku.

Для EliteIntel этап классификации команд является задачей следования инструкциям с верифицируемыми правильными ответами (JSON-действие X или Y). Это именно тот тип задач, который оптимизирует RLVR. Модель специально обучена для детерминированного структурированного вывода.

Почему вариант «Supernova»

Вариант Supernova отличается от стандартного Tulu 3. Tulu-3.1-8B-SuperNova создан путём линейного слияния трёх моделей: Llama-3.1-MedIT-SUN-8B (медицина/рассуждение), Llama-3.1-Tulu-3-8B (следование инструкциям) и Llama-3.1-SuperNova-Lite (дистиллированная модель Arcee), каждая с равным весом 1,0 с использованием mergekit.

Родительская модель SuperNova-Lite является дистиллированной из более крупной базы Arcee, обеспечивая плотность знаний, превышающую стандартную 8B-модель. Линейное слияние усредняет тензоры весов напрямую, объединяя знания без дополнительных вычислительных затрат на обучение. Это обеспечивает особенно сильные результаты на задачах следования инструкциям, что подтверждается оценкой IFEval.

Производительность: Модель использует архитектуру 8B Llama. При квантизации Q4_K_M на 3090 24 GB она помещается во VRAM рядом с игрой с запасом. Это позволяет избежать выгрузки на CPU и поддерживает максимальную пропускную способность инференса. Сопоставимые модели Qwen используют другие конфигурации attention head (например, соотношение GQA в Qwen2.5), которые могут работать медленнее в GGUF-бэкенде llama.cpp.

Также работает на карте с 12 GB VRAM при отсутствии других нагрузок, потребляющих VRAM. Для этого игра должна запускаться на отдельном GPU или отдельной машине.

Можно ли использовать другую модель?

Альтернативные модели можно использовать, однако они вряд ли сравнятся со скоростью и точностью tulu3.1-supernova.

Распространённые проблемы с альтернативными моделями включают неправильный формат ответа. Наиболее частая ошибка модель возвращает форматированный текст вместо структурированного действия или результата анализа.