Выбор локального сервера инференции
Для запуска локального LLM с Elite Intel необходим сервер инференции. Это программное обеспечение, которое загружает модель ИИ и предоставляет к ней доступ через локальный API. Это локальный эквивалент облачного сервиса ИИ, работающий полностью на твоём собственном железе.
Elite Intel поддерживает два сервера инференции: Ollama и LM Studio. Оба совместимы и используют одинаковые модели. Выбор можно изменить в настройках в любой момент.

Требования к GPU
Требования к железу для запуска игры и LLM на одной машине:
- RTX 3090 24 ГБ VRAM
- AMD RX 7800 XT
Если железа недостаточно, воспользуйся бесплатным облачным сервисом
Таблица сравнения GPU от Kevin Rank доступна здесь: Справочник по GPU
Руководства по установке
| Сервер инференции | |
|---|---|
| ✅ LM Studio - Linux | Быстрый, больше гибкости с моделями руководство показывает настройку в качестве сервера |
| ✅ LM Studio - Windows | Быстрый, больше гибкости с моделями есть графический интерфейс |
| Ollama - Linux | Рекомендуется, если есть подходящее железо |
| Ollama - Windows | Рекомендуется, если есть подходящее железо |
Ollama vs. LM Studio: краткое сравнение
| Ollama | LM Studio | |
|---|---|---|
| Скорость | Медленнее | Быстрее |
| Рекомендуемая модель | tulu-3.1-8b-supernova Q4_K_M | tulu-3.1-8b-supernova Q4_K_M |
| Лучше всего подходит для | Простая установка, минимальное обслуживание | Больший контроль над загрузкой моделей |
| Установка | Один скрипт и готово | Один скрипт и готово |
| Запускается как | Системный сервис (автозапуск при старте) | Ручной запуск или опциональный автозапуск |
| Настройка модели | Modelfile встроен в модель | Параметры при загрузке |
| Автозапуск Windows | ✅ Работает из коробки | Требует десктопного приложения или планировщика задач |
| Автозапуск Linux | ✅ Сервис systemd в комплекте | Ручная настройка systemd |
| Источник моделей | Библиотека Ollama | HuggingFace (GGUF) |
| Порт API | 11434 |
1234 |
| Графический интерфейс | Отсутствует (только CLI) | Опциональное десктопное приложение |
Руководство по выбору
Используй Ollama, если:
- Хочешь простую установку с минимальной текущей настройкой
- Ты на Windows и не хочешь вручную настраивать автозапуск
- Ты только начинаешь работу с локальными LLM
Используй LM Studio, если:
- Тебе нужен графический интерфейс для просмотра, загрузки и управления моделями
- Ты уже знаком с HuggingFace и файлами моделей GGUF
- Хочешь экспериментировать с разными моделями без написания Modelfiles
- Запускаешь выделенную машину для инференции и нужен чистый headless-сервер
Любой вариант подходит, если:
- У тебя есть NVIDIA RTX 3090 24 ГБ или аналог либо лучше. VRAM критический фактор, а не скорость GPU. GPU с 12 ГБ VRAM недостаточно вне зависимости от поколения.
- Ты запускаешь Elite Dangerous и LLM на одной машине
- Хочешь направить Elite Intel на отдельный ПК в своей сети
Рекомендация разработчика
Разработчик использует LM Studio с matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF. Эта модель обеспечивает быструю инференцию. Та же модель на Ollama работает заметно медленнее. Приложение оптимизировано под эту модель. Другие модели могут работать, но это не гарантируется. Сообщай о результатах совместимости в Matrix.
Почему именно tulu3.1:8b Supernova?
Elite Intel это анализатор команд и инструмент анализа данных, а не разговорный чатбот. Это предъявляет специфические требования к модели. Генерировать естественно звучащие разговоры недостаточно. Модель должна правильно определять действия из голосового ввода и выполнять структурированный анализ данных. Она должна возвращать результаты в форматированном JSON, а не в виде эссе или HTML. Не все модели такого размера надёжно справляются с этой задачей.
Tulu 3 (базовый рецепт обучения) по-настоящему исключительная разработка
Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF
Большинство инструктивных моделей обучаются с помощью RLHF, который использует обученную модель вознаграждения для оценки выходных данных. Эта модель вознаграждения сама является нейронной сетью и наследует все типичные смещения и несоответствия. Tulu 3 заменил это на RLVR (обучение с подкреплением с верифицируемыми вознаграждениями). Вместо обученной модели вознаграждения обучение использует детерминированную функцию оценки: ответ либо правильный, либо нет. Бинарно, без смещений. Это особенно важно для задач следования инструкциям, где сигнал вознаграждения объективен.
Конвейер обучения это четырёхэтапный подход: куратирование данных для ключевых навыков, контролируемая тонкая настройка, оптимизация прямых предпочтений и RLVR поверх для повышения точности на верифицируемых задачах. Каждый этап строится на предыдущем. Именно поэтому Tulu 3 на базе Llama 8B достигает результатов, превосходящих instruct-версии Llama 3.1, Qwen 2.5, Mistral и даже закрытые модели, такие как GPT-4o-mini и Claude 3.5 Haiku.
Для EliteIntel этап классификации команд является задачей следования инструкциям с верифицируемыми правильными ответами (JSON-действие X или Y). Это именно тот тип задач, который оптимизирует RLVR. Модель обучена специально для детерминированного структурированного вывода.
Почему вариант «Supernova»
Вариант Supernova отличается от стандартного Tulu 3. Tulu-3.1-8B-SuperNova создаётся путём линейного слияния трёх моделей: Llama-3.1-MedIT-SUN-8B (медицина/рассуждения), Llama-3.1-Tulu-3-8B (следование инструкциям) и Llama-3.1-SuperNova-Lite (дистиллированная модель Arcee), каждая с равным весом 1.0 с использованием mergekit.
Родительская модель SuperNova-Lite это дистиллированная модель из более крупной базы Arcee, обеспечивающая плотность знаний выше, чем у стандартной модели 8B. Линейное слияние усредняет тензоры весов напрямую, объединяя знания без дополнительных вычислений обучения. Это позволяет достигать особенно сильных результатов в задачах следования инструкциям, что подтверждается оценкой IFEval.
Производительность: Модель использует архитектуру Llama 8B. При квантизации Q4_K_M на 3090 с 24 ГБ она помещается в VRAM вместе с игрой с запасом. Это позволяет избежать выгрузки на CPU и поддерживать максимальную пропускную способность инференции. Сопоставимые модели Qwen используют другие конфигурации головок внимания (например, соотношение GQA у Qwen2.5), которые могут работать медленнее в бэкенде GGUF от llama.cpp.
Она также работает на карте с 12 ГБ VRAM при отсутствии других нагрузок, потребляющих VRAM. Для этого игра должна запускаться на отдельном GPU или другой машине.
Можно ли использовать другую модель?
Альтернативные модели можно использовать, но они вряд ли сравнятся по скорости и точности с tulu3.1-supernova.
Распространённые проблемы с альтернативными моделями неправильный формат ответа. Самая частая ошибка модель возвращает эссе вместо структурированного действия или результата анализа.
Сообщество 👉Matrix👈