Выбор локального сервера инференции

Для запуска локального LLM с Elite Intel необходим сервер инференции. Это программное обеспечение, которое загружает модель ИИ и предоставляет к ней доступ через локальный API. Это локальный эквивалент облачного сервиса ИИ, работающий полностью на твоём собственном железе.

Elite Intel поддерживает два сервера инференции: Ollama и LM Studio. Оба совместимы и используют одинаковые модели. Выбор можно изменить в настройках в любой момент.

loca llm ui

Требования к GPU

Требования к железу для запуска игры и LLM на одной машине:

  • RTX 3090 24 ГБ VRAM
  • AMD RX 7800 XT

Если железа недостаточно, воспользуйся бесплатным облачным сервисом

Таблица сравнения GPU от Kevin Rank доступна здесь: Справочник по GPU


Руководства по установке

Сервер инференции
✅ LM Studio - Linux Быстрый, больше гибкости с моделями руководство показывает настройку в качестве сервера
✅ LM Studio - Windows Быстрый, больше гибкости с моделями есть графический интерфейс
Ollama - Linux Рекомендуется, если есть подходящее железо
Ollama - Windows Рекомендуется, если есть подходящее железо

Ollama vs. LM Studio: краткое сравнение

Ollama LM Studio
Скорость Медленнее Быстрее
Рекомендуемая модель tulu-3.1-8b-supernova Q4_K_M tulu-3.1-8b-supernova Q4_K_M
Лучше всего подходит для Простая установка, минимальное обслуживание Больший контроль над загрузкой моделей
Установка Один скрипт и готово Один скрипт и готово
Запускается как Системный сервис (автозапуск при старте) Ручной запуск или опциональный автозапуск
Настройка модели Modelfile встроен в модель Параметры при загрузке
Автозапуск Windows ✅ Работает из коробки Требует десктопного приложения или планировщика задач
Автозапуск Linux ✅ Сервис systemd в комплекте Ручная настройка systemd
Источник моделей Библиотека Ollama HuggingFace (GGUF)
Порт API 11434 1234
Графический интерфейс Отсутствует (только CLI) Опциональное десктопное приложение

Руководство по выбору

Используй Ollama, если:

  • Хочешь простую установку с минимальной текущей настройкой
  • Ты на Windows и не хочешь вручную настраивать автозапуск
  • Ты только начинаешь работу с локальными LLM

Используй LM Studio, если:

  • Тебе нужен графический интерфейс для просмотра, загрузки и управления моделями
  • Ты уже знаком с HuggingFace и файлами моделей GGUF
  • Хочешь экспериментировать с разными моделями без написания Modelfiles
  • Запускаешь выделенную машину для инференции и нужен чистый headless-сервер

Любой вариант подходит, если:

  • У тебя есть NVIDIA RTX 3090 24 ГБ или аналог либо лучше. VRAM критический фактор, а не скорость GPU. GPU с 12 ГБ VRAM недостаточно вне зависимости от поколения.
  • Ты запускаешь Elite Dangerous и LLM на одной машине
  • Хочешь направить Elite Intel на отдельный ПК в своей сети

Рекомендация разработчика

Разработчик использует LM Studio с matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF. Эта модель обеспечивает быструю инференцию. Та же модель на Ollama работает заметно медленнее. Приложение оптимизировано под эту модель. Другие модели могут работать, но это не гарантируется. Сообщай о результатах совместимости в Matrix.

Почему именно tulu3.1:8b Supernova?

Elite Intel это анализатор команд и инструмент анализа данных, а не разговорный чатбот. Это предъявляет специфические требования к модели. Генерировать естественно звучащие разговоры недостаточно. Модель должна правильно определять действия из голосового ввода и выполнять структурированный анализ данных. Она должна возвращать результаты в форматированном JSON, а не в виде эссе или HTML. Не все модели такого размера надёжно справляются с этой задачей.

Tulu 3 (базовый рецепт обучения) по-настоящему исключительная разработка

Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF

Большинство инструктивных моделей обучаются с помощью RLHF, который использует обученную модель вознаграждения для оценки выходных данных. Эта модель вознаграждения сама является нейронной сетью и наследует все типичные смещения и несоответствия. Tulu 3 заменил это на RLVR (обучение с подкреплением с верифицируемыми вознаграждениями). Вместо обученной модели вознаграждения обучение использует детерминированную функцию оценки: ответ либо правильный, либо нет. Бинарно, без смещений. Это особенно важно для задач следования инструкциям, где сигнал вознаграждения объективен.

Конвейер обучения это четырёхэтапный подход: куратирование данных для ключевых навыков, контролируемая тонкая настройка, оптимизация прямых предпочтений и RLVR поверх для повышения точности на верифицируемых задачах. Каждый этап строится на предыдущем. Именно поэтому Tulu 3 на базе Llama 8B достигает результатов, превосходящих instruct-версии Llama 3.1, Qwen 2.5, Mistral и даже закрытые модели, такие как GPT-4o-mini и Claude 3.5 Haiku.

Для EliteIntel этап классификации команд является задачей следования инструкциям с верифицируемыми правильными ответами (JSON-действие X или Y). Это именно тот тип задач, который оптимизирует RLVR. Модель обучена специально для детерминированного структурированного вывода.

Почему вариант «Supernova»

Вариант Supernova отличается от стандартного Tulu 3. Tulu-3.1-8B-SuperNova создаётся путём линейного слияния трёх моделей: Llama-3.1-MedIT-SUN-8B (медицина/рассуждения), Llama-3.1-Tulu-3-8B (следование инструкциям) и Llama-3.1-SuperNova-Lite (дистиллированная модель Arcee), каждая с равным весом 1.0 с использованием mergekit.

Родительская модель SuperNova-Lite это дистиллированная модель из более крупной базы Arcee, обеспечивающая плотность знаний выше, чем у стандартной модели 8B. Линейное слияние усредняет тензоры весов напрямую, объединяя знания без дополнительных вычислений обучения. Это позволяет достигать особенно сильных результатов в задачах следования инструкциям, что подтверждается оценкой IFEval.

Производительность: Модель использует архитектуру Llama 8B. При квантизации Q4_K_M на 3090 с 24 ГБ она помещается в VRAM вместе с игрой с запасом. Это позволяет избежать выгрузки на CPU и поддерживать максимальную пропускную способность инференции. Сопоставимые модели Qwen используют другие конфигурации головок внимания (например, соотношение GQA у Qwen2.5), которые могут работать медленнее в бэкенде GGUF от llama.cpp.

Она также работает на карте с 12 ГБ VRAM при отсутствии других нагрузок, потребляющих VRAM. Для этого игра должна запускаться на отдельном GPU или другой машине.

Можно ли использовать другую модель?

Альтернативные модели можно использовать, но они вряд ли сравнятся по скорости и точности с tulu3.1-supernova.

Распространённые проблемы с альтернативными моделями неправильный формат ответа. Самая частая ошибка модель возвращает эссе вместо структурированного действия или результата анализа.


Сообщество 👉Matrix👈