Elegir un servidor de inferencia local

Para ejecutar un LLM local con Elite Intel, se necesita un servidor de inferencia. Es un software que carga el modelo de IA y lo sirve a través de una API local. Es el equivalente local de un servicio de IA en la nube, pero funciona completamente en tu propio hardware.

Elite Intel es compatible con dos servidores de inferencia: Ollama y LM Studio. Ambos son compatibles y utilizan los mismos modelos. La elección puede cambiarse en la configuración en cualquier momento.

loca llm ui

Requisitos de GPU

Requisitos de hardware para ejecutar el juego y el LLM en la misma máquina:

  • RTX 3090 24 GB de VRAM
  • AMD RX 7800 XT

Si no dispones del hardware suficiente, utiliza el servicio gratuito en la nube

Una tabla de referencia de GPU proporcionada por Kevin Rank está disponible aquí: Guía de referencia de GPU


Guías de instalación

Servidor de inferencia
✅ LM Studio - Linux Rápido, mayor flexibilidad de modelos la guía muestra cómo configurarlo como servidor
✅ LM Studio - Windows Rápido, mayor flexibilidad de modelos incluye interfaz gráfica
Ollama - Linux Recomendado si tienes el hardware necesario para ejecutarlo
Ollama - Windows Recomendado si tienes el hardware necesario para ejecutarlo

Ollama vs. LM Studio de un vistazo

Ollama LM Studio
Velocidad Más lento Más rápido
Modelo preferido tulu-3.1-8b-supernova Q4_K_M tulu-3.1-8b-supernova Q4_K_M
Ideal para Configuración sencilla, mantenimiento mínimo Mayor control sobre la carga del modelo
Instalación Un script y listo Un script y listo
Se ejecuta como Servicio del sistema (inicio automático) Inicio manual o inicio automático opcional
Ajuste de modelo Modelfile integrado en el modelo Parámetros al momento de carga
Inicio automático Windows ✅ Funciona sin configuración adicional Requiere la aplicación de escritorio o el Programador de tareas
Inicio automático Linux ✅ Servicio systemd incluido Configuración manual de systemd
Fuente de modelos Biblioteca de Ollama HuggingFace (GGUF)
Puerto API 11434 1234
Interfaz gráfica Ninguna (solo CLI) Aplicación de escritorio opcional

Guía de selección

Usa Ollama cuando:

  • Quieres una instalación sencilla con configuración continua mínima
  • Estás en Windows y prefieres no configurar el inicio manualmente
  • Eres nuevo en los LLM locales

Usa LM Studio cuando:

  • Quieres una interfaz gráfica para explorar, descargar y gestionar modelos
  • Ya estás familiarizado con HuggingFace y los archivos de modelo GGUF
  • Quieres experimentar con diferentes modelos sin escribir Modelfiles
  • Estás ejecutando una máquina de inferencia dedicada y necesitas un servidor headless limpio

Cualquier opción funciona cuando:

  • Tienes una NVIDIA RTX 3090 24 GB o equivalente o superior. La VRAM es el factor crítico, no la velocidad de la GPU. Una GPU con solo 12 GB de VRAM es insuficiente independientemente de la generación.
  • Estás ejecutando Elite Dangerous y el LLM en la misma máquina
  • Quieres apuntar Elite Intel a un PC separado en tu red

Recomendación del desarrollador

El desarrollador usa LM Studio con matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF. Este modelo proporciona inferencia rápida. El mismo modelo en Ollama funciona notablemente más lento. La aplicación está optimizada para este modelo. Otros modelos pueden funcionar, pero no están garantizados. Informa sobre los resultados de compatibilidad en Matrix.

¿Por qué tulu3.1:8b Supernova específicamente?

Elite Intel es un analizador de comandos y una herramienta de análisis de datos, no un chatbot conversacional. Esto impone requisitos específicos al modelo. Generar conversaciones que suenen naturales es insuficiente. El modelo debe inferir correctamente las acciones a partir de la entrada de voz y realizar análisis de datos estructurados. Debe devolver los resultados en JSON formateado, no en un ensayo o HTML. No todos los modelos de este tamaño realizan esta tarea de manera fiable.

Tulu 3 (la receta de entrenamiento base) es genuinamente excepcional

Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF

La mayoría de los modelos de instrucción se entrenan con RLHF, que utiliza un modelo de recompensa aprendido para evaluar las salidas. Ese modelo de recompensa es en sí mismo una red neuronal, por lo que hereda todos los sesgos e inconsistencias habituales. Tulu 3 reemplazó esto con RLVR (Aprendizaje por refuerzo con recompensas verificables). En lugar de un modelo de recompensa aprendido, el entrenamiento utiliza una función de puntuación determinista: la respuesta es correcta o no lo es. Binario, sin sesgos. Esto es especialmente impactante para las tareas de seguimiento de instrucciones, donde la señal de recompensa es objetiva.

El proceso de entrenamiento sigue un enfoque de cuatro etapas: curación de datos orientada a habilidades clave, ajuste fino supervisado, Optimización de Preferencia Directa y RLVR encima para mejorar el rendimiento en tareas verificables. Cada etapa se construye sobre la anterior. Por eso Tulu 3, sobre la base Llama de 8B, alcanza resultados que superan a las versiones instruct de Llama 3.1, Qwen 2.5, Mistral e incluso modelos cerrados como GPT-4o-mini y Claude 3.5 Haiku.

Para EliteIntel, la etapa de clasificación de comandos es una tarea de seguimiento de instrucciones con respuestas correctas verificables (acción JSON X frente a Y). Este es precisamente el tipo de tarea que optimiza RLVR. El modelo está entrenado específicamente para producir salidas estructuradas deterministas.

Por qué la variante "Supernova"

La variante Supernova difiere del Tulu 3 estándar. Tulu-3.1-8B-SuperNova se crea mediante una fusión lineal de tres modelos: Llama-3.1-MedIT-SUN-8B (médico/razonamiento), Llama-3.1-Tulu-3-8B (seguimiento de instrucciones) y Llama-3.1-SuperNova-Lite (el modelo destilado de Arcee), cada uno con un peso igual de 1.0 usando mergekit.

El modelo padre SuperNova-Lite es un modelo destilado de una base Arcee más grande, lo que proporciona una densidad de conocimiento superior a la de un modelo estándar de 8B. La fusión lineal promedia directamente los tensores de peso, combinando el conocimiento sin cómputo de entrenamiento adicional. Esto consigue resultados especialmente sólidos en tareas de seguimiento de instrucciones, como lo demuestra su puntuación IFEval.

Rendimiento: El modelo usa una arquitectura Llama de 8B. Con la cuantización Q4_K_M en una 3090 de 24 GB, cabe en la VRAM junto al juego con margen. Esto evita la descarga a CPU y mantiene el máximo rendimiento de inferencia. Los modelos Qwen comparables usan configuraciones de cabezas de atención distintas (como el ratio GQA de Qwen2.5) que pueden ser más lentos en el backend GGUF de llama.cpp.

También funciona en una tarjeta con 12 GB de VRAM si no hay otras cargas de trabajo que consuman VRAM. Esto requiere que el juego se ejecute en una GPU o máquina independiente.

¿Puedo usar un modelo diferente?

Se pueden usar modelos alternativos, pero es poco probable que igualen la velocidad y precisión de tulu3.1-supernova.

Los problemas más comunes con los modelos alternativos incluyen un formato de respuesta incorrecto. El error más frecuente es que el modelo devuelva un ensayo en lugar de una acción estructurada o un resultado de análisis.


Comunidad 👉Matrix👈