LLM local - Configuración en Linux (Ollama)
Ejecutar un LLM local mantiene todos los datos privados y sin conexión. No hay cuotas de suscripción. Se aplican costes de hardware y electricidad.
Requiere Ollama y una GPU capaz.
Hardware mínimo
Para ejecutar Elite Dangerous y el LLM en la misma máquina, se requiere como mínimo una NVIDIA RTX 3060 con 12 GB de VRAM. El margen de rendimiento es limitado con esta especificación.
Consejo: Elite Intel puede apuntarse a una instancia de Ollama que se ejecute en un PC separado de tu red. Si hay disponible una segunda máquina con una GPU capaz, el PC del juego no llevará ninguna carga de inferencia en esta configuración.
Modelo recomendado
| Modelo | VRAM requerida | Notas |
|---|---|---|
Tulu-3.1-8B-SuperNova-Q4_K_M |
~5 GB | ✅ Recomendado. Fiable para comandos y consultas. |
qwen3 8B |
~8 GB | Experimental. Se esperan comandos fallidos y alucinaciones ocasionales. |
Nota: Para la inferencia local más rápida, considera LM Studio con
matrixportalx/tulu-3.1-8b-supernova. En las pruebas, es notablemente más rápido que Ollama en el mismo hardware con el mismo modelo.
Paso 1 - Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh
Ollama se instala como un servicio de systemd y se inicia automáticamente.
Paso 2 - Descargar un modelo recomendado
ollama pull hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF
O alternativas experimentales:
ollama pull qwen3:8b
Paso 3 - (Opcional) Ajustar el servicio de Ollama
Ollama funciona sin ajustes. La siguiente configuración mejora la gestión de la VRAM cuando se ejecuta junto a Elite Dangerous.
sudo nano /etc/systemd/system/ollama.service.d/override.conf
Pega esto:
[Service]
Environment="OLLAMA_MAX_VRAM=14000000000"
Environment="OLLAMA_DEBUG=0"
Environment="OLLAMA_NUM_PARALLEL=3"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Nice=10
IOSchedulingClass=best-effort
IOSchedulingPriority=5
Luego recarga y reinicia:
sudo systemctl daemon-reload
sudo systemctl restart ollama.service
Qué hacen estos ajustes
OLLAMA_MAX_VRAM: Límite máximo de VRAM que puede usar Ollama, en bytes. 14000000000 = 14 GB. Deja el resto para Elite Dangerous. Ajústalo según tu GPU y los requisitos del juego.
OLLAMA_NUM_PARALLEL: Número de solicitudes que Ollama gestiona simultáneamente. Elite Intel realiza llamadas asíncronas, por lo que establecer esto demasiado bajo provoca fallos. 3 cubre el solapamiento típico de comandos y consultas sin sobreasignar.
OLLAMA_MAX_LOADED_MODELS: Mantiene solo un modelo en la VRAM a la vez.
OLLAMA_FLASH_ATTENTION: Activa Flash Attention, que reduce el uso del ancho de banda de memoria durante la inferencia. Generalmente más rápido, especialmente para solicitudes repetidas.
OLLAMA_KEEP_ALIVE=-1: Mantiene el modelo cargado en la VRAM indefinidamente. Sin esto, Ollama puede descargar el modelo tras un período de inactividad, incurriendo en una penalización de recarga en la siguiente solicitud.
Paso 4 - Configurar Elite Intel
Abre la pestaña Ajustes en Elite Intel:
- Deja el campo Clave LLM en blanco (Ollama local no requiere ninguna).
- Dirección LLM tiene como valor predeterminado
http://localhost:11434/api/chat. Si Ollama está en otra máquina, sustituyelocalhostpor la IP de esa máquina. - LLM de comandos: establécelo en
hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF:latest(o el nombre que muestraollama ls). - LLM de consultas: establécelo en
hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF:latest(o el nombre que muestraollama ls). - Haz clic en Detener y luego en Iniciar en la pestaña de IA para aplicar los cambios.
Comunidad 👉Matrix👈