Lokales LLM – Linux-Setup (Ollama)
Ein lokales LLM zu betreiben hält alle Daten privat und offline. Es gibt keine Abonnementgebühren. Hardware- und Stromkosten fallen an.
Es erfordert Ollama und eine leistungsfähige GPU.
Mindest-Hardware
Um Elite Dangerous und das LLM auf demselben Rechner zu betreiben, ist mindestens eine NVIDIA RTX 3060 mit 12 GB VRAM erforderlich. Bei dieser Spezifikation ist der Leistungsspielraum begrenzt.
Tipp: Elite Intel kann auf eine Ollama-Instanz verweisen, die auf einem separaten PC in deinem Netzwerk läuft. Wenn ein zweiter Rechner mit einer leistungsfähigen GPU verfügbar ist, trägt der Spiele-PC in dieser Konfiguration keine Inferenzlast.
Empfohlenes Modell
| Modell | Benötigter VRAM | Hinweise |
|---|---|---|
Tulu-3.1-8B-SuperNova-Q4_K_M |
~5 GB | ✅ Empfohlen. Zuverlässig für Befehle und Abfragen. |
qwen3 8B |
~8 GB | Experimentell. Gelegentlich verpasste Befehle und Halluzinationen möglich. |
Hinweis: Für die schnellste lokale Inferenz empfiehlt sich LM Studio mit
matrixportalx/tulu-3.1-8b-supernova. In Tests war es auf derselben Hardware mit demselben Modell deutlich schneller als Ollama.
Schritt 1 – Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh
Ollama installiert sich als systemd-Dienst und startet automatisch.
Schritt 2 – Ein empfohlenes Modell herunterladen
ollama pull hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF
Oder experimentelle Alternativen:
ollama pull qwen3:8b
Schritt 3 – (Optional) Den Ollama-Dienst anpassen
Ollama funktioniert ohne Anpassung. Die folgende Konfiguration verbessert das VRAM-Management beim parallelen Betrieb mit Elite Dangerous.
sudo nano /etc/systemd/system/ollama.service.d/override.conf
Folgenden Inhalt einfügen:
[Service]
Environment="OLLAMA_MAX_VRAM=14000000000"
Environment="OLLAMA_DEBUG=0"
Environment="OLLAMA_NUM_PARALLEL=3"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Nice=10
IOSchedulingClass=best-effort
IOSchedulingPriority=5
Dann neu laden und neu starten:
sudo systemctl daemon-reload
sudo systemctl restart ollama.service
Was diese Einstellungen bewirken
OLLAMA_MAX_VRAM: Harte Obergrenze für den VRAM, den Ollama nutzen kann, in Bytes. 14000000000 = 14 GB. Lässt den Rest für Elite Dangerous. Nach GPU und Spielanforderungen anpassen.
OLLAMA_NUM_PARALLEL: Anzahl der gleichzeitig verarbeiteten Anfragen. Elite Intel stellt asynchrone Aufrufe, daher verursacht ein zu niedriger Wert Fehler. 3 deckt die typische Überschneidung von Befehlen und Abfragen ohne Überbelegung ab.
OLLAMA_MAX_LOADED_MODELS: Hält nur ein Modell gleichzeitig im VRAM.
OLLAMA_FLASH_ATTENTION: Aktiviert Flash Attention, was den Speicherbandbreitenverbrauch während der Inferenz reduziert. Generell schneller, besonders bei wiederholten Anfragen.
OLLAMA_KEEP_ALIVE=-1: Hält das Modell dauerhaft im VRAM geladen. Ohne diese Einstellung kann Ollama das Modell nach einer Inaktivitätsperiode entladen, was beim nächsten Aufruf eine Neuladelatenz verursacht.
Schritt 4 – Elite Intel konfigurieren
Öffne den Einstellungs-Tab in Elite Intel:
- Das Feld LLM-Schlüssel leer lassen (lokales Ollama benötigt keinen Schlüssel).
- LLM-Adresse ist standardmäßig
http://localhost:11434/api/chat. Wenn Ollama auf einem anderen Rechner läuft,localhostdurch die IP dieses Rechners ersetzen. - Befehls-LLM: auf
hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF:latestsetzen (oder den Namen, der beiollama lsangezeigt wird). - Abfrage-LLM: auf
hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF:latestsetzen (oder den Namen, der beiollama lsangezeigt wird). - Auf dem KI-Tab auf Stop und dann auf Start klicken, um Änderungen zu übernehmen.
Community 👉Matrix👈