Einen lokalen Inferenzserver wählen

Um ein lokales LLM mit Elite Intel zu betreiben, ist ein Inferenzserver erforderlich. Das ist eine Software, die das KI-Modell lädt und es über eine lokale API bereitstellt. Es ist das lokale Äquivalent eines Cloud-KI-Dienstes und läuft vollständig auf deiner eigenen Hardware.

Elite Intel unterstützt zwei Inferenzserver: Ollama und LM Studio. Beide sind kompatibel und verwenden dieselben Modelle. Die Auswahl kann jederzeit in den Einstellungen geändert werden.

loca llm ui

GPU-Anforderungen

Hardwareanforderungen, um Spiel und LLM auf demselben Rechner zu betreiben:

RTX 3090 24 GB VRAM
AMD RX 7800 XT

Wenn du nicht genug Hardware hast, nutze den kostenlosen Cloud-Dienst

Eine GPU-Referenztabelle von Kevin Rank ist hier verfügbar: GPU-Referenzleitfaden

Installationsanleitungen

Inferenzserver
✅ LM Studio - Linux	Schnell, mehr Modellflexibilität – Anleitung zeigt die Server-Einrichtung
✅ LM Studio - Windows	Schnell, mehr Modellflexibilität – mit GUI
Ollama - Linux	Empfohlen, wenn du die nötige Hardware hast
Ollama - Windows	Empfohlen, wenn du die nötige Hardware hast

Ollama vs. LM Studio auf einen Blick

	Ollama	LM Studio
Geschwindigkeit	Langsamer	Schneller
Bevorzugtes Modell	tulu-3.1-8b-supernova Q4_K_M	tulu-3.1-8b-supernova Q4_K_M
Am besten geeignet für	Einfache Einrichtung, minimaler Wartungsaufwand	Mehr Kontrolle über das Laden von Modellen
Installation	Ein Skript, fertig	Ein Skript, fertig
Läuft als	Systemdienst (startet automatisch beim Boot)	Manueller Start oder optionaler Autostart
Modell-Tuning	Modelfile im Modell integriert	Parameter beim Laden
Windows-Autostart	✅ Funktioniert direkt	Erfordert Desktop-App oder Aufgabenplanung
Linux-Autostart	✅ systemd-Dienst inklusive	Manuelle systemd-Einrichtung
Modellquelle	Ollama-Bibliothek	HuggingFace (GGUF)
API-Port	`11434`	`1234`
GUI	Keine (nur CLI)	Optionale Desktop-App

Auswahlhilfe

Ollama verwenden, wenn:

Du eine einfache Installation mit minimalem laufenden Konfigurationsaufwand möchtest
Du unter Windows bist und den Startup nicht manuell konfigurieren möchtest
Du neu bei lokalen LLMs bist

LM Studio verwenden, wenn:

Du eine Desktop-GUI zum Durchsuchen, Herunterladen und Verwalten von Modellen möchtest
Du bereits mit HuggingFace und GGUF-Modelldateien vertraut bist
Du mit verschiedenen Modellen experimentieren möchtest, ohne Modelfiles zu schreiben
Du einen dedizierten Inferenzrechner betreibst und einen sauberen Headless-Server benötigst

Beide Optionen funktionieren, wenn:

Du eine NVIDIA RTX 3090 24 GB oder besser hast. VRAM ist der entscheidende Faktor, nicht die GPU-Geschwindigkeit. Eine GPU mit nur 12 GB VRAM ist unzureichend, unabhängig von der Generation.
Du Elite Dangerous und das LLM auf demselben Rechner betreibst
Du Elite Intel auf einen separaten PC in deinem Netzwerk verweisen möchtest

Empfehlung des Entwicklers

Der Entwickler verwendet LM Studio mit matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF. Dieses Modell bietet schnelle Inferenz. Dasselbe Modell unter Ollama läuft merklich langsamer. Die App ist für dieses Modell optimiert. Andere Modelle können funktionieren, sind aber nicht garantiert. Melde Kompatibilitätsergebnisse auf Matrix.

Warum genau tulu3.1:8b Supernova?

Elite Intel ist ein Befehls-Parser und ein Datenanalyse-Tool, kein konversationeller Chatbot. Das stellt spezifische Anforderungen an das Modell. Natürlich klingende Unterhaltung zu erzeugen reicht nicht aus. Das Modell muss Aktionen aus Spracheingabe korrekt ableiten und strukturierte Datenanalyse durchführen. Es muss Ergebnisse in formatiertem JSON zurückgeben, nicht in einem Markdown-Essay oder HTML. Nicht alle Modelle dieser Größe erfüllen diese Aufgabe zuverlässig.

Tulu 3 (das Basis-Trainingsrezept) ist wirklich außergewöhnlich

Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF

Die meisten Instruction-Modelle werden mit RLHF trainiert, das ein gelerntes Belohnungsmodell zur Bewertung von Ausgaben verwendet. Dieses Belohnungsmodell ist selbst ein neuronales Netz und erbt daher alle üblichen Verzerrungen und Inkonsistenzen. Tulu 3 ersetzt dies durch RLVR (Reinforcement Learning with Verifiable Rewards). Anstelle eines gelernten Belohnungsmodells verwendet das Training eine deterministische Bewertungsfunktion: Die Antwort ist entweder korrekt oder nicht. Binär, ohne Verzerrung. Dies ist besonders wirkungsvoll bei Instruction-Following-Aufgaben, bei denen das Belohnungssignal objektiv ist.

Die Trainingspipeline verfolgt einen vierstufigen Ansatz: Datenkuration für Kernfähigkeiten, überwachtes Feintuning, Direct Preference Optimization und darüber hinaus RLVR zur Schärfung der verifizierbaren Aufgabenleistung. Jede Stufe baut auf der vorherigen auf. Deshalb erreicht Tulu 3 auf der 8B-Llama-Basis Ergebnisse, die die Instruct-Versionen von Llama 3.1, Qwen 2.5, Mistral und sogar geschlossene Modelle wie GPT-4o-mini und Claude 3.5 Haiku übertreffen.

Für EliteIntel ist die Befehlsklassifikationsstufe eine Instruction-Following-Aufgabe mit verifizierbaren korrekten Antworten (JSON-Aktion X vs. Y). Dies ist genau der Aufgabentyp, den RLVR optimiert. Das Modell ist speziell für deterministischen strukturierten Output trainiert.

Warum die „Supernova"-Variante

Die Supernova-Variante unterscheidet sich vom Standard-Tulu 3. Tulu-3.1-8B-SuperNova entsteht durch eine lineare Zusammenführung von drei Modellen: Llama-3.1-MedIT-SUN-8B (Medizin/Reasoning), Llama-3.1-Tulu-3-8B (Instruction Following) und Llama-3.1-SuperNova-Lite (Arcees destilliertes Modell), jedes mit gleichem Gewicht von 1.0 über mergekit.

Das SuperNova-Lite-Elternmodell ist ein destilliertes Modell aus einer größeren Arcee-Basis, das eine Wissensdichte jenseits eines Standard-8B-Modells bietet. Die lineare Zusammenführung mittelt Gewichtstensoren direkt und kombiniert Wissen ohne zusätzlichen Trainingsaufwand. Dies erzielt besonders starke Ergebnisse bei Instruction-Following-Aufgaben, wie sein IFEval-Score belegt.

Leistung: Das Modell verwendet eine 8B-Llama-Architektur. Bei Q4_K_M-Quantisierung auf einer 3090 mit 24 GB passt es neben dem Spiel in den VRAM mit etwas Reserve. Dies vermeidet CPU-Offload und erhält maximalen Inferenzdurchsatz. Vergleichbare Qwen-Modelle verwenden andere Attention-Head-Konfigurationen (wie Qwen2.5's GQA-Verhältnis), die im GGUF-Backend von llama.cpp langsamer sein können.

Es läuft auch auf einer 12-GB-VRAM-Karte, wenn keine anderen VRAM-intensiven Prozesse aktiv sind. Dafür muss das Spiel auf einer separaten GPU oder einem anderen Rechner laufen.

Kann ich ein anderes Modell verwenden?

Alternative Modelle können verwendet werden, werden aber wahrscheinlich nicht die Geschwindigkeit und Genauigkeit von tulu3.1-supernova erreichen.

Häufige Probleme mit alternativen Modellen sind ein falsches Antwortformat. Der häufigste Fehler ist, dass das Modell einen Markdown-Essay statt einer strukturierten Aktion oder eines Analyseergebnisses zurückgibt.

Community 👉Matrix👈