Lokales LLM – Linux-Setup (LM Studio)

Ein lokales LLM zu betreiben hält alle Daten privat und offline. Es gibt keine Abonnementgebühren. Hardware- und Stromkosten fallen an.

LM Studio ist eine Alternative zu Ollama. Es verwendet dieselben Modelle und dieselbe OpenAI-kompatible API. Die Wahl kann jederzeit in den Einstellungen geändert werden.

Es erfordert LM Studio und eine leistungsfähige GPU.


Mindest-Hardware

Um Elite Dangerous und das LLM auf demselben Rechner zu betreiben, ist mindestens eine NVIDIA RTX 3060 mit 12 GB VRAM erforderlich. Bei dieser Spezifikation ist der Leistungsspielraum begrenzt.

Tipp: Elite Intel kann auf eine LM Studio-Instanz verweisen, die auf einem separaten PC in deinem Netzwerk läuft. Wenn ein zweiter Rechner mit einer leistungsfähigen GPU verfügbar ist, trägt der Spiele-PC in dieser Konfiguration keine Inferenzlast.


Empfohlenes Modell

Modell Benötigter VRAM Hinweise
tulu-3.1-8b-supernova Q4_K_M ~5 GB ✅ Empfohlen. Schnell, präzise, hervorragend für Befehle und Abfragen.
tulu-3.1-8b-supernova Q8_0 ~8,5 GB Höhere Qualität, wenn VRAM-Spielraum vorhanden.
qwen3 8B ~8 GB Experimentell. Gelegentlich verpasste Befehle und Halluzinationen möglich.


Schritt 1 – LM Studio installieren

curl -fsSL https://lmstudio.ai/install.sh | bash

Das Installationsprogramm legt alles in ~/.lmstudio/ ab und fügt das lms-CLI-Werkzeug hinzu. Füge nach Abschluss das CLI zu deinem PATH hinzu:

# Dies zu deiner ~/.bashrc hinzufügen
export PATH="$HOME/.lmstudio/bin:$PATH"

Dann die Shell neu laden:

source ~/.bashrc

Prüfen, ob es funktioniert:

lms --help

Schritt 2 – Das Modell herunterladen

lms get tulu3.1
Searching for models with the term tulu3.1
No exact match found. Please choose a model from the list below.

? Select a model to download
❯ QuantFactory/Tulu-3.1-8B-SuperNova-GGUF
  mradermacher/Tulu-3.1-8B-SuperNova-i1-GGUF
  QuantFactory/Tulu-3.1-8B-SuperNova-Smart-GGUF
  mradermacher/Tulu-3.1-8B-SuperNova-GGUF
  bunnycore/Tulu-3.1-8B-SuperNova-Smart-IQ4_XS-GGUF
  mradermacher/Tulu-3.1-8B-SuperNova-Smart-GGUF
  mradermacher/Tulu-3.1-8B-SuperNova-Smart-i1-GGUF
  matrixportalx/Tulu-3.1-8B-SuperNova-Q4_0-GGUF
  matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF

↑↓ navigate • ⏎ select

Mit den Pfeiltasten navigieren und Enter zum Auswählen drücken. matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF auswählen.

Um heruntergeladene Modelle aufzulisten:

lms ls

Dies ist der Standardweg. Allerdings hat LM Studio einen bekannten Fehler. In einigen Fällen schlägt der Download fehl mit: Error: No staff picks found with the specified search criteria.

Wenn das auftritt, lade das Modell manuell herunter:

curl -s "https://huggingface.co/api/models/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF" | grep -o '"rfilename":"[^"]*\.gguf"'

Dann importieren:

lms import /path/to/tulu-3.1-8b-supernova-q4_k_m.gguf

Schritt 3 – Den Server starten

Das Modell laden und den Inferenzserver starten:

lms load tulu-3.1-8b-supernova --context-length 8192 --gpu max
lms server start

--gpu max verlagert die Inferenz auf die GPU für maximale Leistung.

Überprüfen, ob er läuft:

curl http://localhost:1234/v1/models

Du solltest eine JSON-Liste der geladenen Modelle erhalten. Die Modell-ID-Zeichenfolge in dieser Antwort gibst du in das Feld LLM-Modell von Elite Intel ein.

Den Server stoppen:

lms server stop

⚠️ Wichtig: Der LM Studio-Server überlebt keine Neustarts. Führe lms server start nach jedem Neustart erneut aus oder richte den optionalen Autostart unten ein.


Schritt 4 – (Optional) Autostart beim Booten

Um LM Studio automatisch zu starten, richte es als Benutzer-systemd-Dienst ein. Dieser läuft unter deiner eigenen Sitzung und nicht als Systemdienst. Er startet, nachdem die Desktop-Umgebung hochgefahren ist. Root-Zugriff ist nicht erforderlich.

Finde deine Benutzer-ID heraus. (Ersetze den Benutzernamen durch deinen tatsächlichen Benutzernamen)

id -u DEIN_BENUTZERNAME

Merke dir diese Zahl. Du benötigst sie später für die Konfiguration.

Erstelle das Benutzer-systemd-Verzeichnis, falls es nicht existiert:

mkdir -p ~/.config/systemd/user

Erstelle die Service-Datei:

nano ~/.config/systemd/user/lmstudio.service

Folgenden Inhalt einfügen:

[Unit]
Description=LM Studio Server
After=network.target

[Service]
Type=oneshot
RemainAfterExit=yes
Environment="HOME=/home/DEIN_BENUTZERNAME"
Environment="PATH=/home/DEIN_BENUTZERNAME/.lmstudio/bin:/usr/local/bin:/usr/bin:/bin"
Environment="XDG_RUNTIME_DIR=/run/user/DEINE_UID"
ExecStartPre=/home/DEIN_BENUTZERNAME/.lmstudio/bin/lms daemon up
ExecStartPre=/home/DEIN_BENUTZERNAME/.lmstudio/bin/lms load matrixportalx/tulu-3.1-8b-supernova --yes --context-length 8192
ExecStart=/home/DEIN_BENUTZERNAME/.lmstudio/bin/lms server start --bind 0.0.0.0 --port 1234
ExecStop=/home/DEIN_BENUTZERNAME/.lmstudio/bin/lms server stop
ExecStopPost=/home/DEIN_BENUTZERNAME/.lmstudio/bin/lms daemon down

[Install]
WantedBy=default.target

DEIN_BENUTZERNAME durch deinen Linux-Benutzernamen und DEINE_UID durch deine Benutzer-ID ersetzen. So findest du deine UID:

id -u

⚠️ Warum XDG_RUNTIME_DIR? Benutzerdienste laufen in einer vereinfachten Umgebung, die möglicherweise keine Sitzungsvariablen enthält. LM Studio verwendet XDG_RUNTIME_DIR für IPC. Ohne diese Variable kann der Dienst stillschweigend fehlschlagen, auch wenn lms vom Terminal aus korrekt funktioniert. Dies ist die häufigste Ursache für Dienstfehler, wenn die manuelle Ausführung erfolgreich ist.

Aktivieren und starten:

systemctl --user daemon-reload
systemctl --user enable lmstudio.service
systemctl --user start lmstudio.service

Überprüfen, ob es läuft:

systemctl --user status lmstudio.service
curl http://localhost:1234/v1/models

Fehlerbehebung: Wenn der Dienst fehlschlägt, Journal prüfen:

journalctl --user -xeu lmstudio.service --no-pager | tail -40

Wenn dort „Failed to load model" steht, lms ls ausführen und bestätigen, dass der Modellname genau dem in der Service-Datei entspricht.


Schritt 4b – (Optional) Langsame Inferenz nach dem Boot beheben

Einige Benutzer erleben nach dem Start langsame Inferenzantworten von LM Studio. Das Problem löst sich sofort nach einem manuellen Dienst-Neustart. Dies wird durch eine Eigenart bei der Initialisierung des LM Studio-Daemons verursacht. Der erste Kaltstart kann die Inferenzlaufzeit in einem beeinträchtigten Zustand hinterlassen.

Wenn nach einem Neustart langsame Antworten auftreten und sich nach einem manuellen Neustart auflösen, automatisiert dieser Timer die Lösung.

Einen Begleitdienst erstellen:

nano ~/.config/systemd/user/lmstudio-restart.service
[Unit]
Description=LM Studio post-boot restart
After=lmstudio.service

[Service]
Type=oneshot
ExecStart=systemctl --user restart lmstudio.service

Den Timer erstellen:

nano ~/.config/systemd/user/lmstudio-restart.timer
[Unit]
Description=Restart LM Studio 2 minutes after login

[Timer]
OnBootSec=2min
Unit=lmstudio-restart.service

[Install]
WantedBy=timers.target

Den Timer aktivieren:

systemctl --user daemon-reload
systemctl --user enable --now lmstudio-restart.timer

Der Timer wartet 2 Minuten nach dem Login, startet den LM Studio-Dienst einmal neu und bleibt dann inaktiv. Wenn keine langsame Inferenz auftritt, ist dieser Schritt nicht erforderlich.


Ollama-Autostart deaktivieren (falls installiert)

Ollama installiert sich standardmäßig als aktivierter systemd-Dienst. Um stattdessen LM Studio zu verwenden und Ollama nur bei Bedarf zu starten:

sudo systemctl disable ollama.service
sudo systemctl stop ollama.service

Schritt 5 – Elite Intel konfigurieren

Öffne den Einstellungs-Tab in Elite Intel:

  • Das Feld LLM-Schlüssel leer lassen (lokales LM Studio benötigt keinen Schlüssel).
  • LLM-Adresse: auf http://localhost:1234/v1/chat/completions setzen. Wenn LM Studio auf einem anderen Rechner läuft, localhost durch die IP dieses Rechners ersetzen.
  • LLM-Modell: die Modell-ID-Zeichenfolge aus curl http://localhost:1234/v1/models einfügen.
  • Befehls-LLM: auf dieselbe Modell-ID setzen.
  • Abfrage-LLM: auf dieselbe Modell-ID setzen.
  • Auf dem KI-Tab auf Stop und dann auf Start klicken, um Änderungen zu übernehmen.

Community 👉Matrix👈