Choisir un serveur d'inférence local
Pour exécuter un LLM local avec Elite Intel, un serveur d'inférence est requis. Il s'agit d'un logiciel qui charge le modèle IA et le sert via une API locale. C'est l'équivalent local d'un service IA cloud, fonctionnant entièrement sur votre propre matériel.
Elite Intel prend en charge deux serveurs d'inférence : Ollama et LM Studio. Les deux sont compatibles et utilisent les mêmes modèles. Le choix peut être modifié dans les paramètres à tout moment.

Exigences GPU
Configuration matérielle requise pour faire tourner le jeu et le LLM sur la même machine :
- RTX 3090 24 Go VRAM
- AMD RX 7800 XT
Si vous ne disposez pas du matériel suffisant, utilisez le service cloud gratuit
Un tableau de référence GPU fourni par Kevin Rank est disponible ici : Guide de référence GPU
Guides d'installation
| Serveur d'inférence | |
|---|---|
| ✅ LM Studio - Linux | Rapide, plus de flexibilité pour les modèles - le guide montre comment le configurer comme serveur |
| ✅ LM Studio - Windows | Rapide, plus de flexibilité pour les modèles - interface graphique disponible |
| Ollama - Linux | Recommandé si vous avez le matériel pour le faire tourner |
| Ollama - Windows | Recommandé si vous avez le matériel pour le faire tourner |
Ollama vs. LM Studio en un coup d'œil
| Ollama | LM Studio | |
|---|---|---|
| Vitesse | Plus lent | Plus rapide |
| Modèle préféré | tulu-3.1-8b-supernova Q4_K_M | tulu-3.1-8b-supernova Q4_K_M |
| Idéal pour | Configuration simple, maintenance minimale | Plus de contrôle sur le chargement des modèles |
| Installation | Un script, c'est tout | Un script, c'est tout |
| Fonctionne en tant que | Service système (démarrage auto au boot) | Démarrage manuel, ou démarrage auto optionnel |
| Réglage du modèle | Modelfile intégré au modèle | Options au moment du chargement |
| Démarrage auto Windows | ✅ Fonctionne par défaut | Nécessite l'application de bureau ou le Planificateur de tâches |
| Démarrage auto Linux | ✅ Service systemd inclus | Configuration systemd manuelle |
| Source du modèle | Bibliothèque Ollama | HuggingFace (GGUF) |
| Port API | 11434 |
1234 |
| Interface graphique | Aucune (CLI uniquement) | Application de bureau optionnelle |
Guide de sélection
Utilisez Ollama quand :
- Vous souhaitez une installation simple avec une configuration minimale
- Vous êtes sur Windows et préférez ne pas configurer le démarrage manuellement
- Vous débutez avec les LLMs locaux
Utilisez LM Studio quand :
- Vous souhaitez une interface graphique pour parcourir, télécharger et gérer les modèles
- Vous êtes déjà familier avec HuggingFace et les fichiers de modèles GGUF
- Vous souhaitez expérimenter avec différents modèles sans écrire de Modelfiles
- Vous utilisez une machine dédiée à l'inférence et avez besoin d'un serveur headless propre
L'une ou l'autre option convient quand :
- Vous disposez d'un NVIDIA RTX 3090 24 Go équivalent ou supérieur. La VRAM est le facteur critique, pas la vitesse du GPU. Un GPU avec seulement 12 Go de VRAM est insuffisant quelle que soit sa génération.
- Vous exécutez Elite Dangerous et le LLM sur la même machine
- Vous souhaitez pointer Elite Intel vers un PC séparé sur votre réseau
Recommandation du développeur
Le développeur utilise LM Studio avec matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF. Ce modèle offre une inférence rapide. Le même modèle sur Ollama est notablement plus lent. L'application est optimisée pour ce modèle. D'autres modèles peuvent fonctionner mais ne sont pas garantis. Signalez les résultats de compatibilité sur Matrix.
Pourquoi tulu3.1:8b Supernova en particulier ?
Elite Intel est un analyseur de commandes et un outil d'analyse de données, pas un chatbot conversationnel. Cela impose des exigences spécifiques au modèle. Générer des bavardages au son naturel est insuffisant. Le modèle doit inférer correctement des actions à partir de l'entrée vocale et effectuer une analyse de données structurée. Il doit retourner des résultats en JSON formaté, et non un essai en balisage ou en HTML. Tous les modèles de cette taille ne réalisent pas cette tâche de manière fiable.
Tulu 3 (la recette d'entraînement de base) est véritablement exceptionnel
Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF
La plupart des modèles d'instruction sont entraînés avec le RLHF, qui utilise un modèle de récompense appris pour juger les sorties. Ce modèle de récompense est lui-même un réseau de neurones, il hérite donc de tous les biais et incohérences habituels. Tulu 3 a remplacé cela par le RLVR (Apprentissage par renforcement avec récompenses vérifiables). Au lieu d'un modèle de récompense appris, l'entraînement utilise une fonction de notation déterministe : la réponse est soit correcte, soit elle ne l'est pas. Binaire, sans biais. Cela est particulièrement impactant pour les tâches de suivi d'instructions, où le signal de récompense est objectif.
Le pipeline d'entraînement est une approche en quatre étapes : curation des données ciblant les compétences fondamentales, ajustement fin supervisé, Optimisation directe des préférences (DPO), et RLVR en complément pour affiner les performances sur les tâches vérifiables. Chaque étape s'appuie sur la précédente. C'est pourquoi Tulu 3, sur la base Llama 8B, obtient des résultats surpassant les versions instruct de Llama 3.1, Qwen 2.5, Mistral, et même des modèles fermés comme GPT-4o-mini et Claude 3.5 Haiku.
Pour EliteIntel, l'étape de classification des commandes est une tâche de suivi d'instructions avec des réponses correctes vérifiables (action JSON X vs. Y). C'est précisément le type de tâche que le RLVR optimise. Le modèle est entraîné spécifiquement pour une sortie structurée déterministe.
Pourquoi la variante « Supernova »
La variante Supernova diffère du Tulu 3 standard. Tulu-3.1-8B-SuperNova est créé via une fusion linéaire de trois modèles : Llama-3.1-MedIT-SUN-8B (médecine/raisonnement), Llama-3.1-Tulu-3-8B (suivi d'instructions) et Llama-3.1-SuperNova-Lite (le modèle distillé d'Arcee), chacun contribuant à parts égales avec un poids de 1,0 en utilisant mergekit.
Le parent SuperNova-Lite est un modèle distillé d'une base Arcee plus grande, offrant une densité de connaissances supérieure à un modèle 8B standard. La fusion linéaire moyenne directement les tenseurs de poids, combinant les connaissances sans calcul d'entraînement supplémentaire. Cela produit des résultats particulièrement solides sur les tâches de suivi d'instructions, comme le démontre son score IFEval.
Performances : Le modèle utilise une architecture Llama 8B. À la quantification Q4_K_M sur une 3090 24 Go, il tient en VRAM aux côtés du jeu avec une marge. Cela évite le déchargement sur CPU et maintient un débit d'inférence maximal. Les modèles Qwen comparables utilisent des configurations de têtes d'attention différentes (comme le ratio GQA de Qwen2.5) qui peuvent s'exécuter plus lentement dans le backend GGUF de llama.cpp.
Il fonctionne également sur une carte de 12 Go de VRAM si aucun autre workload consommateur de VRAM n'est présent. Cela nécessite que le jeu soit exécuté sur un GPU ou une machine séparée.
Puis-je utiliser un modèle différent ?
Des modèles alternatifs peuvent être utilisés, mais ils sont peu susceptibles d'égaler la vitesse et la précision de tulu3.1-supernova.
Les problèmes courants avec les modèles alternatifs incluent un format de réponse incorrect. L'erreur la plus fréquente est que le modèle retourne un essai en balisage au lieu d'une action structurée ou d'un résultat d'analyse.
Communauté 👉Matrix👈