Локальна мовна модель налаштування Linux (Ollama)
Запуск локальної мовної моделі забезпечує повну конфіденційність даних та роботу офлайн. Підписка не потрібна. Враховуються витрати на обладнання та електроенергію.
Необхідні Ollama і потужний GPU.
Мінімальні вимоги до обладнання
Для запуску Elite Dangerous і мовної моделі на одній машині потрібна щонайменше NVIDIA RTX 3060 з 12 ГБ VRAM. Запас продуктивності при цій конфігурації обмежений.
Порада: Elite Intel можна спрямувати на екземпляр Ollama, що працює на окремому ПК у вашій мережі. Якщо доступна друга машина з потужним GPU, ігровий ПК не несе навантаження інференсу в цій конфігурації.
Рекомендована модель
| Модель | Необхідно VRAM | Примітки |
|---|---|---|
Tulu-3.1-8B-SuperNova-Q4_K_M |
~5 ГБ | ✅ Рекомендується. Надійна робота з командами та запитами. |
qwen3 8B |
~8 ГБ | Експериментальна. Можливі пропущені команди та галюцинації. |
Примітка: Для найшвидшого локального інференсу розгляньте LM Studio з
matrixportalx/tulu-3.1-8b-supernova. За результатами тестування, він помітно швидший за Ollama на тому самому обладнанні з тією самою моделлю.
Крок 1 Встановлення Ollama
curl -fsSL https://ollama.com/install.sh | sh
Ollama встановлюється як служба systemd і запускається автоматично.
Крок 2 Завантаження рекомендованої моделі
ollama pull hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF
Або експериментальні альтернативи:
ollama pull qwen3:8b
Крок 3 (Необов'язково) Налаштування служби Ollama
Ollama працює без додаткового налаштування. Наведена конфігурація покращує керування VRAM при спільному запуску з Elite Dangerous.
sudo nano /etc/systemd/system/ollama.service.d/override.conf
Вставте наступне:
[Service]
Environment="OLLAMA_MAX_VRAM=14000000000"
Environment="OLLAMA_DEBUG=0"
Environment="OLLAMA_NUM_PARALLEL=3"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Nice=10
IOSchedulingClass=best-effort
IOSchedulingPriority=5
Потім перезавантажте конфігурацію та перезапустіть службу:
sudo systemctl daemon-reload
sudo systemctl restart ollama.service
Що роблять ці налаштування
OLLAMA_MAX_VRAM: Жорсткий ліміт VRAM, яку може використовувати Ollama, у байтах. 14000000000 = 14 ГБ. Решта залишається для Elite Dangerous. Скоригуйте відповідно до вашого GPU та вимог гри.
OLLAMA_NUM_PARALLEL: Кількість запитів, що обробляються одночасно. Elite Intel виконує асинхронні виклики, тому занадто низьке значення спричинить збої. 3 покриває типове перекриття команд і запитів без надмірного виділення ресурсів.
OLLAMA_MAX_LOADED_MODELS: Тримає в VRAM лише одну модель одночасно.
OLLAMA_FLASH_ATTENTION: Вмикає Flash Attention, що знижує використання пропускної здатності пам'яті під час інференсу. Як правило, швидше особливо для повторюваних запитів.
OLLAMA_KEEP_ALIVE=-1: Тримає модель завантаженою у VRAM безстроково. Без цього Ollama може вивантажити модель після певного часу бездіяльності, що призведе до затримки при наступному запиті.
Крок 4 Налаштування Elite Intel
Відкрийте вкладку «Settings» в Elite Intel:
- Залиште поле LLM Key порожнім (локальний Ollama ключ не потребує).
- LLM Address за замовчуванням:
http://localhost:11434/api/chat. Якщо Ollama працює на іншій машині, замінітьlocalhostна IP-адресу тієї машини. - Command LLM: задайте
hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF:latest(або ім'я з виводуollama ls). - Query LLM: задайте
hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF:latest(або ім'я з виводуollama ls). - Натисніть Stop, а потім Start на вкладці AI, щоб застосувати зміни.
Спільнота 👉Matrix👈