Install Ollama Local LLM Linux EliteIntel

Локальный LLM установка на Linux (Ollama)

Запуск локального LLM обеспечивает полную конфиденциальность данных и работу офлайн. Подписка не требуется. Учитываются затраты на оборудование и электроэнергию.

Требуется Ollama и мощный GPU.

Минимальные требования к оборудованию

Для запуска Elite Dangerous и LLM на одном компьютере требуется минимум NVIDIA RTX 3060 с 12 ГБ VRAM. На этой конфигурации производительность ограничена.

Подсказка: Elite Intel можно направить на экземпляр Ollama, работающий на отдельном компьютере в вашей сети. Если доступна вторая машина с мощным GPU, игровой ПК не несёт нагрузки инференса в этой конфигурации.

Модель	Требуется VRAM	Примечания
`tulu-3.1-8b-supernova` Q4_K_M	~5 ГБ	✅ Рекомендуется для V1.0
`google/gemma-4-e4b`	~6.3 ГБ	✅ Рекомендуется для V1.1

Шаг 1 Установка Ollama

curl -fsSL https://ollama.com/install.sh | sh

Ollama устанавливается как служба systemd и запускается автоматически.

Шаг 2 Загрузка рекомендуемой модели

Для V1.1 загрузите google/gemma-4-e4b:

ollama pull google/gemma-4-e4b

Для V1.0 загрузите tulu-3.1-8b-supernova:

ollama pull hf.co/matrixportalx/Tulu-3.1-8B-SuperNova-Q4_K_M-GGUF

Шаг 3 (Необязательно) Тонкая настройка службы Ollama

Ollama работает без настройки. Следующая конфигурация улучшает управление VRAM при совместном запуске с Elite Dangerous.

sudo nano /etc/systemd/system/ollama.service.d/override.conf

Вставьте следующее:

[Service]
Environment="OLLAMA_MAX_VRAM=14000000000"
Environment="OLLAMA_DEBUG=0"
Environment="OLLAMA_NUM_PARALLEL=3"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Nice=10
IOSchedulingClass=best-effort
IOSchedulingPriority=5

Затем перезагрузите конфигурацию и перезапустите:

sudo systemctl daemon-reload
sudo systemctl restart ollama.service

Что делают эти настройки

OLLAMA_MAX_VRAM: Жёсткий лимит VRAM, который может использовать Ollama, в байтах. 14000000000 = 14 ГБ. Оставляет остаток для Elite Dangerous. Скорректируйте под свой GPU и требования игры.

OLLAMA_NUM_PARALLEL: Количество одновременно обрабатываемых запросов. Elite Intel выполняет асинхронные вызовы, поэтому слишком низкое значение вызовет сбои. 3 покрывает типичное перекрытие команд и запросов без избыточного выделения ресурсов.

OLLAMA_MAX_LOADED_MODELS: Держит в VRAM только одну модель одновременно.

OLLAMA_FLASH_ATTENTION: Включает Flash Attention, снижающее использование пропускной способности памяти при инференсе. Как правило, быстрее, особенно для повторяющихся запросов.

OLLAMA_KEEP_ALIVE=-1: Держит модель загруженной в VRAM бессрочно. Без этого Ollama может выгрузить модель после периода бездействия, что приведёт к задержке при повторной загрузке.

Шаг 4 Настройка Elite Intel

Откройте вкладку «Настройки» в Elite Intel:

Оставьте поле LLM Key пустым (локальный Ollama ключ не требует).
LLM Address по умолчанию: http://localhost:11434/api/chat. Если Ollama работает на другом компьютере, замените localhost на IP этого компьютера.
Command LLM: задайте google/gemma-4-e4b (или имя из ollama ls).
Query LLM: задайте google/gemma-4-e4b (или имя из ollama ls).
Нажмите Stop, затем Start на вкладке AI для применения изменений.

Сообщество 👉Matrix👈