Почему локальная LLM?

Локальная LLM даёт контроль над данными, минимизирует сетевые задержки и снижает постоянные платежи за облачные API при высоких объёмах запросов. Для внутренних сервисов, PII-данных или автономных сред локальный инстанс обеспечивает предсказуемую стоимость и соответствие требованиям безопасности. Кроме того, локальная эксплуатация позволяет кастомизировать модели, хранить собственные наборы данных и интегрировать LLM в пайплайны CI/CD без внешних ограничений. Ожидаемое время на начальную настройку — 30–90 минут для CPU 7B и 2–6 часов для 13B/70B при загрузке модели через сеть.

Какое железо нужно?

Подробная таблица рекомендаций по железу для типичных моделей и сценариев. Указываю минимальные и рекомендуемые конфигурации с учётом 2025–2026 окружения. Модель 7B (Mistral, Llama-2 в INT8): минимально 8 ГБ RAM (для CPU inference) + 50 GB диска; рекомендуется 16 GB RAM. На CPU запросы займут ~0.8–2.5 s/токен в зависимости от ядра. На GPU (NVIDIA 8 GB) латентность падает до 0.05–0.25 s/токен. Модель 13B: минимально 32 GB RAM на CPU, рекомендуется GPU с 16–24 GB VRAM (NVIDIA RTX 6000/4090 или A40) и 100 GB диска. Инференс на CPU будет медленным — сотни миллисекунд до секунд на токен. Модель 70B: требует 128+ GB RAM или распределённого inference; GPU-кластеры с 80 GB VRAM (A100 80GB) или multi-GPU конфигурация. Дисковое пространство для модели float16 ~140 GB. Пропускная способность и стоимость: если нужна высокая TPS, используйте batching + GPU. Для прототипов эффективны M1/M2 Mac mini с Apple Metal (M2 10-core, 16 GB RAM) для 7B.

Как сравнить с GPT?

Сравнение локальной Ollama LLM с облачными GPT-API (OpenAI GPT-4/4o — 2025–2026): ключевые метрики — latency, стоимость, контроль данных и качество ответов. Ниже практический чеклист для сравнения в вашей задаче. Latency: локальный инстанс на GPU обычно дешевле по задержке при большой нагрузке: p95 зависит от модели и железа — на 13B GPU p95 ~50–200 ms, на CPU — 500 ms–3 s. Стоимость: при высоком трафике владение железом окупается: пример — облачный вызов GPT-4o может стоить 0.03–0.12 USD за 1k токен, тогда как амортизация GPU и электричество при 24/7 нагрузке даёт дешевле TCO при 1M+ запросов/месяц. Контроль данных: локальный запуск устраняет утечку PII и обеспечивает полный контроль логов и хранения. Для соответствия требованиям безопасности это критично. Качество ответов: современные локальные модели 2025–2026 (Mistral, Llama-2/Tuned) демонстрируют близкое качество по многим задачам, но специализированные облачные крупные модели всё ещё могут превосходить в генерации сложных...

Как запустить Ollama в Docker?

Для запуска Ollama в Docker используйте официальный образ или создайте свой на базе Ubuntu 22.04 с Ollama 1.2.0. Пример команды: docker run -p 11434:11434 --gpus all --name ollama ollama/ollama:1.2.0. Образ занимает примерно 450–750 MB. Для GPU убедитесь, что у вас установлен NVIDIA Container Toolkit и Docker 24.x (2025). Если контейнер не видит GPU, проверьте nvidia-smi на хосте и опцию --gpus all. Для persistence моделей используйте volume, например -v /var/lib/ollama:/root/.ollama.

Что делать, если модель занимает слишком много диска?

Первое действие — удалить неиспользуемые модели через ollama remove <model>. Второе — использовать квантованные GGUF/INT8/INT4 версии модели, которые сокращают размер с 25–140 GB до 8–30 GB в зависимости от квантования. Третье — хранить модели на отдельном SSD (NVMe) и монтировать как /var/lib/ollama. Наконец, используйте ленивую загрузку и проверяйте доступность дискового пространства перед pull: df -h /var/lib/ollama.

Почему ответы отличаются от облачных GPT?

Различия вызваны архитектурой и обучением моделей: разные тренировочные датасеты, оптимизации и параметры. Облачные GPT-модели часто обучены и дообучены на большем объеме специализированных данных и могут использовать ensemble-техники или рантайм-оптимизации. Чтобы сократить разрыв, применяйте дообучение/тонкую настройку (fine-tuning) или привязывайте retrieval-слой (RAG) к локальной модели — это повышает релевантность ответов для вашей предметной области.

Как оценить стоимость владения (TCO) локальной LLM?

Рассчитайте стоимость GPU/сервера, электроэнергию, охлаждение, диск и инженеринговое время. Сравните с подпиской облачных API по токенам. Пример: GPU сервер с 1×A40 (24 GB) + 256 GB RAM — CAPEX ≈ 6–12k USD (2025), амортизация за 3 года ≈170–330 USD/мес; добавьте энергопотребление ≈100–300 USD/мес и SRE-расходы. Если вы генерируете >1M токенов в месяц, локальное решение часто окупается по сравнению с платным API. Связанные материалы: DevOps, Docker.

Локальная LLM на Ollama: гайд для разработчика

Локальная LLM на Ollama: гайд для разработчика | KtoHto

# Ubuntu / Debian (скрипт установки, ~2–3 минуты загрузки)
curl -sSL https://ollama.com/install | sudo bash
# Проверка версии (ожидание ~1 сек)
ollama version

ollama version
# ожидание:
ollama 1.2.0 (build 2026-02-15)

Ошибка: команда 'ollama' не найдена
# фикc:
# Убедитесь, что /usr/local/bin в PATH и установщик выполнился успешно
export PATH=$PATH:/usr/local/bin
# или проверьте журналы установки:
sudo journalctl -u ollama.service --no-pager

brew install ollama/tap/ollama
ollama version
# ожидаемый вывод: ollama 1.2.0 (build 2026-02-15)

brew update && brew upgrade
brew install ollama/tap/ollama

# Список локальных и удалённых моделей (~<1 сек для спискового запроса)
ollama list

# Загрузка модели (пример):
ollama pull mistral/mistral-7b-v0.2 --name mistral-7b
# Время загрузки зависит от скорости сети и размера: ~1–10 минут (13–20 GB)

ollama pull mistral/mistral-7b-v0.2 --name mistral-7b
# ожидаемый вывод:
Pulling model mistral/mistral-7b-v0.2...
Downloaded 13.1 GB in 3m 40s
Model mistral-7b installed as 'mistral-7b'

Ошибка: недостаточно дискового пространства
# сообщение:
Error: not enough disk space: need 13.1 GB, available 8.4 GB
# фикc:
# Увеличьте свободное пространство или используйте внешний диск:
sudo mount /dev/sdb1 /var/lib/ollama
# или удалите неиспользуемые модели:
ollama remove

# Запуск сервиса (systemd или вручную):
ollama serve --port 11434 &
# Проверка слушающего порта (~1 сек)
ss -tlpn | grep 11434

ollama serve --port 11434
# ожидание:
Serving on http://127.0.0.1:11434
Models available: mistral-7b, llama-2-13b

curl -sS -X POST "http://127.0.0.1:11434/api/generate" \
  -H "Content-Type: application/json" \
  -d '{"model":"mistral-7b","prompt":"Напиши краткое резюме Ollama на русском","max_tokens":128}'

# Ожидаемый фрагмент ответа (~<0.5 сек на локальной машине с моделью в памяти):
{
  "id": "resp_12345",
  "output": "Ollama — локальная платформа для запуска LLM..."
}

import fetch from 'node-fetch';
const res = await fetch('http://127.0.0.1:11434/api/generate', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json' },
  body: JSON.stringify({ model: 'mistral-7b', prompt: 'Hello from Ollama', max_tokens: 64 })
});
const body = await res.json();
console.log(body.output);

Ошибка: Connection refused
# сообщение curl:
curl: (7) Failed to connect to 127.0.0.1 port 11434: Connection refused
# фикc:
# Убедитесь, что сервис запущен и слушает порт 11434:
ollama serve --port 11434
ss -tlpn | grep 11434
# Если служба управляется systemd:
sudo systemctl status ollama.service

# Пример unit-файла: /etc/systemd/system/ollama.service
# Сохраните содержимое файла и выполните:
sudo systemctl daemon-reload
sudo systemctl enable --now ollama.service

# Проверка статуса:
sudo systemctl status ollama.service

● ollama.service - Ollama LLM server
   Loaded: loaded (/etc/systemd/system/ollama.service; enabled)
   Active: active (running) since Mon 2026-03-02 09:12:45 UTC; 2h 3min ago
   Main PID: 1234 (ollama)
   Tasks: 12 (limit: 4679)

Ошибка: service failed to start
# сообщение:
Job for ollama.service failed because the control process exited with error code.
# фикc:
# Смотрите логи:
sudo journalctl -u ollama.service --no-pager -n 200
# Частая причина: порт занят или не хватает прав; измените порт или права и перезапустите.

# Загрузка обновлений модели (не блокирует текущие запросы):
ollama pull mistral/mistral-7b-v0.3 --name mistral-7b-v0.3
# После проверки переключитесь:
ollama set-default mistral-7b-v0.3
# Время обновления зависит от размера: обычно 2–10 минут

# .github/workflows/ollama-smoke.yml (фрагмент)
name: Ollama Smoke Test
on: [push]
jobs:
  smoke:
    runs-on: ubuntu-24.04
    steps:
      - uses: actions/checkout@v4
      - name: Install Ollama
        run: curl -sSL https://ollama.com/install | sudo bash
      - name: Pull model
        run: ollama pull mistral/mistral-7b-v0.2 --name mistral-7b
      - name: Smoke request
        run: |
          curl -sS -X POST "http://127.0.0.1:11434/api/generate" \
            -H 'Content-Type: application/json' \
            -d '{"model":"mistral-7b","prompt":"smoke test","max_tokens":8}' | jq .

{
  "id": "resp_smoke",
  "output": "smoke test ok"
}

Ошибка: недостаток ресурсов на runner
# сообщение в Actions: Process exited with code 137
# фикc:
# Используйте self-hosted runner с достаточной памятью или уменьшите модель до 7B для CI.
# Для чувствительных тестов запускайте на отдельном runner-е с GPU или 32+ GB RAM.

Локальная LLM на Ollama: гайд для разработчика

Комментарии (0)

Что вы изучите

Требования

Почему локальная LLM?

Шаг 1: установка Ollama

Шаг 2: выбор модели

Шаг 3: API вызовы

Шаг 4: мониторинг и обновление

Шаг 5: интеграция в CI/CD