Что такое prompt caching?

Prompt caching — это кэширование результатов вызова LLM (в данном случае Claude) по детерминированному ключу, вычисленному из содержимого prompt+контекста. Цель: сократить количество дорогостоящих вызовов API к модели, когда результат детерминирован или достаточно актуален в течение TTL. Правильная схема кэширования даёт кратное снижение затрат (часто 2–5x) при ограниченном ухудшении качества обновления.

Какие ограничения?

Prompt caching эффективен при детерминированных или полустатичных запросах. Ограничения: Динамический контент: ответы, зависящие от состояния (баланс, индекс, временные события), требуют коротких TTL или ручного инвалидирования. Семантическая эквивалентность: небольшие различия в форме prompt (разные пробелы, порядок полей) дают разные ключи, поэтому необходима строгая канонизация. Проблемы согласованности: при глобальном кэше с несколькими репликами возможны рассинхроны; для критичных данных используйте single source of truth или персистентный слой с транзакциями. Конфиденциальность: если prompt содержит PII, используйте шифрование ключей и контроль доступа; избегайте хранения открытых персональных данных в кэше.

Подход к prompt caching применим и к OpenAI API, но есть отличия в деталях реализации и политике. По состоянию на 2025 у OpenAI традиционно нет встроенного «prompt cache» как сервисной функции для клиентских запросов, поэтому кэширование остаётся на стороне клиента/прокси. В OpenAI важно учитывать idempotency и session state (chat completions). Проблемы: chat-интеракции часто зависят от истории; для кэша нужно выделять сегменты истории, которые являются детерминированными. Рекомендации при использовании OpenAI: - версионируйте prompt-форму и метаданные; - сохраняйте только ответ и метаданные (без PII); - используйте soft-ttl и фоновые revalidate для поддержания качества. Экономический эффект аналогичен: при hit rate ~67% и цене $0.04/запрос экономия достигает ≈3x с учётом инфраструктурных трат.

Как измерить точный hit rate в продакшне?

Измеряйте hit/miss на уровне Redis и прокси: сохраняйте счётчики cache_hit и cache_miss при каждой попытке чтения кэша. Экспонируйте эти счётчики в Prometheus и рассчитывайте hit rate как cache_hit / (cache_hit + cache_miss) за интервал. Включите временные окна (1 мин, 1 час, 24 часа) чтобы видеть тренды. Для распределённых кэшей агрегируйте метрики из всех нод и выравнивайте по времени. Обязательно логируйте причины cache_miss (expired, not_found, key_mismatch) для последующего анализа.

Что делать с персонализированными ответами (user-specific)?

При персонализации включайте user_id в генерацию ключа, но избегайте хранения PII в открытом виде. Лучший подход: хешировать user_id (например, HMAC с серверным секретом) и включать хеш в ключ. Для часто меняющихся персональных атрибутов используйте короткие TTL (например, 60–300 секунд) и комбинируйте с версионированием шаблона, чтобы при изменении бизнес-правил старые ответы немедленно устаревали.

Почему результаты LLM иногда отличаются даже при одинаковом prompt?

Различия возникают из-за параметра nondeterminism (temperature, top_p), обновлений модели и скрытых stateful-факторов. Для кэша требуются детерминированные настройки: temperature=0, фиксированный seed (если поддерживается) и явная версия модели. Если поведение модели все равно плавает, увеличьте TTL для смягчения или используйте фоновые revalidations, где при первом сроке истечения один запрос обновляет кэш, а остальные получают старую копию до обновления (stale-while-revalidate).

Сколько ресурсов нужно Redis в продакшне?

Зависит от объёма и размера сохранённых ответов. Базовая рекомендация для старта: 1 ГБ RAM на 100k коротких записей (ответы до 2–3 КБ). Для масштабирования используйте кластер Redis с sharding, парой реплик и persistence AOF/RDB при необходимости долговечности. Мониторьте memory_usage, evicted_keys и latency. При увеличении объёма до миллионов ключей планируйте вертикальное или горизонтальное масштабирование и резервную политику (volatile-lru/volatile-ttl).

Prompt caching: снижение стоимости в 3 раза

Prompt caching: снижение стоимости в 3 раза | KtoHto

// Node.js: нормализация prompt и вычисление sha256 key
const crypto = require('crypto');
function canonicalizePrompt(template, vars, meta) {
  // сортировка ключей для детерминированности
  const sortedVars = Object.keys(vars).sort().reduce((a, k) => { a[k]=vars[k]; return a; }, {});
  const payload = { template, vars: sortedVars, meta };
  return JSON.stringify(payload);
}
function promptKey(template, vars, meta) {
  const canon = canonicalizePrompt(template, vars, meta);
  return crypto.createHash('sha256').update(canon, 'utf8').digest('hex');
}
// Пример использования
const key = promptKey('Summarize: {{text}}', { text: 'Пример' }, { model: 'claude-2', temperature: 0 });
console.log(key);

e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855

# Docker: запустить Redis 7.2 (2024)
# Время запуска: ~1.5–3 сек на локальной машине
docker run -d --name redis-cache -p 6379:6379 redis:7.2

8e1c9f3c4a9d1b2e3f4a5b6c7d8e9f0a1b2c3d4e5f6a7b8c9d0e1f2a3b4c5d6
# контейнер запущен, порт 6379 открыт

const Redis = require('ioredis');
const redis = new Redis({ host: '127.0.0.1', port: 6379 });
async function cachedCall(key, ttlSec, callModel) {
  const cached = await redis.get(key);
  if (cached) return JSON.parse(cached);
  const result = await callModel();
  await redis.set(key, JSON.stringify(result), 'EX', ttlSec);
  return result;
}

// Пример использования: ttlSec = 3600 (1 час)

# Python-скрипт для моделирования экономии (пример)
requests = 100000
cost_per_call = 0.03
hit_rate = 0.67
calls_with_cache = int(requests * (1 - hit_rate))
cost_no_cache = requests * cost_per_call
cost_with_cache = calls_with_cache * cost_per_call + 100  # + инфра
print(cost_no_cache, cost_with_cache)
# Ожидаемый вывод: 3000 1090

# Удаление ключа в Redis
redis-cli DEL # Node.js
await redis.del(key);

(integer) 1

[Unit]
Description=Prompt Cache Proxy
After=network.target

[Service]
User=svc
WorkingDirectory=/opt/prompt-cache
ExecStart=/usr/bin/node /opt/prompt-cache/index.js
Restart=on-failure
Environment=NODE_ENV=production
Environment=REDIS_HOST=127.0.0.1

[Install]
WantedBy=multi-user.target

● prompt-cache.service - Prompt Cache Proxy
   Loaded: loaded (/etc/systemd/system/prompt-cache.service; enabled)
   Active: active (running) since Mon 2025-06-02 10:12:34 UTC; 1min 12s ago

Prompt caching: снижение стоимости в 3 раза

Комментарии (0)

Что вы изучите

Требования

Что такое prompt caching?

Шаг 1: структура prompt

Шаг 2: cache_control

Шаг 3: измерение экономии

Шаг 4: стратегия инвалидирования

Шаг 5: развёртывание и мониторинг

Какие ограничения?

А у OpenAI?

Частые вопросы

Как измерить точный hit rate в продакшне?

Что делать с персонализированными ответами (user-specific)?

Почему результаты LLM иногда отличаются даже при одинаковом prompt?

Сколько ресурсов нужно Redis в продакшне?