Как оценивать качество?

Оценка качества RAG делится на автоматические метрики и human‑in‑the‑loop проверки. Для production‑ready систем нужен оба слоя — автоматизированные ежедневные проверки и периодические ручные ревью. Оффлайн‑оценка Подготовьте набор из 1k–10k вопрос‑ответов (ground truth). Для каждого запроса храните релевантные документы и участки текста (span). Прогоняйте retrieval pipeline и считаете: Recall@k (k=5,10,20) — доля запросов, где хотя бы один релевантный документ попал в topk. MRR@k — среднее ранговое положение первого релевантного документа. NDCG@k — для учёта позиции и релевантности разных документов. Целевые значения на тематических наборах: recall@20 >= 0.85, MRR@10 >= 0.55 (внутренние ориентиры, декабрь 2025). Human evaluation Организуйте регулярную проверку 200–500 ответов/неделю. Оценивайте точность фактов, соответствие источникам и уровень «галлюцинаций». Метрика hallucination_rate = доля ответов с неподтверждёнными фактами. Цель: <8% для general KB, <5% для критичных доменов...

Какие метрики?

Набор метрик включает retrieval‑метрики, quality‑метрики для генерации и эксплуатационные показатели. Ниже — формулировки, формулы и целевые пороги. Recall@k — что означает и как считать Recall@k = (# запросов, где есть релевантный документ в topk) / (общее число запросов). Целевые пороги: 0.85 при k=20 для тематических KB, 0.75 для open‑domain. Для расчёта используйте holdout 5k–10k пара Q→список релевантных id. MRR (Mean Reciprocal Rank)? MRR = (1/N) * sum(1/rank_i) где rank_i — позиция первого релевантного документа для i‑го запроса. MRR чувствителен к позиции; целевой диапазон 0.45–0.7 в зависимости от задач. На практике MRR@10 лучше всего отражает пользовательский experience в QA интерфейсах. NDCG@k — зачем нужен? NDCG учитывает разные уровни релевантности: 2 балла — точно релевантно, 1 — частично, 0 — нерелевантно. NDCG@k = DCG@k / IDCG@k. Этот показатель полезен при сложных ранжировках, где несколько документов дают частичную пользу к ответу. Hallucination rate — как...

MRR (Mean Reciprocal Rank)?

MRR = (1/N) * sum(1/rank_i) где rank_i — позиция первого релевантного документа для i‑го запроса. MRR чувствителен к позиции; целевой диапазон 0.45–0.7 в зависимости от задач. На практике MRR@10 лучше всего отражает пользовательский experience в QA интерфейсах.

NDCG@k — зачем нужен?

NDCG учитывает разные уровни релевантности: 2 балла — точно релевантно, 1 — частично, 0 — нерелевантно. NDCG@k = DCG@k / IDCG@k. Этот показатель полезен при сложных ранжировках, где несколько документов дают частичную пользу к ответу.

Hallucination rate — как измерять?

Hallucination rate измеряется через human‑annotation: аннотаторы смотрят ответ, проверяют источники и помечают, содержит ли ответ неверные факты. Процент = (количество ответов с ошибками) / (общее количество проверенных ответов). Для оценивания используйте пул из 3 аннотаторов на ответ и majority vote, чтобы снизить шум.

Эксплуатационные метрики и стоимость?

Эксплуатационные метрики: latency P50/P95/P99, QPS, error rate, GPU/CPU utilization. Стоимость часто определяется фазой re‑rank: если вы re‑rank 20 docs и cross‑encoder даёт 8 ms/пара на GPU, при 10k запросов/день вы будете использовать ≈(10k*20*8ms)/3600s ≈ 0.44 GPU‑час/день. При цене $0.8/час — $0.35/день ≈ $1.05/3000 запросов. Добавьте стоимость LLM generation и storage — итоговая цена может быть $2–$8/1k запросов в зависимости от модели генерации. Практика показывает: сочетание BM25 и векторов + cross‑encoder re‑ranking даёт лучшее соотношение качество/стоимость для интерактивных RAG‑систем. Полезные материалы по теме: Методы ML и NLP, DevOps и инфраструктура.

какой баланс alpha/beta выбрать для комбинированного скоринга?

Стартовые значения — alpha=0.35 (BM25), beta=0.65 (vectors). Если источники строго структурированы и важны точные совпадения (чертежи, инструкции), повышайте alpha до 0.5–0.6. Для форумов, блогов и customer support, где тексты разрознены и используют синонимы, увеличьте beta до 0.7–0.8. Всегда делайте A/B тесты на holdout выборке 1k–5k запросов и смотрите recall@20, MRR и latency. Меняйте веса постепенно: шаг 0.05 и собирайте метрики 48–72 часа.

как сократить latency cross‑encoder в продакшене?

Основные способы: 1) переход на ONNX + TensorRT или ONNX‑Runtime with OpenVINO для CPU, 2) batching запросов (batch_size 64–256) при низком qps, 3) использование int8/float16 квантизации — даёт 2–4× ускорение, 4) кэширование результатов для часто встречающихся пар (query+doc) и 5) уменьшение re‑rank K до 20–30. Комбинация batching + onnx обычно даёт наибольший эффект: latency на пару падает до 2–6 ms на GPU и до 15–40 ms на оптимизированном CPU в 2026.

где хранить embeddings и как уменьшить их объём?

Embeddings храните в специализированном vector store (FAISS, Milvus, Pinecone) или в field dense_vector в Elasticsearch/OpenSearch для небольших объёмов. Для уменьшения объёма используйте PCA/quantization (IVF+PQ, OPQ), float16 или int8. В результате storage уменьшается в 2–8×. Например, PCA с 384→128 dims и float16 уменьшит объём примерно в 3× при незначительной деградации качества; PQ (8‑bit) снижает размер в 4–8×, но требует тщательной валидации на holdout.

когда нужно делать полный re‑index?

Полный re‑index необходим при смене модели embeddings (например, с dim=384 на dim=1 024), при изменении chunking правил или при критичном снижении recall. В продакшене планируйте re‑index за пределами пиковой нагрузки. На 1M документов full reindex занимает 4–12 часов с 2–4 GPU в зависимости от batch size. Делайте snapshot старого индекса и alias switch для отката в случае проблем.

сколько стоит запуск hybrid RAG на 10k запросов в день?

Оценка 2026 (пример для базового варианта): storage + FAISS self‑host ≈ $50–80/мес для 1M докум.; GPU‑inference для cross‑encoder ≈ $0.8/час; при 10k запросов/день и re‑rank топ20 ожидаемое потребление GPU ≈ 0.44 GPU‑час/день → ≈ $13/мес. LLM generation (если вы используете managed API) добавляет $20–$200/мес в зависимости от модели и средней длины ответа. Итого conservative estimate ≈ $100–$400/мес для стартовой инфраструктуры, более оптимизированный сценарий — $60–$150/мес. Эти цифры зависят от облачного провайдера и конкретных моделей. Если вам нужен шаблон конфигурации, benchmark‑скрипты или помощь с выбором emb модели под конкретную коллекцию — могу подготовить адаптированный playbook и скрипты для re‑index/benchmark под ваш набор данных и бюджет.

RAG advanced: hybrid search и re-ranking

Q: MRR (Mean Reciprocal Rank)?

MRR = (1/N) * sum(1/rank_i) где rank_i — позиция первого релевантного документа для i‑го запроса. MRR чувствителен к позиции; целевой диапазон 0.45–0.7 в зависимости от задач. На практике MRR@10 лучше всего отражает пользовательский experience в QA интерфейсах.

Q: NDCG@k — зачем нужен?

NDCG учитывает разные уровни релевантности: 2 балла — точно релевантно, 1 — частично, 0 — нерелевантно. NDCG@k = DCG@k / IDCG@k. Этот показатель полезен при сложных ранжировках, где несколько документов дают частичную пользу к ответу.

Q: Hallucination rate — как измерять?

Hallucination rate измеряется через human‑annotation: аннотаторы смотрят ответ, проверяют источники и помечают, содержит ли ответ неверные факты. Процент = (количество ответов с ошибками) / (общее количество проверенных ответов). Для оценивания используйте пул из 3 аннотаторов на ответ и majority vote, чтобы снизить шум.

Q: Эксплуатационные метрики и стоимость?

Эксплуатационные метрики: latency P50/P95/P99, QPS, error rate, GPU/CPU utilization. Стоимость часто определяется фазой re‑rank: если вы re‑rank 20 docs и cross‑encoder даёт 8 ms/пара на GPU, при 10k запросов/день вы будете использовать ≈(10k*20*8ms)/3600s ≈ 0.44 GPU‑час/день. При цене $0.8/час — $0.35/день ≈ $1.05/3000 запросов. Добавьте стоимость LLM generation и storage — итоговая цена может быть $2–$8/1k запросов в зависимости от модели генерации. Практика показывает: сочетание BM25 и векторов + cross‑encoder re‑ranking даёт лучшее соотношение качество/стоимость для интерактивных RAG‑систем. Полезные материалы по теме: Методы ML и NLP, DevOps и инфраструктура.

Q: какой баланс alpha/beta выбрать для комбинированного скоринга?

Стартовые значения — alpha=0.35 (BM25), beta=0.65 (vectors). Если источники строго структурированы и важны точные совпадения (чертежи, инструкции), повышайте alpha до 0.5–0.6. Для форумов, блогов и customer support, где тексты разрознены и используют синонимы, увеличьте beta до 0.7–0.8. Всегда делайте A/B тесты на holdout выборке 1k–5k запросов и смотрите recall@20, MRR и latency. Меняйте веса постепенно: шаг 0.05 и собирайте метрики 48–72 часа.

Q: как сократить latency cross‑encoder в продакшене?

Основные способы: 1) переход на ONNX + TensorRT или ONNX‑Runtime with OpenVINO для CPU, 2) batching запросов (batch_size 64–256) при низком qps, 3) использование int8/float16 квантизации — даёт 2–4× ускорение, 4) кэширование результатов для часто встречающихся пар (query+doc) и 5) уменьшение re‑rank K до 20–30. Комбинация batching + onnx обычно даёт наибольший эффект: latency на пару падает до 2–6 ms на GPU и до 15–40 ms на оптимизированном CPU в 2026.

Q: где хранить embeddings и как уменьшить их объём?

Embeddings храните в специализированном vector store (FAISS, Milvus, Pinecone) или в field dense_vector в Elasticsearch/OpenSearch для небольших объёмов. Для уменьшения объёма используйте PCA/quantization (IVF+PQ, OPQ), float16 или int8. В результате storage уменьшается в 2–8×. Например, PCA с 384→128 dims и float16 уменьшит объём примерно в 3× при незначительной деградации качества; PQ (8‑bit) снижает размер в 4–8×, но требует тщательной валидации на holdout.

Q: когда нужно делать полный re‑index?

Полный re‑index необходим при смене модели embeddings (например, с dim=384 на dim=1 024), при изменении chunking правил или при критичном снижении recall. В продакшене планируйте re‑index за пределами пиковой нагрузки. На 1M документов full reindex занимает 4–12 часов с 2–4 GPU в зависимости от batch size. Делайте snapshot старого индекса и alias switch для отката в случае проблем.

Q: сколько стоит запуск hybrid RAG на 10k запросов в день?

Оценка 2026 (пример для базового варианта): storage + FAISS self‑host ≈ $50–80/мес для 1M докум.; GPU‑inference для cross‑encoder ≈ $0.8/час; при 10k запросов/день и re‑rank топ20 ожидаемое потребление GPU ≈ 0.44 GPU‑час/день → ≈ $13/мес. LLM generation (если вы используете managed API) добавляет $20–$200/мес в зависимости от модели и средней длины ответа. Итого conservative estimate ≈ $100–$400/мес для стартовой инфраструктуры, более оптимизированный сценарий — $60–$150/мес. Эти цифры зависят от облачного провайдера и конкретных моделей. Если вам нужен шаблон конфигурации, benchmark‑скрипты или помощь с выбором emb модели под конкретную коллекцию — могу подготовить адаптированный playbook и скрипты для re‑index/benchmark под ваш набор данных и бюджет.

RAG advanced: hybrid search и re-ranking | KtoHto

{
  "mappings": {
    "properties": {
      "text": { "type": "text", "analyzer": "standard" },
      "bm25_text": { "type": "text", "analyzer": "standard" },
      "dense_vector": { "type": "dense_vector", "dims": 384, "index": true },
      "metadata": { "type": "object", "enabled": true }
    }
  }
}

# нормализованные значения в диапазоне [0,1]
score_final = alpha * score_bm25_norm + beta * score_vec_norm
# обычно alpha + beta = 1; стартовые веса alpha=0.35, beta=0.65

def normalize(scores):
    min_s, max_s = min(scores), max(scores)
    return [(s - min_s) / (max_s - min_s + 1e-9) for s in scores]

bm25_docs = get_bm25(q, top_k=100)   # возвращает [(id, score), ...]
vec_docs = get_faiss(q_emb, top_k=100)

# merge
id2scores = {}
for id, s in bm25_docs:
    id2scores.setdefault(id, {})['bm25'] = s
for id, s in vec_docs:
    id2scores.setdefault(id, {})['vec'] = s

ids = list(id2scores.keys())
bm25_vals = [id2scores[i].get('bm25', 0) for i in ids]
vec_vals   = [id2scores[i].get('vec', 0) for i in ids]

bm25_norm = normalize(bm25_vals)
vec_norm  = normalize(vec_vals)

alpha, beta = 0.35, 0.65
combined = []
for i, doc_id in enumerate(ids):
    combined.append((doc_id, alpha*bm25_norm[i] + beta*vec_norm[i]))

combined_sorted = sorted(combined, key=lambda x: x[1], reverse=True)[:150]

from sentence_transformers import CrossEncoder

model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2', device='cuda')

pairs = [(query, doc_text) for doc_text in top_docs_texts]
scores = model.predict(pairs, batch_size=64)
# затем сортируем по score и берем topK
ranked = sorted(zip(top_docs_ids, scores), key=lambda x: x[1], reverse=True)[:20]

def chunk_text(text, tokenizer, max_tokens=400, overlap_tokens=80):
    toks = tokenizer.encode(text)
    chunks = []
    i = 0
    while i < len(toks):
        chunk = toks[i:i+max_tokens]
        chunks.append(tokenizer.decode(chunk))
        i += max_tokens - overlap_tokens
    return chunks

# применение: используйте sentencepiece/bpe токенизатор той модели, от которой будете брать embeddings

Комментарии (0)

Проблемы простого RAG

Шаг 1: BM25 + векторы

1.1 Архитектура и выбор инструментов

1.2 Пример mapping для Elasticsearch 8 (2026)

1.3 Retrieval pipeline: union и ранжирование по сумме

1.4 Формула комбинированного score

1.5 Пример кода: объединение результатов

Шаг 2: cross-encoder re-ranking

2.1 Почему cross‑encoder работает лучше

2.2 Производительность и оптимизация

2.3 Пример кода re‑rank с CrossEncoder (Python)

2.4 Бюджет и приоритизация

Шаг 3: chunking стратегии

3.1 Правила разбивки и числа

3.2 Семантическое chunking: как делать лучше

3.3 Примеры и расчёты storage

3.4 Пример кода chunker

Шаг 4: индексация и обновления

4.1 Инкрементальные обновления

4.2 Re‑index и схема версионирования

4.3 Автоматическое тестирование индекса

Шаг 5: продакшен и мониторинг

5.1 METRICS и SLA

5.2 Мониторинг: что смотреть и как алёртить

5.3 A/B и Canary