Что такое RAG?

RAG — подход, где на запрос пользователя сначала выполняется поиск релевантных фрагментов векторами (retrieval), а затем LLM использует найденные фрагменты в подсказке (augmentation) для генерации ответа. Это снижает выдумки (hallucination) у модели и ограничивает её знания базой документов. Практический пример: у вас 50 000 служебных записок, 15 ГБ PDF и 1000 презентаций — RAG позволяет быстро найти и сформулировать ответ, опираясь на конкретные абзацы.

Какие embeddings выбрать?

Выбор зависит от бюджета, объёма и требования к латентности. Привожу проверенные рекомендации на 2025–2026 год с конкретикой. Малый бюджет, прототип: sentence-transformers/all-MiniLM-L6-v2 — 384 dim, быстрое локальное исполнение на CPU, точность хорошая для коротких текстов. На CPU 8‑ядрах обработка 10k фрагментов займёт 1–3 часа. Сбалансированно (точность/цена): all-mpnet-base-v2 — 768 dim; локально на GPU T4 ~50–100 ms/вектор, облачная обработка 100k фрагментов займёт 1–3 часа при batch=512. Максимальная точность: облачные embeddings (OpenAI text-embedding-3-large или аналогичные) — 1536 dim; задержка 50–150 ms/вектор; стоимость 2025 порядка 0.10–0.40 USD за 1k векторов, но это сокращает ошибочные совпадения и уменьшает потребность в реранке. Специальные доменные модели: для медицины/юриспруденции используйте fine-tuned models или instructor-family (например, hkunlp/instructor-xl) — лучше сохраняют юридические/медицинские нюансы. Практический подбор: если у вас 10k документов,...

Как хранить векторы?

Опции: файловая система (FAISS index + npy), self-hosted DB (Qdrant, Milvus), managed (Pinecone). Выбор зависит от SLA, бюджета и команды поддержки. Ниже — конкретные схемы хранения и резервирования. FAISS (локально): подходит для экспериментов. Храните индекс (.faiss) и метаданные (.npy/.parquet). Резервное копирование: ежедневный бекап индекса и метаданных на S3 или сетевой диск. Восстановление обычно занимает 10–60 минут для индекса 10–50 GB. Qdrant/Milvus (self-host): лучше для продакшн без облачного lock-in. Конфигурация для 1M векторов (1536d): 4 CPU, 32 GB RAM, NVMe 200 GB. Стартовая стоимость сервера в облаке 2025 ~120–300 USD/месяц. Настройте репликацию 2 узла для отказоустойчивости и резерв копий каждые 6–24 часов. Pinecone (managed): быстрый запуск и масштабирование. Для требований SLA 99.9% и latency Совет практиком: перед массовой генерацией векторов посчитайте ожидаемый объём: vectors_count × dim × 4 байта = приблизительный RAW размер. Добавьте 1.5–3× на...

Как работает RAG?

RAG работает в две стадии: retrieval — поиск семантически похожих фрагментов векторного пространства с помощью embedding моделей и векторной БД; generation — LLM получает найденные фрагменты в подсказке и формирует ответ, опираясь на них. Retrieval сокращает пространство знаний для LLM и снижает риск выдумывания фактов. На практике pipeline: запрос → embedding запроса → top-K search → формирование prompt с контекстом → вызов LLM → постобработка и выдача пользователю.

Что лучше для embeddings: локальный или облачный сервис?

Локальный вариант дешевле при больших объёмах (низкие переменные расходы) и даёт контроль над данными. Облачный сервис проще в эксплуатации, лучше масштабируется и зачастую даёт более качественные embeddings out-of-the-box. Если у вас 10k–100k фрагментов и строгие требования к конфиденциальности — локальная модель (MPNet/miniLM) на GPU будет разумным выбором. Если важнее точность и вы готовы платить — коммерческие embedding API часто дают лучший результат при тех же усилиях интеграции.

Почему возникают галлюцинации у RAG и как их снизить?

Галлюцинации возникают, когда LLM генерирует информацию, не подтверждённую контекстом. Причины: релевантные фрагменты не найдены, контекст слабо связан с вопросом или prompt не содержит строгих инструкций. Снижение: 1) увеличить Recall@K, 2) использовать порог сходства и не подставлять нерелевантные фрагменты, 3) требовать от LLM ссылаться на источник в ответе, 4) добавлять реранк или verification шаг (например, secondary call к model, которая проверяет факты).

Зачем нужен реранк и когда его включать?

Реранк повышает точность финальной выдачи: первичный ANN search даёт «кандидатов», реранк с помощью cross-encoder или более точной модели пересчитывает релевантность. Включайте реранк если точность retrieval ниже желаемой (Recall@5 < 0.85) или когда важно ранжирование по релевантности, а не просто наличие фрагмента. Стоимость: реранк добавляет вычисления — 20–200 ms на запрос при легкой модели, 0.5–2 USD/1k запросов для облачных cross-encoders в 2025.

Где хранить метаданные и как бэкапить индексы?

Метаданные удобно хранить в документной БД (Postgres + jsonb, MongoDB) или как parquet/numpy-файлы в S3. Индексы FAISS — бэкап как файлы (.faiss) на S3; для Qdrant/Milvus используйте встроенные механизмы snapshot и репликацию: снимок каждые 6–24 часов и реплика на отдельный регион. Тест восстановления: восстанавливайте из бэкапа раз в неделю, чтобы убедиться, что процесс работает и реконструкция индекса занимает приемлемое время (обычно 10–60 минут для 10–50 GB). Начните с 1 000 документов и local FAISS + MPNet, измерьте Recall@5 за 1–2 дня. Переходите на managed vector DB (Pinecone/Qdrant) при росте корпуса до 50k+. Оцените стоимость хранения: 1M vectors (1536d) ≈ 9–18 GB с индексом; считайте 1.5–3× к raw size.

AI и ML

RAG с нуля: строим поиск по своим документам

Q: Где хранить метаданные и как бэкапить индексы?

Метаданные удобно хранить в документной БД (Postgres + jsonb, MongoDB) или как parquet/numpy-файлы в S3. Индексы FAISS — бэкап как файлы (.faiss) на S3; для Qdrant/Milvus используйте встроенные механизмы snapshot и репликацию: снимок каждые 6–24 часов и реплика на отдельный регион. Тест восстановления: восстанавливайте из бэкапа раз в неделю, чтобы убедиться, что процесс работает и реконструкция индекса занимает приемлемое время (обычно 10–60 минут для 10–50 GB). Начните с 1 000 документов и local FAISS + MPNet, измерьте Recall@5 за 1–2 дня. Переходите на managed vector DB (Pinecone/Qdrant) при росте корпуса до 50k+. Оцените стоимость хранения: 1M vectors (1536d) ≈ 9–18 GB с индексом; считайте 1.5–3× к raw size.

Stan Brown

2 месяца назад·10 мин читать1

Гайд

#AI и ML #AI Practical

Пошаговое руководство по настройке Retrieval-Augmented Generation для поиска по корпоративным документам и личным архивам. Практические рекомендации по чанкованию, выбору embeddings, хранению векторов и интеграции с LLM (с конкретными цифрами и кодом).

Статья была полезной?

Комментарии (0)

Войдите или зарегистрируйтесь, чтобы оставить комментарий

Загрузка комментариев…

RAG с нуля: строим поиск по своим документам

Комментарии (0)

Что такое RAG?

Шаг 1: Собираем корпус документов

Шаг 2: Чанкование и нормализация

Шаг 3: Генерация embeddings

Шаг 4: Хранение в векторной БД

Шаг 5: Интеграция с LLM (RAG)

Какие embeddings выбрать?

Как хранить векторы?

Шаг 6: Тестирование и метрики качества

Шаг 7: Развёртывание и обслуживание

Шаг 8: UX и объяснимость

Частые вопросы