Когда нужен partitioning?

Разделение таблицы на партиции становится полезным, когда сопровождаются хотя бы две из трёх проблем: медленные сканирования из-за больших объёмов данных, длительное обслуживание (VACUUM/ANALYZE, reindex) и высокий ввод/вывод при бэкапах или архивации. Конкретные триггеры: таблица > 100 ГБ и рост > 10 ГБ в неделю; планирование запросов показывает частые seq scan по диапазону дат в последних 30 днях; еженедельный VACUUM FULL или reindex занимает > 1 час на таблицу; удаление старых данных — регулярная операция (например, rollup логов каждые 30–90 дней). В крупных проектах 2025–2026 годов практика такова: если ваша OLTP-таблица активна и достигает 200–500 млн строк или 200+ ГБ, partitioning практически всегда даёт эффект. Но есть и случаи, когда он не нужен: если вы делаете редкие аналитические выборки по всей таблице и не можете легко фильтровать по ключу партиционирования.

Ниже перечислены наиболее частые ошибки, с которыми я сталкивался в проектах 2024–2026 годов, и как их избежать с конкретными параметрами. 1. Слишком много партиций Проблема: создание >5000 партиций ведёт к большим накладным расходам на планирование. Рекомендация: держите количество партиций в пределах 200–2000 и используйте composite схемы (RANGE+HASH) при больших объёмах. Измерение: на PG14 тест с 5000 партиций увеличил median planning_time с 2 ms до 30–120 ms в зависимости от запроса. 2. Неправильный ключ партиционирования Если ключ не совпадает с фильтрами запросов, pruning не сработает и вы потеряете выгоду. Решение: проанализировать топ-100 запросов через pg_stat_statements и выбрать ключ, который участвует в 70% выборок по WHERE. 3. Отсутствие индексов на партициях Ожидание глобального индекса приводит к ошибкам. Создавайте индексы на каждой партиции автоматически с помощью шаблонов или DDL-скриптов при создании партиций: время создания индекса на партицию 50 ГБ с...

Как работают индексы?

Индексы на партиционированных таблицах создаются отдельно на каждой дочерней партиции. Это ключевое отличие от некоторых СУБД с глобальными индексами. Разберёмся с последствиями и оптимизациями. Локальные индексы При выполнении запроса с условием, которое покрывают индексы, PostgreSQL применит индексы на релевантных партициях. Пример: запрос по диапазону дат и user_id — планировщик делает partition pruning по дате и затем использует индекс по user_id в каждой оставшейся партиции. Нет глобального индекса (статус на 2026) На момент 2026 в большинстве мейнстримных сборок PostgreSQL глобальные индексы для declarative partitioning официально не реализованы. Это значит, что операция поиска по колонке без ограничения по партиционирующему ключу может требовать проверки индексов в каждой партиции. Практическое следствие: если запросы часто фильтруют только по non-partition key, подумайте о следующих приёмах: создание частичных индексов на партициях с условием по датам/статусу; создание...

как выбрать интервал партиционирования?

Выбирайте интервал опираясь на скорость роста таблицы и шаблоны запросов. Если данные растут 5–10 ГБ в день — используйте месячные партиции; при 10–100 ГБ в день — недельные; при >100 ГБ в день — дневные. Проверьте топ-100 запросов через pg_stat_statements: если 70% запросов фильтруют по дате, RANGE по времени даст максимальный выигрыш. Учтите, что чем меньше интервал — тем больше число партиций и накладные расходы на планирование. Практический компромисс: для 50 ГБ/день выбрать недельные партиции (≈350 ГБ/партиция).

что делать с индексами при партиционировании?

Создавать индексы нужно на каждой партиции; используйте скрипты или шаблоны для автоматизации. Если у вас 12 партиций в год, создавайте индекс после создания партиции и запускайте его CONCURRENTLY, чтобы не блокировать записи. Для больших партиций (50–200 ГБ) указывайте parallel_workers=4–8. Для сокращения объёма индексов применяйте частичные индексы (WHERE) если запросы используют такие фильтры.

почему запросы не используют partition pruning?

Причины: условия в WHERE не выражены явно в виде констант или оптимизируемых выражений, функции и типы не сопоставляются, либо planner не может вычислить диапазон во время планирования. Проверьте EXPLAIN и убедитесь, что условие над партиционной колонкой не обёрнуто в функции (например, date_trunc) — лучше писать ts >= '2026-03-01' AND ts < '2026-04-01'. Также убедитесь, что statistics_level не занижен и что новые партиции были проанализированы (ANALYZE).

сколько партиций безопасно иметь?

Безопасный диапазон — 200–2000 партиций для большинства версий PostgreSQL в 2025–2026 годах. Конкретный предел зависит от схемы запросов и версии СУБД: чем новее версия (15–16), тем лучше масштабирование, но всё равно чрезмерное число партиций (тысячи) увеличивает время планирования и объём системных каталогов. Перед масштабированием выше 2000 партиций обязательно тестируйте нагрузку на staging.

чем лучше логическая репликация при миграции?

Логическая репликация минимизирует даунтайм: вы синхронизируете изменения в реальном времени и делаете cutover при небольшой задержке. Для таблиц сотни гигабайт это обычно лучший путь, если инфраструктура позволяет. Минусы: надо выделить ресурсы для реплики, убедиться в совместимости схем и обработать DDL-операции аккуратно. При пропуске больших исторических вставок комбинируют bulk-load + logical replication для текущих данных. Если нужно, подготовлю подробный plan миграции вашего конкретного кейса: укажите объём таблицы, pattern запросов и версию PostgreSQL — составлю скрипты и оценю длительность и риски.

Partitioning больших таблиц в PostgreSQL

Q: сколько партиций безопасно иметь?

Безопасный диапазон — 200–2000 партиций для большинства версий PostgreSQL в 2025–2026 годах. Конкретный предел зависит от схемы запросов и версии СУБД: чем новее версия (15–16), тем лучше масштабирование, но всё равно чрезмерное число партиций (тысячи) увеличивает время планирования и объём системных каталогов. Перед масштабированием выше 2000 партиций обязательно тестируйте нагрузку на staging.

Q: чем лучше логическая репликация при миграции?

Логическая репликация минимизирует даунтайм: вы синхронизируете изменения в реальном времени и делаете cutover при небольшой задержке. Для таблиц сотни гигабайт это обычно лучший путь, если инфраструктура позволяет. Минусы: надо выделить ресурсы для реплики, убедиться в совместимости схем и обработать DDL-операции аккуратно. При пропуске больших исторических вставок комбинируют bulk-load + logical replication для текущих данных. Если нужно, подготовлю подробный plan миграции вашего конкретного кейса: укажите объём таблицы, pattern запросов и версию PostgreSQL — составлю скрипты и оценю длительность и риски.

Partitioning больших таблиц в PostgreSQL | KtoHto

CREATE TABLE access_logs (
  id bigint PRIMARY KEY,
  ts timestamptz NOT NULL,
  user_id bigint,
  event jsonb
) PARTITION BY RANGE (ts);

CREATE TABLE events (
  id serial,
  tenant_id int NOT NULL,
  payload jsonb
) PARTITION BY LIST (tenant_id);

CREATE TABLE sessions (
  id bigint,
  user_id bigint,
  created_at timestamptz
) PARTITION BY HASH (user_id);

-- основная таблица
CREATE TABLE metrics (
  id bigserial,
  metric_date date NOT NULL,
  value double precision,
  tags jsonb
) PARTITION BY RANGE (metric_date);

-- партиция за январь 2026
CREATE TABLE metrics_2026_01 PARTITION OF metrics
  FOR VALUES FROM ('2026-01-01') TO ('2026-02-01');

#!/usr/bin/env bash
# create_monthly_partitions.sh — запускать раз в неделю, создает партиции на 12 месяцев вперед
DB=production
SCHEMA=public
TABLE=metrics
psql "$DB" -At -c "\
DO $$
DECLARE
  start_date date := date_trunc('month', current_date);
  i int;
BEGIN
  FOR i IN 0..11 LOOP
    EXECUTE format('CREATE TABLE IF NOT EXISTS %I.%I_%s PARTITION OF %I.%I FOR VALUES FROM (%L) TO (%L)',
      '$SCHEMA', '$TABLE', to_char(start_date + (i || '' month'')::interval, 'YYYY_MM'),
      '$SCHEMA', '$TABLE', to_char(start_date + i * interval '1 month', 'YYYY-MM-01'), to_char(start_date + (i+1) * interval '1 month', 'YYYY-MM-01'));
  END LOOP;
END$$;"

pg_dump -Fc -j 8 -d production -t public.big_table > big_table.dump
-- на новом сервере:
pg_restore -d production -j 8 big_table.dump

-- мониторинг прогресса
SELECT pid, relid::regclass, received_lsn, last_msg_send_time, last_msg_receipt_time
FROM pg_stat_subscription;

-- шаги (пример для 500M строк, 200 ГБ)
-- 1. создать partitioned структуру
CREATE TABLE new_tbl (...) PARTITION BY RANGE (ts);
-- 2. для каждого диапазона создать временную таблицу и переместить данные:
CREATE TABLE tmp_2025_01 AS SELECT * FROM old_tbl WHERE ts >= '2025-01-01' AND ts < '2025-02-01';
-- 3. убедиться, что индексы и constraints совпадают, затем:
ALTER TABLE tmp_2025_01 ATTACH PARTITION new_tbl FOR VALUES FROM ('2025-01-01') TO ('2025-02-01');

-- удалить партицию 2024-01
ALTER TABLE metrics DETACH PARTITION metrics_2024_01;
DROP TABLE metrics_2024_01;
-- или сразу
DROP TABLE IF EXISTS metrics_2024_01;

Partitioning больших таблиц в PostgreSQL

Комментарии (0)

Когда нужен partitioning?

Шаг 1: выбор ключа

1. RANGE по дате — когда применять

2. LIST по категориальному полю

3. HASH — для равномерного распределения

Комбинированные схемы (composite key)

Шаг 2: declarative partitions

Создание основной таблицы и партиций

Автоматизация создания партиций — пример скрипта

Ограничения declarative partitions

Шаг 3: миграция существующих данных

Вариант A — pg_dump/pg_restore (прост, но с даунтаймом)

Вариант B — логическая репликация (минимальный даунтайм)

Вариант C — поэтапная миграция с ATTACH (online, контролируемая)

Советы по миграции

Шаг 4: обслуживание и мониторинг

Мониторинг и метрики

Удаление старых партиций

Шаг 5: тестирование и откат

Чеклист тестирования

План отката (rollback)

Какие pitfalls?

1. Слишком много партиций

2. Неправильный ключ партиционирования

3. Отсутствие индексов на партициях

4. DDL в пиковое время

Как работают индексы?

Локальные индексы

Нет глобального индекса (статус на 2026)

Параллельное создание индексов и reindex

Поддержание статистики

Частые вопросы