Data Science

Анализ данных и машинное обучение

0 статей

Data Lake vs Data Warehouse 2026

Ключевые различия между Data Lake и Data Warehouse влияют на стоимость, скорость аналитики и управление данными в 2026 году. Привожу практические шаги выбора и оценки для стартапа и корпорации с конкретными цифрами и примерами.

Читать далее3 мин·

Stan Brown·Data Science·—

Streaming аналитика на ClickHouse + Kafka

Реализуете потоковую аналитику на ClickHouse с использованием Kafka Engine и materialized views за 60–90 минут. Пошаговая инструкция с командами, ожидаемым выводом и типовыми ошибками.

Читать далее8 мин·

Stan Brown·Data Science·—

Change Data Capture с Debezium

Пошаговый гайд по запуску Debezium CDC для PostgreSQL с примерами коннектора, consumer-программы и обработкой изменений схемы. Примерное время выполнения — 60–90 минут при наличии Docker и 4 ГБ оперативной памяти.

Читать далее3 мин·

Stan Brown·Data Science·—

Apache Airflow: DAG для начинающих

Пошаговое руководство по созданию и запуску первого DAG в Apache Airflow с примерами кода, проверками и распространёнными ошибками. Время выполнения — около 60–120 минут в зависимости от окружения.

Читать далее11 мин·

Stan Brown·Data Science·—

Mониторинг data pipelines: Great Expectations

Пошаговый практический гайд по внедрению Great Expectations для тестирования и мониторинга data pipelines с примерами команд, конфигураций и CI-интеграцией. Подходит для Python-пайплайнов, включая Airflow, Prefect и Dagster.

Читать далее8 мин·

Stan Brown·Data Science·—

Kafka vs RabbitMQ vs NATS 2026

Сравнение трёх популярных брокеров сообщений — Kafka, RabbitMQ и NATS — по кейсам, производительности, гарантиям доставки и затратам. Кому подходит каждая система: краткие рекомендации для продакшн-проектов и микросервисов.

Читать далее11 мин·

Stan Brown·Data Science·—

ETL vs ELT в 2026: что выбрать

Ключевое решение для архитектуры данных в 2026 — выбрать ETL или ELT исходя из источников, скорости и бюджета. Статья даёт пошаговый практический план с конкретными числами, инструментами и примерами кода.

Читать далее10 мин·

Stan Brown·Data Science·—

Spark для backend-разработчика 2026

Практическое руководство по использованию Apache Spark в бекенд-проектах: когда выбирать Spark, как работать с RDD и DataFrame и как деплоить на Kubernetes. Внутри — реальные настройки, примеры команд и типовые конфигурации для продакшена 2025–2026 годов.

Читать далее11 мин·

Stan Brown·Data Science·—

dbt для аналитика 2026

Пошаговый туториал по dbt (Data Build Tool) с примерами и готовыми командами: инициализация проекта, модели, тесты и документация. Время выполнения: базовый проход 20–45 минут, настройка CI и интеграции — 1–2 часа.

Читать далее7 мин·

Stan Brown·Data Science·—

Вопросы про data engineering в РФ 2026

Краткий FAQ для тех, кто следит за профессией data engineer в России в 2025–2026 годах: стек, зарплаты, инструменты и альтернативы крупным облачным решениям.

Читать далее9 мин·

Stan Brown·Data Science·—

Kafka для backend-разработчика 2026

Практический гид по использованию Apache Kafka на backend в 2026 году с рабочими конфигурациями, расчётами и примерами кода. Подойдёт для опытных backend-разработчиков, которые проектируют высоконагруженные стриминговые системы.

Читать далее11 мин·

Stan Brown·Data Science·—

Обработка 10М событий в день на Kafka

Практическое руководство по построению надёжной конвейерной обработки на Apache Kafka для нагрузки ~10 миллионов событий в сутки. Разбор шардирования, настройки consumer group, мониторинга lag и оптимизаций, которые сработали в 2025–2026 годах.

Читать далее5 мин·

Stan Brown·Data Science·—

Lakehouse: будущее data engineering 2026

Сравнение архитектур на примере Delta Lake, Apache Iceberg и Apache Hudi в контексте 2026 года — какие сценарии выигрывают, а где хватает классического warehouse. Ключевой инсайт: lakehouse оправдан для объединения потоковой и пакетной аналитики с контролем версий и транзакций; warehouse остаётся пригоден при строгой схемой и требовании низкой задержки OLAP.

Читать далее13 мин·

Stan Brown·Data Science·—

Apache Iceberg: почему все переходят 2026

Пошаговое практическое руководство по развертыванию Apache Iceberg и переходу от классических Hive-таблиц к Iceberg за один рабочий день. Примеры настроек, CRUD, time travel, оптимизация и интеграции; время выполнения — 2–5 часов.

Читать далее4 мин·