Что такое AI-разработка?

AI-разработка — это проектная деятельность по созданию сервисов и продуктов, использующих модели машинного обучения и большие языковые модели (LLM) для решения задач: генерация текста, классификация, поиск по семантике, синтез речи и мультимодальные сценарии. В 2026 чаще всего речь идёт о гибридных архитектурах: тонкая клиентская логика + LLM-инференс в бэкенде или на edge. Ключевые компоненты — данные (сбор и разметка), модель (open-source или облачные LLM), инфраструктура (GPU/TPU/CPU), MLOps (CI/CD, мониторинг), и безопасность (аутентификация, шифрование). Конкретика 2025–2026: средний PoC для генеративного чат-агента занимает 3–6 недель, MVP — 3–6 месяцев; для сложных систем с интеграцией в CRM или ERP — 6–12 месяцев. Команда типичного проекта: 1 продакт, 1–2 ML-инженера, 1 backend-инженер, 1 QA/DevOps, 0.5 аналитика данных. Бюджет PoC — 200 000–800 000 ₽ (аппарат, облако, лицензии), MVP — от 1,2 млн до 6 млн ₽ в зависимости от требований к SLA и приватности. Для чтения по...

Кому подходит AI-разработка?

AI-разработка подходит компаниям и командам с ясной бизнес-целью: сокращение ручных процессов, повышение эффективности обслуживания, автоматизация принятия решений, создание новых продуктов. Подходит при наличии хотя бы 3–12 месяцев данных с метриками и примерами (диалоги, логи, транзакции). Малый бизнес (до 20 сотрудников) чаще ограничивается готовыми SaaS-решениями при цене до 50 000 ₽/мес; компании среднего и крупного бизнеса при годовом IT-бюджете от 10 млн ₽ инвестируют в собственные решения или приватный хостинг. Примеры случаев, когда проект оправдан: чат-боты для поддержки с сокращением SLA на 35–70% в первый год; автоматическая генерация коммерческих предложений, ускоряющая цикл продаж на 20–40%; система рекомендаций, увеличивающая конверсию на 10–25%. Необходимы ресурсы: 0.5–2 ТФ-ресурса GPU для старта (NVIDIA A10/A100), 1–3 ТБ дискового пространства для логов и разметки, юридическая поддержка для обработки персональных данных. Для вопросов внедрения и мониторинга...

Какую LLM выбрать для бэкенда?

Выбор LLM для бэкенда в 2026 зависит от трёх параметров: стоимость (TCO), требования к задержке и приватности. Популярные опции в 2025–2026: OpenAI GPT-4o и его производные (лучше для генерации при доступе к облаку), Anthropic Claude 3/4 для задач с сильным акцентом на безопасность, Mistral/Trident и Llama 3 (Meta) как наиболее выгодные open-source варианты для локального развёртывания. Для русского рынка — SberAI и Yandex модели (2024–2026) с локализацией и возможностью хостинга на территории РФ. Какие метрики сравнивать при выборе? Latency: целевая 30–300 ms на запрос для интерактивных сервисов. Если SLA 99.9%, планируйте запас 2–3×. Throughput: запросов в секунду на GPU (например, A100 ~ 50–200 токен/запрос в батче). Cost per 1k токен: облачные платные LLM в 2026 — $0.5–$10 за 1M токен в зависимости от модели; self-hosting — эквивалент $1–$50 за 1M токен, включая амортизацию серверов. Контроль приватности: возможность отключить логи и хранить модель в VPC/локально. Пример кода...

Какие метрики сравнивать при выборе?

Latency: целевая 30–300 ms на запрос для интерактивных сервисов. Если SLA 99.9%, планируйте запас 2–3×. Throughput: запросов в секунду на GPU (например, A100 ~ 50–200 токен/запрос в батче). Cost per 1k токен: облачные платные LLM в 2026 — $0.5–$10 за 1M токен в зависимости от модели; self-hosting — эквивалент $1–$50 за 1M токен, включая амортизацию серверов. Контроль приватности: возможность отключить логи и хранить модель в VPC/локально. Пример кода для быстрого A/B теста двух провайдеров (Python, 2026): import requests def call_openai(prompt): r = requests.post('https://api.openai.com/v1/chat/completions', json={'model':'gpt-4o', 'messages':[{'role':'user','content':prompt}]}, headers={'Authorization':'Bearer KEY'}) return r.json()['choices'][0]['message']['content'] def call_local(prompt): r = requests.post('http://localhost:8080/infer', json={'prompt':prompt}) return r.json()['text'] Если приватность ключевой приём — развёртывание LLM локально (NVIDIA H100/A100) с оптимизацией...

Как считать стоимость?

Оценка стоимости AI-проекта включает CapEx и OpEx: оборудование, лицензии, облако, хранение данных, разметка, зарплаты и эксплуатация. Формула базовой годовой оценки: TCO ≈ CapEx + OpEx, где CapEx = GPU‑серверы + лицензии, OpEx = облако + хранение + зарплаты + разметка + поддержка. Пример чисел для 2026 малого проекта (MVP): CapEx: один сервер с 2×A100 (40 GB) ≈ 3,5–5 млн ₽ (однократно) или аренда 120–180 тыс. ₽/мес. Облако: инференс на промывке модели ≈ $0.02–$0.20 за 1k токен (зависит от провайдера); при 10M токен/мес это $200–2 000 ≈ 16–160 тыс. ₽/мес. Разметка: 1000 часов разметки = 1,5–3 млн ₽ (аутсорс или фриланс), быстрые разметочные сессии 100–300 тыс. ₽. Зарплата: 2 ML-инженера + 1 backend + 1 DevOps ≈ 1.8–4 млн ₽/год суммарно в 2026 для средней московской команды. Пример простой калькуляции в Python (оценка токенов и стоимости): def estimate_month_cost(tokens_per_month, price_per_1k_tokens_usd, staff_monthly_rub, infra_monthly_rub): cloud = tokens_per_month/1000 *...

Сколько времени занимает разработка?

Типовые сроки по состоянию на 2025–2026 зависят от сложности, объёма интеграций и требований к приватности. Приведённые оценки — для типичного коммерческого проекта с 1-2 ML-модулями и бэкендом. PoC (proof of concept): 2–6 недель. Включает подготовку данных (1–2 недели), прототип модели и базовую интеграцию. MVP: 3–6 месяцев. Добавляются интерфейс, логирование, минимум 100–500 тестовых сценариев, контейнеризация и CI/CD. Production-ready: 6–12 месяцев. Включает безопасность, SLA 99.9%, масштабирование, регуляторное соответствие и доработку по результатам A/B тестирования. Стандартный roadmap по спринтам (2 недели): спринт 1 — сбор данных и PoC; 2–4 — улучшение модели и прототип UI; 5–8 — интеграции, автоматизация инференса; 9–12 — нагрузочное тестирование, безопасность и релиз. В календарях 2025–2026 большинство компаний закладывают страховой буфер 20–30% к плану по времени. Если нужно ускорить — опция: использовать готовый облачный LLM (OpenAI/Anthropic) и готовые коннекторы, что...

Нужен ли fine-tuning?

Fine-tuning нужен, если базовая модель не обеспечивает требуемую точность, тональность или доменную экспертизу. В 2026 тренд — смешанные подходы: Retrieval-Augmented Generation (RAG) + lightweight fine-tuning (LoRA/QLoRA) для экономии ресурсов. Решение опирается на метрики: если baseline accuracy/intent > 85–90% и удовлетворяет метрикам бизнеса, платное fine-tuning может быть необязателен; если ниже — требуется. Какие типы тонкой настройки использовать? LoRA/QLoRA: дешёво по GPU (до 90% уменьшение памяти) — подходит для 7–13B моделей. Full fine-tune: для 70B+ моделей и строгого соответствия тону, но дорого — от $3k до $50k в зависимости от объёма данных (2025–2026)." Instruction-tuning: если нужно изменить стиль ответов без больших затрат данных. Примерные затраты и сроки: LoRA на 10–20k примерах — 1–3 дня на одном A100; full fine-tune на 100k+ примерах — 1–3 недели и от $5k до $30k облачных вычислений. Альтернатива — RAG: индексирование векторного хранилища...

Какие типы тонкой настройки использовать?

LoRA/QLoRA: дешёво по GPU (до 90% уменьшение памяти) — подходит для 7–13B моделей. Full fine-tune: для 70B+ моделей и строгого соответствия тону, но дорого — от $3k до $50k в зависимости от объёма данных (2025–2026)." Instruction-tuning: если нужно изменить стиль ответов без больших затрат данных. Примерные затраты и сроки: LoRA на 10–20k примерах — 1–3 дня на одном A100; full fine-tune на 100k+ примерах — 1–3 недели и от $5k до $30k облачных вычислений. Альтернатива — RAG: индексирование векторного хранилища (Pinecone/Weaviate/FAISS) и обработка фактов в реальном времени; стоимость в 2026 — 10–50 тыс. ₽/мес для среднего объёма 10–50 GB при SLA 99.9%.

Что с приватностью данных?

Приватность — ключевой фактор для выбора архитектуры и модели. В России действует Федеральный закон №152‑ФЗ «О персональных данных» (1999) с поправками, требования к хранению и обработке персональных данных нужно учитывать в 2025–2026: данные граждан РФ подлежат хранению и обработке с соблюдением правил локализации и технической защиты. Конкретные меры: Анонимизация и псевдонимизация данных до передачи в модель — снизит риски штрафов и утечек. Локальное инференс-решение (on‑prem): если нужна гарантия, готовьте бюджет 3–10 млн ₽ для небольшой инфраструктуры с NVIDIA A100/H100 и 1–2 инженерами DevOps. Контракты и DPIA (Data Protection Impact Assessment): 2–4 недели на подготовку и согласование с юристами для среднего проекта. Как технически реализовать защиту? Шифрование at-rest и in-transit: AES-256, TLS 1.3. Логи: отключать сохранение входных данных на стороне провайдера или шифровать их; требуйте контрактного соглашения об удалении данных. Мониторинг утечек: пороговые алерты на...

Как технически реализовать защиту?

Шифрование at-rest и in-transit: AES-256, TLS 1.3. Логи: отключать сохранение входных данных на стороне провайдера или шифровать их; требуйте контрактного соглашения об удалении данных. Мониторинг утечек: пороговые алерты на необычные паттерны запросов, регулярные аудиты. Практический пример: если вы используете облачный провайдер и передаёте 100 GB персональных данных для дообучения, обязательны договоры о процессинге данных и хранении на территории РФ (если требуется), а также отчётность для клиентов. Для деталей по юридическим аспектам смотрите Приватность.

Работает ли в РФ?

В 2026 доступность зарубежных API провайдеров для пользователей из РФ остаётся смешанной: некоторые крупные провайдеры сохраняют ограничения доступа и дополнительную верификацию аккаунтов, другие — предлагают платные корпоративные контракты с ограничением регионов. Практические варианты для работы в РФ: Использовать российских провайдеров и модели: Сбер, Яндекс, Tinkoff AI (2024–2026 расширили набор API и локальный хостинг). Self-host или VPC-регион: разворачивать open-source LLM (Llama 3, Mistral, Pythia) на серверах в РФ или в контролируемых облачных зонах; бюджет от 150–300 тыс. ₽/мес для аренды мощности на начальном этапе. Корпоративные соглашения: заключение договора с международным провайдером через европейский офис с техническими и юридическими оговорками — срок согласования 3–8 недель. Факторы, влияющие на выбор: требования по локализации персональных данных, возможности технической поддержки и допустимый риск блокировок/санкций. Для розничных продуктов часто выгоднее...

Как делать тесты?

Тестирование AI-системы в 2026 — сочетание классических практик и специфичных подходов для LLM: unit-тесты, интеграционные тесты, эвристики на фактологичность и стресс-тесты на устойчивость к атаке промптом (prompt injection). Рекомендуемые шаги и метрики: Юнит-тесты: проверка функций преобразования данных, сериализации и десериализации. Порог прохождения 100% для кода. Промпт- и сценарные тесты: набор 500–2 000 эталонных запросов, проверка на точность intent (метрика F1 ≥ 0.9 для критичных задач), проверка на hallucination — доля неверных фактов ≤ 2–5% для бизнес-критичных ответов. Нагрузочные тесты: симулировать 1–10k RPS в зависимости от профиля сервиса; проверять среднюю латентность 95-й перцентиль ≤ 3× целевой латентности. Какие инструменты использовать? pytest + hypothesis для unit и property‑тестов. Locust/Gatling для нагрузочного тестирования. Скрипты для регрессионного тестирования промптов: сохранять эталонные ответы и сравнивать с текущими; допустимый drift 3–10% в...

Частые вопросы про AI-разработку в 2026

Частые вопросы про AI-разработку в 2026 | KtoHto

import requests

def call_openai(prompt):
    r = requests.post('https://api.openai.com/v1/chat/completions', json={'model':'gpt-4o', 'messages':[{'role':'user','content':prompt}]}, headers={'Authorization':'Bearer KEY'})
    return r.json()['choices'][0]['message']['content']

def call_local(prompt):
    r = requests.post('http://localhost:8080/infer', json={'prompt':prompt})
    return r.json()['text']

def estimate_month_cost(tokens_per_month, price_per_1k_tokens_usd, staff_monthly_rub, infra_monthly_rub):
    cloud = tokens_per_month/1000 * price_per_1k_tokens_usd * 75 # курс 75 ₽/USD
    return cloud + staff_monthly_rub + infra_monthly_rub

print(estimate_month_cost(10_000_000, 0.5, 300_000, 150_000))

def test_model_response_stability(client):
    prompt = 'Какова рыночная доля продукта X в 2025 году?'
    resp1 = client.infer(prompt)
    resp2 = client.infer(prompt)
    assert resp1['intent']=='market_share'
    assert similarity(resp1['text'], resp2['text'])>0.85