DeepSeek Новости Агенты Статья ~7 мин чтения

DeepSeek V4: миллион токенов контекста, который агенты реально могут использовать

DeepSeek V4

Представьте: вы запускаете AI-агента, он проходит 50 шагов, выполняет команды в терминале, цепляет результаты поиска… и на 51-м шаге просто останавливается. Контекст переполнен, GPU захлёбывается, KV-кеш съел всю память. 24 апреля 2026 года DeepSeek выкатили V4 — и это первая модель, которая целенаправленно решает именно эту проблему.

Коротко:

DeepSeek V4 — это не гонка за benchmarks. Это архитектура, заточенная под долгие агентные задачи. Две версии: Pro (1.6T параметров, 49B активных) и Flash (284B, 13B активных). У обеих — контекст в миллион токенов. KV-кеш занимает 2% от того, что нужно обычной GQA-архитектуре. На бенчмарках агентов Pro-Max вплотную подошёл к закрытым топ-моделям западных компаний. И всё это — open weights.

Почему агенты ломались раньше

Проблема не в том, что модель «глупая». Проблема — в физике. Каждый вызов инструмента (tool call) добавляет результат в контекст. Каждый следующий токен платит полную стоимость внимания ко всему, что было до него. После сотни шагов агента один forward pass превращается в вычислительный ад.

Два ключевых числа растут с длиной последовательности:

  • FLOPs на один токен — сколько вычислений нужно для одного слова
  • Размер KV-кеша — сколько видеопамяти занято под историю

У DeepSeek V3.2 эти числа были приемлемыми для обычных диалогов. Но для агентов, которые гоняют десятки тул-коллов, — нет. V4 пересобрала это с нуля.

Гибридное внимание: как это работает

Главный инженерный ход V4 — разделение механизма внимания на две части, которые чередуются по слоям. Вместо того чтобы запихнуть одну механику везде, V4 использует разную логику для разных слоёв.

Compressed Sparse Attention (CSA)

CSA сжимает KV-записи в 4 раза через softmax-gated pooling. Затем «молниевый индексатор» (lightning indexer) в FP4-точности выбирает top-k сжатых блоков для каждого запроса. Идея наследует DeepSeek Sparse Attention из V3.2, но работает с блоками, которые уже в 4 раза короче оригинала.

Heavily Compressed Attention (HCA)

HCA сжимает KV в 128 раз и вообще отказывается от разреженного отбора — каждый запрос плотно attends ко всем сжатым блокам. Сжатая последовательность настолько короткая, что dense attention вычислительно дёшев.

«Вся архитектура держится на одном принципе: разные слои — разные паттерны внимания. Не пытайтесь сделать одну идеальную механику, сделайте две специализированные.»

В 61-слойном стеке V4-Pro слои чередуются: HCA → CSA → HCA → CSA. Большинство KV-записей хранится в FP8, кроме RoPE-измерений (BF16). Индексатор — FP4. Всё вместе даёт тот самый показатель в 2% KV-кеша по сравнению с обычной GQA-архитектурой.

Почему это важно

KV-кеш — это память, в которой модель хранит историю диалога. У обычных моделей при миллионе токенов она съедает всю видеопамять. У V4 Flash — 7% от обычного. Это значит: на одну видеокарту влезает то, на что раньше нужен был кластер.

Что изменилось для агентов

Архитектура — это полдела. Вторая половина — пост-тренировочные решения, нацеленные именно на агентные сценарии:

Сквозное мышление через tool calls

В V3.2 модель сохраняла reasoning-трассировку между tool calls, но сбрасывала её при появлении нового сообщения от пользователя. Для одного запроса — ок. Для multi-turn агентной работы — катастрофа: модель теряла накопленное состояние и пересобирала контекст заново.

V4 сохраняет reasoning-историю через все границы пользовательских сообщений, если в диалоге есть tool calls. Модель держит когерентную кумулятивную цепочку размышлений на всём протяжении долгой агентной задачи.

Tool-call схема |DSML|

V4 вводит специальный токен |DSML| и XML-формат для вызовов инструментов вместо JSON-in-string. Это резко снижает количество ошибок экранирования — больное место, когда модель генерирует вложенный quoted-контент внутри JSON.

Цифры: на что способен V4-Pro-Max

На бенчмарках знаний и рассуждений V4 — крепкий середняк, не лидер. Но на агентах — другая история:

  • Terminal Bench 2.0: 67.9 — уступает только GPT-5.4-xHigh (75.1) и Gemini-3.1-Pro (68.5)
  • SWE Verified: 80.6 — паритет с Opus-4.6-Max (80.8) и Gemini-3.1-Pro (80.6)
  • MCPAtlas Public: 73.6 — второе место, после Opus-4.6-Max (73.8)
  • Toolathlon: 51.8 — впереди K2.6 (50.0) и GLM-5.1 (40.7)

На внутреннем R&D-бенчмарке DeepSeek (30 задач: PyTorch, CUDA, Rust, C++) V4-Pro-Max даёт 67% pass rate против 47% у Sonnet 4.5 и 70% у Opus 4.5 из 85 разработчиков, использующих модель как основной инструмент, 52% готовы заменить ей текущую, ещё 39% — почти готовы.

Да

Open-source модель на паритете с закрытыми топами — на агентных задачах разрыв сократился с 20+ пунктов до десятых долей

Да

Flash-версия доступна для локального запуска — 13B активных параметров, кеш 7% от обычного, влезает на одну карту

Осторожно

Pro-версия для локального запуска — 1.6T параметров, нужна серьёзная машина даже с 49B активных

Нет

Для простых диалогов — избыточна — V4 создана под агентов, а не под чат-рулетку. Если вам нужен собеседник — берите что-то попроще

Как запустить — по шагам

  1. Выберите версию. Flash — для локального запуска и экспериментов. Pro — для продакшн-агентов, но нужен API или мощный сервер.
  2. Скачайте чекпоинт с HuggingFace. Все четыре версии (Pro instruct/base, Flash instruct/base) в открытом доступе.
  3. Выберите режим reasoning. Non-think — для быстрых ответов. Think High — для сложных задач с размышлениями. Think Max — для нетривиальных проблем (нужен контекст ≥384K).
  4. Настройте |DSML|-схему. Если используете агентные фреймворки, проверьте совместимость с новым форматом tool calls.
Важно

Главный открытый вопрос: как сообщество адаптирует инструменты под |DSML|-схему. Если ваш агентный фреймворк жёстко завязан на JSON tool calls — потребуется доработка.

Что это значит для нас

Тренд очевиден: 2026 — год агентов. DeepSeek V4 первыми сказали: «Нам не нужна SOTA на MMLU, нам нужна архитектура, которая не ломается на 100-м шаге». И сделали это.

Для разработчиков и соло-предпринимателей это конкретная возможность: AI-агенты, которые работают долго, автономно и без деградации. SWE-bench-задачи, многочасовые исследования, автоматизация сложных воркфлоу — всё то, что раньше требовало закрытых API за $200+/мес, теперь доступно с open weights.

«Раньше разрыв между open-source и закрытыми моделями на агентных задачах был 20+ пунктов. Теперь — доли процента. Это не эволюция, это смена правил игры.»

В
Разбираюсь в ИИ, автоматизации и том, как на этом зарабатывать. Без курсов за 100k и маркетинговой пены.