DeepSeek V4: какую версию выбрать, где скачать и как запустить
Практический справочник по линейке DeepSeek V4. Не обзор, не новость — инструкция. Какую версию брать под какие задачи, где скачать, какие требования к железу, как запустить.
Доступные версии
| Версия | Параметры | Активных | Контекст | KV-кеш | Для чего |
|---|---|---|---|---|---|
| V4-Pro | 1.6T | 49B | 1M токенов | 2% от GQA | Продакшн-агенты, кластер |
| V4-Flash | 284B | 13B | 1M токенов | 7% от GQA | Локальный запуск, 1 GPU |
Обе версии доступны в вариантах Instruct (для диалогов и агентов) и Base (для дообучения).
Где скачать
Все чекпоинты — open weights. MIT-лицензия. Можно использовать в коммерческих проектах.
Требования к железу
Pro-версия НЕ запускается на одной карте. Даже с 49B активных параметров нужен кластер из 4-8 GPU с NVLink. Для домашней лаборатории — только Flash.
- V4-Flash (рекомендовано): RTX 4090 (24 ГБ) или A100 (40 ГБ) — хватает одной карты
- V4-Flash (минимально): RTX 3090 (24 ГБ) с квантизацией до FP8
- V4-Pro: 4-8×A100/H100 с NVLink
Режимы reasoning
Быстрые ответы, рутинные задачи — контент, простой поиск, генерация текста. Максимальная скорость.
Агенты, парсинг, анализ — явные размышления в <thinking>-блоках. +30% времени, точность ~98%.
Исследования, сложные цепочки — нужен контекст ≥384K токенов. Избыточен для обычных задач.
|DSML| — новый формат tool calls
V4 использует специальный токен |DSML| и XML-формат вместо JSON для вызовов инструментов:
OpenClaw — полная поддержка |DSML| из коробки. LangChain — через адаптер. Autogen — в процессе.
Быстрый старт
- Скачайте Flash-версию с HuggingFace
- Установите vLLM или Ollama с поддержкой DeepSeek V4
- Настройте агент с Think High для точных результатов
- Используйте |DSML| для tool calls — избежите ошибок экранирования