DeepSeek V4: какую версию выбрать, где скачать и как запустить

Практический справочник по линейке DeepSeek V4. Не обзор, не новость — инструкция. Какую версию брать под какие задачи, где скачать, какие требования к железу, как запустить.

Доступные версии

Версия	Параметры	Активных	Контекст	KV-кеш	Для чего
V4-Pro	1.6T	49B	1M токенов	2% от GQA	Продакшн-агенты, кластер
V4-Flash	284B	13B	1M токенов	7% от GQA	Локальный запуск, 1 GPU

Обе версии доступны в вариантах Instruct (для диалогов и агентов) и Base (для дообучения).

Где скачать

Все чекпоинты — open weights. MIT-лицензия. Можно использовать в коммерческих проектах.

Требования к железу

Важно

Pro-версия НЕ запускается на одной карте. Даже с 49B активных параметров нужен кластер из 4-8 GPU с NVLink. Для домашней лаборатории — только Flash.

V4-Flash (рекомендовано): RTX 4090 (24 ГБ) или A100 (40 ГБ) — хватает одной карты
V4-Flash (минимально): RTX 3090 (24 ГБ) с квантизацией до FP8
V4-Pro: 4-8×A100/H100 с NVLink

Режимы reasoning

Non-think

Быстрые ответы, рутинные задачи — контент, простой поиск, генерация текста. Максимальная скорость.

Think High

Агенты, парсинг, анализ — явные размышления в <thinking>-блоках. +30% времени, точность ~98%.

Think Max

Исследования, сложные цепочки — нужен контекст ≥384K токенов. Избыточен для обычных задач.

|DSML| — новый формат tool calls

V4 использует специальный токен |DSML| и XML-формат вместо JSON для вызовов инструментов:

Поддержка

OpenClaw — полная поддержка |DSML| из коробки. LangChain — через адаптер. Autogen — в процессе.

Быстрый старт

Скачайте Flash-версию с HuggingFace
Установите vLLM или Ollama с поддержкой DeepSeek V4
Настройте агент с Think High для точных результатов
Используйте |DSML| для tool calls — избежите ошибок экранирования

Полезные ссылки

DeepSeek AI на HuggingFace — все модели Технический обзор DeepSeek V4 vLLM — сервер инференса с поддержкой DeepSeek

DeepSeek V4: какую версию выбрать, где скачать и как запустить

Доступные версии

Где скачать

Требования к железу

Режимы reasoning

|DSML| — новый формат tool calls

Быстрый старт

Полезные ссылки

По теме