DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
DeepSeek-V4 通过 CSA + HCA 混合注意力、 mHC 流形受限超连接 与 Muon 优化器 三大革新, 在 1M 上下文下只用 27% 的 FLOPs 与 10% 的 KV cache,就能追平甚至超越 V3.2 的能力, 把"百万级上下文"从昂贵实验变成日常服务。
同一套架构、同一条后训练流水线,分别训出一个"王牌"和一个"刀锋"。
在知识、推理、代码和长上下文上全面刷新开源 SOTA,Max 模式在多项基准接近 Gemini-3.1-Pro / Opus-4.6。
参数更小,却在 1M 上下文下把推理 FLOPs 打到 V3.2 的 10%、KV cache 打到 7%。
DeepSeek-V4 把 Transformer 注意力层拆成两种: CSA(压缩稀疏注意力)做精细检索, HCA(重度压缩注意力)做廉价全景扫。 二者 交替堆叠,搭配 sliding window 补局部信息。
每张卡片都回答一个问题:它解决了什么? 怎么实现? 代价是什么?
问题:长上下文里 KV 一线性堆积,算力和显存都顶不住。
做法:① 每 m=4 个 token 的 KV 被重加权为 1 条压缩条目;② 由 Lightning Indexer 打分,Top-k(Pro=1024, Flash=512)选出最相关的压缩条目参与注意力;③ 额外挂 nwin=128 个 sliding window 条目兜底局部信息。
缓存:长历史只需要存压缩后的 KV cache,末尾保留 sliding window 内的原始 KV;attention 计算时把“近处原始 KV + 远处检索到的压缩 KV”合起来看。
代价:压缩操作和 Indexer 的额外分支——但通过 FP4 量化把 QK 路径打到近乎白菜价。
用 DSA 的稀疏思想 + 压缩前置,做到 1M 仍可检索问题:只做稀疏会丢掉"全景感",模型看不到远处的大趋势。
做法:KV 每 m' = 128 个 token 被压成 1 条,不做 Top-k 筛选,所有查询都跟所有压缩块做 dense MQA。信息极度摘要,但依然覆盖全序列。
代价:单条 KV 表达受限——因此不能用作唯一架构,与 CSA 交替使用才是正解。
和 CSA 互补:一个精 detail,一个看全景问题:普通 Hyper-Connection 扩宽 residual 通道后,深堆叠时数值频繁爆炸。
做法:强制残差变换矩阵 Bl ∈ 双随机矩阵集合 M。谱范数 ‖B‖₂ ≤ 1,前/反向传播自然非扩张。用 20 次 Sinkhorn-Knopp 迭代在线投影。
代价:推理/训练都要跑 Sinkhorn 投影——通过 fused kernel + 选择性 recompute,墙钟时间开销仅 6.7% 的 1F1B pipeline stage。
nhc = 4,扩宽通道但稳定训练问题:AdamW 在超大 MoE 下收敛偏慢,且 loss spike 频发。
做法:大部分参数用 Muon(含 Nesterov trick + 混合 Newton-Schulz 10 步正交化:前 8 步激进收敛,后 2 步精调到 singular value ≈ 1);Embedding / Head / RMSNorm 等保留 AdamW。
代价:需要完整梯度矩阵 → 重新设计 ZeRO bucket 分配;但注意力里的 RMSNorm 直接防住 attention logit 爆炸,QK-Clip 都省了。
BF16 下 Newton-Schulz 稳定可跑,通信量减半关键洞见:FP8(E4M3) 比 FP4(E2M1) 多两位指数,动态范围够大到把 FP4 的分块 scale 吸收掉 —— 因此 FP4→FP8 dequant 是精确无损的。
效果:推理/rollout 阶段直接吃真 FP4 权重,训练阶段用模拟量化复用现有 FP8 框架,无需改反向传播。Indexer 里 index scores 再从 FP32→BF16,Top-k 2× 加速,recall 99.7%。
未来硬件上 FP4×FP8 有望比 FP8×FP8 再快 1/3思路:EP 里的通信时间其实比计算时间短,只要把 experts 切成若干 wave 并发,通信就能被计算完全遮蔽。
数字:通用推理 1.50 ∼ 1.73× 加速;RL rollout / 高速 agent 服务 1.96×。硬件平衡点:每 GB/s 互联带宽能喂饱 6.1 TFLOP/s 计算。
落地:已作为 DeepGEMM 的一部分开源。
pull-based 通信避开长 notification 延迟问题:常规 MoE 必须等当前层 hidden state 算出来后才能 router → all-to-all dispatch,通信只能串在计算后面,EP 越大空泡越严重。
做法:用上一层的隐状态提前给下一层做"预路由",把 token→expert 的 dispatch 与当前层的计算并发执行;正式 router 仍在当前层做最终校正,预测错的少量 token 走 fallback 通信。
代价:多一个轻量预测分支 + 少量补发通信。换来的是 EP all-to-all 在时间轴上几乎完全被隐藏,配合 MegaMoE wave 调度才把 1.96× rollout 加速吃满。
把 expert dispatch 从"串行依赖"改成"并发预取"问题:SwiGLU = (xWg) ⊙ silu(xWu) 在少数 token 上 gate 和 value 同时被放大,会在 BF16 / FP8 / FP4 路径上偶发溢出,进而触发 loss spike,FP4 QAT 尤其敏感。
做法:对 gate(必要时也对乘后的中间值)做 soft clamp,把数值幅度钉在安全区间内;clamp 阈值随训练进度调度,前期较松、后期收紧。
代价:极端长尾被截断 —— 但这些 outlier 本就是训练不稳定的主要来源,clamp 之后训练曲线显著更平,与 Muon、FP4 QAT 共同保证全程零 loss spike。
代价极小的低精度训练稳定性补丁以 BF16 GQA8(head dim 128)为基线,V4 系列的 KV cache 在 1M 下只到基线的 约 2%。
百万级上下文从"昂贵实验"变成"日常服务"——这为下一轮 test-time scaling、长 horizon agent 任务、 甚至在线学习这类新范式腾出了必要的算力空间。推理 FLOPs × KV cache 的双腰斩,同时降低了单 token 成本和能服务的最大序列两个上限。
DeepSeek-V4 把传统的 mixed-RL 整段替换成 OPD(On-Policy Distillation),让一个学生从十多位"专家"老师学反向 KL。
数学、代码、Agent、指令遵循等每个领域独立走一条 SFT → GRPO 的流水线,产出一只"领域专家"模型。
单个学生在自己的 on-policy 轨迹上,学习所有专家的 full-vocabulary logit 分布。教师权重放中心化存储按需加载,按 teacher index 排 mini-batch,节省 head 切换开销。
同一个模型通过 prompt 切换 Non-think / Think High / Think Max 三种模式,对应不同的 context window 和 length penalty。Max 模式会注入"把所有路径都检查一遍"的 meta 指令。
可抢占+容错的 rollout 服务、token 粒度 WAL 日志;DSec 沙箱(Function Call / Container / microVM / fullVM 四套底座,一套 Python SDK);为百万 token RL 专门做的共享内存数据加载与 mini-batch 动态分配。
像直觉反应,适合常规任务、低风险决策。
有意识的逻辑分析,适合中等复杂度、规划类任务。
把推理推到极限。注入特殊 system prompt,强制逐路径穷举、逐假设检验。
数字摘自 Table 6。最优加粗,次优加下划线。 V4-Pro-Max 在开源阵营里刷新了多项 SOTA;知识类略落后 Gemini-3.1-Pro,但代码/形式数学接近或超过 GPT-5.4。
| Benchmark | Opus-4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High | K2.6 Think | GLM-5.1 Think | DS-V4-Pro Max |
|---|---|---|---|---|---|---|
| Knowledge & Reasoning | ||||||
| MMLU-Pro | 89.1 | 87.5 | 91.0 | 87.1 | 86.0 | 87.5 |
| SimpleQA-Verified | 46.2 | 45.3 | 75.6 | 36.9 | 38.1 | 57.9 |
| Chinese-SimpleQA | 76.4 | 76.8 | 85.9 | 75.9 | 75.0 | 84.4 |
| GPQA Diamond | 91.3 | 93.0 | 94.3 | 90.5 | 86.2 | 90.1 |
| HLE | 40.0 | 39.8 | 44.4 | 36.4 | 34.7 | 37.7 |
| LiveCodeBench | 88.8 | — | 91.7 | 89.6 | — | 93.5 |
| Codeforces (Elo) | — | 3168 | 3052 | — | — | 3206 |
| HMMT 2026 Feb | 96.2 | 97.7 | 94.7 | 92.7 | 89.4 | 95.2 |
| IMOAnswerBench | 75.3 | 91.4 | 81.0 | 86.0 | 83.8 | 89.8 |
| Apex Shortlist | 85.9 | 78.1 | 89.1 | 75.5 | 72.4 | 90.2 |
| Long Context (1M) | ||||||
| MRCR 1M (MMR) | 92.9 | — | 76.3 | — | — | 83.5 |
| CorpusQA 1M | 71.7 | — | 53.8 | — | — | 62.0 |
| Agentic | ||||||
| Terminal Bench 2.0 | 65.4 | 75.1 | 68.5 | 66.7 | 63.5 | 67.9 |
| SWE-Verified | 80.8 | — | 80.6 | 80.2 | — | 80.6 |
| BrowseComp | 83.7 | 82.7 | 85.9 | 83.2 | 79.3 | 83.4 |
| MCPAtlas Public | 73.8 | 67.2 | 69.2 | 66.6 | 71.8 | 73.6 |
| Toolathlon | 47.2 | 54.6 | 48.8 | 50.0 | 40.7 | 51.8 |
Putnam-2025:DeepSeek-V4 打出 120/120 的满分,与 Axiom 并列最佳 —— 这是在形式化验证(Lean 4)下的成绩,不是"答对"而是"证明"。Codeforces 榜上目前排 人类选手第 23 名。
论文罕见地把"我们自己也说不清"的部分写了出来。
为降低风险保留了许多 trick,未来版本将蒸馏掉多余部件,向更优雅、同等性能的方向迭代。
Anticipatory Routing 与 SwiGLU Clamping 都有效,但底层机理尚未被理论解释。
在极端知识与 1M 长文检索上仍不及 Gemini-3.1-Pro / Opus-4.6,与前沿闭源还有 3~6 个月差距。
下一步方向:更稀疏的 embedding(条件记忆查找),以及多模态能力整合。