预览版 · Preview MoE 1M-token context 混合稀疏注意力

用三倍更低的算力，驾驭百万 token 上下文

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

DeepSeek-V4 通过 CSA + HCA 混合注意力、 mHC 流形受限超连接 与 Muon 优化器 三大革新，在 1M 上下文下只用 27% 的 FLOPs 与 10% 的 KV cache，就能追平甚至超越 V3.2 的能力，把"百万级上下文"从昂贵实验变成日常服务。

Hugging Face 模型集看看它是怎么做到的 →

27%

单 token 推理 FLOPs

V4-Pro vs V3.2 @ 1M 上下文

10%

KV cache 占用

V4-Pro vs V3.2 @ 1M 上下文

1.6T

V4-Pro 总参数

49B 激活，33T tokens 训练

1Mtok

原生支持上下文

4K → 16K → 64K → 1M 渐进训练

两款模型

一大一小，各打一个定位

同一套架构、同一条后训练流水线，分别训出一个"王牌"和一个"刀锋"。

DeepSeek-V4-Pro旗舰 · 状态最优开源模型

在知识、推理、代码和长上下文上全面刷新开源 SOTA，Max 模式在多项基准接近 Gemini-3.1-Pro / Opus-4.6。

总参数

1.6T

激活

49B / token

层数

61

Hidden

7168

训练 tokens

33T

Codeforces

3206 Elo

DeepSeek-V4-Flash高性价比 · 轻量旗舰

参数更小，却在 1M 上下文下把推理 FLOPs 打到 V3.2 的 10%、KV cache 打到 7%。

总参数

284B

激活

13B / token

层数

43

Hidden

4096

训练 tokens

32T

Routed experts

256 / 6 活跃

核心架构

混合注意力：用 CSA + HCA 压掉长上下文里最贵的那一层

DeepSeek-V4 把 Transformer 注意力层拆成两种： CSA（压缩稀疏注意力）做精细检索， HCA（重度压缩注意力）做廉价全景扫。二者 交替堆叠，搭配 sliding window 补局部信息。

序列长度 64

四项关键创新

点开看每一块背后的「为什么」

每张卡片都回答一个问题：它解决了什么？ 怎么实现？ 代价是什么？

● Compressed Sparse Attention ▾

先压缩，再稀疏——把检索精度留在该留的地方。

问题：长上下文里 KV 一线性堆积，算力和显存都顶不住。

做法：① 每 m=4 个 token 的 KV 被重加权为 1 条压缩条目；② 由 Lightning Indexer 打分，Top-k（Pro=1024, Flash=512）选出最相关的压缩条目参与注意力；③ 额外挂 n_win=128 个 sliding window 条目兜底局部信息。

缓存：长历史只需要存压缩后的 KV cache，末尾保留 sliding window 内的原始 KV；attention 计算时把“近处原始 KV + 远处检索到的压缩 KV”合起来看。

序列长度 → n/m，再做 Top-k 稀疏注意力

代价：压缩操作和 Indexer 的额外分支——但通过 FP4 量化把 QK 路径打到近乎白菜价。

用 DSA 的稀疏思想 + 压缩前置，做到 1M 仍可检索

● Heavily Compressed Attention ▾

疯狂压缩（m' = 128），保留 dense 注意力的结构稳定性。

问题：只做稀疏会丢掉"全景感"，模型看不到远处的大趋势。

做法：KV 每 m' = 128 个 token 被压成 1 条，不做 Top-k 筛选，所有查询都跟所有压缩块做 dense MQA。信息极度摘要，但依然覆盖全序列。

序列长度 → n / 128，dense MQA on 压缩块

代价：单条 KV 表达受限——因此不能用作唯一架构，与 CSA 交替使用才是正解。

和 CSA 互补：一个精 detail，一个看全景

● Manifold-Constrained Hyper-Connections ▾

把残差连接的变换矩阵钉在 Birkhoff polytope 上，训练就不炸了。

问题：普通 Hyper-Connection 扩宽 residual 通道后，深堆叠时数值频繁爆炸。

做法：强制残差变换矩阵 B_l ∈ 双随机矩阵集合 M。谱范数 ‖B‖₂ ≤ 1，前/反向传播自然非扩张。用 20 次 Sinkhorn-Knopp 迭代在线投影。

X_l+1 = B_l X_l + C_l · F_l(A_l X_l), B ∈ M

代价：推理/训练都要跑 Sinkhorn 投影——通过 fused kernel + 选择性 recompute，墙钟时间开销仅 6.7% 的 1F1B pipeline stage。

n_hc = 4，扩宽通道但稳定训练

● Muon 优化器 ▾

收敛更快、训练更稳——代价是跟 ZeRO 要好好协商。

问题：AdamW 在超大 MoE 下收敛偏慢，且 loss spike 频发。

做法：大部分参数用 Muon（含 Nesterov trick + 混合 Newton-Schulz 10 步正交化：前 8 步激进收敛，后 2 步精调到 singular value ≈ 1）；Embedding / Head / RMSNorm 等保留 AdamW。

O_t = HybridNewtonSchulz(μM_t+G_t) · √max(n,m) · γ

代价：需要完整梯度矩阵 → 重新设计 ZeRO bucket 分配；但注意力里的 RMSNorm 直接防住 attention logit 爆炸，QK-Clip 都省了。

BF16 下 Newton-Schulz 稳定可跑，通信量减半

● FP4 量化感知训练 ▾

MoE 权重 + Indexer QK 走 MXFP4，FP4 → FP8 反量化是无损的。

关键洞见：FP8(E4M3) 比 FP4(E2M1) 多两位指数，动态范围够大到把 FP4 的分块 scale 吸收掉 —— 因此 FP4→FP8 dequant 是精确无损的。

效果：推理/rollout 阶段直接吃真 FP4 权重，训练阶段用模拟量化复用现有 FP8 框架，无需改反向传播。Indexer 里 index scores 再从 FP32→BF16，Top-k 2× 加速，recall 99.7%。

未来硬件上 FP4×FP8 有望比 FP8×FP8 再快 1/3

● MegaMoE 融合内核 ▾

把 Dispatch / Linear-1 / Linear-2 / Combine 折叠进一条 pipeline 的 CUDA mega-kernel。

思路：EP 里的通信时间其实比计算时间短，只要把 experts 切成若干 wave 并发，通信就能被计算完全遮蔽。

数字：通用推理 1.50 ∼ 1.73× 加速；RL rollout / 高速 agent 服务 1.96×。硬件平衡点：每 GB/s 互联带宽能喂饱 6.1 TFLOP/s 计算。

落地：已作为 DeepGEMM 的一部分开源。

pull-based 通信避开长 notification 延迟

● Anticipatory Routing ▾

提前预测下一层 expert，让 dispatch 与计算彻底重叠。

问题：常规 MoE 必须等当前层 hidden state 算出来后才能 router → all-to-all dispatch，通信只能串在计算后面，EP 越大空泡越严重。

做法：用上一层的隐状态提前给下一层做"预路由"，把 token→expert 的 dispatch 与当前层的计算并发执行；正式 router 仍在当前层做最终校正，预测错的少量 token 走 fallback 通信。

代价：多一个轻量预测分支 + 少量补发通信。换来的是 EP all-to-all 在时间轴上几乎完全被隐藏，配合 MegaMoE wave 调度才把 1.96× rollout 加速吃满。

把 expert dispatch 从"串行依赖"改成"并发预取"

● SwiGLU Clamping ▾

给 SwiGLU 的 gate 加一个软上限，挡住低精度下的 activation outlier。

问题：SwiGLU = (xW_g) ⊙ silu(xW_u) 在少数 token 上 gate 和 value 同时被放大，会在 BF16 / FP8 / FP4 路径上偶发溢出，进而触发 loss spike，FP4 QAT 尤其敏感。

做法：对 gate（必要时也对乘后的中间值）做 soft clamp，把数值幅度钉在安全区间内；clamp 阈值随训练进度调度，前期较松、后期收紧。

代价：极端长尾被截断 —— 但这些 outlier 本就是训练不稳定的主要来源，clamp 之后训练曲线显著更平，与 Muon、FP4 QAT 共同保证全程零 loss spike。

代价极小的低精度训练稳定性补丁

效率账单

同样的 1M 上下文，账单几乎腰斩再腰斩

以 BF16 GQA8（head dim 128）为基线，V4 系列的 KV cache 在 1M 下只到基线的 约 2%。

单 token 推理 FLOPs @ 1M 上下文

以 DeepSeek-V3.2 为 100%（越短越好）

DeepSeek-V3.2100%

DeepSeek-V4-Pro27% (3.7× 更低)

DeepSeek-V4-Flash10% (9.8× 更低)

累计 KV cache 占用 @ 1M 上下文

以 DeepSeek-V3.2 为 100%（越短越好）

DeepSeek-V3.2100%

DeepSeek-V4-Pro10% (9.5× 更小)

DeepSeek-V4-Flash7% (13.7× 更小)

WHY IT MATTERS

百万级上下文从"昂贵实验"变成"日常服务"——这为下一轮 test-time scaling、长 horizon agent 任务、甚至在线学习这类新范式腾出了必要的算力空间。推理 FLOPs × KV cache 的双腰斩，同时降低了单 token 成本和能服务的最大序列两个上限。

后训练流水线

先训一堆"专家"，再用 On-Policy Distillation 合成一位通才

DeepSeek-V4 把传统的 mixed-RL 整段替换成 OPD（On-Policy Distillation），让一个学生从十多位"专家"老师学反向 KL。

① Specialist Training · 分域造专家

数学、代码、Agent、指令遵循等每个领域独立走一条 SFT → GRPO 的流水线，产出一只"领域专家"模型。

GRPO Rubric-guided RL Generative Reward Model

② On-Policy Distillation · 反向 KL 合并

单个学生在自己的 on-policy 轨迹上，学习所有专家的 full-vocabulary logit 分布。教师权重放中心化存储按需加载，按 teacher index 排 mini-batch，节省 head 切换开销。

10+ teachers Full-vocab logit 蒸馏 FP4 推理 + FP8 训练

③ Reasoning Modes · 三档思考预算

同一个模型通过 prompt 切换 Non-think / Think High / Think Max 三种模式，对应不同的 context window 和 length penalty。Max 模式会注入"把所有路径都检查一遍"的 meta 指令。

Non-think · 快 Think High · 128K ctx Think Max · 384K ctx

④ Infrastructure 保驾

可抢占+容错的 rollout 服务、token 粒度 WAL 日志；DSec 沙箱（Function Call / Container / microVM / fullVM 四套底座，一套 Python SDK）；为百万 token RL 专门做的共享内存数据加载与 mini-batch 动态分配。

Token-granular WAL DSec 沙箱 Full-vocab OPD kernel

三档思考预算

⚡Non-think

像直觉反应，适合常规任务、低风险决策。

</think> summary

🧠Think High

有意识的逻辑分析，适合中等复杂度、规划类任务。

<think> thinking tokens </think> summary

🚀Think Max

把推理推到极限。注入特殊 system prompt，强制逐路径穷举、逐假设检验。

special prompt + <think>...</think> summary

能力画像

V4-Pro-Max 的战绩 · 对比闭源与开源前沿

数字摘自 Table 6。最优加粗，次优加下划线。 V4-Pro-Max 在开源阵营里刷新了多项 SOTA；知识类略落后 Gemini-3.1-Pro，但代码/形式数学接近或超过 GPT-5.4。

Benchmark	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	K2.6 Think	GLM-5.1 Think	DS-V4-Pro Max
Knowledge & Reasoning
MMLU-Pro	89.1	87.5	91.0	87.1	86.0	87.5
SimpleQA-Verified	46.2	45.3	75.6	36.9	38.1	57.9
Chinese-SimpleQA	76.4	76.8	85.9	75.9	75.0	84.4
GPQA Diamond	91.3	93.0	94.3	90.5	86.2	90.1
HLE	40.0	39.8	44.4	36.4	34.7	37.7
LiveCodeBench	88.8	—	91.7	89.6	—	93.5
Codeforces (Elo)	—	3168	3052	—	—	3206
HMMT 2026 Feb	96.2	97.7	94.7	92.7	89.4	95.2
IMOAnswerBench	75.3	91.4	81.0	86.0	83.8	89.8
Apex Shortlist	85.9	78.1	89.1	75.5	72.4	90.2
Long Context (1M)
MRCR 1M (MMR)	92.9	—	76.3	—	—	83.5
CorpusQA 1M	71.7	—	53.8	—	—	62.0
Agentic
Terminal Bench 2.0	65.4	75.1	68.5	66.7	63.5	67.9
SWE-Verified	80.8	—	80.6	80.2	—	80.6
BrowseComp	83.7	82.7	85.9	83.2	79.3	83.4
MCPAtlas Public	73.8	67.2	69.2	66.6	71.8	73.6
Toolathlon	47.2	54.6	48.8	50.0	40.7	51.8

■ 最优 ■ 次优 · V4 的强项：知识、代码 reasoning、形式数学；仍待追赶：MRCR 1M 不及 Opus 4.6；HLE 略逊 GPT-5.4 / Gemini。

A TRIVIA

Putnam-2025：DeepSeek-V4 打出 120/120 的满分，与 Axiom 并列最佳 —— 这是在形式化验证（Lean 4）下的成绩，不是"答对"而是"证明"。Codeforces 榜上目前排 人类选手第 23 名。

作者自述的局限

依然有很多东西没被真正理解

论文罕见地把"我们自己也说不清"的部分写了出来。

🧩架构偏复杂

为降低风险保留了许多 trick，未来版本将蒸馏掉多余部件，向更优雅、同等性能的方向迭代。

❓训练稳定性仍是经验

Anticipatory Routing 与 SwiGLU Clamping 都有效，但底层机理尚未被理论解释。

📉HLE / MRCR 等仍落后

在极端知识与 1M 长文检索上仍不及 Gemini-3.1-Pro / Opus-4.6，与前沿闭源还有 3~6 个月差距。

🧭多模态 & 稀疏 embedding

下一步方向：更稀疏的 embedding（条件记忆查找），以及多模态能力整合。