DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

DeepSeek-V4:迈向高效百万 Token 上下文智能(DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence)

DeepSeek-AI

research@deepseek.com


摘要(Abstract)

本文介绍了 DeepSeek-V4 系列的预览版本,包括两个强大的混合专家(Mixture-of-Experts,MoE)语言模型——拥有 1.6T 参数(49B 激活)的 DeepSeek-V4-Pro 和拥有 284B 参数(13B 激活)的 DeepSeek-V4-Flash——两者均支持一百万 Token 的上下文长度。DeepSeek-V4 系列在架构和优化方面引入了多项关键升级:(1)混合注意力架构,结合了压缩稀疏注意力(Compressed Sparse Attention,CSA)和重度压缩注意力(Heavily Compressed Attention,HCA),以提升长上下文效率;(2)流形约束超连接(Manifold-Constrained Hyper-Connections,mHC),增强了传统的残差连接;(3)Muon 优化器,实现更快的收敛和更高的训练稳定性。我们在超过 32T 的多样化高质量 Token 上对两个模型进行预训练,随后通过全面的后训练流程来解锁并进一步增强其能力。DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最大推理努力模式,重新定义了开源模型的最先进水平(state-of-the-art),在核心任务上超越了其前辈。与此同时,DeepSeek-V4 系列在长上下文场景中具有极高的效率。在一百万 Token 上下文设置下,DeepSeek-V4-Pro 仅需 DeepSeek-V3.2 单 Token 推理 FLOPs 的 27% 和 KV 缓存的 10%。这使我们能够常规地支持一百万 Token 上下文,从而使长程任务和进一步的测试时扩展(test-time scaling)更加可行。模型检查点可在 https://huggingface.co/collections/deepseek-ai/deepseek-v4 获取。

Figure 1
图 1:左图:DeepSeek-V4-Pro-Max 及其对照模型的基准测试性能。右图:DeepSeek-V4 系列与 DeepSeek-V3.2 的推理 FLOPs 和 KV 缓存大小(Figure 1 | Left: benchmark performance of DeepSeek-V4-Pro-Max and its counterparts. Right: inference FLOPs and KV cache size of DeepSeek-V4 series and DeepSeek-V3.2)


1. 引言(Introduction)

推理模型(DeepSeek-AI, 2025; OpenAI, 2024c)的出现确立了测试时扩展(test-time scaling)的新范式,推动了大语言模型(Large Language Models,LLMs)的显著性能提升。然而,这种扩展范式从根本上受到标准注意力机制(Vaswani et al., 2017)二次计算复杂度的约束,这为超长上下文和推理过程创造了难以逾越的瓶颈。与此同时,长程场景和任务的出现——从复杂的智能体(agentic)工作流到大规模跨文档分析——也使得对超长上下文的高效支持成为未来进展的关键。尽管最近的开源工作(Bai et al., 2025a; DeepSeek-AI, 2024; MiniMax, 2025; Qwen, 2025)提升了通用能力,但在处理超长序列方面的核心架构低效性仍然是一个关键障碍,限制了测试时扩展的进一步收益,并阻碍了在长程场景和任务中的进一步探索。

为了打破超长上下文中的效率壁垒,我们开发了 DeepSeek-V4 系列,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活)的预览版本。通过架构创新,DeepSeek-V4 系列在处理超长序列的计算效率方面实现了飞跃性提升。这一突破使得高效支持一百万 Token 的上下文长度成为可能,为下一代大语言模型开创了百万长度上下文的新时代。我们相信,我们高效处理超长序列的能力解锁了测试时扩展的下一个前沿,为长程任务的深入研究铺平了道路,并为探索在线学习等未来范式奠定了必要的基础。

与 DeepSeek-V3 架构(DeepSeek-AI, 2024)相比,DeepSeek-V4 系列保留了 DeepSeekMoE 框架(Dai et al., 2024)和多 Token 预测(Multi-Token Prediction,MTP)策略,同时在架构和优化方面引入了若干关键创新。为了增强长上下文效率,我们设计了一种混合注意力机制,结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。CSA 沿序列维度压缩 KV 缓存,然后执行 DeepSeek 稀疏注意力(DeepSeek Sparse Attention,DSA)(DeepSeek-AI, 2025),而 HCA 对 KV 缓存应用更激进的压缩但保持密集注意力。为了增强建模能力,我们引入了流形约束超连接(mHC)(Xie et al., 2026),升级了传统的残差连接。此外,我们在 DeepSeek-V4 系列的训练中引入了 Muon 优化器(Jordan et al., 2024; Liu et al., 2025),实现了更快的收敛和改进的训练稳定性。

为了使 DeepSeek-V4 系列能够高效训练和推理并实现高效的开发,我们引入了多项基础设施优化。首先,我们为 MoE 模块设计并实现了单一融合内核,充分重叠计算、通信和内存访问。其次,我们采用 TileLang(Wang et al., 2026),一种领域特定语言(Domain-Specific Language,DSL),以平衡开发效率和运行时效率。第三,我们提供高效的批次不变和确定性内核库,以确保训练和推理之间的按位可复现性。第四,我们引入 FP4 量化感知训练(quantization-aware training),用于 MoE 专家权重和索引器 QK 路径,以减少内存和计算。第五,对于训练框架,我们通过张量级检查点扩展了自动微分框架,以实现细粒度的重计算控制;并通过 Muon 优化器的混合 ZeRO 策略、mHC 的成本效益实现(通过重计算和融合内核)以及两阶段上下文并行来管理压缩注意力,从而提升训练效率。最后,对于推理框架,我们设计了异构 KV 缓存结构,配合磁盘存储策略,以实现高效共享前缀复用。

通过采用混合 CSA 和 HCA,以及对计算和存储的精度优化,与 DeepSeek-V3.2 相比,DeepSeek-V4 系列实现了显著更低的推理 FLOPs 和大幅减小的 KV 缓存大小,尤其在长上下文设置中。图 1 右侧展示了 DeepSeek-V3.2 和 DeepSeek-V4 系列的估计单 Token 推理 FLOPs 和累积 KV 缓存大小。在一百万 Token 上下文场景中,即使是拥有更多激活参数的 DeepSeek-V4-Pro,也仅达到 DeepSeek-V3.2 单 Token FLOPs(以等效 FP8 FLOPs 衡量)的 27% 和 KV 缓存大小的 10%。此外,拥有较少激活参数的 DeepSeek-V4-Flash 将效率推向了更高水平:在一百万 Token 上下文设置下,它仅达到 DeepSeek-V3.2 单 Token FLOPs 的 10% 和 KV 缓存大小的 7%。此外,对于 DeepSeek-V4 系列,路由专家参数使用 FP4 精度。虽然现有硬件上 FP4 × FP8 操作的峰值 FLOPs 目前与 FP8 × FP8 相同,但理论上在未来的硬件上可以实现 1/3 的效率提升,这将进一步增强 DeepSeek-V4 系列的效率。

在预训练期间,我们分别在 32T Token 上训练 DeepSeek-V4-Flash,在 33T Token 上训练 DeepSeek-V4-Pro。预训练后,这两个模型可以原生且高效地支持 1M 长度上下文。在我们的内部评估中,DeepSeek-V4-Flash-Base 已经凭借其更高效的参数设计在大多数基准测试中超越了 DeepSeek-V3.2-Base。DeepSeek-V4-Pro-Base 进一步将这一优势扩展到为 DeepSeek 基础模型树立了新的性能标准,在推理、编码、长上下文和世界知识任务方面取得了全面的优越性。

DeepSeek-V4 系列的后训练流程采用两阶段范式:首先独立培养领域特定专家,然后通过在线策略蒸馏(on-policy distillation)(Lu and Lab, 2025)进行统一模型整合。最初,对于每个目标领域——如数学、编码、智能体和指令遵循——分别独立训练一个专家模型。基础模型首先在高质量的领域特定数据上进行监督微调(Supervised Fine-Tuning,SFT),以建立基础能力。随后,使用组相对策略优化(Group Relative Policy Optimization,GRPO)(DeepSeek-AI, 2025)应用强化学习(Reinforcement Learning,RL),进一步优化模型以适应领域对齐的行为,由针对特定成功标准定制的奖励模型指导。这一阶段产生了一组多样化的专业专家,每个专家在其各自领域表现出色。最后,为了整合这些不同的专业能力,通过在线策略蒸馏训练一个统一的模型,其中统一模型作为学生,学习优化与教师模型的反向 KL 损失。

核心评估结果总结(Summary of Core Evaluation Results)

  • 知识(Knowledge):在广泛的世界知识评估中,DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最大推理努力模式,在 SimpleQA(OpenAI, 2024d)和 Chinese-SimpleQA(He et al., 2024)基准测试中显著优于领先的开源模型。在教育知识方面——通过 MMLU-Pro(Wang et al., 2024b)、HLE(Phan et al., 2025)和 GPQA(Rein et al., 2023)评估——DeepSeek-V4-Pro-Max 相比其开源对手显示出微弱领先。尽管在这些基于知识的评估中仍然落后,DeepSeek-V4-Pro-Max 已经显著缩小了与领先专有模型 Gemini-3.1-Pro 的差距。
  • 推理(Reasoning):通过扩展推理 Token,DeepSeek-V4-Pro-Max 在标准推理基准测试中相对于 GPT-5.2 和 Gemini-3.0-Pro 表现出优越的性能。尽管如此,其性能略低于 GPT-5.4 和 Gemini-3.1-Pro,表明其发展轨迹大约落后于最先进的前沿模型 3 到 6 个月。此外,DeepSeek-V4-Flash-Max 实现了与 GPT-5.2 和 Gemini-3.0-Pro 相当的推理性能,确立了自身作为复杂推理任务的高性价比架构。
  • 智能体(Agent):在公共基准测试中,DeepSeek-V4-Pro-Max 与领先的开源模型(如 Kimi-K2.6 和 GLM-5.1)持平,但略逊于前沿闭源模型。在我们的内部评估中,DeepSeek-V4-Pro-Max 优于 Claude Sonnet 4.5,并接近 Opus 4.5 的水平。
  • 长上下文(Long-Context):DeepSeek-V4-Pro-Max 在一百万 Token 上下文窗口的合成和真实用例中提供了强劲的结果,甚至在学术基准测试中超越了 Gemini-3.1-Pro。
  • DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 对比:由于参数规模较小,DeepSeek-V4-Flash-Max 在知识评估中表现较低。然而,当分配更大的思考预算时,它在推理任务上取得了可比的结果。在智能体评估中,虽然 DeepSeek-V4-Flash-Max 在若干基准测试中与 DeepSeek-V4-Pro-Max 的性能相匹配,但在更复杂的高难度任务上仍然落后于其更大的 counterpart。

Figure 2
图 2:DeepSeek-V4 系列的整体架构。我们在注意力层使用混合 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力),在前馈层使用 DeepSeekMoE,并通过 mHC 增强传统残差连接。(Figure 2 | Overall architecture of DeepSeek-V4 series. We use hybrid CSA and HCA for attention layers, DeepSeekMoE for feed-forward layers, and strengthen conventional residual connections with mHC)


2. 架构(Architecture)

总体而言,DeepSeek-V4 系列保留了 Transformer(Vaswani et al., 2017)架构和多 Token 预测(Multi-Token Prediction,MTP)模块(DeepSeek-AI, 2024; Gloeckle et al., 2024),同时在 DeepSeek-V3 基础上引入了若干关键升级:(1)首先,我们引入流形约束超连接(Manifold-Constrained Hyper-Connections,mHC)(Xie et al., 2026)以增强传统的残差连接;(2)其次,我们设计了一种混合注意力架构,通过压缩稀疏注意力(Compressed Sparse Attention,CSA)和重度压缩注意力(Heavily Compressed Attention,HCA)大幅提升长上下文效率;(3)第三,我们采用 Muon(Jordan et al., 2024; Liu et al., 2025)作为优化器。对于混合专家(Mixture-of-Experts,MoE)组件,我们仍采用 DeepSeekMoE(Dai et al., 2024)架构,仅对 DeepSeek-V3 做了少量调整。多 Token 预测(MTP)(DeepSeek-AI, 2024; Gloeckle et al., 2024; Li et al., 2024; Qi et al., 2020)配置与 DeepSeek-V3 保持一致。所有其他未指定的细节均遵循 DeepSeek-V3(DeepSeek-AI, 2024)中确立的设置。图 2 展示了 DeepSeek-V4 的整体架构,详细描述如下。

2.1 继承自 DeepSeek-V3 的设计(Designs Inherited from DeepSeek-V3)

混合专家(Mixture-of-Experts)。与之前的 DeepSeek 系列模型(DeepSeek-AI, 2024; DeepSeek-AI, 2024)一样,DeepSeek-V4 系列也为前馈网络(Feed-Forward Networks,FFNs)采用 DeepSeekMoE 范式(Dai et al., 2024),设置了细粒度的路由专家和共享专家。与 DeepSeek-V3 不同,我们将计算亲和度分数的激活函数从 Sigmoid(·) 改为 Sqrt(Softplus(·))。对于负载均衡,我们同样采用无辅助损失策略(DeepSeek-AI, 2024; Wang et al., 2024a),并辅以轻微的序列级均衡损失,以防止单个序列内的极端不平衡。对于 DeepSeek-V4,我们取消了对路由目标节点数量的限制,并仔细重新设计了并行策略以保持训练效率。此外,与 DeepSeek-V3 相比,我们将初始几个 Transformer 块中的密集 FFN 层替换为采用哈希路由(Hash routing)(Roller et al., 2021)的 MoE 层。哈希路由策略根据关于输入 Token ID 的预定义哈希函数确定每个 Token 的目标专家。

多 Token 预测(Multi-Token Prediction)。与 DeepSeek-V3 一样,DeepSeek-V4 系列也设置了 MTP 模块和目标。鉴于 MTP 策略已在 DeepSeek-V3 中得到验证,我们未做修改地将其应用于 DeepSeek-V4 系列。

2.2 流形约束超连接(Manifold-Constrained Hyper-Connections)

如图 2 所示,DeepSeek-V4 系列引入流形约束超连接(Manifold-Constrained Hyper-Connections,mHC)(Xie et al., 2026)以增强相邻 Transformer 块之间的传统残差连接。与朴素超连接(Hyper-Connections,HC)(Zhu et al., 2025)相比,mHC 的核心思想是将残差映射约束到特定流形上,从而在保持模型表达能力的同时增强跨层的信号传播稳定性。本小节简要介绍标准 HC 并描述我们如何设计 mHC 以实现稳定训练。

标准超连接(Standard Hyper-Connections)。标准 HC 将残差流的宽度扩展了 $n_{hc}$ 倍。具体来说,残差流的形状从 $\mathbb{R}^d$ 扩展到 $\mathbb{R}^{n_{hc} \times d}$,其中 $d$ 是实际层输入的隐藏大小。令 $X^l = [x^{l,1}; ...; x^{l,n_{hc}}]^T \in \mathbb{R}^{n_{hc} \times d}$ 为第 $l$ 层之前的残差状态。HC 引入三个线性映射:输入映射 $A^l \in \mathbb{R}^{1 \times n_{hc}}$、残差变换 $B^l \in \mathbb{R}^{n_{hc} \times n_{hc}}$ 和输出映射 $C^l \in \mathbb{R}^{n_{hc} \times 1}$。残差状态的更新公式为:

$$ X^{l+1} = B^l X^l + C^l F^l(A^l X^l), $$

其中 $F^l$ 表示第 $l$ 层(例如一个 MoE 层),其输入和输出形状均为 $\mathbb{R}^d$。注意实际层输入 $A^l X^l \in \mathbb{R}^d$ 也是 $d$ 维的,因此扩展的残差宽度不会影响内部层的设计。HC 将残差宽度与实际隐藏大小解耦,提供了一个补充的扩展轴,且计算开销极小,因为 $n_{hc}$ 通常远小于隐藏大小 $d$。然而,尽管 HC 在提升模型性能方面已显示出潜力,我们发现当堆叠多个层时,训练会频繁出现数值不稳定性,这阻碍了 HC 的扩展。

流形约束残差映射(Manifold-Constrained Residual Mapping)。mHC 的核心创新在于将残差映射矩阵 $B^l$ 约束到双随机矩阵流形(Birkhoff 多面体)$\mathcal{M}$ 上,从而增强跨层信号传播的稳定性:

$$ B^l \in \mathcal{M} \coloneqq \{ M \in \mathbb{R}^{n \times n} \mid M \mathbf{1}_n = \mathbf{1}_n, \; \mathbf{1}_n^T M = \mathbf{1}_n^T, \; M \geqslant 0 \}. $$

该约束确保映射矩阵的谱范数 $\|B^l\|_2$ 被限制在 1 以内,因此残差变换是非扩张的,这增加了前向传播和反向传播期间的数值稳定性。此外,集合 $\mathcal{M}$ 在乘法下封闭,这保证了 mHC 深层堆叠场景中的稳定性。另外,输入变换 $A^l$ 和输出变换 $C^l$ 也通过 Sigmoid 函数约束为非负和有界的,以避免信号抵消的风险。

动态参数化(Dynamic Parameterization)。三个线性映射的参数是动态生成的,被分解为一个动态(输入相关)分量和一个静态(输入无关)分量。给定输入 $X^l \in \mathbb{R}^{n_{hc} \times d}$,首先将其展平并归一化:$\hat{X}^l = \text{RMSNorm}(\text{vec}(X^l)) \in \mathbb{R}^{1 \times n_{hc}d}$。然后,我们遵循传统 HC 生成无约束的原始参数 $\tilde{A}^l \in \mathbb{R}^{1 \times n_{hc}}$、$\tilde{B}^l \in \mathbb{R}^{n_{hc} \times n_{hc}}$ 和 $\tilde{C}^l \in \mathbb{R}^{n_{hc} \times 1}$:

$$ \tilde{A}^l = \alpha_{pre}^l \cdot (\hat{X}^l W_{pre}^l) + S_{pre}^l, $$

$$ \tilde{B}^l = \alpha_{res}^l \cdot \text{Mat}(\hat{X}^l W_{res}^l) + S_{res}^l, $$

$$ \tilde{C}^l = \alpha_{post}^l \cdot (\hat{X}^l W_{post}^l)^T + S_{post}^l, $$

其中 $W_{pre}^l, W_{post}^l \in \mathbb{R}^{n_{hc}d \times n_{hc}}$ 和 $W_{res}^l \in \mathbb{R}^{n_{hc}d \times n_{hc}^2}$ 是用于生成动态分量的可学习参数;$\text{Mat}(\cdot)$ 将大小为 $1 \times n_{hc}^2$ 的向量重塑为大小为 $n_{hc} \times n_{hc}$ 的矩阵;$S_{pre}^l \in \mathbb{R}^{1 \times n_{hc}}$、$S_{post}^l \in \mathbb{R}^{n_{hc} \times 1}$ 和 $S_{res}^l \in \mathbb{R}^{n_{hc} \times n_{hc}}$ 是可学习的静态偏置;$\alpha_{pre}^l, \alpha_{res}^l, \alpha_{post}^l \in \mathbb{R}$ 是初始化为较小值的可学习门控因子。

应用参数约束(Applying Parameter Constraints)。在获得无约束的原始参数 $\tilde{A}^l$、$\tilde{B}^l$、$\tilde{C}^l$ 后,我们对它们应用前述约束以增强数值稳定性。具体而言,对于输入和输出映射,我们采用 Sigmoid 函数 $\sigma(\cdot)$ 以确保其非负性和有界性:

$$ A^l = \sigma(\tilde{A}^l), $$

$$ C^l = 2\sigma(\tilde{C}^l). $$

对于残差映射 $\tilde{B}^l$,我们将其投影到双随机矩阵流形 $\mathcal{M}$ 上。这通过 Sinkhorn-Knopp 算法实现,该算法首先对 $\tilde{B}^l$ 应用指数函数以确保正性,得到 $M^{(0)} = \exp(\tilde{B}^l)$,然后迭代执行列和行归一化:

$$ M^{(t)} = \mathcal{T}_r(\mathcal{T}_c(M^{(t-1)})), $$

其中 $\mathcal{T}_r$ 和 $\mathcal{T}_c$ 分别表示行和列归一化。该迭代收敛到约束的双随机矩阵 $B^l = M^{(t_{max})}$。我们选择 $t_{max} = 20$ 作为实用值。

2.3 混合注意力:CSA 与 HCA(Hybrid Attention with CSA and HCA)

当上下文长度达到极端规模时,注意力机制成为模型中主要的计算瓶颈。对于 DeepSeek-V4,我们设计了两种高效的注意力架构——压缩稀疏注意力(Compressed Sparse Attention,CSA)和重度压缩注意力(Heavily Compressed Attention,HCA)——并采用它们的交错混合配置,大幅降低了长文本场景中注意力的计算成本。CSA 整合了压缩和稀疏注意力策略:首先将每 $m$ 个 Token 的键值(Key-Value,KV)缓存压缩为一个条目,然后应用 DeepSeek 稀疏注意力(DeepSeek Sparse Attention,DSA)(DeepSeek-AI, 2025),其中每个查询 Token 仅关注 $k$ 个压缩的 KV 条目。HCA 旨在通过将每 $m'$($\gg m$)个 Token 的 KV 缓存合并为一个条目来实现极端压缩。CSA 和 HCA 的混合架构显著提升了 DeepSeek-V4 系列的长上下文效率,使百万 Token 上下文在实际中可行。本小节描述我们混合注意力架构的核心技术,我们还提供了一个开源实现¹ 以明确指定更多细节。

¹ https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference

2.3.1 压缩稀疏注意力(Compressed Sparse Attention)

CSA 的核心架构如图 3 所示,它首先将每 $m$ 个 Token 的 KV 缓存压缩为一个条目,然后应用 DeepSeek 稀疏注意力以进一步加速。

压缩键值条目(Compressed Key-Value Entries)。令 $H \in \mathbb{R}^{n \times d}$ 为输入隐藏状态序列,其中 $n$ 为序列长度,$d$ 为隐藏大小。CSA 首先计算两组 KV 条目 $C^a, C^b \in \mathbb{R}^{n \times c}$ 及其对应的压缩权重 $Z^a, Z^b \in \mathbb{R}^{n \times c}$,其中 $c$ 为头维度:

$$ C^a = H \cdot W^{a}_{KV}, \quad C^b = H \cdot W^{b}_{KV}, $$

$$ Z^a = H \cdot W^{a}_{Z}, \quad Z^b = H \cdot W^{b}_{Z}, $$

其中 $W^{a}_{KV}, W^{b}_{KV}, W^{a}_{Z}, W^{b}_{Z} \in \mathbb{R}^{d \times c}$ 为可训练参数。接下来,$C^a$ 和 $C^b$ 中的每 $m$ 个 KV 条目将根据其压缩权重和可学习的位置偏置 $B^a, B^b \in \mathbb{R}^{m \times c}$ 被压缩为一个条目,生成 $C^{Comp} \in \mathbb{R}^{\frac{n}{m} \times c}$。每个压缩条目 $C^{Comp}_i \in \mathbb{R}^c$ 的计算方式为:

$$ [S^a_{mi:m(i+1)-1}; \; S^b_{m(i-1):mi-1}] = \text{Softmax}_{row}([Z^a_{mi:m(i+1)-1} + B^a; \; Z^b_{m(i-1):mi-1} + B^b]), $$

$$ C^{Comp}_i = \sum_{j=mi}^{m(i+1)-1} S^a_j \odot C^a_j + \sum_{j=m(i-1)}^{mi-1} S^b_j \odot C^b_j, $$

其中 $\odot$ 表示 Hadamard 积;$\text{Softmax}_{row}(\cdot)$ 表示沿行维度的 softmax 操作,对来自 $Z^a$ 和 $Z^b$ 的总共 $2m$ 个元素进行归一化。当 $i = 0$ 时,$Z^b_{m(i-1):mi-1}$ 用负无穷填充,$C^b_{m(i-1):mi-1}$ 用零填充。注意每个 $C^{Comp}_i$ 由 $2m$ 个 KV 条目派生而来,但用于 $C^{Comp}_i$ 的 $C^b$ 索引和用于 $C^{Comp}_{i-1}$ 的 $C^a$ 索引是重叠的。因此,CSA 实际上将序列长度压缩为原来的 $\frac{1}{m}$。

用于稀疏选择的闪电索引器(Lightning Indexer for Sparse Selection)。在获得压缩的 KV 条目 $C^{Comp}$ 后,CSA 应用 DSA 策略选择 top-k 压缩 KV 条目用于核心注意力。首先,CSA 执行与 $C^{Comp}$ 相同的压缩操作以获得压缩索引器键 $K^{IComp} \in \mathbb{R}^{\frac{n}{m} \times c_I}$,其中 $c_I$ 为索引器头维度。然后,对于查询 Token $t$,我们以低秩方式生成索引器查询 $\{q^I_{t,1}; q^I_{t,2}; ...; q^I_{t,n_I^h}\}$:

$$ c^Q_t = h_t \cdot W^{DQ}, $$

$$ [q^I_{t,1}; q^I_{t,2}; ...; q^I_{t,n_I^h}] = q^I_t = c^Q_t \cdot W^{IUQ}, $$

其中 $h_t \in \mathbb{R}^d$ 是查询 Token $t$ 的输入隐藏状态;$c^Q_t \in \mathbb{R}^{d_c}$ 是查询的压缩潜在向量;$d_c$ 表示查询压缩维度;$n_I^h$ 表示索引器查询头的数量;$W^{DQ} \in \mathbb{R}^{d \times d_c}$ 和 $W^{IUQ} \in \mathbb{R}^{d_c \times c_I n_I^h}$ 分别是索引器查询的下投影和上投影矩阵。接下来,查询 Token $t$ 与前面的压缩块 $s$($s < \text{Floor}(\frac{t}{m})$)之间的索引分数 $I_{t,s} \in \mathbb{R}$ 的计算方式为:

$$ [w^I_{t,1}; w^I_{t,2}; ...; w^I_{t,n_I^h}] = w^I_t = h_t \cdot W^w, $$

$$ I_{t,s} = \sum_{h=1}^{n_I^h} w^I_{t,h} \cdot \text{ReLU}(q^I_{t,h} \cdot K^{IComp}_s), $$

其中 $W^w \in \mathbb{R}^{d \times n_I^h}$ 是可学习矩阵;$w^I_{t,h} \in \mathbb{R}$ 是第 $h$ 个索引器头的权重。对于查询 Token $t$,给定其索引分数 $I_{t,:}$,我们采用 top-k 选择器选择性地保留一部分压缩 KV 条目 $C^{SprsComp}_t$ 用于后续核心注意力:

$$ C^{SprsComp}_t = \{ C^{Comp}_s \mid I_{t,s} \in \text{Top-k}(I_{t,:}) \}. $$

共享键值 MQA(Shared Key-Value MQA)。在选择稀疏 KV 条目后,CSA 以多查询注意力(Multi-Query Attention,MQA)(Shazeer, 2019)方式执行核心注意力,其中 $C^{SprsComp}_t$ 中的每个压缩 KV 条目同时作为注意力键和值。具体而言,对于查询 Token $t$,我们首先从压缩潜在向量 $c^Q_t$ 生成注意力查询 $\{q_{t,1}; q_{t,2}; ...; q_{t,n_h}\}$:

$$ [q_{t,1}; q_{t,2}; ...; q_{t,n_h}] = q_t = c^Q_t \cdot W^{UQ}, $$

其中 $n_h$ 表示查询头的数量;$W^{UQ} \in \mathbb{R}^{d_c \times c n_h}$ 是查询的上投影矩阵。注意潜在查询向量 $c^Q_t$ 与索引器查询使用的向量共享。接下来,我们对 $\{q_{t,i}\}$ 和 $C^{SprsComp}_t$ 执行 MQA:

$$ o_{t,i} = \text{CoreAttn}(\text{query}=q_{t,i}, \; \text{key}=C^{SprsComp}_t, \; \text{value}=C^{SprsComp}_t), $$

其中 $o_{t,i} \in \mathbb{R}^c$ 是第 $t$ 个 Token 处第 $i$ 个头的核心注意力输出;$\text{CoreAttn}(\cdot)$ 表示核心注意力操作。

分组输出投影(Grouped Output Projection)。在 DeepSeek-V4 的配置中,$c n_h$ 相当大。因此,直接将核心注意力操作的输出 $[o_{t,1}; o_{t,2}; ...; o_{t,n_h}] = o_t \in \mathbb{R}^{c n_h}$ 投影到 $d$ 维隐藏状态将带来巨大的计算负担。为了缓解这一成本,我们设计了分组输出投影策略。具体而言,我们首先将 $n_h$ 个输出分成 $g$ 组,然后对于每组输出 $o^G_{t,i} \in \mathbb{R}^{\frac{c n_h}{g}}$,将其投影到 $d_g$ 维中间输出 $o^{G'}_{t,i} \in \mathbb{R}^{d_g}$,其中 $d_g < \frac{c n_h}{g}$。最后,我们将中间输出 $[o^{G'}_{t,1}; o^{G'}_{t,2}; ...; o^{G'}_{t,g}] \in \mathbb{R}^{d_g g}$ 投影到最终的注意力输出 $\hat{o}_t \in \mathbb{R}^d$。

Figure 3
图 3:CSA 的核心架构。它将 KV 条目数量压缩为原来的 $\frac{1}{m}$,然后应用 DeepSeek 稀疏注意力以进一步加速。此外,一小部分滑动窗口 KV 条目与选中的压缩 KV 条目结合,以增强局部细粒度依赖。(Figure 3 | Core architectures of CSA. It compresses the number of KV entries to $\frac{1}{m}$ times, and then applies DeepSeek Sparse Attention for further acceleration. Additionally, a small set of sliding window KV entries is combined with the selected compressed KV entries to enhance local fine-grained dependencies)

2.3.2 重度压缩注意力(Heavily Compressed Attention)

HCA 的核心架构如图 4 所示,它以更重度的方式压缩 KV 缓存,但不采用稀疏注意力。

压缩键值条目(Compressed Key-Value Entries)。总体而言,HCA 的压缩策略与 CSA 类似,但采用更大的压缩率 $m'$($\gg m$)且不进行重叠压缩。令 $H \in \mathbb{R}^{n \times d}$ 为输入隐藏状态序列,HCA 首先计算原始 KV 条目 $C \in \mathbb{R}^{n \times c}$ 及其对应的压缩权重 $Z \in \mathbb{R}^{n \times c}$:

$$ C = H \cdot W^{KV}, $$

$$ Z = H \cdot W^{Z}, $$

其中 $W^{KV}, W^{Z} \in \mathbb{R}^{d \times c}$ 为可训练参数。接下来,$C$ 中的每 $m'$ 个 KV 条目将根据压缩权重和可学习的位置偏置 $B \in \mathbb{R}^{m' \times c}$ 被压缩为一个,生成 $C^{Comp} \in \mathbb{R}^{\frac{n}{m'}} \times c$。每个压缩条目 $C^{Comp}_i \in \mathbb{R}^c$ 的计算方式为:

$$ S_{m'i:m'(i+1)-1} = \text{Softmax}_{row}(Z_{m'i:m'(i+1)-1} + B), $$

$$ C^{Comp}_i = \sum_{j=m'i}^{m'(i+1)-1} S_j \odot C_j. $$

通过这一压缩操作,HCA 将序列长度压缩为原来的 $\frac{1}{m'}$。

共享键值 MQA 与分组输出投影(Shared Key-Value MQA and Grouped Output Projection)。HCA 也采用与 CSA 相同的共享 KV MQA 和分组输出投影策略。在 KV 压缩之后,对于查询 Token $t$,HCA 首先以低秩方式生成注意力查询 $\{q_{t,1}; q_{t,2}; ...; q_{t,n_h}\}$:

$$ c^Q_t = h_t \cdot W^{DQ}, $$

$$ [q_{t,1}; q_{t,2}; ...; q_{t,n_h}] = q_t = c^Q_t \cdot W^{UQ}, $$

其中 $h_t \in \mathbb{R}^d$ 是查询 Token $t$ 的输入隐藏状态;$n_h$ 表示查询头的数量;$W^{DQ} \in \mathbb{R}^{d \times d_c}$ 和 $W^{UQ} \in \mathbb{R}^{d_c \times c n_h}$ 分别是查询的下投影和上投影矩阵。接下来,我们对 $\{q_{t,i}\}$ 和 $C^{Comp}$ 执行 MQA:

$$ o_{t,i} = \text{CoreAttn}(\text{query}=q_{t,i}, \; \text{key}=C^{Comp}, \; \text{value}=C^{Comp}), $$

其中 $o_{t,i} \in \mathbb{R}^c$ 是第 $t$ 个 Token 处第 $i$ 个头的核心注意力输出。接下来,与 CSA 一样,HCA 将 $n_h$ 个输出分成 $g$ 组,对于每组输出 $o^G_{t,i} \in \mathbb{R}^{\frac{c n_h}{g}}$,HCA 将其投影到 $d_g$ 维中间输出 $o^{G'}_{t,i} \in \mathbb{R}^{d_g}$,其中 $d_g < \frac{c n_h}{g}$。最后,HCA 将中间输出 $[o^{G'}_{t,1}; o^{G'}_{t,2}; ...; o^{G'}_{t,g}] \in \mathbb{R}^{d_g g}$ 投影到最终的注意力输出 $\hat{o}_t \in \mathbb{R}^d$。

Figure 4
图 4:HCA 的核心架构。它执行更重度压缩,其中 $m'$($\gg m$)个 Token 的 KV 条目将被合并为一个。此外,我们额外引入了一小部分滑动窗口 KV 条目以增强局部细粒度依赖。(Figure 4 | Core architectures of HCA. It performs heavier compression, where the KV entries of $m'$ ($\gg m$) tokens will be consolidated into one. Also, we additionally introduce a small set of sliding window KV entries to enhance local fine-grained dependencies)

2.3.3 其他细节(Other Details)

除了上述 CSA 和 HCA 的核心架构外,我们的混合注意力还整合了若干其他技术。为行文清晰,我们从上述介绍中省略了这些额外技术,并将在本小节中简要描述。此外,本小节仅关注它们的核心思想,为简洁起见可能省略一些微小细节。我们鼓励读者参考我们的开源实现以获取明确的细节。

查询和键值条目归一化(Query and Key-Value Entry Normalization)。对于 CSA 和 HCA,我们在核心注意力操作之前对每个头的查询和压缩 KV 条目的唯一头执行额外的 RMSNorm 操作。这种归一化避免了注意力对数值的爆炸,并可能提升训练稳定性。

部分旋转位置嵌入(Partial Rotary Positional Embedding)。对于 CSA 和 HCA,我们部分地将旋转位置嵌入(Rotary Positional Embedding,RoPE)(Su et al., 2024)应用于注意力查询、KV 条目和核心注意力输出。具体而言,对于 CSA 和 HCA 中使用的每个查询向量和 KV 条目向量,我们将其最后 64 维应用 RoPE。由于 KV 条目同时作为注意力键和值,朴素的核心注意力输出 $\{o_{t,i}\}$ 将携带绝对位置嵌入,来源于 KV 条目的加权和。作为对策,我们还将位置 $-i$ 的 RoPE 应用于每个 $o_{t,i}$ 的最后 64 维。这样,核心注意力的输出也将携带相对位置嵌入——每个 KV 条目对核心注意力输出的贡献也将与查询和 KV 条目之间的距离相关。

滑动窗口注意力的额外分支(Additional Branch of Sliding Window Attention)。为了严格保持 CSA 和 HCA 中的因果性,每个查询仅关注前面的压缩 KV 块。因此,查询无法访问其自身压缩块内其他 Token 的信息。同时,最近的 Token 通常在语言建模中与查询 Token 具有更大的相关性。出于这些原因,我们以一种滑动窗口方式为 CSA 和 HCA 引入了一个补充注意力分支,以更好地建模局部依赖。具体而言,对于每个查询 Token,我们额外生成 $n_{win}$ 个对应于最近 $n_{win}$ 个 Token 的未压缩 KV 条目。在 CSA 和 HCA 的核心注意力中,滑动窗口中的这些 KV 条目将与压缩的 KV 条目一起使用。

注意力汇聚(Attention Sink)。在 CSA 和 HCA 的核心注意力中,我们采用了注意力汇聚(attention sink)技巧(OpenAI, 2025; Xiao et al., 2024)。具体而言,我们设置了一系列可学习的汇聚对数 $\{z'_1, z'_2, ..., z'_{n_h}\}$。对于第 $h$ 个注意力头,$\exp(z'_h)$ 将被加到注意力分数的分母上:

$$ s_{h,i,j} = \frac{\exp(z_{h,i,j})}{\sum_k \exp(z_{h,i,k}) + \exp(z'_h)}, $$

其中 $s_{h,i,j}, z_{h,i,j} \in \mathbb{R}$ 表示第 $h$ 个注意力头在第 $i$ 个查询 Token 和第 $j$ 个前面 Token 或压缩块之间的注意力分数和注意力对数。该技术允许每个查询头调整其总注意力分数不等于 1,甚至接近 0。

2.3.4 效率讨论(Efficiency Discussion)

由于采用了混合 CSA 和 HCA,以及低精度计算和存储,DeepSeek-V4 系列的注意力模块在注意力 FLOPs 和 KV 缓存大小方面均实现了显著效率,尤其在长上下文场景中。首先,我们为 KV 条目采用混合存储格式:旋转位置嵌入(RoPE)维度使用 BF16 精度,其余维度应用 FP8 精度。这种混合表示与纯 BF16 存储相比,KV 缓存大小减少了近一半。其次,闪电索引器内的注意力计算以 FP4 精度执行,这在极长上下文下加速了注意力操作。第三,与 DeepSeek-V3.2 相比,DeepSeek-V4 系列选择了更小的注意力 top-k,从而提升了短文本和中长文本上的模型效率。最后,也是最重要的是,压缩注意力和混合注意力技术大幅减少了 KV 缓存大小和计算 FLOPs。

以 BF16 GQA8(Ainslie et al., 2023)且头维度为 128 作为基线——大语言模型注意力的常见配置之一——在 1M 上下文设置下,DeepSeek-V4 系列的 KV 缓存大小可大幅缩减至该基线的大约 2%。

此外,即使与 DeepSeek-V3.2(DeepSeek-AI, 2025)相比——本身已是一个高效的基线——DeepSeek-V4 系列在效率方面仍表现出显著优势。图 1 右侧提供了它们推理 FLOPs 和 KV 缓存大小的比较。

2.4 Muon 优化器(Muon Optimizer)

由于 Muon(Jordan et al., 2024; Liu et al., 2025)优化器具有更快的收敛速度和改进的训练稳定性,我们在 DeepSeek-V4 系列的大部分模块中采用它。我们 Muon 优化的完整算法总结在算法 1 中。

基本配置(Basic Configurations)。我们对嵌入模块、预测头模块、mHC 模块的静态偏置和门控因子以及所有 RMSNorm 模块的权重保持使用 AdamW(Loshchilov and Hutter, 2017)优化器。所有其他模块均使用 Muon 更新。遵循 Liu et al. (2025),我们也对 Muon 参数应用权重衰减,使用 Nesterov(Jordan et al., 2024; Nesterov, 1983)技巧,并对更新矩阵的均方根(Root Mean Square,RMS)进行重新缩放以复用我们的 AdamW 超参数。与他们的不同之处在于,我们使用混合 Newton-Schulz 迭代进行正交化。

混合 Newton-Schulz 迭代(Hybrid Newton-Schulz Iterations)。对于给定矩阵 $M$,令其奇异值分解(Singular Value Decomposition,SVD)为 $M = U \Sigma V^T$。Newton-Schulz 迭代旨在将 $M$ 近似正交化为 $UV^T$。通常,$M$ 首先被归一化为 $M_0 = M / \|M\|_F$ 以确保其最大奇异值不超过 1。然后,每次 Newton-Schulz 迭代执行以下操作:

$$ M_k = a M_{k-1} + b (M_{k-1} M_{k-1}^T) M_{k-1} + c (M_{k-1} M_{k-1}^T)^2 M_{k-1}. $$

我们的混合 Newton-Schulz 在两个不同阶段执行 10 次迭代。在前 8 步中,我们使用系数 $(a, b, c) = (3.4445, -4.7750, 2.0315)$ 来驱动快速收敛,使奇异值接近 1。在最后 2 步中,我们切换到系数 $(a, b, c) = (2, -1.5, 0.5)$,这将奇异值精确稳定在 1。

避免注意力对数爆炸(Avoiding Exploding Attention Logits)。DeepSeek-V4 系列的注意力架构允许我们直接在注意力查询和 KV 条目上应用 RMSNorm,这有效防止了注意力对数的爆炸。因此,我们在 Muon 优化器中不采用 QK-Clip 技术(Liu et al., 2025)。

算法 1 DeepSeek-V4 的 Muon 优化器

Require: 学习率 η, 动量 μ, 权重衰减 λ, 更新重缩放因子 γ
1: for each training step t do
2:   for each logically independent weight W  R^{n×m} do
3:     G_t = _W L_t(W_{t-1})                        计算梯度
4:     M_t = μ M_{t-1} + G_t                         累积动量缓冲区
5:     O'_t = HybridNewtonSchulz(μ M_t + G_t)       ⊳ Nesterov 技巧与混合 Newton-Schulz
6:     O_t = O'_t · (max(n, m) · γ)                 重新缩放更新的 RMS
7:     W_t = W_{t-1} · (1 - ηλ) - η O_t              执行权重衰减和更新
8:   end for
9: end for

3. 通用基础设施(General Infrastructures)

3.1 专家并行中的细粒度通信-计算重叠(Fine-Grained Communication-Computation Overlap in Expert Parallelism)

混合专家(Mixture-of-Experts,MoE)可通过专家并行(Expert Parallelism,EP)加速。然而,EP 需要复杂的节点间通信,并对互连带宽和延迟提出了大量需求。为了缓解 EP 中的通信瓶颈并在较低互连带宽要求下实现更高的端到端性能,我们提出了一种细粒度 EP 方案,将通信和计算融合到单个流水线内核中,实现通信-计算重叠。

通信延迟可被隐藏(Communication Latency Can Be Hidden)。我们 EP 方案的关键洞察是,在 MoE 层中,通信延迟可以有效地隐藏在计算之下。如图 5 所示,在 DeepSeek-V4 系列中,每个 MoE 层主要可分解为四个阶段:两个通信受限阶段,Dispatch 和 Combine,以及两个计算受限阶段,Linear-1 和 Linear-2。我们的性能分析显示,在单个 MoE 层内,通信总时间小于计算时间。因此,在将通信和计算融合到统一流水线后,计算仍然是主要瓶颈,这意味着系统可以容忍较低的互连带宽而不会降低端到端性能。

Figure 5
图 5:我们的 EP 方案及相关工作的示意图。Comet(Zhang et al., 2025b)分别将 Dispatch 与 Linear-1、Linear-2 与 Combine 重叠。我们的 EP 方案通过将专家分割并调度为波次(waves)来实现更细粒度的重叠。理论加速比在 DeepSeek-V4-Flash 架构配置下评估。(Figure 5 | Illustration of our EP scheme with related works. Comet overlaps Dispatch with Linear-1, and Linear-2 with Combine, separately. Our EP scheme achieves a finer-grained overlapping by splitting and scheduling experts into waves. The theoretical speedup is evaluated in the configuration of the DeepSeek-V4-Flash architecture)

细粒度 EP 方案(Fine-Grained EP Scheme)。为了进一步降低互连带宽要求并放大重叠的收益,我们引入了更细粒度的专家划分方案。受许多相关工作(Aimuyo et al., 2025; Zhang et al., 2025b)的启发,我们将专家分割并调度为波次(waves)。每个波次由一小部分专家组成。一旦波次内的所有专家完成通信,计算就可以立即开始,而无需等待其他专家。在稳态下,当前波次的计算、下一波次的 Token 传输和已完成专家的结果发送都可以并发进行,如图 5 所示。这在专家之间形成了一个细粒度流水线,在整个波次中保持计算和通信连续。基于波次的调度加速了强化学习(Reinforcement Learning,RL) rollout 等极端情况下的性能,这类场景通常遇到长尾小批次。

性能与开源 Mega-Kernel(Performance and Open-Sourced Mega-Kernel)。我们在 NVIDIA GPU 和华为昇腾 NPU 平台上验证了细粒度 EP 方案。与强大的非融合基线相比,它在通用推理工作负载上实现了 1.50~1.73× 的加速,在 RL rollout 和高速智能体服务等延迟敏感场景中高达 1.96×。我们已将基于 CUDA 的 mega-kernel 实现以 MegaMoE² 的名称作为 DeepGEMM 的组件开源。

² https://github.com/deepseek-ai/DeepGEMM/pull/304

观察与建议(Observations and Proposals)。我们分享从内核开发中获得的观察和经验,并向硬件供应商提供一些建议,以期有助于高效的硬件设计并实现更好的软硬件协同设计:

  • 计算-通信比(Computation-Communication Ratio)。完全的通信-计算重叠取决于计算-通信比,而非仅取决于带宽。记峰值计算吞吐量为 $C$,互连带宽为 $B$,当 $C/B \leqslant V_{comp}/V_{comm}$ 时通信可被完全隐藏,其中 $V_{comp}$ 表示计算量,$V_{comm}$ 表示通信量。对于 DeepSeek-V4-Pro,每个 Token-专家对需要 6hd FLOPs(SwiGLU gate、up 和 down 投影)但仅需 3h 字节通信(FP8 Dispatch + BF16 Combine),这简化为:

$$ \frac{C}{B} \leqslant 2d = 6144 \text{ FLOPs / Byte}. $$

也就是说,每 GBps 的互连带宽足以隐藏 6.1 TFLOP/s 的计算。一旦带宽达到此阈值,它就不再是瓶颈,投入额外的硅面积来进一步提升带宽将带来递减的收益。我们鼓励未来的硬件设计瞄准此类平衡点,而非无条件地扩展带宽。

  • 功耗预算(Power Budget)。极端的内核融合使计算、内存和网络同时处于高负载,使功耗节流成为关键性能限制因素。我们建议未来的硬件设计为这种完全并发的工作负载提供足够的功耗余量。
  • 通信原语(Communication Primitives)。我们采用拉取(pull-based)方式,每个 GPU 主动从远程 GPU 读取数据,避免了细粒度推送所带来的高通知延迟。具有更低延迟跨 GPU 信号的未来硬件将使推送可行,并支持更自然的通信模式。
  • 激活函数(Activation Function)。我们建议将 SwiGLU 替换为不涉及指数或除法操作的低成本逐元素激活函数。这直接减轻了后 GEMM 处理负担,在相同参数预算下,移除 gate 投影可以增大中间维度 $d$,进一步放宽带宽要求。

3.2 使用 TileLang 进行灵活高效的内核开发(Flexible and Efficient Kernel Development with TileLang)

在实践中,我们精细的模型架构原本会产生数百个细粒度的 Torch ATen 算子。我们采用 TileLang(Wang et al., 2026)来开发一组融合内核以替代绝大多数算子,以最小的努力提供最佳性能。它还使我们能够在验证期间快速原型化注意力变体等算子。这些内核在模型架构开发、大规模训练和最终的推理服务生产部署中发挥着关键作用。作为领域特定语言(Domain-Specific Language,DSL),TileLang 平衡了开发效率与运行时效率,支持快速开发的同时在同一代码库中支持深度迭代优化。此外,我们与 TileLang 社区密切合作,以促进更敏捷、高效和稳定的内核开发工作流。

通过主机代码生成降低调用开销(Reducing Invocation Overhead with Host Codegen)。随着加速器性能持续提升,CPU 端的编排开销变得越来越突出。对于小型、高度优化的内核,这种固定的主机开销很容易限制利用率和吞吐量。这种开销的一个常见来源是主机端逻辑(如运行时合约检查)通常用 Python 编写以追求灵活性,从而产生固定的每次调用成本。

我们通过主机代码生成(Host Codegen)来缓解这一开销,它将大部分主机端逻辑移入生成的主机代码中。具体而言,我们首先在中级表示(Intermediate Representation,IR)级别共同生成设备内核和轻量级主机启动器,嵌入从语言前端解析的必要元数据——如数据类型、秩/形状约束和步幅/布局假设。然后,启动器被降级到基于 TVM-FFI(Chen et al., 2018)框架的主机源代码,其紧凑的调用约定和零拷贝张量互操作共同最小化主机端开销。在运行时,生成的主机代码执行验证和参数编组,将所有每次调用检查移出 Python 执行路径。我们的测量显示,CPU 端验证开销从每次调用数十或数百微秒降低到不足一微秒。

SMT 求解器辅助的形式化整数分析(SMT-Solver-Assisted Formal Integer Analysis)。TileLang 内核涉及复杂的张量索引运算,需要强大的形式化整数分析。在布局推断、内存危险检测和边界分析等编译过程中,编译器必须验证整数表达式是否满足特定属性以启用相应的优化。因此,更强的形式化分析能力可以解锁更先进和复杂的优化机会。

为此,我们将 Z3 SMT 求解器(De Moura and Bjørner, 2008)集成到 TileLang 的代数系统中,为张量程序中的大多数整数表达式提供形式化分析能力。我们通过将 TileLang 的整数表达式转换为 Z3 的量化自由非线性整数算术(Quantifier-Free Non-linear Integer Arithmetic,QF_NIA)来平衡计算开销和形式化表达能力。基于整数线性规划(Integer Linear Programming,ILP)求解器,QF_NIA 无缝解析内核中常见的标准线性整数表达式。此外,其固有的非线性推理能力有效解决可变张量形状上的向量化等高级挑战。在合理的资源限制下,Z3 提升了整体优化性能,同时将编译时间开销限制在仅几秒钟。其影响在多个过程中都是显著的,包括向量化、屏障插入和代码简化。

数值精度与按位可复现性(Numerical Precision and Bitwise Reproducibility)。在生产环境中,数值正确性和可复现性与原始吞吐量同等关键。因此,我们默认优先考虑精度:快速数学优化在编译器级别被禁用,影响精度的近似仅作为显式的可选前端算子提供(例如 T.__expT.__logT.__sin)。反之,当需要严格的 IEEE-754 语义时,TileLang 提供具有显式舍入模式的 IEEE 合规内建函数(例如 T.ieee_fsqrtT.ieee_fdivT.ieee_add),使开发者能够精确指定数值行为。

我们还针对与手写 CUDA 基线的按位可复现性进行内核验证。我们将 TileLang 的代数简化和降级规则与主流 CUDA 工具链(例如 NVCC)对齐,以避免引入非预期位级差异的转换。布局注释(例如 T.annotate_layout)进一步允许用户固定布局相关的降级决策,使求值和累加顺序与参考 CUDA 实现保持一致,从而在需要时实现按位相同的输出。

我们的评估表明,这些面向精度和可复现性的设计选择不会牺牲性能:在保守默认设置下,TileLang 内核仍具有竞争力,同时提供旋钮以选择性放宽数值约束以获得更高速度。

3.3 高性能批次不变和确定性内核库(High-Performance Batch-Invariant and Deterministic Kernel Libraries)

为了实现高效的训练和推理,我们开发了一套全面的高性能计算内核。除了基本功能和最大化硬件利用率之外,另一个关键设计目标是确保预训练、后训练和推理流程之间的训练可复现性和按位对齐。因此,我们实现了端到端、按位批次不变和确定性的内核,且性能开销最小。这些内核对调试、稳定性分析和一致的后训练行为都很有帮助。

批次不变性(Batch Invariance)。批次不变性确保任何给定 Token 的输出无论其在批次中的位置如何都保持按位一致。要实现批次不变性,主要挑战如下:

  • 注意力(Attention)。为了实现批次不变性,我们不能使用 split-KV 方法(Dao et al., 2023),该方法将单个序列的注意力计算分布在多个流式多处理器(Stream Multiprocessors,SMs)上以平衡 SM 负载。然而,放弃这种技术将导致严重的波次量化(wave-quantization)问题³,这可能对 GPU 利用率产生不利影响。为了解决这一问题,我们为批次不变解码开发了双内核策略。第一个内核在单个 SM 内计算整个序列的注意力输出,确保满波次的高吞吐量。第二个内核为了最小化最终部分填充波次的延迟从而缓解波次量化,对单个序列使用多个 SM。为了保证这两个内核的按位一致性,我们仔细设计了第二个内核的计算路径,以确保其累加顺序与第一个内核相同。此外,第二个内核利用线程块集群内的分布式共享内存⁴,实现跨 SM 的高速数据交换。这种双内核方法有效地将批次不变解码的开销限制在可忽略不计的水平。

³ https://docs.nvidia.com/deeplearning/performance/dl-performance-matrix-multiplication/index.html#wave-quant
⁴ https://docs.nvidia.com/cuda/cuda-programming-guide/02-basics/writing-cuda-kernels.html#distributed-shared-memory

  • 矩阵乘法(Matrix Multiplication)。传统的 cuBLAS 库(NVIDIA Corporation, 2024)无法实现批次不变性。因此,我们端到端地将其替换为 DeepGEMM(Zhao et al., 2025)。此外,对于非常小的批次大小,传统实现通常采用 split-k(Osama et al., 2023)技术来提升性能。不幸的是,split-k 技术无法保证批次不变性,这是 DeepSeek-V4 的一个关键特性。因此,我们在大多数情况下放弃 split-k,但这可能导致性能下降。为了解决这一问题,我们引入了一组优化,使我们的矩阵乘法实现在大多数主要场景中能够匹配甚至超越标准 split-k 的性能。

确定性(Determinism)。确定性训练对调试硬件或软件问题非常有益。此外,当训练出现诸如损失尖峰等异常时,确定性使研究人员能够更容易地 pinpoint 数值原因并进一步完善模型设计。训练中的非确定性通常源于非确定性的累加顺序,通常是由于使用了原子加(atomic addition)指令。这个问题主要发生在反向传播期间,特别是在以下部分:

  • 注意力反向传播(Attention Backward)。在稀疏注意力反向传播的传统实现中,我们使用 atomicAdd 来累加 KV Token 的梯度。由于浮点加法的非结合性,这引入了非确定性。为了解决这个问题,我们为每个 SM 分配单独的累加缓冲区,然后对所有缓冲区进行全局确定性求和。
  • MoE 反向传播(MoE Backward)。当来自不同秩的多个 SM 并发地向接收秩上的同一缓冲区写入数据时,协商写入位置也引入了非确定性。为了解决这个问题,我们在每个单一秩内设计了一个 Token 顺序预处理机制,结合跨多个秩的缓冲区隔离。该策略确保了专家并行发送结果的确定性和 MoE 反向传播中累加顺序的确定性。
  • mHC 中的矩阵乘法(Matrix Multiplication in mHC)。mHC 涉及输出维度仅为 24 的矩阵乘法。对于非常小的批次大小,我们被迫使用 split-k(Osama et al., 2023)算法,其朴素实现会导致非确定性。为了克服这一点,我们分别输出每个 split 部分,并在后续内核中执行确定性归约,从而同时保留性能和确定性。

3.4 FP4 量化感知训练(FP4 Quantization-Aware Training)

为了在部署时实现推理加速和内存节省,我们在后训练阶段引入量化感知训练(Quantization-Aware Training,QAT)(Jacob et al., 2018),使模型能够适应量化带来的精度退化。我们将 FP4(MXFP4)量化(Rouhani et al., 2023)应用于两个组件:(1)MoE 专家权重,这是 GPU 内存占用的主要来源(OpenAI, 2025);(2)CSA 索引器中的查询-键(Query-Key,QK)路径,其中 QK 激活完全以 FP4 缓存、加载和相乘,从而加速长上下文场景中的注意力分数计算。此外,在此 QAT 过程中,我们进一步将索引分数 $I_{:,:}$ 从 FP32 量化到 BF16。这一优化为 top-k 选择器实现了 2× 的加速,同时保留了 99.7% 的 KV 条目召回率。

对于 MoE 专家权重,遵循 QAT 的常见做法,优化器维护的 FP32 主权重首先被量化到 FP4,然后反量化回 FP8 进行计算。值得注意的是,我们的 FP4 到 FP8 反量化是无损的。这是因为 FP8(E4M3)相比 FP4(E2M1)有 2 个额外的指数位,提供了更大的动态范围。因此,只要每个 FP4 子块(1×32 tiles)在每个 FP8 量化块(128×128 tiles)内的最大和最小缩放因子之比不超过某个阈值,细粒度的缩放信息就可以被 FP8 扩展的动态范围完全吸收。我们经验性地验证了当前权重满足这一条件。这使得整个 QAT 流程可以完全复用现有的 FP8 训练框架而无需任何修改。在反向传播中,梯度是相对于前向传播中相同的 FP8 权重计算的,并直接传播回 FP32 主权重,等效于通过量化操作应用直通估计器(Straight-Through Estimator,STE)。这也避免了对转置权重重新量化的需求。

在 RL 训练的推理和 rollout 阶段(不涉及反向传播),我们直接使用真实的 FP4 量化权重而非模拟量化。这确保了采样期间的模型行为与在线部署完全一致,同时也减少了内核内存加载以实现实际加速,并显著降低了内存消耗。我们对 CSA 索引器中的 QK 路径进行类似处理。

3.5 训练框架(Training Framework)

我们的训练框架建立在为 DeepSeek-V3(DeepSeek-AI, 2024)开发的可扩展且高效的基础设施之上。在训练 DeepSeek-V4 时,我们继承了这一坚实基础,同时引入了若干关键创新以适应其新颖的架构组件——特别是 Muon 优化器、mHC 和混合注意力机制——同时保持高训练效率和稳定性。

3.5.1 Muon 的高效实现(Efficient Implementation of Muon)

Muon 优化器需要完整的梯度矩阵来计算参数更新,这与零冗余优化器(Zero Redundancy Optimizer,ZeRO)(Rajbhandari et al., 2020)结合时带来了挑战。传统的 ZeRO 是为 AdamW 等逐元素优化器设计的,单个参数矩阵可以在多个秩之间分区并更新。为了解决这一冲突,我们为 Muon 设计了 ZeRO 桶分配的混合策略。

对于密集参数,我们限制 ZeRO 并行的最大大小,并使用背包算法将参数矩阵分配给这些秩,确保每个秩管理大致均衡的负载。每个秩上的桶被填充以匹配跨秩的最大桶大小,以促进高效的 reduce-scatter 操作。这种填充通常在我们的设置中产生不到 10% 的内存开销,其中每个秩管理不超过五个参数矩阵。当数据并行的总体大小超过 ZeRO 的限制时,我们在额外的数据并行组中冗余计算 Muon 更新,以计算换取减少的总桶内存。

对于MoE 参数,我们独立优化每个专家。我们首先展平所有层中所有专家的 SwiGLU(Shazeer, 2020)下投影矩阵,然后是展平的上投影矩阵和门控矩阵。然后,我们对展平的向量进行填充,以确保可以将其均匀分布在所有秩上而不拆分任何逻辑上独立的矩阵。鉴于专家数量众多,我们不对 MoE 参数施加 ZeRO 并行限制,填充开销也可忽略不计。

此外,在每个秩上,相同形状的连续参数将自动合并,从而实现 Newton-Schulz 迭代的批处理执行以获得更好的硬件利用率。此外,我们观察到 Muon 中的 Newton-Schulz 迭代在使用 BF16 矩阵乘法计算时保持稳定。利用这一点,我们以随机舍入方式进一步量化跨数据并行秩同步的 MoE 梯度到 BF16 精度,通信量减半。为了避免低精度加法器引入的累积误差,我们用两阶段方法替代传统的树形或环形 reduce-scatter 集合通信。首先,all-to-all 操作在各秩之间交换本地梯度,然后每个秩执行 FP32 的本地求和。该设计保持了数值鲁棒性。

3.5.2 mHC 的成本效益和内存高效实现(Cost-Effective and Memory-Efficient Implementation of mHC)

与常规残差连接相比,mHC 的引入增加了激活内存消耗和流水线阶段之间的通信量。为了缓解这些成本,我们实现了若干优化策略。

首先,我们为训练和推理仔细设计并实现了 mHC 的融合内核。其次,我们引入了一种重计算策略,选择性检查点中间张量。具体而言,我们重计算层之间的大多数隐藏状态和所有归一化的层输入,同时避免重计算计算密集型操作。这在内存节省和计算开销之间取得了平衡。第三,我们调整 DualPipe 1F1B 重叠方案以适应增加的流水线通信,并启用 mHC 中某些操作的并发执行。

综合起来,这些优化将 mHC 的挂钟时间开销限制在重叠 1F1B 流水线阶段的仅 6.7%。更多工程优化细节可在专门的 mHC 论文(Xie et al., 2026)中找到。

3.5.3 长上下文注意力的上下文并行(Contextual Parallelism for Long-Context Attention)

传统的上下文并行(Context Parallelism,CP)沿序列维度进行分区,每个秩维护连续的 $s$ 个 Token。这为我们的压缩注意力机制(即 CSA 和 HCA)引入了两个挑战。一方面,训练样本由多个序列打包而成,每个序列独立以 $m$(或 $m'$)的因子压缩,任何少于 $m$ 的尾部 Token 都被丢弃。因此,压缩后的 KV 长度通常小于 $\frac{s}{m}$,且在不同秩之间变化。另一方面,压缩需要 $m$ 个连续的 KV 条目,这可能跨越两个相邻 CP 秩的边界。

为了解决这些挑战,我们设计了一种两阶段通信方法。在第一阶段,每个秩 $i$ 将其最后 $m$ 个未压缩的 KV 条目发送给秩 $i+1$。然后,秩 $i+1$ 将接收到的部分条目与其本地 $s$ 个未压缩的 KV 条目一起压缩,产生固定长度 $\frac{s}{m} + 1$ 的压缩条目,其中存在一些填充条目。在第二阶段,跨所有 CP 秩的 all-gather 操作收集本地压缩的 KV 条目。然后,一个融合的选择-填充算子将它们重组为总长度为 $\text{cp\_size} \cdot \frac{s}{m}$ 的完整压缩 KV 条目集合。任何填充条目都放在尾部。对于 HCA 和 CSA 中的索引器,每个查询 Token 可见的压缩 KV 条目范围可以通过规则预先计算。对于 CSA 中的稀疏注意力,top-k 选择器显式指定每个查询的可见压缩 KV 条目索引。

3.5.4 用于灵活激活检查点的扩展自动微分(Extended Automatic Differentiation for Flexible Activation Checkpointing)

传统的激活检查点实现以整个模块为粒度,决定是在反向传播期间保留还是重计算其输出激活。这种粗粒度通常在重计算成本和激活内存占用之间导致次优的权衡。一种替代方法是手动实现整个层的前向和反向逻辑,显式管理张量检查点状态。虽然实现了细粒度控制,但这种方法失去了自动微分框架的便利性,大幅增加了开发复杂度。

为了在保持编程效率的同时实现细粒度控制,我们实现了具有自动微分支持的张量级激活检查点机制。利用这种机制,开发者只需实现前向传播并选择性标注单个张量以进行自动检查点和重计算。我们的框架利用 TorchFX(Reed et al., 2022)来追踪完整的计算图。对于每个标注的张量,它执行反向遍历以识别其重计算所需的最小子图。我们将这些最小子图定义为重计算图,并将它们插入到相应梯度计算之前的反向逻辑中。

与手动实现相比,这种设计在训练期间不引入额外开销。该框架中的重计算通过直接释放标注张量的 GPU 内存并重用重计算张量的存储指针来实现,无需任何 GPU 内存拷贝。此外,由于图追踪是具体执行模型的,我们可以追踪每个张量的底层存储指针,这实现了对共享存储的张量(例如 reshape 操作的输入和输出)的重计算自动去重。这使开发者在标注重计算时无需推理低层内存细节。

3.6 推理框架(Inference Framework)

我们的推理框架在很大程度上继承了 DeepSeek-V3 的框架,在 KV 缓存管理方面存在一些差异。

3.6.1 KV 缓存结构与管理(KV Cache Structure and Management)

为了高效管理 DeepSeek-V4 中混合注意力机制产生的异构 KV 缓存,我们设计了一种定制的 KV 缓存布局。该布局如图 6 所示,我们将在下面详细阐述。

Figure 6
图 6:DeepSeek-V4 的 KV 缓存布局示意图。KV 缓存分为两个主要组件:用于 CSA/HCA 的经典 KV 缓存,以及用于 SWA 和 CSA/HCA 中尚未准备好压缩的 Token 的状态缓存。在状态缓存中,每个请求被分配一个固定大小的缓存块。在此块内,SWA 段存储对应于最近 $n_{win}$ 个 Token 的 KV 条目,而 CSA/HCA 段存储尚未准备好压缩的未压缩尾部状态。在经典 KV 缓存中,我们为每个请求分配多个块。每个缓存块覆盖 $\text{lcm}(m, m')$ 个原始 Token,产生 $k_1 = \frac{\text{lcm}(m, m')}{m}$ 个 CSA 压缩 Token 和 $k_2 = \frac{\text{lcm}(m, m')}{m'}$ 个 HCA 压缩 Token。(Figure 6 | Illustration of the KV cache Layout for DeepSeek-V4. The KV cache is organized into two primary components: a classical KV cache for CSA/HCA, and a state cache for SWA and unready-for-compression tokens in CSA/HCA. In the state cache, each request is assigned a fixed-size cache block. Within this block, the SWA segment stores the KV entries corresponding to the most recent $n_{win}$ tokens, while the CSA/HCA segment stores uncompressed tail states that are not yet ready for compression. In the classical KV cache, we allocate multiple blocks per request. Each cache block covers $\text{lcm}(m, m')$ original tokens, producing $k_1 = \text{lcm}(m, m')/m$ CSA compressed tokens and $k_2 = \text{lcm}(m, m')/m'$ HCA compressed tokens)

DeepSeek-V4 中的异构 KV 条目(Heterogeneous KV Entries in DeepSeek-V4)。DeepSeek-V4 系列中的混合注意力机制引入了多种类型的 KV 条目,具有不同的键值(Key-Value,KV)缓存大小和更新规则。用于稀疏选择的闪电索引器为 KV 缓存引入了额外的维度,其嵌入大小与主注意力中的不同。CSA 和 HCA 中采用的压缩技术分别将序列长度压缩为原来的 $\frac{1}{m}$ 和 $\frac{1}{m'}$,从而减小了总体 KV 缓存大小。因此,KV 缓存大小在不同层之间变化。此外,滑动窗口注意力(Sliding Window Attention,SWA)层也以不同的 KV 缓存大小运行,以及单独的缓存命中和驱逐策略。在压缩分支中,每 $m$ 个 Token 生成一个 KV 条目。当剩余 Token 数量不足以进行压缩时,所有待处理的 Token 及其相关的隐藏状态必须保留在缓冲区中,直到可以执行压缩操作。这些缓冲的 Token 代表由位置上下文确定的序列状态,也在 KV 缓存框架内进行管理。

管理混合注意力 KV 缓存的挑战(Challenges in Managing Hybrid Attention KV Cache)。混合注意力机制违反了 PagedAttention 及其变体背后的基本假设。尽管最近的混合 KV 缓存管理算法(例如 Jenga(Zhang et al., 2025a)、Hymba(Dong et al., 2025))针对通用混合注意力模型或特定结构,但两个主要障碍阻止了在 PagedAttention 框架下整合所有层的 KV 缓存:

  • 多样的缓存策略,例如滑动窗口注意力中使用的策略。
  • 高性能注意力内核施加的约束,包括对齐要求。

为了高效管理 DeepSeek-V4 的 KV 缓存,我们设计了相应的策略来克服这两个挑战。

用于 SWA 和未压缩尾部 Token 的状态缓存(State Cache for SWA and Uncompressed Tail Tokens)。为了解决第一个障碍,我们采用了一种替代的缓存管理机制。由于 SWA 旨在在有限的 KV 缓存大小下提升性能,将其与压缩分支中的未压缩尾部 Token 一起视为状态空间模型是合理的。相应的 KV 缓存因此可被视为仅取决于当前位置的序列特定状态。相应地,我们预分配一个固定且有限大小的状态缓存池,并动态将其分配给每个序列。

稀疏注意力内核协同设计(Sparse Attention Kernel Co-Design)。关于第二个障碍,传统的高性能注意力内核通常假设每个块有固定数量 $B$ 的 Token 以优化性能,在 CSA 中对应 $B \cdot m$ 个原始 Token,在 HCA 中对应 $B \cdot m'$。通过采用高性能稀疏注意力内核,不同层可以容纳每个块可变的 Token 数量而不会性能下降。实现这一点需要协同设计 KV 缓存布局和稀疏注意力内核。例如,将块填充以与缓存行对齐可以提升性能。因此,对于压缩比为 $m$ 的 CSA 和压缩比为 $m'$ 的 HCA,每个块的原始 Token 数量可以是这两个压缩比的最小公倍数 $\text{lcm}(m, m')$ 的任何倍数。

3.6.2 磁盘 KV 缓存存储(On-Disk KV Cache Storage)

在提供 DeepSeek-V4 服务时,我们利用磁盘 KV 缓存存储机制来消除共享前缀请求的重复预填充。对于 CSA/HCA 中的压缩 KV 条目和滑动窗口注意力(SWA)中的未压缩 KV 条目,我们设计了单独的存储管理方案。

对于 CSA 和 HCA,我们简单地将所有压缩的 KV 条目存储到磁盘。当请求命中存储的前缀时,我们读取并复用对应于前缀的压缩 KV 条目,直到最后一个完整的压缩块。特别地,对于尾部不完整块中的前缀 Token,我们仍然需要重计算它们以恢复未压缩的 KV 条目,因为 CSA 和 HCA 中的未压缩 KV 条目并未存储。

对于 SWA KV 条目,由于它们未被压缩且存在于每一层中,其体积大约是压缩的 CSA 和 HCA KV 条目的 8 倍。为了高效处理这些大型 SWA KV 条目,我们提出并实现了三种不同的策略来管理磁盘上的 SWA KV 条目,每种策略在存储开销和计算冗余之间提供不同的权衡:

  • 完整 SWA 缓存(Full SWA Caching)。该策略存储所有 Token 的完整 SWA KV 条目,确保计算零冗余。在此策略下,命中前缀的 SWA KV 条目可以通过仅读取该前缀内最近 $n_{win}$ 个 Token 的磁盘缓存来重建。尽管计算零冗余,但该策略对于现代基于 SSD 的存储系统效率低下——对于每个命中请求,只有一小部分存储的 SWA KV 缓存会被访问,这导致了不均衡的写密集型访问模式。
  • 周期性检查点(Periodic Checkpointing)。该策略每 $p$ 个 Token 检查点最近 $n_{win}$ 个 Token 的 SWA KV 条目,其中 $p$ 是可调参数。对于命中前缀,我们加载最近的检查点状态,然后重计算剩余的尾部 Token。通过调节 $p$,该策略实现了存储和计算之间的按需权衡。
  • 零 SWA 缓存(Zero SWA Caching)。该策略不存储任何 SWA KV 条目。对于命中前缀,我们需要执行更多重计算以恢复 SWA KV 条目。具体而言,在每一注意力层中,每个 Token 的 SWA KV 条目仅依赖于前一层最近 $n_{win}$ 个 Token 的 SWA KV 条目。因此,利用缓存的 CSA 和 HCA KV 条目,重计算最后 $n_{win} \cdot L$ 个 Token 足以恢复 $L$ 层模型的最后 $n_{win}$ 个 SWA KV 条目。

根据具体的部署场景,我们选择最合适的策略以实现存储和计算之间期望的权衡。


4. 预训练(Pre-Training)

4.1 数据构建(Data Construction)

在 DeepSeek-V3 预训练数据的基础上,我们努力构建一个更加多样化、更高质量且有效上下文更长的训练语料库。我们持续完善数据构建流程。对于网络来源的数据,我们实施过滤策略以去除批量自动生成的和模板化的内容,从而缓解模型崩溃(model collapse)的风险(Zhu et al., 2024)。数学和编程语料仍然是我们训练数据的核心组成部分,我们在中期训练阶段通过引入智能体(agentic)数据来进一步增强 DeepSeek-V4 系列的编码能力。对于多语言数据,我们为 DeepSeek-V4 构建了更大的语料库,提升其对不同文化中长尾知识的捕获能力。对于 DeepSeek-V4,我们特别重视长文档数据的整理,优先选择科学论文、技术报告和其他反映独特学术价值的材料。综合以上所有内容,我们的预训练语料库包含超过 32T Token,涵盖数学内容、代码、网页、长文档和其他高质量类别。

对于预训练数据,我们在很大程度上遵循 DeepSeek-V3 的相同预处理策略。对于分词,我们在 DeepSeek-V3 分词器的基础上引入了一些用于上下文构建的特殊 Token,词汇表大小仍保持为 128K。我们还继承了 DeepSeek-V3 的 Token 拆分(DeepSeek-AI, 2024)和 Fill-in-Middle(FIM)(DeepSeek-AI, 2024)策略。受 Ding et al. (2024) 的启发,我们将来自不同来源的文档打包成适当长度的序列以最小化样本截断。与 DeepSeek-V3 不同,我们在预训练期间采用样本级注意力掩码。

4.2 预训练设置(Pre-Training Setups)

4.2.1 模型设置(Model Setups)

DeepSeek-V4-Flash。我们将 Transformer 层数设置为 43,隐藏维度 $d$ 设置为 4096。对于前两层,我们使用纯滑动窗口注意力。对于后续层,CSA 和 HCA 以交错方式使用。对于 CSA,我们将压缩率 $m$ 设置为 4,索引器查询头数 $n_I^h$ 设置为 64,索引器头维度 $c_I$ 设置为 128,稀疏注意力选择的 KV 条目数(即注意力 top-k)设置为 512。对于 HCA,我们将压缩率 $m'$ 设置为 128。对于 CSA 和 HCA,我们将查询头数 $n_h$ 设置为 64,头维度 $c$ 设置为 512,查询压缩维度 $d_c$ 设置为 1024。输出投影组数 $g$ 设置为 8,每个中间注意力输出维度 $d_g$ 设置为 1024。对于滑动窗口注意力的额外分支,窗口大小 $n_{win}$ 设置为 128。我们在所有 Transformer 块中使用 MoE 层,但前 3 个 MoE 层使用哈希路由策略。每个 MoE 层由 1 个共享专家和 256 个路由专家组成,每个专家的中间隐藏维度为 2048。在路由专家中,每个 Token 激活 6 个专家。多 Token 预测深度设置为 1。对于 mHC,扩展因子 $n_{hc}$ 设置为 4,Sinkhorn-Knopp 迭代次数 $t_{max}$ 设置为 20。在此配置下,DeepSeek-V4-Flash 总共有 284B 参数,其中每个 Token 激活 13B。

DeepSeek-V4-Pro。我们将 Transformer 层数设置为 61,隐藏维度 $d$ 设置为 7168。对于前两层,我们使用 HCA。对于后续层,CSA 和 HCA 以交错方式使用。对于 CSA,我们将压缩率 $m$ 设置为 4,索引器查询头数 $n_I^h$ 设置为 64,索引器头维度 $c_I$ 设置为 128,稀疏注意力选择的 KV 条目数(即注意力 top-k)设置为 1024。对于 HCA,我们将压缩率 $m'$ 设置为 128。对于 CSA 和 HCA,我们将查询头数 $n_h$ 设置为 128,头维度 $c$ 设置为 512,查询压缩维度 $d_c$ 设置为 1536。输出投影组数 $g$ 设置为 16,每个中间注意力输出维度 $d_g$ 设置为 1024。对于滑动窗口注意力的额外分支,窗口大小 $n_{win}$ 设置为 128。我们在所有 Transformer 块中使用 MoE 层,但前 3 个 MoE 层使用哈希路由策略。每个 MoE 层由 1 个共享专家和 384 个路由专家组成,每个专家的中间隐藏维度为 3072。在路由专家中,每个 Token 激活 6 个专家。多 Token 预测深度设置为 1。对于 mHC,扩展因子 $n_{hc}$ 设置为 4,Sinkhorn-Knopp 迭代次数 $t_{max}$ 设置为 20。在此配置下,DeepSeek-V4-Pro 总共有 1.6T 参数,其中每个 Token 激活 49B。

4.2.2 训练设置(Training Setups)

DeepSeek-V4-Flash。我们对大部分参数采用 Muon 优化器(Jordan et al., 2024; Liu et al., 2025),但对嵌入模块、预测头模块和所有 RMSNorm 模块的权重使用 AdamW 优化器(Loshchilov and Hutter, 2017)。对于 AdamW,我们将超参数设置为 $\beta_1 = 0.9$、$\beta_2 = 0.95$、$\varepsilon = 10^{-20}$ 和 $\text{weight\_decay} = 0.1$。对于 Muon,我们将动量设置为 0.95,权重衰减设置为 0.1,并将每个更新矩阵的 RMS 重新缩放为 0.18 以复用 AdamW 的学习率。我们在 32T Token 上训练 DeepSeek-V4-Flash,与 DeepSeek-V3 一样,我们也采用批次大小调度策略,将批次大小(以 Token 计)从小尺寸增加到 75.5M,然后在大部分训练期间保持 75.5M。学习率在前 2000 步中线性预热,在大部分训练期间保持 $2.7 \times 10^{-4}$。在训练接近尾声时,我们最终按照余弦 schedule 将学习率衰减到 $2.7 \times 10^{-5}$。训练从 4K 的序列长度开始,我们逐步将训练序列长度扩展到 16K、64K 和 1M。至于稀疏注意力的设置,我们首先在前 1T Token 使用密集注意力进行预热,然后在 64K 的序列长度引入稀疏注意力,并在剩余的训练中保持稀疏注意力。引入注意力稀疏性时,我们首先设置一个短阶段来预热 CSA 中的闪电索引器,然后在大部分训练中使用稀疏注意力训练模型。对于无辅助损失的负载均衡,我们将偏置更新速度设置为 0.001。对于均衡损失,我们将其损失权重设置为 0.0001 以避免单个序列内的极端不平衡。MTP 损失权重在大部分训练期间设置为 0.3,在学习率衰减开始时设置为 0.1。

DeepSeek-V4-Pro。除了特定的超参数值之外,DeepSeek-V4-Pro 的训练设置与 DeepSeek-V4-Flash 大体一致。我们对大部分参数采用 Muon 优化器,但对嵌入模块、预测头模块和所有 RMSNorm 模块的权重使用 AdamW 优化器。AdamW 和 Muon 的超参数与 DeepSeek-V4-Flash 相同。我们在 33T Token 上训练 DeepSeek-V4-Pro,也采用批次大小调度策略,最大批次大小为 94.4M Token。学习率调度策略与 DeepSeek-V4-Flash 大体相同,但峰值学习率设置为 $2.0 \times 10^{-4}$,最终学习率设置为 $2.0 \times 10^{-5}$。训练也从 4K 的序列长度开始,长度逐步扩展到 16K、64K 和 1M。与 DeepSeek-V4-Flash 相比,DeepSeek-V4-Pro 以更长的密集注意力阶段开始,引入稀疏注意力的策略与 DeepSeek-V4-Flash 相同,遵循两阶段训练方法。对于无辅助损失的负载均衡,我们将偏置更新速度设置为 0.001。对于均衡损失,我们将其损失权重设置为 0.0001 以避免单个序列内的极端不平衡。MTP 损失权重在大部分训练期间设置为 0.3,在学习率衰减开始时设置为 0.1。

4.2.3 缓解训练不稳定性(Mitigating Training Instability)

训练万亿参数 MoE 模型带来了显著的稳定性挑战,DeepSeek-V4 系列也不例外。我们在训练期间遇到了明显的不稳定性挑战。虽然简单的回滚可以暂时恢复训练状态,但事实证明它们作为长期解决方案是不够的,因为它们无法防止损失尖峰的再次发生。经验上,我们发现尖峰的发生始终与 MoE 层中的异常值相关,而路由机制本身似乎加剧了这些异常值的出现。因此,我们试图从两个维度来解决这个问题:打破路由引发的恶性循环,以及直接抑制异常值。幸运的是,我们发现了两种能够有效保持训练稳定性的实用技术。虽然对其潜在机制的全面理论理解目前仍然是一个开放问题,但我们公开分享它们以促进社区的进一步探索。

预期路由(Anticipatory Routing)。我们发现,解耦主干网络和路由网络的同步更新显著提升了训练稳定性。因此,在第 $t$ 步,我们使用当前网络参数 $\theta_t$ 进行特征计算,但路由索引的计算和应用使用历史网络参数 $\theta_{t-\Delta t}$。在实践中,为了避免两次加载模型参数的开销,我们在第 $t-\Delta t$ 步提前获取第 $t$ 步的数据。我们"预期地"计算并缓存将在第 $t$ 步稍后使用的路由索引,这就是我们将这种方法命名为预期路由的原因。我们还在基础设施层面进行了大量优化。首先,鉴于预计算路由索引仅需要对数据进行一次前向传播,我们仔细编排了流水线执行和与专家并行(EP)通信的计算重叠,成功将预期路由的额外挂钟时间开销限制在约 20%。其次,我们引入了一种自动检测机制,仅在发生损失尖峰时触发短回滚并专门激活预期路由;在此模式下运行一段时间后,系统恢复为标准训练。最终,这种动态应用使我们能够以可忽略的总体额外训练开销来避免损失尖峰,且不会损害模型性能。

SwiGLU 截断(SwiGLU Clamping)。在先前的文献(Bello et al., 2017; Riviere et al., 2024)中,截断被明确用于约束数值范围,从而增强训练稳定性。在我们的实际训练运行中,我们经验性地发现应用 SwiGLU 截断(OpenAI, 2025)有效地消除了异常值并大幅有助于稳定训练过程,且不会损害性能。在 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的整个训练过程中,我们将 SwiGLU 的线性分量截断到 $[-10, 10]$ 范围,同时将 gate 分量的上限限制为 10。

4.3 评估(Evaluations)

4.3.1 评估基准(Evaluation Benchmarks)

对于基础模型的评估,我们考虑涵盖四个关键维度的基准测试:世界知识、语言理解与推理、编码与数学,以及长上下文处理。

世界知识基准包括 AGIEval(Zhong et al., 2023)、C-Eval(Huang et al., 2023)、CMMLU(Li et al., 2023)、MMLU(Hendrycks et al., 2020)、MMLU-Redux(Gema et al., 2024)、MMLU-Pro(Wang et al., 2024b)、MMMLU(OpenAI, 2024a)、MultiLoKo(Hupkes and Bogoychev, 2025)、Simple-QA verified(Haas et al., 2025)、SuperGPQA(Du et al., 2025)、FACTS Parametric(Cheng et al., 2025)和 TriviaQA(Joshi et al., 2017)。

语言理解与推理基准包括 BigBench Hard(BBH)(Suzgun et al., 2022)、DROP(Dua et al., 2019)、HellaSwag(Zellers et al., 2019)、CLUEWSC(Xu et al., 2020)和 WinoGrande(Sakaguchi et al., 2019)。

编码与数学基准包括 BigCodeBench(Zhuo et al., 2025)、HumanEval(Chen et al., 2021)、GSM8K(Cobbe et al., 2021)、MATH(Hendrycks et al., 2021)、MGSM(Shi et al., 2023)和 CMath(Wei et al., 2023)。

长上下文基准包括 LongBench-V2(Bai et al., 2025b)。

表 1:DeepSeek-V3.2-Base、DeepSeek-V4-Flash-Base 和 DeepSeek-V4-Pro-Base 的比较。所有模型均在我们的内部框架中评估并共享相同的评估设置。差距不超过 0.3 的分数被视为同一水平。每行最高分以粗体显示,第二高分以下划线显示。

Benchmark (Metric) # Shots DeepSeek-V3.2 Base DeepSeek-V4-Flash Base DeepSeek-V4-Pro Base
Architecture - MoE MoE MoE
# Activated Params - 37B 13B 49B
# Total Params - 671B 284B 1.6T
World Knowl.
AGIEval (EM) 0-shot 80.1 82.6 83.1
MMLU (EM) 5-shot 87.8 88.7 90.1
MMLU-Redux (EM) 5-shot 87.5 89.4 90.8
MMLU-Pro (EM) 5-shot 65.5 68.3 73.5
MMMLU (EM) 5-shot 87.9 88.8 90.3
C-Eval (EM) 5-shot 90.4 92.1 93.1
CMMLU (EM) 5-shot 88.9 90.4 90.8
MultiLoKo (EM) 5-shot 38.7 42.2 51.1
Simple-QA verified (EM) 25-shot 28.3 30.1 55.2
SuperGPQA (EM) 5-shot 45.0 46.5 53.9
FACTS Parametric (EM) 25-shot 27.1 33.9 62.6
TriviaQA (EM) 5-shot 83.3 82.8 85.6
Lang. & Reas.
BBH (EM) 3-shot 87.6 86.9 87.5
DROP (F1) 1-shot 88.2 88.6 88.7
HellaSwag (EM) 0-shot 86.4 85.7 88.0
WinoGrande (EM) 0-shot 78.9 79.5 81.5
CLUEWSC (EM) 5-shot 83.5 82.2 85.2
Code & Math
BigCodeBench (Pass@1) 3-shot 63.9 56.8 59.2
HumanEval (Pass@1) 0-shot 62.8 69.5 76.8
GSM8K (EM) 8-shot 91.1 90.8 92.6
MATH (EM) 4-shot 60.5 57.4 64.5
MGSM (EM) 8-shot 81.3 85.7 84.4
CMath (EM) 3-shot 92.6 93.6 90.9
Long Context
LongBench-V2 (EM) 1-shot 40.2 44.7 51.5

4.3.2 评估结果(Evaluation Results)

在表 1 中,我们提供了 DeepSeek-V3.2、DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的基础模型的详细比较,所有模型均在统一的内部框架下以严格一致的设置进行评估。

将 DeepSeek-V4-Flash-Base 与 DeepSeek-V3.2-Base 进行比较,揭示了一个引人注目的效率故事。尽管使用的激活参数和总参数数量都显著较少,DeepSeek-V4-Flash-Base 在广泛的基准测试中 outperform DeepSeek-V3.2-Base。这一优势在世界知识任务和具有挑战性的长上下文场景中尤为明显。这些结果强调,DeepSeek-V4-Flash-Base 的架构改进、精炼的数据质量和训练优化即使在更紧凑的参数预算下也能产生优越的性能,有效地在大多数评估中超越了更大的 DeepSeek-V3.2-Base。

此外,DeepSeek-V4-Pro-Base 展示了更进一步、决定性的能力飞跃,在几乎所有类别上都建立了近乎普遍的统治地位。DeepSeek-V4-Pro-Base 在最苛刻的基准测试中达到了 DeepSeek 基础模型的新性能高峰。在知识密集型评估中,它带来了显著的增益,同时也在长上下文理解方面大幅推进。在大多数推理和代码基准测试中,DeepSeek-V4-Pro-Base 也超过了两个先前的模型。这种全面的提升证实了 DeepSeek-V4-Pro-Base 作为 DeepSeek 系列中最强大的基础模型,在知识、推理、编码和长上下文能力的全谱上 outperform 其前辈。


5. 后训练(Post-Training)

5.1 后训练流程(Post-Training Pipeline)

预训练之后,我们进行了后训练阶段以产出 DeepSeek-V4 系列的最终模型。虽然训练流程在很大程度上与 DeepSeek-V3.2 类似,但一个关键的方法论替代是:混合强化学习(Reinforcement Learning,RL)阶段被在线策略蒸馏(On-Policy Distillation,OPD)完全取代。

5.1.1 专家训练(Specialist Training)

领域专家的开发是通过调整 DeepSeek-V3.2 的训练流程进行的。具体而言,每个模型通过初始微调阶段和随后的由领域特定提示和奖励信号指导的强化学习(RL)进行顺序优化。对于 RL 阶段,我们实现了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,保持超参数与我们先前的研究(DeepSeek-AI, 2025; DeepSeek-AI, 2025)紧密一致。

推理努力(Reasoning Efforts)。广泛认识到,模型在推理任务上的性能根本上取决于所耗费的计算努力。因此,我们在不同的 RL 配置下训练了不同的专家模型,以促进针对不同推理能力优化的模型开发。如表 2 详细所示,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 都支持三种特定的推理努力模式。对于每种模式,我们在 RL 训练期间应用不同的长度惩罚和上下文窗口,从而产生不同输出长度的推理。为了整合这些不同的推理模式,我们利用由 <think></think> Token 界定的专门响应格式。此外,对于"Think Max"模式,我们在系统提示的开头前置一个特定指令来指导模型的推理过程,如表 3 所示。

表 2:三种推理模式的比较

Reasoning Mode Characteristics Typical Use Cases Response Format
Non-think 快速、基于习惯或简单规则的直观响应。 日常常规任务、紧急反应、低风险决策。 </think> summary
Think High 有意识的逻辑分析,较慢但更准确。 复杂问题解决、规划、中等风险决策。 <think> thinking tokens </think> summary
Think Max 将推理推向极致。慢但强大。 探索模型推理能力的边界。 (更长的思考过程)

生成式奖励模型(Generative Reward Model)。通常,易于验证的任务可以有效地使用简单的基于规则的验证器或测试用例进行优化。相比之下,难以验证的任务传统上依赖于来自人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),这需要大量的人工标注来训练标量奖励模型。然而,在 DeepSeek-V4 系列的后训练阶段,我们摒弃了这些传统的基于标量的奖励模型。相反,为了解决难以验证的任务,我们策划了基于评分标准的 RL 数据并采用生成式奖励模型(Generative Reward Model,GRM)来评估策略轨迹。关键的是,我们直接对 GRM 本身应用 RL 优化。在这种范式中,演员网络原生地充当 GRM,使得模型的评估(判断)能力与其标准生成能力能够联合优化。通过统一这些角色,模型的内部推理能力被内在地融合到其评估过程中,从而产生高度鲁棒的评分。此外,这种方法仅凭借极少量的多样化人工标注就实现了优越的性能,因为模型利用其自身的逻辑来泛化到复杂任务。

工具调用模式与特殊 Token。与我们之前的版本一致,我们利用专用的 <think></think> 标签来界定推理路径。在 DeepSeek-V4 系列中,我们引入了一种新的工具调用模式,采用特殊的"|DSML|" Token 并利用基于 XML 的工具调用格式,如表 4 所示。我们的实验表明,XML 格式有效地缓解了转义失败并减少了工具调用错误,为模型-工具交互提供了更鲁棒的接口。

表 3:注入"Think Max"模式系统提示的指令

Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough
in your thinking and comprehensively decompose the problem to resolve the root cause,
rigorously stress-testing your logic against all potential paths, edge cases, and adversarial
scenarios. Explicitly write out your entire deliberation process, documenting every intermediate
step, considered alternative, and rejected hypothesis to ensure absolutely no assumption is
left unchecked.

表 4:DeepSeek-V4 系列的工具调用模式

## Tools
You have access to a set of tools to help answer the user's question. You can invoke tools
by writing a "<|DSML|tool_calls>" block like the following:
<|DSML|tool_calls>
  <|DSML|invoke name="$TOOL_NAME">
    <|DSML|parameter name="$PARAMETER_NAME" string="true|false">$PARAMETER_VALUE</|DSML|parameter>
    ...
  </|DSML|invoke>
  <|DSML|invoke name="$TOOL_NAME2"> ... </|DSML|invoke>
</|DSML|tool_calls>
String parameters should be specified as is and set 'string="true"'. For all other types
(numbers, booleans, arrays, objects), pass the value in JSON format and set 'string="false"'.
If thinking_mode is enabled (triggered by <think>), you MUST output your complete reasoning
inside <think>...</think> BEFORE any tool calls or final response.
Otherwise, output directly after </think> with tool calls or final response.
### Available Tool Schemas
{Tool Definition...}
You MUST strictly follow the above defined tool name and parameter schemas to invoke tool calls.

交错思考(Interleaved Thinking)。DeepSeek-V3.2 引入了一种上下文管理策略,在工具结果轮次之间保留推理痕迹,但在新用户消息到达时丢弃它们。虽然有效,但这在复杂的智能体工作流中仍然导致不必要的 Token 浪费——每个新的用户轮次都会刷新所有累积的推理内容,迫使模型从头开始重建其问题解决状态。利用 DeepSeek-V4 系列扩展的 1M-Token 上下文窗口,我们进一步完善了这一机制,以最大化智能体环境中交错思考的有效性:

  • 工具调用场景。如图 7(a) 所示,所有推理内容在整个对话过程中完全保留。与 DeepSeek-V3.2 不同,它在每个新的用户轮次时丢弃思考痕迹,DeepSeek-V4 系列在所有轮次中保留完整的推理历史,包括跨用户消息边界。这使得模型能够在长程智能体任务上保持连贯的、累积的思维链。
  • 一般对话场景。如图 7(b) 所示,保留了原始策略:当新用户消息到达时,丢弃先前轮次的推理内容,在持久推理痕迹提供有限收益的设定中保持上下文简洁。

与 DeepSeek-V3.2 一样,通过用户消息模拟工具交互的智能体框架(例如 Terminus)可能不会触发工具调用的上下文路径,因此可能不会从增强的推理持久性中受益。我们继续为这种架构推荐非思考模型。

Figure 7
图 7:DeepSeek-V4 系列的思考管理。(Figure 7 | Thinking management of DeepSeek-V4 series)

快速指令(Quick Instruction)。在聊天机器人场景中,许多辅助任务(例如确定是否触发网页搜索、意图识别等)必须在生成响应之前执行。传统上,这些任务由一个单独的小模型处理,由于它无法复用现有的 KV 缓存,需要冗余的预填充。为了克服这一限制,我们引入了快速指令。我们直接在输入序列后附加一组专用的特殊 Token,每个 Token 对应一个特定的辅助任务。通过直接复用已经计算的 KV 缓存,这种机制完全避免了冗余预填充,并允许某些任务(如生成搜索查询和确定权威性和领域)并行执行。因此,这种方法显著降低了用户感知的首 Token 时间(Time-To-First-Token,TTFT),并消除了维护和迭代额外小模型的工程开销。支持的快速指令 Token 总结在表 5 中。

表 5:辅助任务的快速指令特殊 Token

Special Token Description Format
<|action|> 确定用户提示是否需要网页搜索或可以直接回答。 ...<|User|>{prompt}<|Assistant|><think><|action|>
<|title|> 在第一次助手响应后生成简洁的对话标题。 ...<|Assistant|>{response}<|end_of_sentence|><|title|>
<|query|> 为用户提示生成搜索查询。 ...<|User|>{prompt}<|query|>
<|authority|> 分类用户提示对来源权威性的需求。 ...<|User|>{prompt}<|authority|>
<|domain|> 识别用户提示的领域。 ...<|User|>{prompt}<|domain|>
<|extracted_url|> <|read_url|> 确定用户提示中的每个 URL 是否应该被获取和读取。 ...<|User|>{prompt}<|extracted_url|>{url}<|read_url|>

5.1.2 在线策略蒸馏(On-Policy Distillation)

在通过专门的微调和强化学习训练多个领域特定专家之后,我们采用多教师在线策略蒸馏(On-Policy Distillation,OPD)作为主要技术,将专家能力合并到最终模型中。OPD 已成为一种有效的后训练范式,用于将领域专家的知识和能力高效地转移到单一统一模型中。这是通过让学生模型在其自身生成的轨迹上学习教师模型的输出分布来实现的。形式上,给定一组 $N$ 个专家模型 $\{\pi_{E_1}, \pi_{E_2}, ..., \pi_{E_N}\}$,OPD 目标函数定义为:

$$ \mathcal{L}_{OPD}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{KL}(\pi_\theta \| \pi_{E_i}). $$

在此公式中,$w_i$ 表示分配给每个专家的权重,通常由专家的相对重要性决定。计算反向 KL 损失 $D_{KL}(\pi_\theta \| \pi_{E_i})$ 需要从学生模型 $\pi_\theta$ 采样训练轨迹以保持在线学习。其底层逻辑确保统一策略 $\pi_\theta$ 选择性地学习与当前任务上下文相关的专业专家(例如,与数学专家对齐以进行数学推理任务,与编码专家对齐以进行编程任务)。通过这种机制,物理上不同的专家权重的知识通过 logits 级对齐被整合到统一的参数空间中,实际上规避了传统权重合并或混合 RL 技术经常遇到的性能退化。在这个阶段,使用了涵盖各个领域的十多个教师模型来蒸馏单个学生模型。

在处理上述 OPD 目标时,先前的工作通常将全词汇表 KL 损失简化为每个 Token 位置的 Token 级 KL 估计,并通过将 $\text{sg}[\log \frac{\pi_{E_i}(y_t|x,y_{<t})}{\pi_\theta(y_t|x,y_{<t})}]$(sg 表示停止梯度操作)作为策略损失计算中的每个 Token 优势估计来复用 RL 框架。虽然这种方法资源高效,但它导致梯度估计的高方差,并经常引起训练不稳定性。因此,我们在 OPD 中采用全词汇表 logits 蒸馏。在计算反向 KL 损失时保留完整的 logits 分布产生更稳定的梯度估计,并确保教师知识的忠实蒸馏。在以下小节中,我们描述了使全词汇表 OPD 在大规模上可行的工程努力。

5.2 RL 和 OPD 基础设施(RL and OPD Infrastructures)

我们的后训练基础设施建立在为 DeepSeek-V3.2 开发的可扩展框架之上。具体而言,我们集成了第 3.5 节中描述的相同分布式训练栈和先前引入的用于高效自回归采样的 rollout 引擎。在此基础上,我们在本工作中引入了以下主要增强功能。这些设计使得超百万 Token 上下文的 RL 和涉及十多个不同教师模型的 OPD 合并任务的高效执行成为可能,从而大幅加速了模型发布的迭代周期。

5.2.1 FP4 量化集成(FP4 Quantization Integration)

我们将 FP4(MXFP4)量化应用于加速 rollout 和所有仅推理的前向传播,包括教师模型和参考模型的前向传播,从而减少内存流量和采样延迟。如第 3.4 节详细所述,我们在 rollout 和推理阶段直接使用原生 FP4 权重。对于训练步骤,FP4 量化通过无损的 FP4 到 FP8 反量化步骤进行模拟,允许无缝复用现有的 FP8 混合精度框架与 FP32 主权重,且无需修改反向流水线。

5.2.2 全词汇表 OPD 的高效教师调度(Efficient Teacher Scheduling for Full-Vocabulary OPD)

我们的框架支持具有实际上无限数量教师的全词汇表在线策略蒸馏(OPD),每个教师可能包含万亿参数。为了实现这一点,所有教师权重被卸载到集中式分布式存储中,并在教师前向传播期间按需加载,采用类似 ZeRO 的参数分片来缓解 I/O 和 DRAM 压力。此外,即使溢出到磁盘,跨所有教师为超过 100K 的词汇表大小物化 logits 也是 prohibitive 的。我们通过仅在前向传播期间将最后一层教师隐藏状态缓存到集中式缓冲区来解决这个问题。在训练时,检索这些缓存的状态并通过相应的预测头模块传递,以即时重建完整的 logits。这种设计产生可忽略的重计算开销,同时完全规避了与显式 logits 物化相关的内存负担。为了缓解教师预测头的 GPU 内存占用,我们在数据分发期间按教师索引排序训练样本。这种安排确保每个不同的教师头每 mini-batch 仅加载一次,并且在任何给定时间最多只有一个教师头驻留在设备内存中。所有参数和隐藏状态加载/卸载操作在后台异步进行,不会阻塞关键路径上的计算。最后,使用专门的 TileLang 内核计算教师和学生 logits 之间的精确 KL 散度,这加速了计算并削减了动态内存分配。

5.2.3 可抢占和容错的 Rollout 服务(Preemptible and Fault-Tolerant Rollout Service)

为了在实现高优先级任务的快速硬件配置的同时最大化 GPU 资源利用率,我们的 GPU 集群采用集群范围的可抢占任务调度器,任何正在运行的任务都可能在任何时间被抢占。此外,硬件故障在大规模 GPU 集群中普遍存在。为此,我们为 RL/OPD rollout 实现了一个可抢占和容错的大语言模型生成服务。

具体而言,我们为每个生成请求实现了一个 Token 粒度的预写日志(Write-Ahead Log,WAL)。每当为请求生成一个新 Token 时,我们立即将其附加到该请求的 WAL 中。在抢占期间,我们暂停推理引擎并保存未完成请求的 KV 缓存。在恢复时,我们使用持久化的 WAL 和保存的 KV 缓存来继续解码。即使发生致命的硬件错误,我们也可以使用 WAL 中持久化的 Token 重新运行预填充阶段来重建 KV 缓存。

重要的是,从头开始重新生成未完成的请求在数学上是不正确的,因为这引入了长度偏差。因为较短的响应更有可能在中断中幸存下来,所以从头开始重新生成会使模型在中断发生时更倾向于产生更短的序列。如果推理栈是批次不变和确定性的,这种正确性问题也可以通过使用采样器中使用的伪随机数生成器的一致种子重新生成来解决。然而,这种方法仍然会产生重新运行解码阶段的额外成本,使其效率远低于我们的 Token 粒度 WAL 方法。

5.2.4 面向百万 Token 上下文的 RL 框架扩展(Scaling RL Framework for Million-Token Context)

我们为百万 Token 序列上的高效 RL 和 OPD 引入了有针对性的优化。在 rollout 阶段,我们采用第 5.2.3 节中详述的可抢占和容错的 rollout 服务。对于推理和训练阶段,我们将 rollout 数据格式分解为轻量级元数据和沉重的逐 Token 字段。在数据分发期间,整个 rollout 数据的元数据可以加载以执行全局混洗和打包布局计算。沉重的逐 Token 字段通过共享内存数据加载器加载以消除节点内数据冗余,并在 mini-batch 粒度消费后立即释放,大幅减少了 CPU 和 GPU 内存压力。设备上的 mini-batch 数量根据工作负载动态确定,允许在计算吞吐量和 I/O 重叠之间进行有效的权衡。

5.2.5 面向智能体 AI 的沙箱基础设施(Sandbox Infrastructure for Agentic AI)

为了满足智能体 AI 在后训练和评估期间多样化的执行需求,我们构建了一个生产级的沙箱平台 DeepSeek Elastic Compute(DSec)。DSec 包含三个 Rust 组件——API 网关(Apiserver)、每主机代理(Edge)和集群监视器(Watcher)——它们通过自定义 RPC 协议互连,并在 3FS 分布式文件系统(DeepSeek-AI, 2025)之上水平扩展。在生产环境中,单个 DSec 集群管理数十万个并发沙箱实例。

DSec 的设计由四个观察驱动:(1)智能体工作负载高度异构,从轻量级函数调用到具有多样化操作系统和安全要求的完整软件工程流水线;(2)环境镜像众多且庞大,但必须快速加载并支持迭代定制;(3)高密度部署需要高效的 CPU 和内存利用率;(4)沙箱生命周期必须与 GPU 训练调度协调,包括抢占和基于检查点的恢复。基于这些观察,我们在下面分别阐述 DSec 的四个核心设计。

统一接口背后的四种执行基底(Four Execution Substrates Behind One Unified Interface)。DSec 公开了一个单一的 Python SDK(libdsec),抽象了四种执行基底。Function Call 将无状态调用分派到预热的容器池,消除冷启动开销。Container 完全兼容 Docker,并利用 EROFS(Gao et al., 2019)按需加载以实现高效的镜像组装。microVM 基于 Firecracker(Agache et al., 2020)构建,为安全敏感的高密度部署添加 VM 级隔离。fullVM 基于 QEMU(Bellard, 2005)构建,支持任意客户操作系统。所有四种共享共同的 API 表面——命令执行、文件传输和 TTY 访问——并且在它们之间切换只需要更改一个参数。

通过分层存储实现快速镜像加载(Fast Image Loading via Layered Storage)。DSec 通过分层、按需加载来协调快速启动与庞大且不断增长的环境镜像语料库。对于容器,基础镜像和文件系统提交被存储为直接挂载到 overlay lowerdirs 中的 3FS 支持的只读 EROFS 层。我们在挂载时将文件元数据随时保留在本地磁盘上;同时,数据块在请求时从 3FS 获取。对于 microVM,DSec 使用 overlaybd(Li et al., 2020)磁盘格式:只读基础层驻留在 3FS 上以实现跨实例共享,而写入则转到本地的写时复制层。这种快照是可链式的,促进高效的版本控制和毫秒级恢复。

大规模并发下的密度优化(Density Optimizations Under Massive Concurrency)。为了容纳每个集群数十万个沙箱,DSec 解决了两个资源瓶颈。首先,它缓解了虚拟化环境中的重复页面缓存占用并应用内存回收以实现安全的超额分配。其次,它缓解了容器运行时中的自旋锁争用,从而降低了每个沙箱的 CPU 开销,显著增加了每主机打包密度。

轨迹日志记录和抢占安全恢复(Trajectory Logging and Preemption-Safe Resumption)。DSec 为每个沙箱维护一个全局有序的轨迹日志,持久记录每个命令调用及其结果。轨迹服务于三个目的:(1)客户端快进——当训练任务被抢占时,沙箱资源仍然被保留;在恢复时,DSec 重放先前完成命令的缓存结果,加速任务恢复同时防止非幂等操作的重新执行错误;(2)细粒度溯源——每个状态变更的起源和相应结果都是可追溯的;(3)确定性重放——任何历史会话都可以从其轨迹中忠实再现。

5.3 评估(Evaluation)

5.3.1 评估设置(Evaluation Setup)

知识与推理。知识和推理数据集包括 MMLU-Pro(Wang et al., 2024b)、GPQA(Rein et al., 2023)、Human Last Exam(Phan et al., 2025)、Simple-QA Verified(Haas et al., 2025)、Chinese-SimpleQA(He et al., 2024)、LiveCodeBench-v6(Jain et al., 2024)、CodeForces(内部基准)、HMMT 2026 Feb、Apex(Balunovi\'{c} et al., 2025)、Apex Shortlist(Balunovi\'{c} et al., 2025)、IMOAnswerBench(Luong et al., 2025)和 PutnamBench(Tsoukalas et al., 2024)。

对于代码,我们在 LiveCodeBench-v6 和内部 Codeforces 基准上评估 DeepSeek-V4 系列。对于 Codeforces,我们收集了包含 114 道题的 14 场 Codeforces Division 1 比赛(2025 年 5 月 - 2025 年 11 月)。Elo 评分计算如下。对于每场比赛,我们每道题生成 32 个候选解决方案。对于每道题独立地,我们无放回地抽样 10 个这些解决方案并将它们按随机顺序排列形成提交序列。每个提交都由领域专家构建的测试套件进行评判。已解决问题的评分遵循 OpenAI (2025) 的惩罚方案:模型接收与具有相同先前失败尝试次数的人类参与者相同问题的中位数分数。这为每个抽样的提交序列产生了一个总比赛分数,然后转换为比赛排名,并通过标准 Codeforces 评分系统转换为估计评分。比赛级期望评分定义为每道题所有可能的 10 个提交随机选择和排序上的估计评分的期望。模型的总体评分是这 14 场比赛的比赛级期望评分的平均值。

对于推理和知识任务,我们将温度设置为 1.0,并将 Non-think、High 和 Max 模式的上下文窗口分别设置为 8K、128K 和 384K Token。对于数学任务(例如 HMMT、IMOAnswerBench、Apex 和 HLE),我们使用以下模板进行评估:"{question}\nPlease reason step by step, and put your final answer within \boxed{}.\"。对于 DeepSeek-V4-Pro-Max 的数学任务,我们使用以下模板来引发更深层次的推理:"Solve the following problem. The problem may ask you to prove a statement, or ask for an answer. If finding an answer is required, you should come up with the answer, and your final solution should also be a rigorous proof of that answer being valid.\n\n{question}"。

对于形式数学任务,我们在 Lean v4.28.0-rc1(Moura and Ullrich, 2021)上以智能体设置进行评估,可访问 Lean 编译器和语义策略搜索引擎,最多运行 500 次工具调用,最大推理努力。此外,我们评估了一个计算更密集的流程,其中候选自然语言解决方案首先通过自验证(Shao et al., 2025)生成和过滤,保留的解决方案然后作为指导提供给形式智能体以证明相应的 Lean 陈述。该设计使用非形式推理来改进探索,同时通过形式验证保持严格正确性。只有当严格验证器 Comparator 对两种设置都接受时,提交才被计为正确。

1M-Token 上下文。由于 DeepSeek-V4 系列支持 1M-Token 上下文,我们通过选择 OpenAI MRCR(OpenAI, 2024b)和 CorpusQA(Lu et al., 2026)作为基准来评估长上下文场景中的模型性能。我们重新评估了 Claude Opus 4.6 和 Gemini 3.1 Pro 在这些任务上的性能,目标是标准化所有模型的配置。我们没有评估 GPT-5.4,因为其 API 未能响应我们的大部分查询。

智能体。智能体数据集包括 Terminal Bench 2.0(Merrill et al., 2026)、SWE-Verified(OpenAI, 2024e)、SWE Multilingual(Yang et al., 2025)、SWE-Pro(Deng et al., 2025)、BrowseComp(Wei et al., 2025)、MCPAtlas 的公共评估集(Bandi et al., 2026)、GDPval-AA(AA, 2025; Patwardhan et al., 2025)和 Tool-Decathlon(Li et al., 2025)。

对于代码智能体任务(SWE-Verified、Terminal-Bench、SWE-Pro、SWE Multilingual),我们使用内部开发的评估框架评估 DeepSeek-V4 系列。该框架提供了一套最少的工具——bash 工具和文件编辑工具。最大交互步数设置为 500,最大上下文长度设置为 512K Token。关于 Terminal-Bench 2.0,我们承认了 GLM-5.1 指出的环境相关问题。尽管如此,为了保持一致性,我们报告了原始 Terminal-Bench 2.0 数据集上的性能。在 Terminal-Bench 2.0 Verified 子集上,DeepSeek-V4-Pro 达到约 72.0 的分数。

对于搜索智能体任务(BrowseComp、HLE w/ tool),我们也使用带有网页搜索和 Python 工具的内部 harness,并将最大交互步数设置为 500,最大上下文长度设置为 512K Token。对于 BrowseComp,我们使用与 DeepSeek-V3.2(DeepSeek-AI, 2025)相同的丢弃所有上下文管理策略。

5.3.2 评估结果(Evaluation Results)

表 6:DeepSeek-V4-Pro-Max 与闭源/开源模型的比较。"Max"、"xHigh" 和 "High" 表示推理努力。最佳结果以粗体突出显示;第二佳结果以下划线显示。

Benchmark (Metric) Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max
Knowledge & Reasoning
MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5
SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9
Chinese-SimpleQA (Pass@1) 76.4 76.8 85.9 75.9 75.0 84.4
GPQA Diamond (Pass@1) 91.3 93.0 94.3 90.5 86.2 90.1
HLE (Pass@1) 40.0 39.8 44.4 36.4 34.7 37.7
LiveCodeBench (Pass@1) 88.8 - 91.7 89.6 - 93.5
Codeforces (Rating) - 3168 3052 - - 3206
HMMT 2026 Feb (Pass@1) 96.2 97.7 94.7 92.7 89.4 95.2
IMOAnswerBench (Pass@1) 75.3 91.4 81.0 86.0 83.8 89.8
Apex (Pass@1) 34.5 54.1 60.9 24.0 11.5 38.3
Apex Shortlist (Pass@1) 85.9 78.1 89.1 75.5 72.4 90.2
Long
MRCR 1M (MMR) 92.9 - 76.3 - - 83.5
CorpusQA 1M (ACC) 71.7 - 53.8 - - 62.0
Agentic
Terminal Bench 2.0 (Acc) 65.4 75.1 68.5 66.7 63.5 67.9
SWE Verified (Resolved) 80.8 - 80.6 80.2 - 80.6
SWE Pro (Resolved) 57.3 57.7 54.2 58.6 58.4 55.4
SWE Multilingual (Resolved) 77.5 - - 76.7 73.3 76.2
BrowseComp (Pass@1) 83.7 82.7 85.9 83.2 79.3 83.4
HLE w/ tools (Pass@1) 53.1 52.0 51.6 54.0 50.4 48.2
GDPval-AA (Elo) 1619 1674 1314 1482 1535 1554
MCPAtlas Public (Pass@1) 73.8 67.2 69.2 66.6 71.8 73.6
Toolathlon (Pass@1) 47.2 54.6 48.8 50.0 40.7 51.8

DeepSeek-V4-Pro-Max 与其他闭源/开源模型的比较呈现在表 6 中。此外,我们评估了 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的不同模式,结果展示在表 7 中。

表 7:DeepSeek-V4 系列不同规模和模式的比较。"Non-Think"、"High" 和 "Max" 表示推理努力。

Benchmark (Metric) DeepSeek-V4-Flash DeepSeek-V4-Pro
Non-Think High Max Non-Think High Max
Knowledge & Reasoning
MMLU-Pro (EM) 83.0 86.4 86.2 82.9 87.1 87.5
SimpleQA-Verified (Pass@1) 23.1 28.9 34.1 45.0 46.2 57.9
Chinese-SimpleQA (Pass@1) 71.5 73.2 78.9 75.8 77.7 84.4
GPQA Diamond (Pass@1) 71.2 87.4 88.1 72.9 89.1 90.1
HLE (Pass@1) 8.1 29.4 34.8 7.7 34.5 37.7
LiveCodeBench (Pass@1-COT) 55.2 88.4 91.6 56.8 89.8 93.5
Codeforces (Rating) - 2816 3052 - 2919 3206
HMMT 2026 Feb (Pass@1) 40.8 91.9 94.8 31.7 94.0 95.2
IMOAnswerBench (Pass@1) 41.9 85.1 88.4 35.3 88.0 89.8
Apex (Pass@1) 1.0 19.1 33.0 0.4 27.4 38.3
Apex Shortlist (Pass@1) 9.3 72.1 85.7 9.2 85.5 90.2
Long
MRCR 1M (MMR) 37.5 76.9 78.7 44.7 83.3 83.5
CorpusQA 1M (ACC) 15.5 59.3 60.5 35.6 56.5 62.0
Agentic
Terminal Bench 2.0 (Acc) 49.1 56.6 56.9 59.1 63.3 67.9
SWE Verified (Resolved) 73.7 78.6 79.0 73.6 79.4 80.6
SWE Pro (Resolved) 49.1 52.3 52.6 52.1 54.4 55.4
SWE Multilingual (Resolved) 69.7 70.2 73.3 69.8 74.1 76.2
BrowseComp (Pass@1) - 53.5 73.2 - 80.4 83.4
HLE w/ tools (Pass@1) - 40.3 45.1 - 44.7 48.2
MCPAtlas Public (Pass@1) 64.0 67.4 69.0 69.4 74.2 73.6
GDPval-AA (Elo) - - 1395 - - 1554
Toolathlon (Pass@1) 40.7 43.5 47.8 46.3 49.0 51.8

知识(Knowledge)。在一般世界知识评估中,DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最大推理努力模式,在开源大语言模型中建立了新的最先进水平。如 SimpleQA-Verified 所示,DeepSeek-V4-Pro-Max 以 20 个绝对百分点的优势显著 outperform 所有现有开源基线。尽管取得了这些进展,它目前仍落后于领先专有模型 Gemini-3.1-Pro。在领域教育知识和推理方面,DeepSeek-V4-Pro-Max 在 MMLU-Pro、GPQA 和 HLE 基准测试中微弱 outperform Kimi 和 GLM,尽管它仍落后于领先专有模型。 broadly,DeepSeek-V4-Pro-Max 标志着增强开源模型世界知识能力的一个重要里程碑。

此外,DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 在基于知识的任务上存在显著的性能差距;这是预料之中的,因为更大的参数数量有助于在预训练期间保留更多知识。值得注意的是,当分配更高的推理努力时,两个模型在知识基准测试上都显示出改进的结果。

推理(Reasoning)。DeepSeek-V4-Pro-Max 在推理基准测试中 outperform 所有先前的开源模型,并在许多指标上匹配最先进水平闭源模型,而较小的 DeepSeek-V4-Flash-Max 在代码和数学推理任务上也超越了先前的最佳开源模型 K2.6-Thinking。与此同时,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 在编码竞赛中表现出色。根据我们的评估,它们的性能与 GPT-5.4 相当,使这成为开源模型首次在该任务上匹配闭源模型。在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 目前在人类候选人中排名第 23 位。DeepSeek-V4 在智能体和计算密集型设置下的形式数学任务上也展示了强劲的性能。在智能体设置下,它达到了最先进水平的结果,如图 8 所示,outperform 了 Seed Prover(Chen et al., 2025)等先前模型。在计算更密集的流程下,性能进一步提升,超过了包括 Aristotle(Achim et al., 2025)在内的系统,并匹配了该设置下的最佳已知结果。

Figure 8
图 8:实用和前沿机制下的形式推理。左图:Putnam-200 Pass@8 评估 PutnamBench(Tsoukalas et al., 2024)的固定随机子集,遵循 Seed-Prover 引入的设置;所有模型均在相同的问题集上测试。我们遵循 Seed-Prover 协议,但用开源 LeanExplore(Asher, 2025)替换专有搜索工具,产生一个具有最少智能体工具和有限采样的轻量级设置。右图:Putnam-2025 在扩展的混合形式-非形式机制下探测数学推理的前沿,其中非形式推理与形式验证相结合以暴露差距并提高严谨性;DeepSeek-V4 达到了完美的 120/120。(Figure 8 | Formal reasoning under practical and frontier regimes)

智能体(Agent)。DeepSeek-V4 系列在评估中展示了强劲的智能体性能。对于代码智能体任务,DeepSeek-V4-Pro 取得了与 K2.6 和 GLM-5.1 相当的结果,尽管所有这些开源模型仍然落后于其闭源对手。DeepSeek-V4-Flash 在编码任务上表现低于 DeepSeek-V4-Pro,特别是在 Terminal Bench 2.0 上。在其他智能体评估中也观察到了类似的趋势。值得注意的是,DeepSeek-V4-Pro 在 MCPAtlas 和 Toolathlon 上表现良好——这两个评估测试集包含广泛的工具和 MCP 服务——表明我们的模型具有出色的泛化能力,且不仅仅在内部框架上表现良好。

1M-Token 上下文。DeepSeek-V4-Pro 在 MRCR 任务上 outperform Gemini-3.1-Pro,该任务衡量上下文内检索,但仍落后于 Claude Opus 4.6。如图 9 所示,检索性能在 128K 上下文窗口内保持高度稳定。虽然在 128K 标记之外出现性能下降,但模型在 1M Token 处的检索能力与专有和开源对手相比仍然非常强劲。与 MRCR 不同,CorpusQA 类似于真实场景。评估结果也表明 DeepSeek-V4-Pro 优于 Gemini-3.1-Pro。

Figure 9
图 9:DeepSeek-V4 系列在 MRCR 任务上的性能。(Figure 9 | DeepSeek-V4 series performance on the MRCR task)

推理努力(Reasoning Effort)。如表 7 所示,采用更长上下文和 RL 中减少长度惩罚的 Max 模式在最困难的任务上优于 High 模式。图 10 展示了 DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 DeepSeek-V3.2 在代表性推理和智能体任务上的性能和成本比较。通过扩展测试时计算,DeepSeek-V4 系列相比前辈实现了实质性的改进。此外,在 HLE 等推理任务上,DeepSeek-V4-Pro 展示了比 DeepSeek-V3.2 更高的 Token 效率。

Figure 10
图 10:按推理努力的 HLE 和 Terminal Bench 2.0 性能。"None"表示 Non-think 模式,"Speciale"表示 DeepSeek-V3.2-Speciale 模型。(Figure 10 | HLE and Terminal Bench 2.0 performance by reasoning effort)

5.4 真实世界任务性能(Performance on Real-World Tasks)

标准化基准测试通常难以捕捉多样化真实世界任务的复杂性,在测试结果和实际用户体验之间制造了差距。为了弥合这一差距,我们开发了专有的内部指标,优先考虑真实世界使用模式而非传统基准测试。这种方法确保我们的优化转化为切实的收益。我们的评估框架专门针对 DeepSeek API 和 Chatbot 的主要用例,使模型性能与实际需求对齐。

5.4.1 中文写作(Chinese Writing)

DeepSeek 的主要用例之一是中文写作。我们在功能写作和创意写作上进行了严格的评估。表 12 呈现了 DeepSeek-V4-Pro 和 Gemini-3.1-Pro 在功能写作任务上的成对比较。这些任务由常见的日常写作查询组成,提示通常简洁明了。Gemini-3.1-Pro 被选为基线,因为它在我们的评估中是为中文写作表现最佳的外部模型。结果表明,DeepSeek-V4-Pro 以总体胜率 62.7% 对 34.1% 优于基线;这主要是因为 Gemini 偶尔允许其固有的风格偏好凌驾于用户在中文写作场景中的明确要求之上。

表 13 呈现了创意写作比较,沿两个轴进行评估:指令遵循和写作质量。与 Gemini-3.1-Pro 相比,DeepSeek-V4-Pro 在指令遵循上达到 60.0% 的胜率,在写作质量上达到 77.5%,展示了在指令遵循上的微弱改进和在写作质量上的实质性提升。虽然 DeepSeek-V4-Pro 在总体用户案例分析中产生了优越的结果,但仅限于最具挑战性的提示——特别是涉及高复杂性约束或多轮场景的提示——的评估揭示,Claude Opus 4.5 仍然保持对 DeepSeek-V4-Pro 的性能优势。如表 14 所示,Claude Opus 4.5 达到 52.0% 的胜率对 45.9%。

5.4.2 搜索(Search)

搜索增强问答是 DeepSeek 聊天机器人的核心能力。在 DeepSeek 网页和应用上,"non-think"模式采用检索增强搜索(Retrieval-Augmented Search,RAG),而"thinking"模式利用智能体搜索(agentic search)。

检索增强搜索。我们进行了一项成对评估,比较 DeepSeek-V4-Pro 和 DeepSeek-V3.2 在客观和主观问答类别上的表现。如表 11 所示,DeepSeek-V4-Pro 以显著优势 outperform DeepSeek-V3.2,在两个类别中均展示了一致的优势。最显著的收益出现在单值搜索和规划与策略任务中,表明 DeepSeek-V4-Pro 擅长定位精确的事实答案并从检索到的上下文中综合结构化计划。然而,DeepSeek-V3.2 在比较和推荐任务上仍相对具有竞争力,表明 DeepSeek-V4-Pro 在需要对搜索结果进行平衡、多视角推理的场景中仍有改进空间。

智能体搜索。与标准 RAG 不同,智能体搜索使模型能够按查询迭代调用搜索和获取工具,显著增强整体搜索性能。对于 DeepSeek-Chat 中的 thinking 模式,我们优化了智能体搜索功能,以在预定义的"思考预算"内最大化响应准确性。如表 9 所示,智能体搜索始终优于 RAG,尤其在复杂任务上。此外,其成本保持高度高效,智能体搜索仅比标准 RAG 略贵(见表 10)。

5.4.3 白领任务(White-Collar Task)

为了严格评估模型在复杂企业生产力场景中的效用,我们构建了一套包含 30 个高级中文专业任务的全面套件。这些工作流刻意涵盖高级认知需求,包括深入的信息分析、全面的文档生成和细致的文档编辑,跨越 13 个关键行业(例如金融、教育、法律和技术)的多样化领域。评估在配备基本工具(包括 Bash 和网页搜索)的内部智能体 harness 中进行。

鉴于这些任务的开放性,自动化指标通常在捕获高质量响应的细微差别方面不足。因此,我们进行了人工评估,比较 DeepSeek-V4-Pro-Max 与 Opus-4.6-Max 的性能。标注者在四个维度上盲目评估模型输出:

  • 任务完成度(Task Completion):核心问题是否成功解决。
  • 指令遵循(Instruction Following):对特定约束和指令的遵守程度。
  • 内容质量(Content Quality):事实准确性、逻辑连贯性和专业语气。
  • 格式美观度(Formatting Aesthetics):布局可读性和视觉呈现。

如图 11 所示,DeepSeek-V4-Pro-Max 在多样化的中文白领任务上 outperform Opus-4.6-Max,实现了令人印象深刻的 63% 非失败率,并在分析、生成和编辑任务中展示了持续的优势。图 12 所示的详细维度分数突出了模型在任务完成度和内容质量方面的主要优势。具体而言,DeepSeek-V4-Pro-Max 通过经常提供补充见解和自我验证步骤来主动预测隐含的用户意图。它在长文本生成方面也表现出色,提供深入、连贯的叙述,而非依赖 Opus-4.6-Max 经常产生的过于简单的项目符号。此外,该模型严格遵守正式的专业惯例,例如标准化的中文层级编号。然而,在指令遵循方面,它偶尔忽略特定的格式约束,并略微落后于 Opus。此外,该模型在将大量文本输入浓缩为简洁摘要方面不太熟练。最后,其格式美观度在演示文稿的整体视觉设计方面仍有相当大的改进空间。图 13、14 和 15 展示了几个测试用例;由于某些输出长度较长,仅显示部分页面。

Figure 11
图 11:分析、生成、编辑任务以及总体性能的胜率比较。(Figure 11 | Win-rate comparison across analysis, generation, editing tasks, and the overall performance)

Figure 12
图 12:包括任务完成度、内容质量、格式美观度和指令遵循的详细维度分数。(Figure 12 | Detailed dimension scores including Task Completion, Content Quality, Formatting Aesthetics, and Instruction Following)

Figure 13
图 13:一个需要为热门奶茶品牌和北京地铁起草联合营销方案的任务的示例输出。(Figure 13 | Example output of a task which requires drafting a joint marketing proposal for a popular bubble tea brand and the Beijing Subway)

Figure 14
图 14:一个需要比较两种 NASDAQ 定期投资策略的任务的示例输出。(Figure 14 | Example output of a task that requires comparing two regular investment strategies for the NASDAQ)

Figure 15
图 15:一个需要研究 2020-2025 诺贝尔科学奖并生成分析 PDF 报告的任务的示例输出。(Figure 15 | Example output of a task which requires researching 2020-2025 Nobel Science Prizes and generating an analytical PDF report)

5.4.4 代码智能体(Code Agent)

为了对我们的编码智能体能力进行基准测试,我们从真实的内部研发工作负载中策划任务。我们从 50 多名内部工程师那里收集了约 200 个具有挑战性的任务,涵盖 PyTorch、CUDA、Rust 和 C++ 等多样化技术栈中的功能开发、错误修复、重构和诊断。每个任务都附带其原始仓库、相应的执行环境和人工标注的评分标准;经过严格的质量过滤后,保留 30 个任务作为评估集。如表 8 所示,DeepSeek-V4-Pro 显著 outperform Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。

表 8:研发编码基准的比较(外部模型仅严格用于评估目的)

Model Haiku 4.5 Sonnet 4.5 DeepSeek-V4-Pro-Max Opus 4.5 Opus 4.5 Thinking Opus 4.6 Thinking
Pass Rate (%) 13 47 67 70 73 80

在一项询问 DeepSeek 开发人员和研究人员($N=85$)——所有人在日常工作中都有使用 DeepSeek-V4-Pro 进行智能体编码的经验——DeepSeek-V4-Pro 是否已准备好作为他们的默认和主要编码模型与其他前沿模型相比,52% 的人表示是,39% 的人倾向于是,少于 9% 的人表示否。受访者认为 DeepSeek-V4-Pro 在大多数任务上都能提供满意的结果,但注意到有琐碎的错误、对模糊提示的误解和偶尔的过度思考。


6. 结论、局限性与未来方向(Conclusion, Limitations, and Future Directions)

在本文中,我们介绍了 DeepSeek-V4 系列的预览版本,旨在打造打破超长上下文处理效率壁垒的下一代大语言模型。通过结合整合 CSA 和 HCA 的混合注意力架构,DeepSeek-V4 系列在长序列效率方面实现了飞跃性提升。架构创新与广泛的基础设施优化相结合,实现了对百万 Token 上下文的高效原生支持,并为未来的测试时扩展、长程任务和在线学习等新兴范式奠定了必要的基础。评估结果表明,DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最大推理努力模式,重新定义了开源模型的最先进水平。它在知识基准测试上大幅 outperform 先前的开源模型,在推理性能上接近前沿专有模型,并提供具有竞争力的智能体能力。与此同时,DeepSeek-V4-Flash-Max 在保持高度高性价比架构的同时,达到了与领先闭源模型相当的推理性能。我们相信 DeepSeek-V4 系列为开源模型开创了百万长度上下文的新时代,并为更好的效率、规模和智能铺平了道路。

为了追求极端的长上下文效率,DeepSeek-V4 系列采用了大胆的架构设计。为了最小化风险,我们保留了许多初步验证的组件和技巧,虽然有效,但使架构相对复杂。在未来的迭代中,我们将进行更全面和原则性的研究,将架构提炼到其最基本的设计,使其更加优雅而不牺牲性能。与此同时,虽然预期路由和 SwiGLU 截断已被证明在缓解训练不稳定性方面有效,但其底层原理仍然理解不足。我们将积极研究训练稳定性的基础问题并加强内部指标监控,旨在实现更原则性和预测性的大规模稳定训练方法。

此外,除了 MoE 和稀疏注意力架构之外,我们还将积极探索沿新维度的模型稀疏性——例如更稀疏的嵌入模块(Cheng et al., 2026)——以在不损害能力的情况下进一步提高计算和内存效率。我们还将持续研究低延迟架构和系统技术,以使长上下文部署和交互更加响应迅速。此外,我们认识到长程、多轮智能体任务的重要性和实用价值,并将继续在该方向上进行迭代和探索。我们也在致力于将多模态能力整合到我们的模型中。最后,我们致力于开发更好的数据整理和合成策略,以持续提升模型智能、鲁棒性和在日益广泛的场景和任务中的实际可用性。


参考文献(References)

参考文献列表原文保留,不翻译。详见原论文。


附录(Appendix)

A. 作者列表与致谢(Author List and Acknowledgment)

A.1 作者列表

作者按名字首字母顺序排列。标有 * 的名字表示已离开我们团队的成员。

Research & Engineering:Anyi Xu, Bangcai Lin, Bing Xue, Bingxuan Wang, Bingzheng Xu, Bochao Wu, Bowei Zhang, Chaofan Lin, Chen Dong, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenhao Xu, Chenze Shao, Chong Ruan, Conner Sun, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Donghao Li, Erhang Li, Fangyun Lin, Fangzhou Yuan, Feiyu Xia, Fucong Dai, Guangbo Hao, Guanting Chen, Guoai Cao, Guolai Meng, Guowei Li, Han Yu, Han Zhang, Hanwei Xu, Hao Li, Haofen Liang, Haoling Zhang, Haoming Luo, Haoran Wei, Haotian Yuan, Haowei Zhang, Haowen Luo, Haoyu Chen, Haozhe Ji, Honghui Ding, Hongxuan Tang, Huanqi Cao, Huazuo Gao, Hui Qu, Hui Zeng, J. Yang, J.Q. Zhu, Jia Yu, Jialiang Huang, Jiasheng Ye, Jiashi Li, Jiaxin Xu, Jiewen Hu, Jin Yan, Jingchang Chen, Jingli Zhou, Jingting Xiang, Jingyang Yuan, Jingyuan Cheng, Jinhua Zhu, Jiping Yu, Joseph Sun, Jun Ran, Junguang Jiang, Junjie Qiu, Junlong Li, Junxiao Song, Kai Dong, Kaige Gao, Kang Guan, Kexing Zhou, Kezhao Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Wang, Li Zhang, Liang Zhao, Lihua Guo, Lingxiao Luo, Linwang Ma, Litong Wang, Liyu Cai, Liyue Zhang, Longhao Chen, M.S. Di, M.Y Xu, Max Mei, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Panpan Huang, Peixin Cong, Peiyi Wang, Qiancheng Wang, Qihao Zhu, Qingyang Li, Qinyu Chen, Qiushi Du, Qiwei Jiang, Rui Tian, Ruifan Xu, Ruijie Lu, Ruiling Xu, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runqian Chen, Runqiu Yin, Runxin Xu, Ruomeng Shen, Ruoyu Zhang, S.H. Liu, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaofei Cai, Shaoheng Nie, Shaoyuan Chen, Shengding Hu, Shengyu Liu, Shiqiang Hu, Shirong Ma, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, Shuying Yu, Songyang Zhou, Tao Ni, Tao Yun, Tian Jin, Tian Pei, Tian Ye, Tianle Lin, Tianran Ji, Tianyi Cui, Tianyuan Yue, Tingting Yu, Tun Wang, W. Zhang, Wangding Zeng, Weilin Zhao, Wen Liu, Wenfeng Liang, Wenjie Pang, Wenjing Luo, Wenjing Yao, Wenjun Gao, Wenkai Yang, Wenlve Huang, Wentao Zhang, Wenting Ma, Xi Gao, Xiang He, Xiangwen Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaokang Zhang, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingchen Liu, Xingkai Yu, Xingyou Li, Xinyu Yang, Xu Chen, Xuanyu Wang, Xuecheng Su, Xuheng Lin, Xuwei Fu, Y.C. Yan, Y.Q. Wang, Y.W. Ma, Yanfeng Luo, Yang Zhang, Yanhong Xu, Yanru Ma, Yanwen Huang, Yao Li, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Qian, Yi Yu, Yichao Zhang, Yifan Ding, Yifan Shi, Yijia Wu, Yiliang Xiong, Ying He, Ying Zhou, Yingjia Luo, Yinmin Zhong, Yishi Piao, Yisong Wang, Yixiang Zhang, Yixiao Chen, Yixuan Tan, Yixuan Wei, Yiyang Ma, Yiyuan Liu, Yonglun Yang, Yongqiang Guo, Yongtong Wu, Yu Wu, Yuan Cheng, Yuan Ou, Yuanfan Xu, Yuanhao Li, Yuduan Wang, Yuhan Wu, Yuhao Meng, Yuheng Zou, YuKun Li, Yunfan Xiong, Yupeng Chen, Yuqian Cao, Yuqian Wang, Yushun Zhang, Yutong Lin, Yuxian Gu, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuxuan Zhou, Yuyang Zhou, Yuzhen Huang, Z.F. Wu, Zehao Wang, Zehua Zhao, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhixian Huang, Zhixuan Chen, Zhiyu Wu, Zhizhou Ren, Zhuoshu Li, Zhuping Zhang, Zian Xu, Zihao Wang, Zihui Gu, Zijia Zhu, Zilin Li, Zipeng Zhang, Ziwei Xie, Ziyi Gao, Zizheng Pan, Zongqing Yao.

Business & Compliance:Chenchen Ling, Chengyu Hou, Dongjie Ji, Fang Wei, Hengqing Zhang, Jia Luo, Jia Song, Jialu Cai, Jian Liang, Jiangting Zhou, Jieyu Yang, Jin Chen, Jingzi Zhou, Junmin Zheng, Leyi Xia, Linyan Zhu, Miaojun Wang, Mingming Li, Minmin Han, Ning Wang, Panpan Wang, Peng Zhang, Ruyi Chen, Shangmian Sun, Shaoqing Wu, W.L. Xiao, Wei An, Wenqing Hou, Xianzu Wang, Xiaowen Sun, Xiaoxiang Wang, Xinyu Zhang, Xueyin Chen, Yao Xu, Yi Shao, Yiling Ma, Ying Tang, Yuehan Yang, Yuer Xu, Yukun Zha, Yuping Lin, Yuting Yan, Zekai Zhang, Zhe Ju, Zheren Gao, Zhongyu Wu, Zihua Qu, Ziyi Wan.

A.2 致谢

我们要感谢 Dolly Deng 和其他测试人员对 DeepSeek-V4 系列模型能力方面的宝贵建议和反馈。

B. 评估细节(Evaluation Details)

评估细节包括多个表格,详见原论文附录部分。

0 Comments