《Attention Residuals》深度解读

论文信息
- 标题：Attention Residuals
- 作者：Kimi Team (Moonshot AI)
- 发表时间：2026年3月（arXiv:2603.15031）
- arXiv：2603.15031
- GitHub：MoonshotAI/Attention-Residuals

一句话总结

本文提出 Attention Residuals (AttnRes)，用 softmax attention 机制 替代 Transformer 中固定的残差连接，使每一层能够选择性地聚合前面所有层的输出，从而解决 PreNorm 带来的隐藏状态膨胀和梯度稀释问题。

alt text

背景与动机

标准残差连接的局限性

现代大语言模型（LLM）广泛采用 PreNorm + 残差连接 的架构【原文 §1】：

$$h_l = h_{l-1} + f_l(\text{LayerNorm}(h_{l-1}))$$

这种设计有两个主要作用：
1. 梯度高速公路：通过恒等映射让梯度绕过变换层，实现深层网络的稳定训练
2. 逐层信息聚合：每一层接收前面所有层输出的均匀加权和

然而，作者指出这种均匀聚合存在根本性缺陷：

"Unlike sequence mixing and expert routing, which now employ learnable input-dependent weighting, this depth-wise aggregation remains governed by fixed unit weights, with no mechanism to selectively emphasize or suppress individual layer contributions."
（与现在使用可学习、输入依赖加权的序列混合和专家路由不同，这种深度方向的聚合仍然由固定的单位权重控制，没有机制来选择性地强调或抑制各个层的贡献。）

PreNorm 的隐藏状态膨胀问题

PreNorm 架构虽然比 PostNorm 更稳定，但带来了 "uncontrolled hidden-state growth"（不可控的隐藏状态增长） 问题【原文 §1】：

每一层都累加前面所有层的输出
随着深度增加，隐藏状态的幅度不断增大
这导致梯度分布不均匀，深层梯度被稀释

作者引用先前工作 [27] 指出这一问题，并提出用 Attention Residuals 来解决。

核心方法

3.1 Attention Residuals (AttnRes)

作者提出用 softmax attention 机制替代固定的残差连接【原文 §3】。

核心思想

标准残差连接：
$$h_l = h_{l-1} + f_l(\text{LN}(h_{l-1}))$$

所有前面层的影响是均匀累加的。

Attention Residuals：
$$h_l = \sum_{i=0}^{l-1} \alpha_{l,i} \cdot v_i$$

其中 $\alpha_{l,i}$ 是通过 softmax attention 计算出的输入依赖权重：
$$\alpha_{i \rightarrow l} = \frac{\phi(\boldsymbol{q}_l, \boldsymbol{k}_i)}{\sum_{j=0}^{l-1} \phi(\boldsymbol{q}_l, \boldsymbol{k}_j)}$$

注意力分数通过查询-键机制计算，采用 RMSNorm 归一化：
$$\phi(\boldsymbol{q}, \boldsymbol{k}) = \exp\left(\frac{\boldsymbol{q}^\top \text{RMSNorm}(\boldsymbol{k})}{\sqrt{d}}\right)$$

其中查询向量 $\boldsymbol{q}_l = \boldsymbol{w}_l$ 是每层学习的参数，键向量 $\boldsymbol{k}_i = \boldsymbol{v}_i$ 是第 $i$ 层的输出。

视觉对比（基于原文 Figure 1）

标准残差连接 (a)：

Embedding → [Layer 1] → [Layer 2] → [Layer 3] → Output
              ↑ +       ↑ +         ↑ +
             (uniform additive accumulation)

Full Attention Residuals (b)：

Embedding → [Layer 1] → [Layer 2] → [Layer 3] → Output
              ↓           ↓           ↓
              └─────[Attention]─────┘
                   (selective aggregation
                    with learned weights)

Block Attention Residuals (c)：

Embedding → Block 1 (Layers 1-4) → Block 2 (Layers 5-8) → Output
                          ↓                         ↓
                          └──────────[Attention]────┘
                           (block-level selective
                            aggregation)

3.2 Block Attention Residuals (BlockAttnRes)

Full Attention Residuals 需要对所有前面的层计算 attention，这在模型很深时会带来显著的内存和通信开销【原文 §3.2】。

解决方案：分层聚合

作者提出 Block Attention Residuals，将层分组为块（blocks）：

$$h_l = \sum_{b=0}^{B-1} \alpha_{l,b} \cdot \boldsymbol{b}_b$$

其中：
- 模型被划分为 $N$ 个块，每个块包含 $S = L/N$ 层
- $\boldsymbol{b}_b$ 是第 $b$ 块输出的聚合表示（块内所有层输出的求和）
- 注意力只在块级别进行，显著降低复杂度

复杂度分析

方法	每层内存开销	通信开销	计算复杂度
标准残差	$O(d)$	$O(d)$	$O(1)$
Full AttnRes	$O(Ld)$	$O(Ld)$	$O(L)$
Block AttnRes	$O((S+N)d)$	$O((S+N)d)$	$O(S+N)$

其中 $L$ 是层数，$d$ 是隐藏维度，$S$ 是每块层数，$N$ 是块数（$N \ll L$）。

实际实现优化

作者还引入了以下优化【原文 §4】：

Cache-based Pipeline Communication：利用缓存机制减少跨层通信开销
Two-phase Computation Strategy：分阶段计算，Phase 1计算块间attention，Phase 2计算块内attention

这些优化使得 BlockAttnRes 成为实用的、可直接替换标准残差连接的方案。

3.3 理论分析

作者分析了 Attention Residuals 如何解决 PreNorm 的问题【原文 §6.2】。

隐藏状态控制

标准 PreNorm：
$$\|h_L\| \approx \|h_0\| + \sum_{l=1}^{L} \|f_l(\text{LN}(h_{l-1}))\|$$

由于所有残差都是正向累加，隐藏状态随深度单调增长。

Attention Residuals：
$$\|h_L\| = \|\sum_{i=0}^{L-1} \alpha_{L,i} \cdot \boldsymbol{v}_i\|$$

由于 softmax 权重 $\alpha_{L,i}$ 的总和为 1（或可控值），隐藏状态的幅度可以被有效控制，避免无限制增长。

梯度流动改善

在标准残差连接中，深层梯度需要反向传播经过所有前面的层，导致梯度稀释。Attention Residuals 允许梯度通过 attention 权重选择性地流动，使得梯度可以更直接地从损失函数传递到相关的层，改善训练稳定性。

实验与结果

作者在多个维度上验证了 Attention Residuals 的有效性【原文 §5】。

4.1 缩放定律实验 (Scaling Law Experiments)

作者在多个模型规模下验证了改进的一致性【原文 §5.1, Table 2】。

实验设置：
- 模型规模：从 194M 到 528M 激活参数（5个规模点）
- 训练数据：Common Crawl 子集
- 训练 tokens：38.7B - 119.0B

论文真实数据（Table 2）：

激活参数	Tokens	Baseline Loss	Block AttnRes	Full AttnRes
194M	38.7B	1.931	1.909	1.899
241M	45.4B	1.895	1.875	1.869
296M	62.1B	1.829	1.809	1.804
436M	87.9B	1.766	1.746	1.737
528M	119.0B	1.719	1.693	1.692

关键发现：
1. 改进随规模增加：更大的模型从 Attention Residuals 中获益更多
2. 一致性：在所有测试规模下，AttnRes 都优于标准残差连接
3. Block vs Full：Block AttnRes 在大部分规模下接近 Full AttnRes 的性能

4.2 消融实验 (Ablation Studies)

作者验证了内容依赖的深度选择机制的贡献【原文 §5.3, Table 4】。

论文真实数据（Table 4，16层模型）：

变体	Loss
Baseline (PreNorm)	1.766
DenseFormer	1.767
mHC	1.747
AttnRes Full	1.737
w/ input-dependent query	1.731
w/ input-independent mixing	1.749
w/ sigmoid	1.741
w/o RMSNorm	1.743
SWA (W=1+8)	1.764
Block (S=4)	1.746
w/ multihead (H=16)	1.752
w/o RMSNorm	1.750

关键发现：
1. 内容依赖机制的重要性：使用输入独立混合（1.749）比完整 AttnRes（1.737）性能差
2. Softmax 优于 Sigmoid：使用 sigmoid 代替 softmax 导致性能下降（1.741 vs 1.737）
3. RMSNorm 的重要性：移除 RMSNorm 会导致性能下降（Full: 1.743, Block: 1.750）

4.3 Kimi Linear 架构集成

作者在实际的 Kimi Linear 架构中集成了 Attention Residuals【原文 §5.2, Table 3】。

论文真实数据（Table 3）：

通用能力任务：

任务	Baseline	AttnRes	提升
MMLU	73.5	74.6	+1.1
MMLU-Pro	52.2	52.2	0.0
GPQA-Diamond	36.9	44.4	+7.5
BBH	76.3	78.0	+1.7
ARC-Challenge	64.6	65.7	+1.1
HellaSwag	83.2	83.4	+0.2
TriviaQA	69.9	71.8	+1.9

数学与代码任务：

任务	Baseline	AttnRes	提升
GSM8K	81.7	82.4	+0.7
MGSM	64.9	66.1	+1.2
Math	53.5	57.1	+3.6
CMath	84.7	85.1	+0.4
HumanEval	59.1	62.2	+3.1
MBPP	72.0	73.9	+1.9

中文任务：

任务	Baseline	AttnRes	提升
CMMLU	82.0	82.9	+0.9
C-Eval	79.6	82.5	+2.9

训练动态改善【原文 Figure 5】：

指标	标准残差	AttnRes	改进
验证集最终 Loss	1.766	1.737	-1.6%
输出幅度（深层）	大幅增长	保持平稳	显著改善
梯度分布	深层梯度稀释	更均匀分布	显著改善

关键发现：
- AttnRes 在 GPQA-Diamond（+7.5）、Math（+3.6）、HumanEval（+3.1）等复杂推理任务上提升最大
- 在 MMLU-Pro 上持平，在其他所有任务上都有提升
- 平均来看，AttnRes 在各领域任务上都有 1-4 个百分点的稳定提升

亮点与局限

亮点

问题识别精准：准确指出了标准残差连接和 PreNorm 的根本问题——均匀累积导致的隐藏状态膨胀和梯度稀释。
方法设计优雅：用 softmax attention 替代固定权重是一个自然的扩展，既保留了残差连接的梯度流动优势，又引入了内容依赖的选择机制。
工程实现务实：BlockAttnRes 的提出体现了从理论到实践的务实态度，通过分层聚合解决了内存和通信瓶颈，使得方法可以扩展到大规模模型训练。
实验验证全面：从缩放定律（194M-528M参数）、消融实验（16层模型），到实际模型（Kimi Linear 48B总参/3B激活参数）的集成，实验设计全面且有说服力。
开源贡献：代码开源有利于社区验证和进一步开发。

局限（原文承认的）

计算开销：虽然 BlockAttnRes 大幅降低了开销，但相比标准残差仍有额外计算（attention 计算、跨层通信）。
超参数敏感性：块大小 $S$、块数量 $N$ 等超参数可能需要针对不同模型规模进行调优。论文发现 $N \approx 8$ 在大部分规模下效果较好。
架构局限性：实验主要在 decoder-only 架构上进行，对于 encoder-decoder 或 state space models 的适用性需要进一步验证。

局限（解读者补充）

与现有技术的对比可以更充分：论文主要与标准残差对比，但与其他残差变体（如 ReZero, mHC, DenseFormer）的对比仅在消融实验中进行，缺少更系统的比较。
长序列场景：虽然 BlockAttnRes 解决了内存问题，但对于超长序列（>100K），attention 本身的计算复杂度仍然是瓶颈。
可解释性分析有限：论文提到了 Persistency Map 工具，但在正文中展示的分析相对有限，读者可能希望看到更多关于如何使用该工具诊断模型的细节。

延伸阅读

方法	核心思想	与本文的关系
ReZero (Bachlechner et al., 2021)	用可学习标量缩放残差分支	AttnRes 扩展了这一思想，用 attention 权重替代单一标量
mHC (Xie et al., 2026)	用混合矩阵实现跨层连接	论文中与 AttnRes 对比，AttnRes 性能更优 (1.737 vs 1.747)
DenseFormer (Pagliardini et al., 2024)	加权聚合前面所有层	论文中对比，AttnRes 显著优于该方法 (1.737 vs 1.767)
Highway Networks (Srivastava et al., 2015)	门控残差连接	与 AttnRes 正交，可以结合使用
Deepspeed's Curriculum Learning	自适应深度训练	与 AttnRes 的深度选择机制有相似之处
Dynamic Depth Networks	动态选择网络深度	AttnRes 可以看作是一种软性的、可学习的动态深度

总结与思考

核心贡献回顾

问题定义清晰：准确识别了标准残差连接 + PreNorm 架构的核心问题——均匀累积导致的隐藏状态膨胀和梯度稀释。
方法设计优雅：用 softmax attention 替代固定权重，引入内容依赖的深度选择机制，既保留了残差连接的梯度流动优势，又实现了灵活的信息聚合。
工程实践务实：BlockAttnRes 的提出解决了全量 AttnRes 的内存和通信瓶颈，通过分层聚合使得方法可扩展到大规模模型训练。
实验验证充分：从缩放定律（194M-528M参数）、消融实验（16层模型），到 Kimi Linear (48B总/3B激活) 的实际集成，多维度验证了方法的有效性和实用性。

方法论的启示

从现象到方案的研究路径：
1. 识别问题：PreNorm 的隐藏状态膨胀是已知问题，但之前缺乏系统性解决方案
2. 扩展机制：将序列混合中成功的 attention 机制扩展到深度方向
3. 工程优化：通过分层设计解决可扩展性问题
4. 全面验证：从理论分析到实际部署的完整验证

架构设计的思考：
- 残差连接虽然是 Transformer 成功的关键，但并非不可改进
- 通过引入学习机制替代固定规则，可以在保持稳定性的同时增强灵活性
- 深度方向的聚合与序列方向的混合同等重要，值得更多研究关注

未来展望

短期方向：
1. 更广泛的架构验证：在 encoder-decoder、视觉 Transformer、多模态模型中验证 AttnRes
2. 超参数自动调优：论文发现 $N \approx 8$ 效果较好，但需要更系统的自动调优方法
3. 与现有技术结合：与 MoE、稀疏注意力、量化等技术结合

长期方向：
1. 自适应深度网络：让模型动态决定需要多少层，实现样本依赖的计算量
2. 记忆机制扩展：将 AttnRes 与外部记忆结合，处理超长序列
3. 硬件协同设计：为 AttnRes 设计专用硬件加速器

对社区的贡献：
- 开源代码和工具（如 Persistency Map）的进一步完善
- 在更多开源模型（如 Llama、Mistral、Qwen）上的预训练实验
- 与 DeepSpeed、Megatron-LM 等训练框架的深度集成

完整技术文档及后续更新： https://xrollout.org/blog/attn_residuals.zh

我会在网站持续更新 MemoryHub 的工程实现细节和开源进展，欢迎收藏关注。

《Attention Residuals》深度解读

《Attention Residuals》深度解读

一句话总结

背景与动机

标准残差连接的局限性

PreNorm 的隐藏状态膨胀问题

核心方法

3.1 Attention Residuals (AttnRes)

核心思想

视觉对比（基于原文 Figure 1）

3.2 Block Attention Residuals (BlockAttnRes)

解决方案：分层聚合

复杂度分析

实际实现优化

3.3 理论分析

隐藏状态控制

梯度流动改善

实验与结果

4.1 缩放定律实验 (Scaling Law Experiments)

4.2 消融实验 (Ablation Studies)

4.3 Kimi Linear 架构集成

亮点与局限

亮点

局限（原文承认的）

局限（解读者补充）

延伸阅读

相关工作对比

推荐资料

总结与思考

核心贡献回顾

方法论的启示

未来展望

Comments (0)