Off the Principals
原文 ↗
arXiv 2511.08567 · NeurIPS 2025 Workshop · Spotlight

RL 看似只动一点点参数,
其实是被「定向偏置」悄悄绕路

RLVR 训出来的模型只有 5%~20% 的权重「真的变了」,反观 SFT 改的密密麻麻——这件怪事过去被解释为 RL「稀疏更新」。这篇论文把这层伪装撕开:稀疏只是表象,真相是 RL 的更新被预训练几何系统性地推到了非主成分方向上,而 bf16 精度恰好把这些「微更新」抹平了。作者把这套机制总结成 Three-Gate Theory:KL 拴绳 → 几何转向 → 精度过滤。

📅 2025-11-11 👥 Hanqing Zhu et al. 🏛️ UT Austin · Meta · UC Davis 📊 引用 15+
⚡ TL;DR
RLVR 的「稀疏更新」不是真稀疏,而是一种 model-conditioned 的优化偏置——更新永远落在预训练模型几何里那条「低曲率、保谱、绕开主成分」的小路上。

三道闸门解释了这一切:Gate I KL 把每步幅度框住 · Gate II 模型几何把方向掰向非主成分 · Gate III bf16 把残余微更新抹平为零。

实际意义:SFT 时代的 PEFT(PiSSA、principal-targeted sparse FT)打不进 RL。RL 需要自己的、几何感知的、专门面向「off-principal」更新的算法。
36–92%
RLVR 表观稀疏度
(多家公开 checkpoint)
0.6–18.8%
SFT 表观稀疏度
(同基础模型)
~0.58 J
不同 RL run 之间更新位置 Jaccard
(随机 baseline ≈ 0.43)
~70% 参数
用 (low-mag ∪ non-principal) mask 即可
追平稠密 RL 的 KL 轨迹
01 / 矛盾

SFT 改一片,RL 改一撮——为什么 RL 反而更「省」?

现代后训练里 RL 算力消耗远高于 SFT,按理说参数变化应该更大。但事实相反:RL 看起来只改了不到一半的参数,SFT 几乎是全量重写。这件事过去被叫做「RL 稀疏更新」,但作者发现这个词从一开始就用错了。

SFT · 翻山式

跟着老师指的路走,就算翻山也走

SFT 有显式的 teacher 分布,目标是「拟合一个可能距离很远的外部分布」,所以梯度敢往任何方向冲,包括预训练模型最敏感的高曲率方向(principal directions)。

  • 更新稠密(仅 0.6%–18.8% 权重保持不变)
  • top-k 奇异子空间发生明显旋转
  • 谱(singular values)被改写
  • 主成分位置被精准命中
RLVR · 绕山式

没有老师,但有一只「隐形指南针」绕开高山

RL 没有外部 teacher,目标是用 verifiable reward 把当前策略略微往好的方向推,但又被 KL 拴住不能跑远。结果就只能沿低曲率方向「找小路」走。

  • 表观稀疏 36%–92%(实为残留可见量)
  • top-k 子空间几乎不旋转
  • 谱几乎不变(NSS ≈ 0)
  • 更新位置和主成分高度反相关(sub-random overlap)
Base → Finetuned
更新稀疏度
算法
数据域
Qwen-1.5B → DS-R1-Distill-Qwen-1.5B
2.8%
SFT
Mixed
Qwen3-8B-Base → Klear-Reasoner-8B-SFT
0.6%
SFT
Math+Code
DS-Qwen-1.5B → DeepScaleR-1.5B
53.8%
GRPO
Math
Klear-Reasoner-8B-SFT → Klear-Reasoner-8B
69.5%
GRPO
Math+Code
Qwen3-8B-Base → GT-Qwen3-8B-Base
79.9%
GRPO
Math
Qwen3-30B-A3B → UloRL-A3B
91.7%
GRPO
Math
数据来自 Table 1。柱条长度对应「稀疏度」(值越高,越多权重保持不变)。注意:作者用了 bf16-aware 容差判定 |Δw| ≤ 10⁻³·max(|w|, |w'|),等价于 bf16 比特存储一致;这比之前论文的固定阈值更可靠。
02 / 关键观察

稀疏只是壳,里头是「跨次实验位置惊人一致」的偏置

作者用 5 个独立 RLVR run(不同数据、不同算法)从同一个底座出发,去看每个权重「有没有被改动」,然后比对位置图。结果不是随机散点,而是行/列条纹结构,并且五次实验的命中位置高度重合。换言之:从同一个预训练模型出发的 RL,会反复落在同一组「偏好」权重上。

RLVR 更新位置(5 次 run 共识图)

每个像素 = 一个权重。颜色越深 = 越多次 run 同时改动该位置。横/纵向条纹 ≠ 随机。

独立 Bernoulli 基线(同密度随机散点)

如果是无偏置随机更新,应该长这个样子:均匀点云、没有结构。
第 13 层 attention 块
跨 run Jaccard 重合率
独立随机 baseline
Q projection
0.580
0.430
V projection
0.597
0.467
O projection
0.552
0.373
MLP-down
0.585
0.453
MLP-gate
0.575
0.437

把学习率拉高让那些「亚-ULP」的微更新跨过 bf16 精度门槛后,稀疏几乎完全消失,但任务表现并没变。这印证了:稀疏 = 偏置 × 精度。如果换 fp32 存权重,sparsity 也大幅下降。

03 / 机制

Three-Gate Theory:把同一个梯度按顺序过三道筛子

作者把 RL 一步更新拆成三道「闸门」串联:原始 policy gradient 进来,先被 KL 拴住总幅度,再被预训练模型的几何把方向掰向低曲率子空间,最后被 bf16 精度切掉残余微更新。点击下方任意闸门查看公式与含义。

原始
policy gradient
GATE I KL Anchor ‖ΔW‖ ≤ √(2K/μ)
GATE II Model Geometry sin Θ_k ≤ ‖ΔW‖/γ_k
GATE III Precision (bf16) |ΔW_ij| ≳ ½·ULP
实际可见的
权重更新
04 / 验证

三条证据把这个理论钉死

作者沿着 Three-Gate 给出的预测设计了三个直接对比实验。每一条都把 RLVR 与 SFT 放在同一个底座、同一套 metrics 下扫,结果一致地指向同一个结论:RL 走在主成分之外。

📐

谱几何被保住了

同样的训练目标、同一个底座,RLVR 跑完之后 top-k 奇异子空间几乎纹丝不动,谱曲线和 base 模型重合;SFT 则把谱明显改写、子空间显著旋转。

主子空间最大角 RL ≪ SFT
归一化谱漂移 NSS RL ≈ 0
🎯

更新位置和主成分反相关

作者用 rank-k SVD 重构后选出 top-α 大幅值权重(principal weights,高曲率代理)。RL 更新和它们的重合率低于随机基线,反而和「低幅值权重」的重合率高于随机。

RL ∩ principal sub-random
RL ∩ low-magnitude super-random
🧪

因果干预:把几何打乱,偏置就消失

作者用「保函数的正交旋转」+「头之间的置换」对几个层做手术,模型功能不变但内部坐标被洗了。结果该层的更新位置 Jaccard 立刻塌回随机基线,未干预层照旧。这把因果链坐实在「几何」上。

干预层 vs 未干预层 Overlap 崩塌

作者还把同一套 metrics 套到 agent 任务(AgentFlow、SkyRL-Agent、VeRL-Tool)和 RLHF(DPO、SimPO)的 checkpoint 上,结论一模一样——这套「保谱、绕主成分、低幅值偏好」的 RL 签名,超出了 verifiable math/code 的范畴,是任何 KL-anchored RL 都共享的指纹。

05 / 实战启示

SFT 时代的 PEFT 套路,到 RL 这里基本不灵

理论好不好,不只是要解释现象,还得能指导设计。作者拿着 Three-Gate 给的「RL 偏好低幅值、非主成分」预测,设计了两个 case study:稀疏 fine-tune 选哪些权重去改、LoRA 该不该 align 到主成分。

5.1 稀疏 fine-tune:哪些权重该「冻起来」?

作者从底座直接造 5 种 mask,去跑 RL,看哪种最贴合稠密 RL 的 KL 轨迹和最终精度。结果干净利落地分出了三个等级。

Mask 设计
参数比例
追上稠密 RL 的程度
判定
low-magnitude ∪ non-principalsafe mask(论文推荐)
~70%
最佳
non-principal onlycomplementary subspace
50%
较好
low-magnitude only更新最易动的位置
~60%
较好
同密度 random mask对照
~70%
一般
principal onlySFT 派的偏好
50%
最差

只更新 principal 权重的 mask,KL 漂移最慢、精度最差——这正是过去 SFT 派 PEFT 方法(principal-targeted sparse FT)会优先选的位置。理论预测和实验完全对得上。

5.2 LoRA vs PiSSA:alignment 到主成分会怎样?

最近有报告(Schulman 实验室)说 RL 用 rank-1 LoRA 都能追上全参,并暗示 PiSSA 这种「显式对准 top-r 主成分」的 LoRA 变体应该会更好。论文用 Three-Gate 给出截然相反的预测,并实测验证。

前置概念 · What is PiSSA

先看清楚 PiSSA 到底「targeted」在哪

LoRA 和 PiSSA 共享同一套 forward 形式 W = W₀ + B·A,唯一的差别只在「A、B 怎么初始化」。而初始化决定了那条 r 维训练子空间会落在权重空间的哪个角落 —— 这正是后面所有讨论的起点。

LoRA · 随机初始化
W₀ frozen B = 0, A ~ Gaussian 初始 B·A = 0 ⇒ forward(W) = W₀

A、B 的更新方向起点随机,没有任何预设几何 —— 自然落在 off-principal 子空间。

PiSSA · 主成分初始化
W₀ = U Σ Vᵀ (full SVD) B = U_rΣ_r, A = √Σ_r V_rᵀ W_res = W₀U_r Σ_r V_rᵀ frozen 初始 B·A = U_r Σ_r V_rᵀ ⇒ forward(W) = W₀

A、B 一开始就是 W₀ 的 top-r 主成分,整个秩-r 训练子空间被锁死在「主成分」上。SFT 派认为这是优势 —— 直接动「最重要」的方向。

LoRA · 普通版

初始化随机,更新天然不对准主成分。基础权重被冻住,进一步把搜索空间压在「off-principal」邻域。低秩容量虽小,但方向天然契合 RL 的偏置。

为什么稳:更新方向和 RL 的天然偏置同一个方向,不会触碰高曲率区。

PiSSA · principal-targeted LoRA 易崩

显式用 top-r SVD 初始化 adapter,强制把更新方向钉到主成分上。本质上是「SFT 时代的最佳实践」。在 DS-Qwen-1.5B 和 LLaMA-3.2-3B 上都没看到收益,且学习率一调高就早期崩溃

为什么崩:把更新硬推到 RL 想绕开的主成分方向,等于和 RL 的隐形指南针对着干。

一句话:LoRA 在 RL 里好用是因为它不去碰主成分,不是因为它低秩。所以「让 LoRA 更好」≠「让它更对齐主成分」,反而是反方向。

06 / 一句话总结

从「黑箱观察」到「白箱机制」

1

RL 的稀疏不是真稀疏,是定向偏置 × 精度滤镜

同一个底座下,不同算法、不同数据的 RL run 都把更新落到同一组位置上(Jaccard ≈ 0.58),bf16 把不偏好区域的微更新抹平为零,于是看起来稀疏。

2

三道闸门 = KL 拴绳 → 几何转向 → 精度过滤

第一道把每步幅度框住、第二道用预训练模型的谱几何把方向掰向低曲率子空间、第三道把残余抹平。三道一起解释了为什么 RL 会绕开主成分。

3

RL 和 SFT 是两个不同的优化 regime

RL 保谱、避主成分;SFT 改谱、命中主成分。所以单靠任务精度对齐不能掩盖参数空间的根本差异——这两件事在权重里走的是两条完全不同的小路。

4

SFT 时代的 PEFT 该重新设计了

principal-targeted sparse FT、PiSSA 一类变体在 RL 上要么没收益、要么崩溃。RL 需要专门面向 off-principal、低幅值、保谱方向的 PEFT,这是开放的算法空间。