RLVR 训出来的模型只有 5%~20% 的权重「真的变了」,反观 SFT 改的密密麻麻——这件怪事过去被解释为 RL「稀疏更新」。这篇论文把这层伪装撕开:稀疏只是表象,真相是 RL 的更新被预训练几何系统性地推到了非主成分方向上,而 bf16 精度恰好把这些「微更新」抹平了。作者把这套机制总结成 Three-Gate Theory:KL 拴绳 → 几何转向 → 精度过滤。
现代后训练里 RL 算力消耗远高于 SFT,按理说参数变化应该更大。但事实相反:RL 看起来只改了不到一半的参数,SFT 几乎是全量重写。这件事过去被叫做「RL 稀疏更新」,但作者发现这个词从一开始就用错了。
SFT 有显式的 teacher 分布,目标是「拟合一个可能距离很远的外部分布」,所以梯度敢往任何方向冲,包括预训练模型最敏感的高曲率方向(principal directions)。
RL 没有外部 teacher,目标是用 verifiable reward 把当前策略略微往好的方向推,但又被 KL 拴住不能跑远。结果就只能沿低曲率方向「找小路」走。
作者用 5 个独立 RLVR run(不同数据、不同算法)从同一个底座出发,去看每个权重「有没有被改动」,然后比对位置图。结果不是随机散点,而是行/列条纹结构,并且五次实验的命中位置高度重合。换言之:从同一个预训练模型出发的 RL,会反复落在同一组「偏好」权重上。
把学习率拉高让那些「亚-ULP」的微更新跨过 bf16 精度门槛后,稀疏几乎完全消失,但任务表现并没变。这印证了:稀疏 = 偏置 × 精度。如果换 fp32 存权重,sparsity 也大幅下降。
作者把 RL 一步更新拆成三道「闸门」串联:原始 policy gradient 进来,先被 KL 拴住总幅度,再被预训练模型的几何把方向掰向低曲率子空间,最后被 bf16 精度切掉残余微更新。点击下方任意闸门查看公式与含义。
作者沿着 Three-Gate 给出的预测设计了三个直接对比实验。每一条都把 RLVR 与 SFT 放在同一个底座、同一套 metrics 下扫,结果一致地指向同一个结论:RL 走在主成分之外。
同样的训练目标、同一个底座,RLVR 跑完之后 top-k 奇异子空间几乎纹丝不动,谱曲线和 base 模型重合;SFT 则把谱明显改写、子空间显著旋转。
作者用 rank-k SVD 重构后选出 top-α 大幅值权重(principal weights,高曲率代理)。RL 更新和它们的重合率低于随机基线,反而和「低幅值权重」的重合率高于随机。
作者用「保函数的正交旋转」+「头之间的置换」对几个层做手术,模型功能不变但内部坐标被洗了。结果该层的更新位置 Jaccard 立刻塌回随机基线,未干预层照旧。这把因果链坐实在「几何」上。
作者还把同一套 metrics 套到 agent 任务(AgentFlow、SkyRL-Agent、VeRL-Tool)和 RLHF(DPO、SimPO)的 checkpoint 上,结论一模一样——这套「保谱、绕主成分、低幅值偏好」的 RL 签名,超出了 verifiable math/code 的范畴,是任何 KL-anchored RL 都共享的指纹。
理论好不好,不只是要解释现象,还得能指导设计。作者拿着 Three-Gate 给的「RL 偏好低幅值、非主成分」预测,设计了两个 case study:稀疏 fine-tune 选哪些权重去改、LoRA 该不该 align 到主成分。
作者从底座直接造 5 种 mask,去跑 RL,看哪种最贴合稠密 RL 的 KL 轨迹和最终精度。结果干净利落地分出了三个等级。
safe mask(论文推荐)complementary subspace更新最易动的位置对照SFT 派的偏好只更新 principal 权重的 mask,KL 漂移最慢、精度最差——这正是过去 SFT 派 PEFT 方法(principal-targeted sparse FT)会优先选的位置。理论预测和实验完全对得上。
最近有报告(Schulman 实验室)说 RL 用 rank-1 LoRA 都能追上全参,并暗示 PiSSA 这种「显式对准 top-r 主成分」的 LoRA 变体应该会更好。论文用 Three-Gate 给出截然相反的预测,并实测验证。
LoRA 和 PiSSA 共享同一套 forward 形式 W = W₀ + B·A,唯一的差别只在「A、B 怎么初始化」。而初始化决定了那条 r 维训练子空间会落在权重空间的哪个角落 —— 这正是后面所有讨论的起点。
A、B 的更新方向起点随机,没有任何预设几何 —— 自然落在 off-principal 子空间。
A、B 一开始就是 W₀ 的 top-r 主成分,整个秩-r 训练子空间被锁死在「主成分」上。SFT 派认为这是优势 —— 直接动「最重要」的方向。
初始化随机,更新天然不对准主成分。基础权重被冻住,进一步把搜索空间压在「off-principal」邻域。低秩容量虽小,但方向天然契合 RL 的偏置。
显式用 top-r SVD 初始化 adapter,强制把更新方向钉到主成分上。本质上是「SFT 时代的最佳实践」。在 DS-Qwen-1.5B 和 LLaMA-3.2-3B 上都没看到收益,且学习率一调高就早期崩溃。
一句话:LoRA 在 RL 里好用是因为它不去碰主成分,不是因为它低秩。所以「让 LoRA 更好」≠「让它更对齐主成分」,反而是反方向。
同一个底座下,不同算法、不同数据的 RL run 都把更新落到同一组位置上(Jaccard ≈ 0.58),bf16 把不偏好区域的微更新抹平为零,于是看起来稀疏。
第一道把每步幅度框住、第二道用预训练模型的谱几何把方向掰向低曲率子空间、第三道把残余抹平。三道一起解释了为什么 RL 会绕开主成分。
RL 保谱、避主成分;SFT 改谱、命中主成分。所以单靠任务精度对齐不能掩盖参数空间的根本差异——这两件事在权重里走的是两条完全不同的小路。
principal-targeted sparse FT、PiSSA 一类变体在 RL 上要么没收益、要么崩溃。RL 需要专门面向 off-principal、低幅值、保谱方向的 PEFT,这是开放的算法空间。