arXiv 2511.08567 · NeurIPS 2025 Workshop · Spotlight

RL 看似只动一点点参数，
其实是被「定向偏置」悄悄绕路了

RLVR 训出来的模型只有 5%~20% 的权重「真的变了」，反观 SFT 改的密密麻麻——这件怪事过去被解释为 RL「稀疏更新」。这篇论文把这层伪装撕开：稀疏只是表象，真相是 RL 的更新被预训练几何系统性地推到了非主成分方向上，而 bf16 精度恰好把这些「微更新」抹平了。作者把这套机制总结成 Three-Gate Theory：KL 拴绳 → 几何转向 → 精度过滤。

📅 2025-11-11 👥 Hanqing Zhu et al. 🏛️ UT Austin · Meta · UC Davis 📊 引用 15+

⚡ TL;DR

RLVR 的「稀疏更新」不是真稀疏，而是一种 model-conditioned 的优化偏置——更新永远落在预训练模型几何里那条「低曲率、保谱、绕开主成分」的小路上。

三道闸门解释了这一切：Gate I KL 把每步幅度框住 · Gate II 模型几何把方向掰向非主成分 · Gate III bf16 把残余微更新抹平为零。

实际意义：SFT 时代的 PEFT（PiSSA、principal-targeted sparse FT）打不进 RL。RL 需要自己的、几何感知的、专门面向「off-principal」更新的算法。

36–92%

RLVR 表观稀疏度
（多家公开 checkpoint）

0.6–18.8%

SFT 表观稀疏度
（同基础模型）

~0.58 J

不同 RL run 之间更新位置 Jaccard
（随机 baseline ≈ 0.43）

~70% 参数

用 (low-mag ∪ non-principal) mask 即可
追平稠密 RL 的 KL 轨迹

01 / 矛盾

SFT 改一片，RL 改一撮——为什么 RL 反而更「省」？

现代后训练里 RL 算力消耗远高于 SFT，按理说参数变化应该更大。但事实相反：RL 看起来只改了不到一半的参数，SFT 几乎是全量重写。这件事过去被叫做「RL 稀疏更新」，但作者发现这个词从一开始就用错了。

SFT · 翻山式

跟着老师指的路走，就算翻山也走

SFT 有显式的 teacher 分布，目标是「拟合一个可能距离很远的外部分布」，所以梯度敢往任何方向冲，包括预训练模型最敏感的高曲率方向（principal directions）。

更新稠密（仅 0.6%–18.8% 权重保持不变）
top-k 奇异子空间发生明显旋转
谱（singular values）被改写
主成分位置被精准命中

RLVR · 绕山式

没有老师，但有一只「隐形指南针」绕开高山

RL 没有外部 teacher，目标是用 verifiable reward 把当前策略略微往好的方向推，但又被 KL 拴住不能跑远。结果就只能沿低曲率方向「找小路」走。

表观稀疏 36%–92%（实为残留可见量）
top-k 子空间几乎不旋转
谱几乎不变（NSS ≈ 0）
更新位置和主成分高度反相关（sub-random overlap）

Base → Finetuned

更新稀疏度

算法

数据域

Qwen-1.5B → DS-R1-Distill-Qwen-1.5B

2.8%

SFT

Mixed

Qwen3-8B-Base → Klear-Reasoner-8B-SFT

0.6%

SFT

Math+Code

DS-Qwen-1.5B → DeepScaleR-1.5B

53.8%

GRPO

Math

Klear-Reasoner-8B-SFT → Klear-Reasoner-8B

69.5%

GRPO

Math+Code

Qwen3-8B-Base → GT-Qwen3-8B-Base

79.9%

GRPO

Math

Qwen3-30B-A3B → UloRL-A3B

91.7%

GRPO

Math

数据来自 Table 1。柱条长度对应「稀疏度」（值越高，越多权重保持不变）。注意：作者用了 bf16-aware 容差判定 |Δw| ≤ 10⁻³·max(|w|, |w'|)，等价于 bf16 比特存储一致；这比之前论文的固定阈值更可靠。

02 / 关键观察

稀疏只是壳，里头是「跨次实验位置惊人一致」的偏置

作者用 5 个独立 RLVR run（不同数据、不同算法）从同一个底座出发，去看每个权重「有没有被改动」，然后比对位置图。结果不是随机散点，而是行/列条纹结构，并且五次实验的命中位置高度重合。换言之：从同一个预训练模型出发的 RL，会反复落在同一组「偏好」权重上。

RLVR 更新位置（5 次 run 共识图）

每个像素 = 一个权重。颜色越深 = 越多次 run 同时改动该位置。横/纵向条纹 ≠ 随机。

独立 Bernoulli 基线（同密度随机散点）

如果是无偏置随机更新，应该长这个样子：均匀点云、没有结构。

第 13 层 attention 块

跨 run Jaccard 重合率

独立随机 baseline

Q projection

0.580

0.430

V projection

0.597

0.467

O projection

0.552

0.373

MLP-down

0.585

0.453

MLP-gate

0.575

0.437

把学习率拉高让那些「亚-ULP」的微更新跨过 bf16 精度门槛后，稀疏几乎完全消失，但任务表现并没变。这印证了：稀疏 = 偏置 × 精度。如果换 fp32 存权重，sparsity 也大幅下降。

03 / 机制

Three-Gate Theory：把同一个梯度按顺序过三道筛子

作者把 RL 一步更新拆成三道「闸门」串联：原始 policy gradient 进来，先被 KL 拴住总幅度，再被预训练模型的几何把方向掰向低曲率子空间，最后被 bf16 精度切掉残余微更新。点击下方任意闸门查看公式与含义。

原始
policy gradient

→

GATE I KL Anchor ‖ΔW‖ ≤ √(2K/μ)

→

GATE II Model Geometry sin Θ_k ≤ ‖ΔW‖/γ_k

→

GATE III Precision (bf16) |ΔW_ij| ≳ ½·ULP

→

实际可见的
权重更新

04 / 验证

三条证据把这个理论钉死

作者沿着 Three-Gate 给出的预测设计了三个直接对比实验。每一条都把 RLVR 与 SFT 放在同一个底座、同一套 metrics 下扫，结果一致地指向同一个结论：RL 走在主成分之外。

📐

谱几何被保住了

同样的训练目标、同一个底座，RLVR 跑完之后 top-k 奇异子空间几乎纹丝不动，谱曲线和 base 模型重合；SFT 则把谱明显改写、子空间显著旋转。

主子空间最大角 RL ≪ SFT

归一化谱漂移 NSS RL ≈ 0

🎯

更新位置和主成分反相关

作者用 rank-k SVD 重构后选出 top-α 大幅值权重（principal weights，高曲率代理）。RL 更新和它们的重合率低于随机基线，反而和「低幅值权重」的重合率高于随机。

RL ∩ principal sub-random

RL ∩ low-magnitude super-random

🧪

因果干预：把几何打乱，偏置就消失

作者用「保函数的正交旋转」+「头之间的置换」对几个层做手术，模型功能不变但内部坐标被洗了。结果该层的更新位置 Jaccard 立刻塌回随机基线，未干预层照旧。这把因果链坐实在「几何」上。

干预层 vs 未干预层 Overlap 崩塌

作者还把同一套 metrics 套到 agent 任务（AgentFlow、SkyRL-Agent、VeRL-Tool）和 RLHF（DPO、SimPO）的 checkpoint 上，结论一模一样——这套「保谱、绕主成分、低幅值偏好」的 RL 签名，超出了 verifiable math/code 的范畴，是任何 KL-anchored RL 都共享的指纹。

05 / 实战启示

SFT 时代的 PEFT 套路，到 RL 这里基本不灵

理论好不好，不只是要解释现象，还得能指导设计。作者拿着 Three-Gate 给的「RL 偏好低幅值、非主成分」预测，设计了两个 case study：稀疏 fine-tune 选哪些权重去改、LoRA 该不该 align 到主成分。

5.1 稀疏 fine-tune：哪些权重该「冻起来」？

作者从底座直接造 5 种 mask，去跑 RL，看哪种最贴合稠密 RL 的 KL 轨迹和最终精度。结果干净利落地分出了三个等级。

Mask 设计

参数比例

追上稠密 RL 的程度

判定

low-magnitude ∪ non-principalsafe mask（论文推荐）

~70%

最佳

non-principal onlycomplementary subspace

50%

较好

low-magnitude only更新最易动的位置

~60%

较好

同密度 random mask对照

~70%

一般

principal onlySFT 派的偏好

50%

最差

只更新 principal 权重的 mask，KL 漂移最慢、精度最差——这正是过去 SFT 派 PEFT 方法（principal-targeted sparse FT）会优先选的位置。理论预测和实验完全对得上。

5.2 LoRA vs PiSSA：alignment 到主成分会怎样？

最近有报告（Schulman 实验室）说 RL 用 rank-1 LoRA 都能追上全参，并暗示 PiSSA 这种「显式对准 top-r 主成分」的 LoRA 变体应该会更好。论文用 Three-Gate 给出截然相反的预测，并实测验证。

前置概念 · What is PiSSA

先看清楚 PiSSA 到底「targeted」在哪

LoRA 和 PiSSA 共享同一套 forward 形式 W = W₀ + B·A，唯一的差别只在「A、B 怎么初始化」。而初始化决定了那条 r 维训练子空间会落在权重空间的哪个角落 —— 这正是后面所有讨论的起点。

LoRA · 随机初始化

W₀ frozen B = 0, A ~ Gaussian 初始 B·A = 0 ⇒ forward(W) = W₀

A、B 的更新方向起点随机，没有任何预设几何 —— 自然落在 off-principal 子空间。

PiSSA · 主成分初始化

W₀ = U Σ Vᵀ (full SVD) B = U_r √Σ_r, A = √Σ_r V_rᵀ W_res = W₀ − U_r Σ_r V_rᵀ frozen 初始 B·A = U_r Σ_r V_rᵀ ⇒ forward(W) = W₀

A、B 一开始就是 W₀ 的 top-r 主成分，整个秩-r 训练子空间被锁死在「主成分」上。SFT 派认为这是优势 —— 直接动「最重要」的方向。

↪ 回到 Three-Gate Theory Gate II 已经告诉我们：RL 把 KL 拴住的小步天然推向「非主成分」方向。PiSSA 反过来把整个秩-r 训练子空间钉在主成分上，等于和 RL 的隐形指南针对着干 —— 这就是它在 RL 实验里没收益、调高学习率反而更早崩溃的根本原因。

LoRA · 普通版稳

初始化随机，更新天然不对准主成分。基础权重被冻住，进一步把搜索空间压在「off-principal」邻域。低秩容量虽小，但方向天然契合 RL 的偏置。

为什么稳：更新方向和 RL 的天然偏置同一个方向，不会触碰高曲率区。

PiSSA · principal-targeted LoRA 易崩

显式用 top-r SVD 初始化 adapter，强制把更新方向钉到主成分上。本质上是「SFT 时代的最佳实践」。在 DS-Qwen-1.5B 和 LLaMA-3.2-3B 上都没看到收益，且学习率一调高就早期崩溃。

为什么崩：把更新硬推到 RL 想绕开的主成分方向，等于和 RL 的隐形指南针对着干。

一句话：LoRA 在 RL 里好用是因为它不去碰主成分，不是因为它低秩。所以「让 LoRA 更好」≠「让它更对齐主成分」，反而是反方向。

06 / 一句话总结

从「黑箱观察」到「白箱机制」

RL 的稀疏不是真稀疏，是定向偏置 × 精度滤镜

同一个底座下，不同算法、不同数据的 RL run 都把更新落到同一组位置上（Jaccard ≈ 0.58），bf16 把不偏好区域的微更新抹平为零，于是看起来稀疏。

三道闸门 = KL 拴绳 → 几何转向 → 精度过滤

第一道把每步幅度框住、第二道用预训练模型的谱几何把方向掰向低曲率子空间、第三道把残余抹平。三道一起解释了为什么 RL 会绕开主成分。

RL 和 SFT 是两个不同的优化 regime

RL 保谱、避主成分；SFT 改谱、命中主成分。所以单靠任务精度对齐不能掩盖参数空间的根本差异——这两件事在权重里走的是两条完全不同的小路。

SFT 时代的 PEFT 该重新设计了

principal-targeted sparse FT、PiSSA 一类变体在 RL 上要么没收益、要么崩溃。RL 需要专门面向 off-principal、低幅值、保谱方向的 PEFT，这是开放的算法空间。

RL 看似只动一点点参数，其实是被「定向偏置」悄悄绕路了

SFT 改一片，RL 改一撮——为什么 RL 反而更「省」？

跟着老师指的路走，就算翻山也走

没有老师，但有一只「隐形指南针」绕开高山

稀疏只是壳，里头是「跨次实验位置惊人一致」的偏置

RLVR 更新位置（5 次 run 共识图）

独立 Bernoulli 基线（同密度随机散点）

Three-Gate Theory：把同一个梯度按顺序过三道筛子

三条证据把这个理论钉死

谱几何被保住了

更新位置和主成分反相关

因果干预：把几何打乱，偏置就消失

SFT 时代的 PEFT 套路，到 RL 这里基本不灵

5.1 稀疏 fine-tune：哪些权重该「冻起来」？

5.2 LoRA vs PiSSA：alignment 到主成分会怎样？

先看清楚 PiSSA 到底「targeted」在哪

LoRA · 普通版 稳

PiSSA · principal-targeted LoRA 易崩

从「黑箱观察」到「白箱机制」

RL 的稀疏不是真稀疏，是定向偏置 × 精度滤镜

三道闸门 = KL 拴绳 → 几何转向 → 精度过滤

RL 和 SFT 是两个不同的优化 regime

SFT 时代的 PEFT 该重新设计了

RL 看似只动一点点参数，
其实是被「定向偏置」悄悄绕路了

LoRA · 普通版稳