arXiv preprint 2026.05 RLVR Exploration

NudgeRL:用策略引导探索突破 RLVR 的长尾瓶颈

Chanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang · KAIST

原文 ↗ arXiv:2605.15726
TL;DR

RLVR 训练语言模型推理时,模型倾向于反复采样少数主流推理路径,忽略那些概率低但正确的长尾策略。

NudgeRL 的解法很简单:训练时在 prompt 后面附加一个轻量的「策略提示」(如「试试用生成函数」),强迫模型沿不同推理路径生成 rollout。再通过分组 advantage 估计和蒸馏,把探索到的好路径迁移回无提示的基础策略。

效果:用 8 条 rollout 就能匹敌 GRPO 用 64 条 rollout 的表现,同时超越使用 oracle 提示的方案。

为什么需要这篇论文

RLVR(带可验证奖励的强化学习)训练大模型做数学推理时,核心循环是:对一道题采样若干条推理路径(rollout),用答案对错作为奖励信号更新模型。

问题在于:模型会反复采样它已经「会」的推理模式。对一道几何题,如果模型习惯用坐标法,它采 64 次大概率还是坐标法的变体——虽然用三角恒等式也能解,但这条路径概率太低,几乎永远采不到。

探索瓶颈的数学本质

更直观地看,RLVR 不是在整张策略分布上均匀训练,而是只在本轮 rollout 实际采到的区域上更新。这就是 on-policy 的好处,也是长尾探索的瓶颈。

π(trajectory | x₀) · 当前策略分布 推理路径 / token 区域 π after update on-policy · 本轮采到了 Upos,2 正确但没采到的 概率质量 绿色点:采样正确 棕色点:采样错误 正确样本 ↑ 错误样本 ↓ 本轮没有梯度
读图方式:灰色曲线是模型当前会走的推理路径分布。RLVR 只能根据采到的 rollout 更新,所以左侧高概率的 on-policy 区域会被调整;右侧小山头虽然也是正确解法,但概率太低,本轮没有采到,因此不会得到正向训练。
已采样正确奖励为正,概率被往上推,是直接的学习信号。
已采样错误奖励为低,概率被往下压,间接让采样区域里的正确路径更突出。
Upos,2正确但没采到的概率质量;它在 off-policy 长尾里,本轮没有被正向训练到。

所以 BroRL 中的 ΔQpos 可以理解成:on-policy 区域里采到的正确样本和错误样本会推动分布变好,但 Upos,2 代表的 off-policy 正确质量没有进入训练信号,甚至可能被 baseline 间接挤压。核心瓶颈:模型知道正确答案,但采不到它们。

发现概率为 π(y|x₀) 的稀有轨迹所需期望 rollout 数 = 1 / π(y|x₀)

如果一条正确路径的概率是 0.01,平均要采 100 次才能发现一次。堆 rollout 数虽然能缓解,但对长尾轨迹效率极低——这就是为什么需要「结构化探索」而非简单堆量

已有方案做了什么、卡在哪

围绕 RLVR 探索瓶颈,已有两条路线:

路线一:堆 rollout 数量(GRPO 扩展)
增大 N 来覆盖更多路径,计算成本线性增长但收益递减

做法:GRPO 对每个 prompt 采样 N 条 rollout,用组内奖励均值和方差做归一化 advantage,然后用 PPO-style 的 clipped 目标优化。增大 N 就能多覆盖一些路径。

优势公式:Âi = (ri - μ) / (σ + δ),其中 μ 和 σ 是同组 rollout 的奖励均值和标准差。

卡在哪:BroRL 把未采样区域的二阶矩写成 Σ pi²(1-pi)N。N 变大确实会让它单调下降,但下降速度由 pi 决定:越长尾的正确轨迹,越难靠堆 rollout 覆盖。

公式怎么来的:它衡量「概率为 pi 的轨迹在 N 次采样后仍没被看到」的期望贡献。

先不用急着看推导,直接看曲线。横轴是 rollout 数 N,纵轴是「这条路径到现在还一次都没被采到」的概率,也就是 (1-pi)N

仍没采到的概率 (1-pᵢ)ᴺ rollout 数 N 0 25% 50% 75% 100% 0 64 100 200 N = 64 pᵢ = 0.1:很快采到 pᵢ = 0.01:64 次后还剩约 53% pᵢ = 0.001:64 次后仍约 94% 没采到
读图重点:不是所有曲线都慢。pi=0.1 的路径很快被覆盖;真正慢的是 pi=0.001 这种长尾路径,N=64 只让「没采到概率」从 100% 降到约 94%。

公式里的 (1-pi)N 就是上图的纵轴。BroRL 还要衡量这条路径在 softmax 更新里的影响大小,所以给它乘上 pi²;对所有候选路径求和,就得到 Σ pi²(1-pi)N

直觉:堆 N 主要覆盖中等概率路径;对 pi 极小的长尾正确轨迹,计算成本线性增长,但未探索质量下降很慢。这就是为什么 NudgeRL 要用策略提示把采样分布主动推向这些低概率正确区域,而不是只增加 rollout 数。

路线二:Oracle 引导探索(POPE 等)
用标准答案前缀引导模型生成正确路径,代价是需要昂贵的特权信息

做法:POPE(Privileged On-Policy Exploration)把已知的正确解的前几步作为 prefix 拼接到 prompt 后面,引导模型更容易采到正确 rollout。类似的还有 BREAD(从 expert 解出发做分支 rollout)。

卡在哪

  • 依赖 oracle 数据:需要每道题的标准解,获取成本高、难以规模化
  • 多样性受限:引导策略指向预定义的成功路径,反而可能压缩了探索空间——模型学到的只是 oracle 指明的那条路
  • 可行性导向而非多样性导向:目标是「让模型能解出来」,不是「让模型发现多种解法」
堆 rollout 数
  • 不需要额外数据
  • 对长尾无效
  • 计算开销大
Oracle 引导
  • 能解出难题
  • 依赖昂贵标注
  • 多样性不足

NudgeRL 想要的是:不用 oracle 数据,用比堆 rollout 少得多的计算量,同时获得真正多样化的推理路径探索。

NudgeRL 的做法

NudgeRL 由三个模块组成,解决三个递进问题:

  1. Strategy Nudging——怎么让模型探索不同的推理路径?
  2. Inter-Intra Group Advantage——不同策略下的 rollout 怎么公平地算 advantage?
  3. 蒸馏目标——训练时用了策略提示,推理时不用提示怎么办?

模块一:Strategy Nudging——用策略提示激活不同推理模式

核心直觉很简单:如果在 prompt 后面加一句「试试用勾股定理」,模型生成的 rollout 就会倾向于用勾股定理的思路;加「试试用面积法」,就会走另一条路。不需要告诉它答案,只需要一个方向性的 nudge。

具体做法:

Strategy Nudging 过程演示
数学题 x₀
+
策略:生成函数
rollout₁
rollout₂
rollout₃
点击「下一步」查看 Strategy Nudging 如何工作
Strategy Nudging 带来的探索多样性提升

Strategy Nudging 如何改善探索多样性:(a) 朴素采样反复采到相同推理模式;(b) NudgeRL 通过策略提示强制模型走不同路径;(c) 定量对比显示策略提示显著增加了不同推理结构的数量。

展开说明 ▸
  • 左 (a):传统 GRPO 对同一道题采样 8 条 rollout,由于都从同一个 prompt 采样,大部分路径落入同一种推理模式(如反复用代数消元),覆盖面窄。
  • 中 (b):NudgeRL 为不同 rollout 分配不同的策略提示,迫使模型尝试多种推理路径(坐标法、三角法、向量法……),覆盖更多推理空间。
  • 右 (c):实验对比——对 4 条 rollout 用 2 个策略 vs 从基础 prompt 采 8 条,用 LLM 判断推理结构的数量。Strategy Nudging 在多数题目上发现了更多不同的推理方式。
  • 一句话:策略提示是一种输入层面的多样性注入,比温度调节或熵正则更有语义方向性。
关键洞察:策略提示不需要「正确」——它只需要把采样分布往不同方向推。即使一个策略提示在某道题上成功率很低,它仍然有价值,因为它帮助模型探索了不同的推理空间。

模块二:Inter-Intra Group Advantage——跨策略的信用分配

用策略提示后,rollout 自然按策略分组。但标准 GRPO 的 advantage 估计假设所有 rollout 来自同一个分布——现在不同组的 rollout 来自不同条件分布,直接混在一起算均值和方差会出问题。

NudgeRL 的解法是把 advantage 分解为组内组间两个分量:

Âi = (1 - λ/2) · [组内归一化] + (λ/2) · [组间归一化]

论文证明了一个重要性质(Proposition 3.1):只要 λ ∈ [0, 2],advantage 的一致性就能保证——奖励更高的 rollout 永远获得更高的 advantage,不会出现「答对了反而被惩罚」的反常情况。

模块三:蒸馏目标——弥合训练与推理的 gap

训练时用了策略提示,推理时不能加提示(用户只给一道题)。如果只优化 π(y|x₀, c) 而不管 π(y|x₀),探索到的好路径可能无法转移到无提示的基础策略。

蒸馏目标直接解决这一问题:

LDistill = -E[ Â · log πθ(y | x₀) ]

含义:对探索到的高 advantage 轨迹 y(在 x₀ + 策略提示下采到的),用无提示的 prompt x₀ 重新计算其对数概率,然后用 advantage 加权做梯度上升。这相当于把「提示下发现的好路径」蒸馏回基础策略。

最终训练目标是两者加权:

LNudgeRL = LRL + λdistill · LDistill

把三个模块连起来看

到这里再看论文的总览图就清楚了:左边是在解决「不同策略下的 rollout 怎么分配信用」,右边是在解决「训练时靠提示发现的好路径,怎么迁移到无提示推理」。

NudgeRL 学习机制概览

NudgeRL 学习机制概览:左侧展示 Inter-Intra Group Advantage 的信用分配逻辑,右侧展示蒸馏如何弥合训练-推理的 gap。

展开说明 ▸
  • 左半 (a) Inter-Intra Group Advantage:两个策略(A 和 B)各产生若干 rollout。策略 B 整体成功率更高,因此来自 B 的成功 rollout 获得更大的正 advantage——鼓励模型多利用「靠谱」策略,同时不放弃低成功率策略偶尔的成功发现。
  • 右半 (b) Self-Distillation:模型在「问题 + 策略提示」条件下发现了高质量 rollout,蒸馏目标让这些好轨迹的概率在「只看问题」条件下也提升——实现无提示推理时也能复用探索到的推理路径。
  • 关键连线:策略提示仅在训练阶段存在(探索 → 发现好路径 → 蒸馏回基础策略),推理时完全不需要外部提示。
  • 设计意图:将「多样化探索」和「推理时的简洁性」解耦——训练时用提示强制多样性,推理时靠蒸馏内化结果。

有意思的发现

随机采样 > 精心挑选策略

直觉上你可能觉得应该挑「跟正确解最相关的」策略做提示。但实验显示:从策略池中均匀随机采样的效果优于 oracle 排序后只用高质量策略。

原因:如果只用「最靠谱」的策略,反而限制了探索多样性——跟 POPE 的问题如出一辙。随机采样保证了策略空间的覆盖度,偶尔的「不靠谱」策略可能帮模型发现意想不到的解法。

Context Dropout = 0.5 最优

pdrop = 0.5 意味着一半 rollout 有策略提示、一半没有。这个比例平衡了:

探索效率公式的直觉

如果策略提示 c 能把某条正确路径的概率从 π(y|x₀) = 0.001 提高到 π(y|x₀, c) = 0.1,那发现它所需的 rollout 数从 1000 降到 10。策略提示不需要给出答案——它只需要「推一把」让概率分布偏移。这就是论文标题「Nudging Beyond the Comfort Zone」的含义。

实验结论

8x
更少的 rollout 就能匹敌 GRPO
0.489
Qwen3-4B 平均 pass@1
(GRPO-32 为 0.487)
> POPE
超越 oracle 引导方案
(不依赖标准答案)

在五个数学 benchmark(AIME24/25、AMC23、MATH500、Apex Shortlist)上,NudgeRL 只用 8 条 rollout 的表现就超过 GRPO 用 64 条 rollout。用同样 8 条 rollout 对比,NudgeRL 也优于使用 oracle 前缀的 POPE 方法。

具体数字对比(Qwen3-4B-Instruct,pass@1)

GRPO-8(基线 8 rollout):作为底线

GRPO-32(堆 4 倍量):平均 0.487

POPE-8(oracle 引导):略低于 NudgeRL

NudgeRL-8(本文方法):0.489,以 8 rollout 超越 GRPO-32 的 32 rollout

在 OLMo3-7B-Instruct 上也观察到类似趋势:NudgeRL 达到 0.285 vs GRPO-32 的 0.281。

论文提到的局限性:策略池的生成目前依赖 LLM(用 GPT-4o-mini 对每道题生成候选策略),未来可以探索更自动化或自适应的策略池维护机制。