NudgeRL：策略引导的探索如何突破 RLVR 的瓶颈

TL;DR

RLVR 训练语言模型推理时，模型倾向于反复采样少数主流推理路径，忽略那些概率低但正确的长尾策略。

NudgeRL 的解法很简单：训练时在 prompt 后面附加一个轻量的「策略提示」（如「试试用生成函数」），强迫模型沿不同推理路径生成 rollout。再通过分组 advantage 估计和蒸馏，把探索到的好路径迁移回无提示的基础策略。

效果：用 8 条 rollout 就能匹敌 GRPO 用 64 条 rollout 的表现，同时超越使用 oracle 提示的方案。

为什么需要这篇论文

用 RLVR（带可验证奖励的强化学习）训练大模型做数学推理时，核心循环是：对一道题采样若干条推理路径（rollout），用答案对错作为奖励信号更新模型。

问题在于：模型会反复采样它已经「会」的推理模式。对一道几何题，如果模型习惯用坐标法，它采 64 次大概率还是坐标法的变体——虽然用三角恒等式也能解，但这条路径概率太低，几乎永远采不到。

探索瓶颈的数学本质

更直观地看，RLVR 不是在整张策略分布上均匀训练，而是只在本轮 rollout 实际采到的区域上更新。这就是 on-policy 的好处，也是长尾探索的瓶颈。

读图方式：灰色曲线是模型当前会走的推理路径分布。RLVR 只能根据采到的 rollout 更新，所以左侧高概率的 on-policy 区域会被调整；右侧小山头虽然也是正确解法，但概率太低，本轮没有采到，因此不会得到正向训练。

已采样正确奖励为正，概率被往上推，是直接的学习信号。

已采样错误奖励为低，概率被往下压，间接让采样区域里的正确路径更突出。

U_pos,2正确但没采到的概率质量；它在 off-policy 长尾里，本轮没有被正向训练到。

所以 BroRL 中的 ΔQ_pos 可以理解成：on-policy 区域里采到的正确样本和错误样本会推动分布变好，但 U_pos,2 代表的 off-policy 正确质量没有进入训练信号，甚至可能被 baseline 间接挤压。核心瓶颈：模型知道正确答案，但采不到它们。

发现概率为 π(y|x₀) 的稀有轨迹所需期望 rollout 数 = 1 / π(y|x₀)

如果一条正确路径的概率是 0.01，平均要采 100 次才能发现一次。堆 rollout 数虽然能缓解，但对长尾轨迹效率极低——这就是为什么需要「结构化探索」而非简单堆量。

已有方案做了什么、卡在哪

围绕 RLVR 探索瓶颈，已有两条路线：

▶

路线一：堆 rollout 数量（GRPO 扩展）

增大 N 来覆盖更多路径，计算成本线性增长但收益递减

做法：GRPO 对每个 prompt 采样 N 条 rollout，用组内奖励均值和方差做归一化 advantage，然后用 PPO-style 的 clipped 目标优化。增大 N 就能多覆盖一些路径。

优势公式：Â_i = (r_i - μ) / (σ + δ)，其中 μ 和 σ 是同组 rollout 的奖励均值和标准差。

卡在哪：BroRL 把未采样区域的二阶矩写成 Σ p_i²(1-p_i)^N。N 变大确实会让它单调下降，但下降速度由 p_i 决定：越长尾的正确轨迹，越难靠堆 rollout 覆盖。

公式怎么来的：它衡量「概率为 p_i 的轨迹在 N 次采样后仍没被看到」的期望贡献。

先不用急着看推导，直接看曲线。横轴是 rollout 数 N，纵轴是「这条路径到现在还一次都没被采到」的概率，也就是 (1-p_i)^N。

读图重点：不是所有曲线都慢。p_i=0.1 的路径很快被覆盖；真正慢的是 p_i=0.001 这种长尾路径，N=64 只让「没采到概率」从 100% 降到约 94%。

公式里的 (1-p_i)^N 就是上图的纵轴。BroRL 还要衡量这条路径在 softmax 更新里的影响大小，所以给它乘上 p_i²；对所有候选路径求和，就得到 Σ p_i²(1-p_i)^N。

直觉：堆 N 主要覆盖中等概率路径；对 p_i 极小的长尾正确轨迹，计算成本线性增长，但未探索质量下降很慢。这就是为什么 NudgeRL 要用策略提示把采样分布主动推向这些低概率正确区域，而不是只增加 rollout 数。

▶

路线二：Oracle 引导探索（POPE 等）

用标准答案前缀引导模型生成正确路径，代价是需要昂贵的特权信息

做法：POPE（Privileged On-Policy Exploration）把已知的正确解的前几步作为 prefix 拼接到 prompt 后面，引导模型更容易采到正确 rollout。类似的还有 BREAD（从 expert 解出发做分支 rollout）。

卡在哪：

依赖 oracle 数据：需要每道题的标准解，获取成本高、难以规模化
多样性受限：引导策略指向预定义的成功路径，反而可能压缩了探索空间——模型学到的只是 oracle 指明的那条路
可行性导向而非多样性导向：目标是「让模型能解出来」，不是「让模型发现多种解法」

堆 rollout 数

不需要额外数据
对长尾无效
计算开销大

Oracle 引导

能解出难题
依赖昂贵标注
多样性不足

NudgeRL 想要的是：不用 oracle 数据，用比堆 rollout 少得多的计算量，同时获得真正多样化的推理路径探索。

NudgeRL 的做法

NudgeRL 由三个模块组成，解决三个递进问题：

Strategy Nudging——怎么让模型探索不同的推理路径？
Inter-Intra Group Advantage——不同策略下的 rollout 怎么公平地算 advantage？
蒸馏目标——训练时用了策略提示，推理时不用提示怎么办？

模块一：Strategy Nudging——用策略提示激活不同推理模式

核心直觉很简单：如果在 prompt 后面加一句「试试用勾股定理」，模型生成的 rollout 就会倾向于用勾股定理的思路；加「试试用面积法」，就会走另一条路。不需要告诉它答案，只需要一个方向性的 nudge。

具体做法：

对每道题 x₀ 维护一个策略池 C(x₀) = {c₁, c₂, ..., c_M}（M 个策略提示，如「数学归纳法」「生成函数」「坐标几何」等）
每条 rollout 从池中均匀随机采一个策略 c⁽ⁱ⁾
以概率 p_drop 丢弃该策略（context dropout），保持与原始 prompt 的兼容性
最终 prompt 为 x₁⁽ⁱ⁾ = (x₀, z⁽ⁱ⁾)，其中 z⁽ⁱ⁾ = c⁽ⁱ⁾（保留时）或 ∅（丢弃时）

Strategy Nudging 过程演示

数学题 x₀

策略：生成函数

→

rollout₁

rollout₂

rollout₃

点击「下一步」查看 Strategy Nudging 如何工作

Strategy Nudging 如何改善探索多样性：(a) 朴素采样反复采到相同推理模式；(b) NudgeRL 通过策略提示强制模型走不同路径；(c) 定量对比显示策略提示显著增加了不同推理结构的数量。

展开说明 ▸

左 (a)：传统 GRPO 对同一道题采样 8 条 rollout，由于都从同一个 prompt 采样，大部分路径落入同一种推理模式（如反复用代数消元），覆盖面窄。
中 (b)：NudgeRL 为不同 rollout 分配不同的策略提示，迫使模型尝试多种推理路径（坐标法、三角法、向量法……），覆盖更多推理空间。
右 (c)：实验对比——对 4 条 rollout 用 2 个策略 vs 从基础 prompt 采 8 条，用 LLM 判断推理结构的数量。Strategy Nudging 在多数题目上发现了更多不同的推理方式。
一句话：策略提示是一种输入层面的多样性注入，比温度调节或熵正则更有语义方向性。

关键洞察：策略提示不需要「正确」——它只需要把采样分布往不同方向推。即使一个策略提示在某道题上成功率很低，它仍然有价值，因为它帮助模型探索了不同的推理空间。

模块二：Inter-Intra Group Advantage——跨策略的信用分配

用策略提示后，rollout 自然按策略分组。但标准 GRPO 的 advantage 估计假设所有 rollout 来自同一个分布——现在不同组的 rollout 来自不同条件分布，直接混在一起算均值和方差会出问题。

NudgeRL 的解法是把 advantage 分解为组内和组间两个分量：

Â_i = (1 - λ/2) · [组内归一化] + (λ/2) · [组间归一化]

组内信号（Intra）：在同一策略下的 rollout 之间比较——这条路径相对于「同策略同学」表现如何？
组间信号（Inter）：跨策略比较整体成功率——这个策略整体上比其他策略更靠谱吗？
λ 控制平衡：λ ∈ [0, 2]。λ > 1 时更信任高成功率策略（exploit），λ < 1 时更鼓励低成功率策略的偶然成功（explore）。实验最优值 λ ≈ 1.1。

论文证明了一个重要性质（Proposition 3.1）：只要 λ ∈ [0, 2]，advantage 的一致性就能保证——奖励更高的 rollout 永远获得更高的 advantage，不会出现「答对了反而被惩罚」的反常情况。

模块三：蒸馏目标——弥合训练与推理的 gap

训练时用了策略提示，推理时不能加提示（用户只给一道题）。如果只优化 π(y|x₀, c) 而不管 π(y|x₀)，探索到的好路径可能无法转移到无提示的基础策略。

蒸馏目标直接解决这一问题：

L_Distill = -E[ Â · log π_θ(y | x₀) ]

含义：对探索到的高 advantage 轨迹 y（在 x₀ + 策略提示下采到的），用无提示的 prompt x₀ 重新计算其对数概率，然后用 advantage 加权做梯度上升。这相当于把「提示下发现的好路径」蒸馏回基础策略。

最终训练目标是两者加权：

L_NudgeRL = L_RL + λ_distill · L_Distill

L_RL：标准的 PPO-style clipped 目标（在策略提示条件下优化）
L_Distill：把好轨迹转移到基础策略
λ_distill：蒸馏权重

把三个模块连起来看

到这里再看论文的总览图就清楚了：左边是在解决「不同策略下的 rollout 怎么分配信用」，右边是在解决「训练时靠提示发现的好路径，怎么迁移到无提示推理」。

NudgeRL 学习机制概览：左侧展示 Inter-Intra Group Advantage 的信用分配逻辑，右侧展示蒸馏如何弥合训练-推理的 gap。

展开说明 ▸

左半 (a) Inter-Intra Group Advantage：两个策略（A 和 B）各产生若干 rollout。策略 B 整体成功率更高，因此来自 B 的成功 rollout 获得更大的正 advantage——鼓励模型多利用「靠谱」策略，同时不放弃低成功率策略偶尔的成功发现。
右半 (b) Self-Distillation：模型在「问题 + 策略提示」条件下发现了高质量 rollout，蒸馏目标让这些好轨迹的概率在「只看问题」条件下也提升——实现无提示推理时也能复用探索到的推理路径。
关键连线：策略提示仅在训练阶段存在（探索 → 发现好路径 → 蒸馏回基础策略），推理时完全不需要外部提示。
设计意图：将「多样化探索」和「推理时的简洁性」解耦——训练时用提示强制多样性，推理时靠蒸馏内化结果。

有意思的发现

随机采样 > 精心挑选策略

直觉上你可能觉得应该挑「跟正确解最相关的」策略做提示。但实验显示：从策略池中均匀随机采样的效果优于 oracle 排序后只用高质量策略。

原因：如果只用「最靠谱」的策略，反而限制了探索多样性——跟 POPE 的问题如出一辙。随机采样保证了策略空间的覆盖度，偶尔的「不靠谱」策略可能帮模型发现意想不到的解法。

Context Dropout = 0.5 最优

p_drop = 0.5 意味着一半 rollout 有策略提示、一半没有。这个比例平衡了：

太低（drop 少）→ 蒸馏时基础策略看到的无提示 rollout 不够
太高（drop 多）→ 策略提示带来的多样性优势被稀释

探索效率公式的直觉

如果策略提示 c 能把某条正确路径的概率从 π(y|x₀) = 0.001 提高到 π(y|x₀, c) = 0.1，那发现它所需的 rollout 数从 1000 降到 10。策略提示不需要给出答案——它只需要「推一把」让概率分布偏移。这就是论文标题「Nudging Beyond the Comfort Zone」的含义。

实验结论

更少的 rollout 就能匹敌 GRPO

0.489

Qwen3-4B 平均 pass@1
(GRPO-32 为 0.487)

> POPE

超越 oracle 引导方案
（不依赖标准答案）

在五个数学 benchmark（AIME24/25、AMC23、MATH500、Apex Shortlist）上，NudgeRL 只用 8 条 rollout 的表现就超过 GRPO 用 64 条 rollout。用同样 8 条 rollout 对比，NudgeRL 也优于使用 oracle 前缀的 POPE 方法。

具体数字对比（Qwen3-4B-Instruct，pass@1）

GRPO-8（基线 8 rollout）：作为底线

GRPO-32（堆 4 倍量）：平均 0.487

POPE-8（oracle 引导）：略低于 NudgeRL

NudgeRL-8（本文方法）：0.489，以 8 rollout 超越 GRPO-32 的 32 rollout

在 OLMo3-7B-Instruct 上也观察到类似趋势：NudgeRL 达到 0.285 vs GRPO-32 的 0.281。

论文提到的局限性：策略池的生成目前依赖 LLM（用 GPT-4o-mini 对每道题生成候选策略），未来可以探索更自动化或自适应的策略池维护机制。