多轮工具调用 Agent 的 RL 训练有个硬瓶颈:上下文会无限增长,但模型窗口是固定的。几十轮搜索/函数调用后,要么撑爆窗口,要么推理质量崩塌。
这篇论文的核心思想是:把摘要写进 MDP,端到端用 RL 同时学「怎么用工具」和「怎么压缩历史」。当上下文超过阈值 L 时,Agent 自己生成任务相关摘要,把 working context 重置为「初始 prompt + 摘要」,从而用短窗口覆盖长 horizon。
算法实例 SUPO(Summarization augmented Policy Optimization)在 GRPO 基础上,把一次 rollout 拆成多条子轨迹分别算梯度,并共享 rollout 级 advantage。实验显示:同样有效上下文长度下,成功率显著高于 vanilla GRPO;测试时还能把摘要轮数扩到训练时以上,进一步提分。
把 LLM 多轮工具调用建模成 MDP 后做 RL 微调,已经在数学推理、代码、深度搜索等场景取得进展。但长 horizon 任务(几十到上百轮工具调用才出最终答案)面临三重困境:
现有 RL 管线(GRPO、PPO 等)大多在固定上下文窗口内做 rollout,没有显式的上下文管理机制。论文的切入点:把LLM 生成的摘要作为决策过程的一部分,用 RL 端到端优化摘要策略,而非依赖手工规则或离线启发式压缩。
论文把标准多轮工具调用 MDP 记为 MV(基于 ReAct),状态是迄今所有 token 的拼接。在此基础上引入摘要阈值 L 和最大摘要轮数 S,得到 MsumV。
上图对比 vanilla 单轨迹线性增长 vs 摘要增强的多轨迹分段 rollout。每次超阈值后上下文被压缩重置,但整条 rollout 仍共享同一个最终 reward。
展开说明 ▸这是本文的理论核心:一条长 rollout 的 policy gradient 可以分解为 I+1 条子轨迹梯度之和,每条子轨迹都能用现有 GRPO/PPO 基础设施计算。
关键含义:工具策略和摘要策略在同一个 RL 目标下联合优化,不需要单独的摘要 loss。每条子轨迹的「新 prompt」= 初始任务 prompt + 上一轮摘要,可直接接入 VeRL 等现有 RL 框架。
理想策略应学会:哪些信息该保留、如何抽象、哪些细节可以丢弃——全部由任务 reward 驱动,而非人工规则。
SUPO(Summarization augmented Policy Optimization)是 Theorem 3.2 的算法实例,基于 GRPO 风格 policy gradient,加了三个工程关键设计。
下面用 Algorithm 2 走一遍:Agent 在 CodeGym 风格任务中多轮调用函数,上下文超限时触发摘要并重置。
实现上有一个与理论建模的细微差异:检测到超阈值后,丢弃最后一轮 action-observation 对再进入摘要。这样可避免 tool observation 过长导致摘要本身被截断,使实际 RL 训练窗口 LRL ≈ 阈值 L。
两个 benchmark:CodeGym(合成多轮函数调用,12800 训练 / 128 评测)和 BrowseComp-Plus(搜索任务,730 训练 / 100 评测)。奖励均为 RLVR 式可验证 0/1。
| 任务 / 算法 | 工作窗口 | 有效长度 | 训练后准确率 | vs GRPO |
|---|---|---|---|---|
| CodeGym · GRPO | 32K | 32K | 44.5% | — |
| CodeGym · SUPO | 4K | 32K (4K×8) | 47.7% | +3.2% |
| BrowseComp · GRPO | 64K | 64K | 39.0% | — |
| BrowseComp · SUPO | 64K | 192K (64K×3) | 53.0% | +14.0% |
关键发现:
训练前后对比同一任务的摘要输出,Agent 学会了保留任务关键状态而非泛泛计数:
训练时 BrowseComp-Plus 设 S=2(最多 3 条轨迹),测试时把 S 扩到 23,准确率从 53% 升到 60%。说明学到的摘要策略具有泛化性——不必在训练时就覆盖最大 horizon。
去掉 overlong mask 后,训练动态出现摘要模式崩塌:越来越多 rollout 在单条轨迹内就结束(不触发摘要),条件成功率也降到 0。原因是没答完的 rollout 如果仍贡献梯度,会惩罚「摘要做得好但稍慢」的策略,迫使模型走捷径。
论文把这套框架定位为更一般 agentic workflow 的特例——未来可扩展到多 Agent、更复杂的 context management 和 test-time scaling pipeline。