一个由 Lead Agent 协调、多个 Subagent 并行搜索的系统,如何从原型走向生产? 本页把原文的工程教训浓缩为可交互的可视化学习路径。
多智能体系统通过分发 token 到并行上下文来扩展模型能力, 在广度优先的研究任务上比单 Agent 高 90.2%,但也烧掉 15× 的 tokens。 成败关键不在模型,而在 Prompt 工程、工具设计、可观测性 三件事。 生产化的难点是:错误会级联、Agent 有状态、调试是非确定性的。
研究类任务是 开放式、路径依赖、不可预测 的 —— 你无法硬编码一条固定的探索路径。 多智能体的本质优势是:用并行的独立上下文,把"搜索即压缩"这件事做到极致。
点击「播放」按钮,看一次用户查询如何流经 LeadResearcher → 并行 Subagents → CitationAgent。 注意 Memory 模块:当上下文超过 200K tokens 会被截断,所以计划要持久化。
Prompt 是控制 Agent 行为的主要杠杆。这些原则是 Anthropic 从真实失败模式中提炼出来的 —— 不是规则,而是 启发式(heuristics)。
多智能体的输出是非确定性的 —— 同一个 query,不同路径都可能是"对的"。 所以评估的重点是 "结果是否正确 + 过程是否合理",而不是复核每一步。
20 条用例 > 0 条完美用例
一个 prompt,五项 rubric,0.0–1.0 打分
自动化永远抓不到的边界情况
传统软件里 bug 只会坏一个功能;Agentic 系统里,小变动会级联成大行为差异。
长时间运行,跨多次工具调用维护状态。一个小故障被后续步骤放大,重启代价巨大。
相同 prompt 两次运行轨迹不同。用户说"找不到明显信息",但你看不出哪一步错了。
Agent 是长生命周期状态机,部署时它可能正停在任意步骤。直接替换版本 = 在跑的任务报废。
目前 Lead 同步等待所有 Subagent 完成。一个慢的 Subagent 拖住全局;Lead 无法实时引导 Subagent。
一页决策框:先问清楚三个问题,再决定架构。
很容易被忽略但极有用的工程技巧。
对于会修改持久状态的 Agent,别去逐轮校验每一步决策 —— 那是徒劳。检查它最终达到的状态是否正确。复杂流程就拆成若干离散 checkpoint。
上百轮对话时标准 context window 不够。让 Agent 总结阶段性工作写入外部 memory,逼近上限时用干净 context 启动新 Subagent 承接工作,实现"分布式"的对话连续性。
不要让所有结果都经由 Lead 转交 —— 那是"传话游戏",信息会损耗。让 Subagent 把结构化产出写到外部存储,只把引用传回 Lead,对代码/报告/数据尤其有效。