1. 学习主题

我要学习的内容：如何设计一个多 Agent 系统用于研究

我为什么要学它：

我希望达到的程度：

了解基本概念

能向别人讲清楚

能用于面试回答

能写代码/做项目

能深入分析原理

2. 我当前的理解

在正式学习前，我认为它是什么：

编排者-工作者模式，编排者者规划任务，工作者执行任务
需要压缩上下文，工作者只看到和它相关的上下文，协调者看不到工作者的过程上下文内容

我已经知道的相关知识：我目前不清楚的问题：

3. 第一轮学习记录

资料来源：

https://www.anthropic.com/engineering/multi-agent-research-system

书籍 / 博客 / 视频 / 论文 / 官方文档

核心概念提炼：

非多 Agent 系统的问题
- 对于开放性研究问题，无法得出精确的步数，也无法硬编码具体的实现，通常需要边查边改计划
并行搜索
- 搜索的本质是信息压缩，子智能体能够通过并行搜索来提升压缩效率
- 子智能体运行在独立的窗口中，同时研究问题的不同方面，然后将关键的信息提供给主研究智能体
多智能体的代价
- 烧 token 更快，单 agent 会使用 4 倍的 token，多 agent 会使用 15 倍的 token
- 多个 Agent 共享同一份上下文通常不适用于多 Agent 系统，例如代码开发场景
orchestrator-worker （编排者-工作者）架构
- 用户提问后，先由一个 LeadResearcher 分析问题、制定研究策略，然后创建多个 SubAgent 并行搜索不同子问题
- 每个子问题会独立调用搜索工具，边查边思考、边修正方向、最后再把结果返回给主 Agent
- 主 Agent 汇总后，判断信息是否足够，如果不够，就继续排除新的 subAgent 或调整策略
- 最后，系统把结果交给一个 CitationAgent，为报告补上引用位置。
prompt 工程/tool 经验
- 要像 agent 一样思考，在 Console 里面复现 prompt 和 tools，观察 agent 的工作方式
- 教会 orchestrator 如何委派任务，需要提供给 subAgent 详细的指令，包括目标、输出格式、用哪些工具、边界
- 按任务复杂程度控制 effort，Agent 自己不擅长判断改该投入多少资源，需要 prompt 显式指定：简单事实查询，1 个 Agent，3-10 次工具调用；中等任务，2-4 个子 Agent
- 工具描述需要清晰明确
- 让 Agent 帮忙修改 prompt 和 tool 描述。
- 先宽搜，再窄搜，如果一开始就输入特别长、具体的查询，很有可能搜索不到东西
- 把 thinking 过程用起来。主 Agent 用 extended thinking 做规划，子 Agent 在每轮工具调用后用 interleaved thinking 评估结果质量、找缺口、决定下一步。
- 并行 tool calling
评估系统
- 先从一个很小的评估集开始，例如 20 个真实查询
- 然后再用 LLM-as-a-judge 做规模化评估，评分维度：事实正确性、引用准确性、完整性、来源质量、工具使用效率
- 人工评测不可或缺
可靠性
- Agent 有状态，错误会累积，工具调用错误会带偏整个研究路径，所以需要支持 durable execution、checkpoint
- 调试困难，一般需要增加完整的 tracing，监控 agent 的决策模式和交互结构，但是不监控对话内容
- 部署打断，发布新版本不能直接暴力切换，可能会打断运行中的任务，需要用 rainbow deployment，让新旧版本并存
- 同步执行的瓶颈，主 Agent 需要同步等待子 Agent 执行完成。

关键术语：

extended thinking
- Claude 正式回答前，先生成一个 thinking 内容块，用来进行更强的内部推理，然后再生成最终的 text 回答。
interleaved thinking
- Claude 调用工具时，不只是先想一次再连续调工具，而是可以在每次工具调用之间思考

4. 用“小白能听懂的话”解释

假设我要把这个知识讲给一个完全不懂的人听。

一句话解释它是什么：（尽量不用专业术语）

它解决了什么问题：（这个知识存在的原因是什么）

它是怎么工作的：（按步骤写，像讲流程一样）

举一个最简单的例子：（最好是生活化类比 + 技术例子）

如果让我口头讲 1 分钟，我会怎么讲：（直接写成可说出口的话）

5. 找出“讲不清楚”的地方

我在哪些地方卡住了：哪些概念我一解释就变模糊：哪些地方只是“背会了”，但没有真正理解：

6. 回炉补缺

针对卡点，我重新查到的内容：

问题 1：

重新理解：

问题 2：

重新理解：

问题 3：

重新理解：

新的理解和原来有什么不同：（写出修正点）

7. 压缩成自己的知识表达

最终版通俗解释：（要求自己能不用资料直接讲清楚）

最终版技术解释：（适合面试 / 写作 / 项目说明）

核心公式 / 关键流程 / 重点机制：

最容易被问到的问题： 1. 2. 3. 4. 5.

对应回答：

Q1：

Q2：

Q3：

Q4：

Q5：

8. 输出检验

我是否能做到以下几点：

不看资料讲 3 分钟

用大白话解释清楚

解释它为什么出现

解释它和相近概念的区别

举出一个实际应用场景

回答常见追问

写出简单代码 / 例子 / 流程图

如果还不能，卡在哪：

9. 一页总结

主题：

一句话本质：

核心作用：

关键原理： 1. 2. 3.

常见误区：

面试中怎么说最合适：（写成一段完整答题模板）

1. 学习主题#

2. 我当前的理解#

3. 第一轮学习记录#

资料来源：#

核心概念提炼：#

关键术语：#

4. 用“小白能听懂的话”解释#

5. 找出“讲不清楚”的地方#

6. 回炉补缺#

7. 压缩成自己的知识表达#

8. 输出检验#

9. 一页总结#

1. 学习主题

2. 我当前的理解

3. 第一轮学习记录

资料来源：

核心概念提炼：

关键术语：

4. 用“小白能听懂的话”解释

5. 找出“讲不清楚”的地方

6. 回炉补缺

7. 压缩成自己的知识表达

8. 输出检验

9. 一页总结