他们的“研究”功能通过多个 Claude 智能体协作,更高效地探索复杂主题。他们在构建该系统过程中遇到的工程挑战和所汲取的经验将在此分享。
Claude 现具备研究能力,能够跨网络、Google Workspace 及其他集成工具进行搜索,以完成复杂任务。
从原型到生产,他们在多智能体系统的建设历程中学到了系统架构、工具设计与提示工程方面的重要经验。多智能体系统由多个智能体(LLM 自主循环使用工具)协作完成任务。他们的研究功能由一个负责规划研究流程的主智能体触发,根据用户查询生成多个并行子智能体去搜索信息,而多智能体系统给智能体协调、评估与可靠性带来了新的挑战。
本文将拆解他们验证有效的一系列原则,希望对您构建自己的多智能体系统有所启发。
(, 下载次数: 0)
上传
点击文件名下载附件
多智能体系统的优势
研究工作涉及开放式问题,难以预先预测所需步骤。研究过程动态、路径相关,无法用硬编码路径来应对。人类研究时会根据新发现不断调整策略,并追踪出现的新线索。
这种不可预测性使得 AI 智能体在研究任务中尤为适合。研究需要在调查过程中灵活转向或发掘次级关联,模型需要自主在多个回合中判断应追踪哪个方向。线性、一次性的处理流程无法胜任这些需求。
搜索的本质是压缩:从海量语料中提炼见解。子智能体通过并行运行、各自拥有上下文窗口,同时探索问题的不同层面,然后将重要信息摘要回主智能体,实现压缩。每个子智能体还实现了关注点分离——使用不同工具、提示和探索路径,减少路径依赖,使调查更加深入且独立。
当智能体组合的智慧达到临界点,多智能体系统能显著扩张性能。例如,虽然个人智慧在人类历史中有所提升,但信息时代的人类社会依靠集体智慧实现了指数级的能力提升。即使是通用智能智能体,作为个体运作能力有限,而一组智能体协作则能实现更高成就。
(, 下载次数: 0)
上传
点击文件名下载附件
内部评估显示,多智能体研究系统在涉及多个方向同时探索的“广度优先”查询中,表现尤为出色。他们发现,以 Claude Opus 4 作为主智能体、Claude Sonnet 4 担任子智能体的系统,在内部研究评测中,比单一 Claude Opus 4 智能体表现提升了 90.2%。例如,在查询“识别信息技术板块标普 500 公司全部董事会成员”时,多智能体系统将任务分配给子智能体并行搜索,成功找到答案,而单智能体系统则因必须逐步串行搜索而失败。
多智能体系统能高效执行任务,部分因为它能消耗足够多的 tokens。在 BrowseComp 评测中(测试智能体浏览难找信息能力),三大因素解释了 95% 的性能差异:token 使用量(约占 80%)、工具调用次数与模型选择。这个发现印证了他们的架构设计:分散上下文窗口,增强并行推理能力。最新 Claude 模型作为 token 使用效率的乘数,升级到 Claude Sonnet 4 带来的性能提升比将 Sonnet 3.7 的 token 预算翻倍更显著。多智能体架构可以有效扩展 token 使用,适应超出单一智能体处理能力的任务。
不过也有缺点:这种架构消耗 token 较快。数据显示,单次代理使用 token 约为普通对话的 4 倍,多智能体系统的 token 使用量约为普通对话的 15 倍。为了经济可行,必须确保任务价值足以支撑这种性能开销。此外,一些场景并不适合多智能体系统,如强依赖共享上下文或高度相互依赖的任务。以编程任务为例,并行任务少,且 LLM 智能体目前尚未擅长实时协调与委派。因此,多智能体系统更适合那些高度并行化、信息量超过单智能体上下文限额且需要与多种复杂工具接口的研究类任务。 研究系统架构概览
在构建 AI 智能体时,最后一公里往往是最难的。许多在开发环境中可行的代码,需要显著工程改造才能变成稳定可靠的生产系统。智能体系统中错误具累积性,因此传统软件中看似小问题也可能导致系统偏离目标。尽管如此,多智能体系统在开放式研究任务中展现了显著价值。用户反馈表明,Claude 可帮助他们发现意想不到的商业机会、理清复杂医疗选择、解决棘手技术问题,并节省数天工作。借助严谨工程、全面测试、细致提示及工具设计,以及研究、产品、工程团队间紧密协作,多智能体研究系统能可靠地实现规模化。目前,这些系统正逐步改变人们解决复杂问题的方式。