AI创想

标题: Claude如何构建多智能体研究系统 [打印本页]

作者: 创想小编    时间: 2026-1-6 07:37
标题: Claude如何构建多智能体研究系统
作者:CSDN博客
  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
(, 下载次数: 0)


他们的“研究”功能通过多个 Claude 智能体协作,更高效地探索复杂主题。他们在构建该系统过程中遇到的工程挑战和所汲取的经验将在此分享。
Claude 现具备研究能力,能够跨网络、Google Workspace 及其他集成工具进行搜索,以完成复杂任务。
从原型到生产,他们在多智能体系统的建设历程中学到了系统架构、工具设计与提示工程方面的重要经验。多智能体系统由多个智能体(LLM 自主循环使用工具)协作完成任务。他们的研究功能由一个负责规划研究流程的主智能体触发,根据用户查询生成多个并行子智能体去搜索信息,而多智能体系统给智能体协调、评估与可靠性带来了新的挑战。
本文将拆解他们验证有效的一系列原则,希望对您构建自己的多智能体系统有所启发。
(, 下载次数: 0)



多智能体系统的优势

研究工作涉及开放式问题,难以预先预测所需步骤。研究过程动态、路径相关,无法用硬编码路径来应对。人类研究时会根据新发现不断调整策略,并追踪出现的新线索。
这种不可预测性使得 AI 智能体在研究任务中尤为适合。研究需要在调查过程中灵活转向或发掘次级关联,模型需要自主在多个回合中判断应追踪哪个方向。线性、一次性的处理流程无法胜任这些需求。
搜索的本质是压缩:从海量语料中提炼见解。子智能体通过并行运行、各自拥有上下文窗口,同时探索问题的不同层面,然后将重要信息摘要回主智能体,实现压缩。每个子智能体还实现了关注点分离——使用不同工具、提示和探索路径,减少路径依赖,使调查更加深入且独立。
当智能体组合的智慧达到临界点,多智能体系统能显著扩张性能。例如,虽然个人智慧在人类历史中有所提升,但信息时代的人类社会依靠集体智慧实现了指数级的能力提升。即使是通用智能智能体,作为个体运作能力有限,而一组智能体协作则能实现更高成就。
(, 下载次数: 0)


内部评估显示,多智能体研究系统在涉及多个方向同时探索的“广度优先”查询中,表现尤为出色。他们发现,以 Claude Opus 4 作为主智能体、Claude Sonnet 4 担任子智能体的系统,在内部研究评测中,比单一 Claude Opus 4 智能体表现提升了 90.2%。例如,在查询“识别信息技术板块标普 500 公司全部董事会成员”时,多智能体系统将任务分配给子智能体并行搜索,成功找到答案,而单智能体系统则因必须逐步串行搜索而失败。
多智能体系统能高效执行任务,部分因为它能消耗足够多的 tokens。在 BrowseComp 评测中(测试智能体浏览难找信息能力),三大因素解释了 95% 的性能差异:token 使用量(约占 80%)、工具调用次数与模型选择。这个发现印证了他们的架构设计:分散上下文窗口,增强并行推理能力。最新 Claude 模型作为 token 使用效率的乘数,升级到 Claude Sonnet 4 带来的性能提升比将 Sonnet 3.7 的 token 预算翻倍更显著。多智能体架构可以有效扩展 token 使用,适应超出单一智能体处理能力的任务。
不过也有缺点:这种架构消耗 token 较快。数据显示,单次代理使用 token 约为普通对话的 4 倍,多智能体系统的 token 使用量约为普通对话的 15 倍。为了经济可行,必须确保任务价值足以支撑这种性能开销。此外,一些场景并不适合多智能体系统,如强依赖共享上下文或高度相互依赖的任务。以编程任务为例,并行任务少,且 LLM 智能体目前尚未擅长实时协调与委派。因此,多智能体系统更适合那些高度并行化、信息量超过单智能体上下文限额且需要与多种复杂工具接口的研究类任务。

研究系统架构概览

他们的研究系统采用主从式多智能体架构,由一个协调者主智能体带领多个并行运行的子智能体协作完成任务。
当用户提交查询时,主智能体解析查询、制定策略,并生成子智能体分别探索不同方面。如示意图所示,子智能体通过反复调用搜索工具,针对主题如“2025 年的 AI 智能体公司”进行信息收集,并将公司列表反馈给主智能体,最后由主智能体汇总答案。
与传统检索增强生成(RAG)方式只在输入查询阶段静态检索信息不同,他们的架构采用多阶段搜索,动态寻找相关内容、适应新发现、分析结果以生成高质量答案。
流程图进一步说明:用户提问后,主智能体(LeadResearcher)进入迭代式研究流程。它首先思考研究策略,将计划存入记忆,以应对上下文窗口超过 20 万 token 被截断的情况。随后它创建多个子智能体,每个子智能体独立执行网页搜索,使用思维交叉方式评估工具结果,并将所见反馈给主智能体。主智能体汇编这些反馈并判断是否继续研究:若需要,可生成更多子智能体或调整策略。当信息充分后,系统退出研究循环,由引用智能体(CitationAgent)处理文档与研究报告,为结论生成准确来源标注,确保所有陈述均有引用来源。最终,带引用的研究结果被输出给用户。

为研究智能体所做的提示工程与评估

多智能体系统不同于单智能体系统,其面临快速增长的协调复杂度。早期版本如生成 50 个子智能体来处理简单查询、在不存在的源中搜索、互相干扰等问题频发。每个智能体由提示引导,提示工程成为改进行为的主要手段。以下是他们得出的若干规律:
他们的提示策略更侧重于建立启发式原则而非僵化规则,借鉴人类研究的思路:分解问题、审慎评估来源、动态调整搜索策略、识别深度与广度之间的平衡,并设置明确边界防止智能体运行失控。同时,他们强调快速迭代机制,以及在提示、工具设计、可观察性和测试实例方面保持高效率。

智能体评估方法

评估对 AI 应用开发至关重要,多智能体系统尤难以评估。传统评估假设 AI 会遵循固定路径完成任务,但多智能体系统常通过不同路径达成目标,甚至相同输入在不同运行中会触发不同操作模式。于是,需要更灵活的评估机制,以判断系统是否达到预期目标而非仅看是否按流程执行。
多智能体系统具备涌现行为(emergent behavior),可能只因主智能体提示微调,就改变子智能体行为。成功需要关注系统层面交互模式,而不只是单个智能体。因此,他们的最佳提示策略既定义协作框架,也划分任务角色和努力预算,同时保持可观察性,结合严格提示与工具设计。

生产可靠性与工程挑战

在传统软件中,bug 可能影响功能或性能;但在智能体系统中,小变化可能导致行为完全偏离,构建复杂、稳定的系统极具挑战。

总结

在构建 AI 智能体时,最后一公里往往是最难的。许多在开发环境中可行的代码,需要显著工程改造才能变成稳定可靠的生产系统。智能体系统中错误具累积性,因此传统软件中看似小问题也可能导致系统偏离目标。尽管如此,多智能体系统在开放式研究任务中展现了显著价值。用户反馈表明,Claude 可帮助他们发现意想不到的商业机会、理清复杂医疗选择、解决棘手技术问题,并节省数天工作。借助严谨工程、全面测试、细致提示及工具设计,以及研究、产品、工程团队间紧密协作,多智能体研究系统能可靠地实现规模化。目前,这些系统正逐步改变人们解决复杂问题的方式。

原文地址:https://blog.csdn.net/2301_79342058/article/details/148703076




欢迎光临 AI创想 (https://llms-ai.com/) Powered by Discuz! X3.4