规划模块的作用是将用户请求拆分成智能体能够单独解决的若干步骤或子任务。这对于智能体更准确地理解问题和找到可靠解决方案至关重要。规划模块将借助LLM拆分出详尽的计划,包括解答用户问题所需的子任务。常见的任务分解技术包括思路链 (Chain of Thought) 和思路树 (Tree of Thoughts),它们分别代表了单路径推理和多路径推理。以下图表根据 Wang 等人,2023年 的研究,展示了不同策略的比较:
LangChain:一个开发基于语言模型的应用程序和智能体的框架,旨在简化语言模型的应用开发流程。AutoGPT:提供了一套工具,帮助开发者构建 AI 智能体,简化了AI智能体的开发工作。Langroid:通过多智能体编程,将智能体作为核心组件,通过消息交互协作完成任务,简化了大语言模型应用的构建过程。AutoGen:一个使多个智能体能够交流协作解决问题的大语言模型应用开发框架,推动了智能体之间的对话和任务解决能力。OpenAgents:一个开放的平台,用于在实际环境中使用和托管语言智能体,促进了语言智能体的广泛应用。LlamaIndex:一个连接自定义数据源与大语言模型的框架,扩展了大语言模型的应用场景。GPT Engineer:专注于自动化代码生成以辅助完成开发任务,简化了编程工作。DemoGPT:一个能够创建交互式 Streamlit 应用的自主 AI 智能体,增强了应用的互动性。GPT Researcher:一个设计用于执行各种任务的全面在线研究的自主智能体,提升了研究效率。AgentVerse:旨在促进在不同应用中部署基于大语言模型的多个智能体,提供了丰富的应用可能性。Agents:一个开源的构建自主语言智能体的库/框架,支持长短期记忆、工具使用、网页导航、多智能体通信等功能,还新增了人机交互和符号控制等新功能,是构建高级智能体的强大工具。BMTools:通过工具扩展语言模型的能力,并为社区提供一个构建和分享这些工具的平台,促进了工具的创新和共享。crewAI:为工程师设计的 AI 智能体框架,以简单强大为特点,帮助构建智能体和自动化流程,简化了智能体的开发和部署。
三、大语言模型智能体的评估
AgentBench 基准测试,旨在评估作为智能体的大语言模型在现实世界挑战及八种不同环境下的表现(图源:Liu 等,2023)。
与评估大语言模型本身相似,对大语言模型智能体的评估也是一项充满挑战的任务。根据 Wang 等人(2023年)的研究,常用的评估方法包括: