智能体/Agent概念详解

admin · 发表于 2025-9-7 23:16:02

1.1AI Agent体系介绍

1.1.1什么是AI Agent

Agent在接触AI前大部分人对这个词的定义是代理
而在AI模型领域更愿意称之为智能体
代理我们都知道是什么意思,那么智能体呢?
Logan Kilpatrick，OpenAI 开发者关系负责人给出的介绍如下

Agent（智能体） = 一个设置了一些目标或任务，可以迭代运行的大型语言模型。这与大型语言模型（LLM）在像ChatGPT这样的工具中“通常”的使用方式不同。在ChatGPT中，你提出一个问题并获得一个答案作为回应。而Agent拥有复杂的工作流程，模型本质上可以自我对话，而无需人类驱动每一部分的交互。 -Logan Kilpatrick，OpenAI 开发者关系负责人

复制代码

用通俗语言解释

chat类型gpt接受单一输入查询,并返回结果,他不能一次完成超过一个任务.
而AI Agent则是可以自驱定义工作流程,并规划任务进行解决
比如:
"你有一个天气查询的系统,用户输入NYC(纽约的缩写)的温度是多少"传统的模型无法识别到NYC是什么意思?,
但是使用AI Agent可以在他获取到模型不具备NYC的知识的情况下,去思考NYC是什么,在哪里查到NYC是什么,
去查地区城市缩写,最后返回结果

复制代码

智能体 = 大语言模型（LLM） + 观察 + 思考 + 行动 + 记忆

下面用一张图来表达一下

记忆

一句话解释长期记忆和短期记忆,当我问你1+1等于几你不需要考虑他就是你的长时记忆,当我问你99*55等于多少你需要用脑子想一下算一下这就是你的短时记忆

规划

工具使用

1.1.2智能体用例

概念验证Agent-BabyAGI

Baby AGI 是一个 python 脚本，它使用 OpenAI 和 Pinecone API 以及 LangChain 框架来创建、组织、确定优先级以及执行任务。Baby AGI 背后的过程是，它将使用基于上一个任务结果的预定义目标创建一个任务。
这是通过使用 OpenAI 的自然语言处理（NLP）功能实现的，该功能允许系统根据目标创建新任务。它使用 Pinecone 来存储该特定任务的结果并检索上下文，并使用 LangChain 框架来处理决策过程。

这个过程在为智能体创建一个目标或主任务后，主要分为以下三个步骤：

根据目标开始任务，然后转到从内存中获取上下文的查询。然后将其发送到创建代理，创建代理获取数据并将其发送到内存。然后，它将通过一个队列，该队列将完成任务的优先级排序。
让我们一起来看一个具体的例子。我们可以从一个任务开始，例如"编写一篇关于ChatGPT以及功能的1500字博客文章"。作为控制agent的用户，你可以写出这个目标，尽可能详细地提供要求，然后你就完成了。
模型接收这些要求，并执行如下操作：

sub_tasks = openai.ChatCompletion.create(
model="gpt-4",
messages=[
{"role": "system", "content": "You are an world class assistant designed to help people accomplishh tasks"},
{"role": "user", "content": "Create a 1500 word blog post on ChatGPT and what it can do"},
{"role": "user", "content": "Take the users request above and break it down into simple sub-tasks which can be easily done."}
]
)

复制代码

在这个例子中，我们使用OpenAI API来驱动agent。系统消息允许你在一定程度上定义你的agent，但在这个例子中，我们并没有真正使用它。然后，我们添加用户查询和关键的下一步，即在其上添加一个任务，该任务是将查询分解成子任务。
然后，你可以将子任务放入一个循环中，并进行额外的调用以执行这些子任务，所有这些都带有不同的系统消息（想想不同的agents，可能是一个写作agent，一个研究agent等）。你可能会想要“将这个任务分解成更简单的子任务，直到你100%清楚需要做什么并且可以高精度地执行任务”，这样模型就不会陷入添加更多任务的无限循环中（如果你没有正确地进行提示工程，今天的agents就会常常出现这个问题）。
生成Agents模拟

Generative Agents是一个超级有趣的实验，其中 25 个虚拟角色，每个角色都由 LLM 支持的Agents控制，在沙盒环境中生活和交互，其灵感来自《模拟人生》。生成Agents为交互式应用程序创建可信的人类行为模拟。
生成Agents的设计将 LLM 与记忆、规划和反射机制相结合，使Agents能够根据过去的经验进行行为，并与其他Agents进行交互。

记忆流：是一个长期记忆模块（外部数据库），用自然语言记录智能体经验的完整列表。
检索模型：根据相关性、新近度和重要性，呈现上下文以告知Agents的行为。
反射机制：随着时间的推移将记忆合成更高层次的推论，并指导智能体未来的行为。它们是_对过去事件的更高层次的总结（<-注意，这与上面的_自我反思有点不同）
规划与反应：将反思和环境信息转化为行动

图 13. 生成Agents架构。
这种有趣的模拟会产生新兴的社交行为，例如信息传播、关系记忆（例如，两个Agents继续讨论话题）和社交活动的协调（例如举办聚会并邀请许多其他人）。
1.1.3苏格拉底式推理(重点)

「苏格拉底式推理」有5种强大的提示模式：演绎、转换、分解、验证、整合。

这更多是一种思想
当我提出一个问题"大象喜欢吃什么?"

1.大象是什么? 哪里有大象? 大象应该吃什么?
2.大象是动物动物园有大象大象应该吃草
3.你想一想你的回答正确吗
4.A回答大象喜欢吃草 B回答大象喜欢吃草 C 大象喜欢吃草
5.整合一下上面的三个答案大象喜欢吃草

复制代码

人会疲惫,机器不会
下面最后贴一张自己画的图

还可以更复杂一点画的太累了 把AI当人看,AI不会疲倦
1.2多智能体框架介绍

1.2.1什么是MetaGPT

MetaGPT是一个多智能体协作框架，将标准化操作（SOP）程序编码为提示确保解决问题时采用结构化方法。要求智能体以专家形式参与协作，并按要求生成结构化的输出，例如高质量的需求文档、架构设计图和流程图等。结构化的输出对于单个智能体即是更高层次的思维链（Chain-of-Thought），对于下游角色则是语义清晰、目标明确的上下文（Context）。通过明确定义的角色分工，复杂的工作得以分解为更小、更具体的任务。从而提升了LLMs的输出质量。
主要特点：

稳定的解决方案

多样化的角色分配

在MetaGPT中多智能体 = 智能体+环境+SOP+评审+路由+订阅+经济

智能体

环境

标准流程（SOP）

评审：

路由

订阅：

经济

1.2.2经典案例:软件公司

MetaGPT 以一行需求为输入，输出用户故事/竞争分析/需求/数据结构/API/文档等。
在内部，MetaGPT 包括产品经理/架构师/项目经理/工程师。它提供了软件公司的整个过程以及精心编排的 SOP。

需求分析

产品经理

架构师

项目经理

工程师

质量保证（QA）工程师

1.2.3更多MetaGPT

现状：MetaGPT目前解决了软件工程的中程任务， 让用户不再只是与ChatGPT聊天，而是真正与智能体协作

目标：

关键点：

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用
对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

25位大厂高管转战生成式AI创业！吸金猛，不

智能体/Agent概念详解

文心智能体平台 | 想象即现实

关于我们

产品与服务

解决方案

产品与服务