AI创想

标题: 从0到1精通Agent智能体开发——初识智能体 [打印本页]

作者: 创想小编 时间: 昨天 10:12
标题: 从0到1精通Agent智能体开发——初识智能体
作者：白话机器学习
第一章认识智能体

欢迎来到智能体的世界！当前，人工智能技术正以前所未有的速度发展，**智能体（Agent）**已成为推动技术变革与应用创新的关键力量。无论你是希望深耕AI领域的研究者或工程师，还是渴望理解前沿技术的观察者，掌握智能体的本质都将为你的知识体系增添重要一环。
因此，本章我们将回到起点，共同探讨几个核心问题：智能体究竟是什么？它有哪些主要类别？它是如何与世界进行交互的？希望通过这些探讨，为你后续的学习与实践奠定坚实基础。

(, 下载次数: 0)

图 1.1 智能体与环境的基本交互循环

1.1 智能体是什么？

理解复杂概念最好从清晰的定义入手。在人工智能领域，智能体被定义为能够通过传感器（Sensors）感知其所在环境（Environment），并自主地借助**执行器（Actuators）采取行动（Action）**以实现特定目标的实体。
该定义包含智能体存在的四个基本要素。环境是智能体所处的外部世界，对自动驾驶汽车而言是道路与交通，对交易算法而言则是金融市场。智能体通过传感器持续感知环境状态，摄像头、麦克风、雷达或各类**API（应用程序编程接口）**返回的数据流都是其感知能力的延伸。
获取信息后，智能体需通过执行器采取行动以改变环境状态。执行器可以是物理设备（如机械臂、方向盘）或虚拟工具（如执行代码、调用服务）。
真正赋予智能体“智能”的是其自主性（Autonomy）。智能体并非仅被动响应外部刺激或机械执行预设指令，而是能基于感知与内部状态独立决策以实现设计目标。这种从感知到行动的闭环构成了所有智能体行为的基础，如图1.1所示。
1.1.1 传统智能体的演进

在当今**大语言模型（LLM）**热潮兴起之前，人工智能领域的先驱们已对“智能体”概念进行了数十年探索。这些如今被称为“传统智能体”的范式，并非单一静态概念，而是呈现出一条从简单到复杂、从被动反应到主动学习的清晰演进路径。
这一演进始于结构最简单的反射智能体（Simple Reflex Agent）。其决策核心由明确设计的“条件-动作”规则构成，如图1.2所示。例如，自动恒温器在检测到室温高于设定值时即启动制冷。
这类智能体完全依赖当前感知输入，不具备记忆或预测能力。它如同数字化的本能，可靠高效，但因此难以处理需要理解上下文的复杂任务。其局限性引出一个关键问题：若当前环境状态不足以支撑完整决策，智能体该如何应对？

(, 下载次数: 0)

图 1.2 简单反射智能体的决策逻辑示意图

为解决该问题，研究者引入了“状态”概念，发展出基于模型的反射智能体（Model-Based Reflex Agent）。这类智能体拥有内部世界模型（World Model），用于追踪和理解环境中无法直接感知的方面。它试图回答：“世界当前是何状态？”。例如，隧道中行驶的自动驾驶汽车即使摄像头暂时无法感知前车，其内部模型仍会维持对前车存在、速度及预估位置的判断。这种内部模型赋予智能体初级“记忆”，使其决策不再仅依赖瞬时感知，而是基于更连贯、完整的世界状态理解。
然而，仅理解世界还不够，智能体需有明确目标。这推动了**基于目标的智能体（Goal-Based Agent）*的发展。与前两者不同，其行为不再被动响应环境，而是主动、有预见性地选择能导向特定未来状态的行动。这类智能体需回答：“我应如何行动以实现目标？”。典型例子是GPS导航系统：目标为到达公司，智能体基于地图数据（世界模型）通过搜索算法（如A）规划最优路径。其核心能力体现在对未来可能性的考量与规划上。
现实世界目标往往并非单一。我们不仅希望抵达公司，还追求时间最短、油耗最低且避开拥堵。当多个目标需权衡时，**基于效用的智能体（Utility-Based Agent）**应运而生。它为每个可能的世界状态赋予效用值以代表满意度高低。智能体的核心目标不再是简单达成特定状态，而是最大化期望效用。它需回答更复杂的问题：“何种行为能带来最满意的结果？”。这种架构让智能体学会在冲突目标间权衡，使决策更接近人类理性选择。
至此讨论的智能体虽功能日益复杂，但其核心决策逻辑（无论规则、模型还是效用函数）仍依赖于人类设计的先验知识。如果智能体能不依赖预设，而是通过与环境的互动自主学习呢？
这便是**学习型智能体（Learning Agent）的核心思想，而强化学习（Reinforcement Learning, RL）**是实现该思想最具代表性的路径。学习型智能体包含性能元件（即前述各类智能体）与学习元件。学习元件通过观察性能元件在环境中的行动结果来持续修正其决策策略。
想象学习下棋的AI。初始可能随机落子，当最终获胜时系统给予正向奖励。通过大量自我对弈，学习元件逐渐发现哪些棋路更可能导向胜利。AlphaGo Zero是该理念的里程碑成就，其在围棋这一复杂博弈中通过强化学习发现了许多超越人类既有知识的有效策略。
从简单恒温器到拥有内部模型的汽车，再到能够路径规划的导航系统、懂得权衡的决策者，最终到可通过经验自我进化的学习者。这条演进脉络展示了传统人工智能在构建机器智能道路上的发展历程，为我们理解更前沿的智能体范式奠定了必要基础。
1.1.2 大语言模型驱动的新范式

以**GPT（生成式预训练Transformer）**为代表的大语言模型的出现，正深刻改变智能体的构建方式与能力边界。由大语言模型驱动的LLM智能体，其核心决策机制与传统智能体存在本质区别，从而赋予其一系列新特性。
这种转变可从两者在核心引擎、知识来源、交互方式等多维度的对比中清晰看出，如表1.1所示。简言之，传统智能体的能力源于工程师的显式编程与知识构建，其行为模式确定且有边界；而LLM智能体则通过海量数据预训练获得隐式世界模型与强大涌现能力，使其能以更灵活、通用的方式应对复杂任务。

表 1.1 传统智能体与LLM驱动智能体的核心对比

(, 下载次数: 0)

这种差异使LLM智能体可直接处理高层级、模糊且富含上下文的自然语言指令。以“智能旅行助手”为例说明。
在LLM智能体出现前，规划旅行通常意味着用户需在多个专用应用（天气、地图、预订网站）间手动切换，并自行整合信息与决策。而一个LLM智能体能整合该流程。当收到“规划一次厦门之旅”的模糊指令时，其工作方式体现以下特点：

规划与推理

工具使用

动态修正

查天气 → 调行程 → 订酒店

总而言之，我们正从开发专用自动化工具转向构建能自主解决问题的系统。核心不再是编写代码，而是引导通用“大脑”去规划、行动与学习。
1.1.3 智能体的类型

继上文回顾智能体演进后，本节将从三个互补维度对其分类。
（1）基于内部决策架构的分类
第一种分类维度依据智能体内部决策架构的复杂程度，这一视角在《人工智能：现代方法》中被系统提出[1]。正如1.1.1节所述，传统智能体的演进路径本身构成了最经典的分类阶梯，涵盖从简单的反射式智能体，到引入内部模型的模型式智能体，再到更具前瞻性的基于目标和基于效用的智能体。此外，学习能力作为一种可赋予上述所有类型的元能力，使其能通过经验自我改进。
（2）基于时间与反应性的分类
除内部架构复杂性外，还可从智能体处理决策的时间维度分类。这一视角关注智能体是接收信息后立即行动，还是会经过深思熟虑再行动。这揭示了智能体设计中反应性与规划性之间的核心权衡，如图1.3所示。

(, 下载次数: 0)

图 1.3 智能体决策时间与质量关系图

反应式智能体 (Reactive Agents)

这类智能体对环境刺激做出近乎即时响应，决策延迟极低。通常遵循从感知到行动的直接映射，不进行或仅进行极少未来规划。上文的简单反射式和基于模型的智能体均属此类。
其核心优势在于速度快、计算开销低，这在需要快速决策的动态环境中至关重要。例如，车辆安全气囊系统必须在碰撞发生的毫秒内响应，任何延迟都可能导致严重后果；高频交易机器人也需依赖反应式决策捕捉稍纵即逝的市场机会。然而，这种速度的代价是“短视”，因缺乏长远规划，反应式智能体易陷入局部最优，难以完成需多步骤协调的复杂任务。

规划式智能体 (Deliberative Agents)

与反应式智能体相对，规划式（或称审议式）智能体在行动前会进行复杂思考与规划。它们不会立即对感知做出反应，而是先利用内部世界模型系统探索未来各种可能性，评估不同行动序列的后果，以寻找达成目标的最佳路径。基于目标和基于效用的智能体是典型规划式智能体。
可将其决策过程类比为棋手。他不会只看眼前一步，而是预想对手可能的应对，规划后续几步甚至十几步的棋路。这种深思熟虑能力使其能处理复杂、需长远眼光的任务，如制定商业计划或规划长途旅行。其优势在于决策的战略性与远见。然而，另一面是高昂的时间与计算成本。在瞬息万变的环境中，当规划式智能体仍在深思时，行动的最佳时机可能早已过去。

混合式智能体 (Hybrid Agents)

现实世界的复杂任务往往既需即时反应，也需长远规划。例如，智能旅行助手既要能根据用户即时反馈（如“这家酒店太贵了”）调整推荐（反应性），又要能规划为期数天的完整旅行方案（规划性）。因此，混合式智能体应运而生，旨在结合两者优点，实现反应与规划的平衡。
一种经典混合架构是分层设计：底层为快速反应模块，处理紧急情况与基本动作；高层为审慎规划模块，负责制定长远目标。而现代LLM智能体则展现了一种更灵活的混合模式。它们通常在“思考-行动-观察”循环中运作，巧妙融合两种模式：

规划 (Reasoning)

反应 (Acting & Observing)

通过这种方式，智能体将需长远规划的宏大任务分解为一系列“规划-反应”微循环。这使其既能灵活应对环境的即时变化，又能通过连贯步骤最终完成复杂的长期目标。
（3）基于知识表示的分类
这是一个更根本的分类维度，探究智能体用以决策的知识以何种形式存在于其“思想”中。该问题是人工智能领域持续半个多世纪辩论的核心，塑造了两种截然不同的AI文化。

符号主义 AI（Symbolic AI）

符号主义，常被称为传统人工智能，其核心信念是：智能源于对符号的逻辑操作。这里的符号是人类可读的实体（如词语、概念），操作遵循严格逻辑规则，如图1.4左侧所示。这好比一位一丝不苟的图书管理员，将世界知识整理为清晰的规则库与知识图谱。
其主要优势在于透明与可解释。由于推理步骤明确，其决策过程可被完整追溯，这在金融、医疗等高风险领域至关重要。然而，其“阿喀琉斯之踵”在于脆弱性：它依赖于完备的规则体系，但在充满模糊与例外的现实世界中，任何未被覆盖的新情况都可能导致系统失灵，即所谓的“知识获取瓶颈”。

亚符号主义 AI（Sub-symbolic AI）

亚符号主义，或称连接主义，则提供了一幅截然不同的图景。在这里，知识并非显式规则，而是内隐地分布在由大量神经元组成的复杂网络中，是从海量数据中学习到的统计模式。神经网络与深度学习是其代表。
如图1.4中间所示，如果说符号主义AI是图书管理员，那么亚符号主义AI就像一个牙牙学语的孩童。他不是通过学习“猫有四条腿、毛茸茸、会喵喵叫”这样的规则认识猫，而是在看过成千上万张猫的图片后，大脑中的神经网络能辨识出“猫”概念的视觉模式。这种方法的强大之处在于其模式识别能力与对噪声数据的鲁棒性。它能够轻松处理图像、声音等非结构化数据，这在符号主义AI看来是极其困难的任务。
然而，这种强大的直觉能力也伴随着不透明性。亚符号主义系统通常被视为黑箱（Black Box）。它能以惊人准确率识别图片中的猫，但你若问“为什么你认为这是猫？”，它很可能无法给出合乎逻辑的解释。此外，它在纯粹的逻辑推理任务上表现不佳，有时会产生看似合理却事实错误的幻觉。

神经符号主义 AI（Neuro-Symbolic AI）

长久以来，符号主义与亚符号主义两大阵营如同两条平行线各自发展。为克服上述两种范式的局限，一种“大和解”思想开始兴起，即神经符号主义AI，也称神经符号混合主义。它的目标是融合两大范式的优点，创造出既能像神经网络一样从数据中学习，又能像符号系统一样进行逻辑推理的混合智能体。它试图弥合感知与认知、直觉与理性之间的鸿沟。诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考，快与慢》中提出的双系统理论，为我们理解神经符号主义提供了绝佳类比[2]，如图1.4所示：

系统1

系统2

(, 下载次数: 0)

图 1.4 符号主义、亚符号主义与神经符号混合主义的知识表示范式

人类的智能正源于这两个系统的协同工作。同样，一个真正鲁棒的AI也需要兼具二者之长。大语言模型驱动的智能体是神经符号主义的极佳实践范例。其内核是一个巨大的神经网络，使其具备模式识别和语言生成能力。然而，当它工作时，它会生成一系列结构化的中间步骤，如思想、计划或API调用，这些都是明确、可操作的符号。通过这种方式，它初步实现了感知与认知、直觉与理性的融合。
1.2 智能体的构成与运行原理

1.2.1 任务环境定义

要理解智能体的运作，必须先理解其所处的任务环境。在人工智能领域，通常使用PEAS模型来精确描述一个任务环境，即分析其性能度量(Performance)、环境(Environment)、执行器(Actuators)和传感器(Sensors)。以上文提到的智能旅行助手为例，下表1.2展示了如何运用PEAS模型对其任务环境进行规约。

表 1.2 智能旅行助手的 PEAS 描述

(, 下载次数: 0)

在实践中，LLM智能体所处的数字环境展现出若干复杂特性，直接影响智能体的设计。
首先，环境通常是部分可观察的。例如，旅行助手查询航班时，无法一次性获取所有航空公司的全部实时座位信息。它只能通过调用航班预订API看到该API返回的部分数据，这就要求智能体必须具备记忆（记住已查询过的航线）和探索（尝试不同的查询日期）的能力。
其次，行动的结果也并非总是确定的。根据结果的可预测性，环境可分为确定性和随机性。旅行助手的任务环境是典型的随机性环境。当它搜索票价时，两次相邻调用返回的机票价格和余票数量都可能不同，这就要求智能体必须具备处理不确定性、监控变化并及时决策的能力。
此外，环境中还可能存在其他行动者，从而形成**多智能体(Multi-agent)**环境。对于旅行助手而言，其他用户的预订行为、其他自动化脚本，甚至航司的动态调价系统，都是环境中的其他“智能体”。它们的行动（例如，订走最后一张特价票）会直接改变旅行助手所处环境的状态，这对智能体的快速响应和策略选择提出了更高要求。
最后，几乎所有任务都发生在序贯且动态的环境中。“序贯”意味着当前动作会影响未来；而“动态”则意味着环境自身可能在智能体决策时发生变化。这就要求智能体的“感知-思考-行动-观察”循环必须能够快速、灵活地适应持续变化的世界。
1.2.2 智能体的运行机制

定义了智能体所处的任务环境后，我们来探讨其核心运行机制。智能体并非一次性完成任务，而是通过一个持续的循环与环境进行交互，这个核心机制被称为智能体循环 (Agent Loop)。如图1.5所示，该循环描述了智能体与环境之间的动态交互过程，构成了其自主行为的基础。

(, 下载次数: 0)

图 1.5 智能体与环境交互的基本循环

这个循环主要包含以下几个相互关联的阶段：

感知 (Perception)

观察 (Observation)

思考 (Thought)：接收到观察信息后，智能体进入其核心决策阶段。对于LLM智能体而言，这通常是由大语言模型驱动的内部推理过程。如图所示，“思考”阶段可进一步细分为两个关键环节：
行动 (Action)：决策完成后，智能体通过其执行器（Actuators）执行具体的行动。这通常表现为调用一个选定的工具（如代码解释器、搜索引擎API），从而对环境施加影响，意图改变环境的状态。

行动并非循环的终点。智能体的行动会引起环境 (Environment)的状态变化 (State Change)，环境随即会产生一个新的**观察 (Observation)**作为结果反馈。这个新的观察又会在下一轮循环中被智能体的感知系统捕获，形成一个持续的“感知-思考-行动-观察”的闭环。智能体正是通过不断重复这一循环，逐步推进任务，从初始状态向目标状态演进。
1.2.3 智能体的感知与行动

在工程实践中，为了让LLM能够有效驱动这个循环，我们需要一套明确的**交互协议 (Interaction Protocol)**来规范其与环境之间的信息交换。
在许多现代智能体框架中，这一协议体现在对智能体每一次输出的结构化定义上。智能体的输出不再是单一的自然语言回复，而是一段遵循特定格式的文本，其中明确地展示了其内部的推理过程与最终决策。
这个结构通常包含两个核心部分：

Thought (思考)

Action (行动)

原文地址：https://blog.csdn.net/zy_dreamer/article/details/156909451

欢迎光临 AI创想 (https://llms-ai.com/)