台湾大学李宏毅教授的《生成式 AI 时代的机器学习(2025)》第二讲中就提到:
AI Agent 没有标准的定义。
以前我们使用大模型的主要方式就是打开对话框,提出问题,它给出回答。
AI Agent (AI 智能体)则是我们提出目标,AI 自己去思考规划、调用各种工具,最终帮我们达成这个目标。
(, 下载次数: 0)
上传
点击文件名下载附件
比如说你让 AI 智能体去帮你在购物网站上挑选某个商品,那么 AI 智能体会打开浏览器,执行各种搜索,然后挑选出符合你要求的商品。
能力层面
从能力层面来讲,他并不关心智能体内部实现,更关心“AI 完成任务的占比”。
如果是从能力层面来讲的话:
ChatGPT 就相当于我们直接在对话框里问问题,然后它给一些建议,我们需要自己再回去处理工作。
那么像 Cursor、Claude Code 这种就是人类和 AI 一起协作,工作量基本相当。
而 Agent 的话,其实需要 AI 完成更多工作,人类主要负责设定目标、提供资源、监督结果。Agent 需要自主完成任务拆解、工具选择、进度控制,实现后自主结束工作。
结构层面
(, 下载次数: 0)
上传
点击文件名下载附件
在复旦大学 NLP团队的一篇智能体综述《The Rise and Potential of Large Language Model
Based Agents: A Survey》中,主要提到大语言模型驱动的智能体的概念。
其中提到基于大语言模型的智能体,主要包括三个组件:一个是大脑,一个是感知,一个是行动。
它可以感知环境,获取输入可能是文本、图片、视频、音频等。它有“大脑”可以进行规划、存储,也能执行各种行动,包括输出文本、调用工具、操作机械臂等。
(, 下载次数: 0)
上传
点击文件名下载附件
在 Google 的智能体白皮书中提到智能体,主要包括编排、模型和工具。
在编排中主要包括配置指令、目标,以及 memory(记忆),以及推理和规划。
模型的话通常指现在的大语言模型。
工具的话可能是浏览器,可能是搜索引擎,可能是计算器等。