开启左侧

深度解析 | 多智能体系统的工作流程、基础设施和挑战

[复制链接]
admin 发表于 2025-9-7 23:22:21 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题


基于LLM的多智能体(multi-agent)系统已被提出作为利用集体智慧的关键途径,同时保留各个智能体的专业特性,从而朝着更复杂的自主智能系统迈进。
多个具有不同身份的专业化智能体通过沟通和协作来实现任务目标。这一过程强调了在交互环境中,智能体间通信的重要性,利用知识和经验进行推理以生成决策,以及自我反思(反思其行动和行为以实现个人成长)的进化。
背景

单智能体

单智能体系统由一个基于大型语言模型的智能智能体组成,该智能体能够独立感知其环境并做出决策。设计单智能体系统的目的是执行特定任务,从简单自动化到复杂决策制定不等。单智能体系统的核心在于智能体的个体特征、感知能力和自我行动能力。从个体特征的角度来看,单个智能体被赋予了一组独特的属性和能力,这些属性和能力定义了其在环境中的行为模式和角色。
单智能体系统的显著优势在于其专注性和效率。由于系统资源和计算能力集中在单个智能体上,这些系统能够迅速响应和执行特定任务。
多智能体

尽管单智能体系统在特定任务中表现出色,但在处理需要广泛合作和集体智能的复杂问题时可能会遇到限制。这就是多智能体系统(multi-agent systems, MAS)发挥作用的地方。MAS是由多个相互作用的智能体组成的复杂系统,能够模拟现实世界中的社会互动和团队合作,通过分散的决策过程和信息共享提高整体适应性和效率。
MAS的核心优势在于其分布式决策和问题解决能力。MAS提供了一种现代方法来解决分布式人工智能问题。在MAS中,每个智能体都拥有一定程度的自主性,能够独立感知环境并做出决策。它们还可以通过模拟真实世界的协作模式(如合作、竞争和层次组织)与其他智能体进行交互,从而提高整体协作效率。
基于LLM的多智能体工作



配置

实例化具有个性化风格的独立智能实体,类似于一个人,从而使他们能够完成特定的子任务。例如,在模拟学校运营的背景下,合适的角色包括教师、学生和学校校长。
配置文件上下文

根据具体情境或用户规格,智能体配置文件可能包含不同类型和内容的信息。作为智能体的基本内在特征,个人资料通常包括基本信息,如姓名、年龄、性别和职业。
生成策略

选择用于描述智能体的信息主要由特定的应用场景决定,从而指导个人资料生成的轨迹。鉴于场景建模与智能体生成之间的复杂关系,现有文献通常采用以下三种策略:
    情境化生成方法: 在此方法中,对复杂场景的分析与分解导致负责执行各种子任务的智能体的具体化。例如,在企业环境中,一个任务组成的工作流程包括决策、分配、执行和反馈——需要四名智能体的协作:一名经理、一名秘书、普通员工和顾问。
    预定义方法: 在此方法中,广泛采用大型语言模型(LLMs)来定义多个智能体,共同形成一个智能体池。面对特定情景时,从该池中选择合适的智能体执行相关子任务。
    基于学习的方法: 在此方法中,最初用宽泛的术语定义少量智能体。当出现特定情景时,这些预定义智能体执行子任务,同时随后生成新智能体来处理全新的任务,从而适应新环境。
知觉

信息获取对于作为独立智能实体的智能体至关重要,使其能够感知外部环境条件及其内部状态。然后通过感知模块将这些信息转换为中间表示形式,进而决定智能体的自主决策结果和行为反应。
信息来源

根据智能体互动或通信对象的性质,现有文献将智能体感知信息的来源分为以下三种类型:
    整体环境信息: 这类信息传达有关智能体周围环境的基本信息,如场景位置、布局和家具,以及时间敏感信息,如场景转换和设施变化。
    交互信息: 这类信息包括智能体之间互动期间交换的信息,内容根据任务要求或模拟场景灵活确定。
    自我反思信息: 该消息通常暗示智能体的自我反思和自我更新过程,包含由智能体自身生成的历史信息的混合体,以及……由与其他智能体互动产生的提取信息,以及全面的环境背景信息。
消息类型

    文本消息: 文本作为人类对周围环境及其主观体验的基本直观表达,使得文本通信成为人类与世界互动的主要方式。对于基于LLM的智能体来说,主要任务是理解、分析和综合复杂且冗长的文本,类似于人类专家的能力。这利用了LLMs的核心功能:理解、推理和生成。一些研究工作通过上下文学习和思维链(CoT)推理增强了LLMs的理解和推理能力,旨在产生更符合人类认知偏好和现实世界情况的输出。
    视觉消息: 与此同时,当基于大型语言模型的智能体与世界互动时,文本消息主要作为信息交流和传播的主要媒介。然而,在捕捉和传达视觉信息能够巧妙表示的微妙特征方面,文本消息存在不足。为了让智能体具备理解视觉信息的能力,以往的工作要么采用视觉语言模型(VLMs)作为适配器来提取视觉特征并将其整合到大型语言模型(LLM)的知识库中,要么增加与LLM集成的并行网络层作为视觉特征感知模块,而无需对视觉信息进行额外处理。
    听觉信息: 音频信息涵盖了多种多样类型和内容,大致分为环境声音(如鸟鸣和风吹过树叶的沙沙声)、音乐和语音,其中语音特指人类发出的声音。
自我行动

自我行动代表了智能体的一个关键机制,作为一个独立实体,自主作出决策并执行对其在互动环境中生存和进化必要的行动。
记忆

记忆模块作为智能体的存储和回忆单元,在使其能够利用现有的认知和经验知识以适应与环境或其他智能体的动态互动中起着关键作用。通过这一过程,智能体积累新的见解和经验,这些可以通过更新内存进一步促进其认知能力和智能。内存可视化的核心功能在图2中进行了说明。


内存检索(Retrieval)
在智能体领域,有效的信息检索对于促进复杂环境或其他智能体之间的动态互动至关重要,检索到的信息总是被视为重要的经验参考。内存检索旨在通过从智能体的记忆中提取与当前情况相关的有价值信息来提高决策的准确性。这些信息包括环境感知、历史互动记录、经验数据和外部知识等各种元素。
记忆存储(Storage)
将关键信息存储在记忆中构成了智能体依赖的基础知识库,以便在复杂环境中感知和行动,从而提高它们的效率和理性。记忆存储的目的是归档智能体在互动过程中感知到的信息和学到的经验。通常,这个过程涉及将自然语言文本写入记忆,这包括选择适当的存储位置和管理信息的替换。这种系统化的记忆存储方法确保最相关的数据易于获取,促进智能体做出明智的决策和适应性响应。
记忆映射(Reflection)
记忆映射是一种过程,通过该过程,智能体基于感知到的信息和从历史互动中学习到的经验(存储在记忆中)进行自我改进。这个过程模拟了人类总结、精炼和反思现有知识的做法,目的是增强智能体适应新环境和任务的能力。
知识利用



    文本知识: 鉴于大型语言模型在广泛的文本语料库上进行训练,文本知识是其核心。对于自然语言理解、文本生成、翻译等任务来说,这一知识至关重要。文本知识的格式包括自然语言、嵌入、标记和树结构。自然语言是主要的输入和输出格式,嵌入捕捉语义意义,标记用于分段。
    视觉知识: 在大型语言模型智能体中,视觉知识主要通过由视觉编码器生成的连续嵌入来表示,然后与文本信息相结合以促进多模态数据理解和推理。视觉知识的表示通常包括图像的潜在向量表示、对象为中心的编码以及其他形式,所有这些编码都通过标准的自注意力机制与语言信息一起处理。
    音频知识: 音频知识涵盖语音和音频事件,可以通过语音编码器和频谱图等形式表示。在处理语音时,LLM智能体可以通过连接模块对语音输入进行离散化,并将其嵌入到与文本共享的向量空间中。
    其他知识: 除了文本、视觉和音频数据外,大型语言模型(LLMs)通常需要利用来自特定领域(如科学研究、医疗信息或技术规范)的专业知识。这增强了它们处理需要深厚领域专业知识任务的能力。特定领域知识的格式包括自然语言描述、嵌入、标记和树结构,这些格式使LLMs能够处理和理解来自各个领域的复杂信息。
行动

行动代表交互式环境内智能体的有形行为结果,从而有效地改变环境并对智能体间的互动产生重大影响。这些行动通常由一系列配置文件、记忆和互动上下文(包括智能体与智能体、智能体与环境以及智能体与人类的互动)共同决定。位于最下游位置的行动,根据应用场景的不同而变化繁多。可以从两个角度来阐明行动机制:
    行动创建: 这涉及生成行动的流程和步骤。它包含决策框架、算法和程序,这些框架、算法和程序基于智能体的内部状态和外部刺激,导致特定行动的制定。
    行动应用: 这指的是行动被应用的上下文,以及这些行动对应用场景的后续影响。
相互交互

相互交互涵盖了智能体之间的信息交换和行动协调,这对于提升多智能体系统内的集体智慧至关重要。
消息传递

消息传递是促进智能体之间通信和协作的关键组成部分,涉及智能体之间的信息交换。消息通常以文本形式记录和传输,尽管一些工作还结合了视觉和音频等多模态信息。消息内容根据任务分配和互动通信场景动态变化,通常包括历史状态信息和当前状态信息以及其他智能体的通信消息。
交互结构

交互结构描述了多智能体系统内的通信框架,通常基于消息内容进行组织和安排,从而为智能体分配不同的角色和责任。该结构本质上反映了智能体之间的关系以及消息传递的可能方法和路径。根据消息传递的模式和智能体间通信的关系,交互结构可以分为四种类型:层次型、分散型、集中型和共享内存型。每种类型的结构都定义了特定的信息交换动态和协议,影响多智能体系统的整体效率和连贯性。
    层次型: 在层次型交互结构中,不同级别的智能体承担不同的角色,高级别智能体与低级别智能体之间有明确的区分。高级别智能体通常担任监督角色,做出关键决策并向下属智能体发出指令。这种互动模型模仿传统的组织结构,并通过明确划分权力和责任界限来提高效率。
    分散型: 去中心化通信在点对点网络中运作,智能体之间直接交流,不依赖中央权威。这种结构不仅促进了智能体之间的平等,允许更灵活和动态的互动,而且减轻了单个大型语言模型的计算负担,增强了系统的鲁棒性。然而,当应用于大规模系统时,协调和通信开销可能变得显著,可能会影响整体性能。
    集中型: 在集中式交互结构中,一个中央智能体或一组中央智能体协调系统,管理和编排所有智能体之间的互动。这种结构集中了控制和协调,简化了决策过程,避免了潜在冲突,并提高了整体系统效率。然而,由于系统依赖于中央智能体,它容易受到单点故障和通信延迟的影响,使得迅速响应环境变化变得具有挑战性。
    共享消息池: 共享消息池 是大型语言模型智能体之间进行信息交换的机制,智能体通过共享消息池发布和订阅信息。这种结构允许智能体基于自身需求和配置订阅相关信息,而无需直接点对点通信,从而提高通信效率。优势包括简化的通信流程、降低信息传输的复杂性以及统一的消息管理方法。然而,多个智能体同时访问共享消息池可能会导致竞争和同步问题。
交互场景

在多智能体系统中,智能体之间的交互场景至关重要,因为它们不仅决定了智能体的行为模式,还影响系统的整体效率和有效性。


    合作型: 在合作互动场景中,智能体们共同努力实现共同目标。合作型MAS的基本过程包括目标设定、任务分解、信息共享、协同决策和执行反馈。智能体首先根据任务要求设定共同目标,然后将复杂任务分解为多个子任务分配给不同的智能体。智能体通过通信和协商共享信息并共同做出决策,以达成共识。在执行任务过程中,智能体根据各自的角色执行任务,并提供反馈以调整策略和优化执行过程。
    对抗性: 在对抗性互动场景中,智能体之间存在竞争关系,每个智能体都追求自身利益的最大化。基本过程包括目标设定、策略制定、互动游戏和结果评估。智能体首先设定目标以最大化自身利益,然后根据对手的行为制定竞争性策略。在互动游戏阶段,智能体通过互动实施策略,努力争取最大收益。最后,智能体评估游戏结果并调整策略以应对未来的竞争。
    混合型: 混合互动场景结合了合作与对抗互动的特点,要求智能体在合作与竞争之间找到平衡。这种互动类型可进一步细分为并行和层次结构两种形式。(1)并行:在并行互动中,智能体独立地在各自的任务上进行协作,共享某些信息而不相互干扰。智能体设定独立目标,并行执行各自的任务,共享一些信息以提高整体效率,最后评估任务完成情况并调整信息共享策略。
进化

与人类不断通过与环境和其他人的互动来精炼认知能力和获取知识类似,智能体的进化涉及对其决策和行动的持续反思,以动态更新其知识。基于现有经验和在互动过程中收到的反馈,如图6所示。通过采用进化机制,智能体可以不断精炼或修正他们当前的理解,从而加深对已知任务的熟练度,并扩大对未知任务的成功探索。


进化源

在互动过程中收到的反馈是智能体实现进化的不可或缺的参考信息。这种反馈包括智能体决策和行动的结果及影响,指导它们进行内省,从而动态提升它们适应复杂环境或任务的能力。以往的工作主要以文本形式捕捉和传达反馈。根据智能体接收反馈的来源,它可以被归类为三种不同的类型。每个来源提供独特的见解,有助于智能体的自我反思和持续改进过程。
    环境反馈: 环境反馈指的是智能体在现实世界或虚拟环境中感知到的信息。这种类型的反馈通常与环境中的变化信息相关,这些变化是由智能体在与外部环境互动时所做的决定和行动引起的。
    智能体互动: 在多智能体系统中,智能体互动信息涉及智能体之间的协作信息交换。这些信息通常包括其他智能体关于特定智能体的决定或行动的评估或状态更新,以及智能体之间的上下文交流。
    人类反馈: 除了上述的环境和智能体互动反馈之外,人类反馈构成了人类提供的指导信号,以引导智能体做出更好的决策和行动,从而提升它们的认知能力。
进化方法

进化方法涵盖了多种旨在通过自我改进和从与环境互动中学习来增强智能体的能力和适应性的技术。这些方法对于开发能够自主完善策略和行为以实现跨多样任务和场景更好性能的智能系统至关重要。
    全微调: 全微调涉及更新预训练模型的所有参数,使其适应特定的新任务。
    重新利用: 重新利用通常专注于微调预训练模型的特定层,通常是较高层,同时保持较低层不变。
    额外参数微调: 额外参数微调在原始模型中引入了一组额外的参数,允许在不改变预训练参数的情况下高效地进行微调。
    提示微调: 提示调整通过引入可训练的“软提示”,使预训练的LLM适应特定任务。
智能体调整

    记忆更新: 一个重要的方法强调扩展和深化智能体的自我意识和学习经历。这种方法通常涉及智能体利用记忆机制,基于收集到的反馈进行自我反思,通过抽象、总结和综合的过程。然后将新获得的知识与经验存储在记忆中或外部数据库中。
    自我反思: 虽然以往的研究主要集中在提升智能体在零样本任务决策和高效执行方面的能力,但一种通用方法涉及智能体通过根据反馈和通信记录调整其初始目标和规划策略来动态演化。
    动态生成: 在某些情境下,重点是自主维护多智能体系统以确保其持续运行。鉴于环境的复杂性,系统可以通过生成或移除特定任务的智能体来动态调整其规模。
应用



问题解决

LLMs通过利用其在自然语言理解和其他应用方面的先进能力,正在改变各个领域的问题解决方式。这些模型擅长分解复杂任务,提供解决方案,并促进虚拟智能体之间的高效协作。
    软件开发: 在计算机科学和软件工程领域,基于大型语言模型(LLM)的智能体能够通过利用涵盖多个领域(如计算机科学和网络安全)的训练语料库来理解、推断和生成类似人类的文本。这种能力使得编码、测试、调试和文档生成的自动化成为可能。
    工业工程: 大型语言模型智能体在工业领域的应用涵盖了自动化生产、工程设计、过程控制和优化等多个方面。凭借强大的自然语言处理能力,大型语言模型智能体能够理解并生成复杂的指令和信息,从而自动化任务执行和数据分析过程。此外,这些智能体可以通过学习和适应不断提高性能,提供更准确高效的决策支持。
    具象化智能体: 凭借强大的常识推理和语言理解能力,大型语言模型可以协助机器人系统通过与物理和虚拟环境的互动来规划、推理和执行高级任务。
    科学实验: 大型语言模型融入各个科学学科,促进了能够自主进行化学实验的智能智能体的创建。这些智能体借助大型语言模型的能力,自动化了从设计到执行的整个实验过程,代表了实验室自动化的重大进步。
    科学辩论: LLM智能体在科学辩论中表现出色,凭借其广泛的训练和生成连贯、符合上下文回应的能力。辩论通常分为多轮,在这一过程中,多个LLM实例提供分析、参与协作讨论,并完善论点,直至达成共识或得出合理结论。
世界模拟

LLM智能体能够理解并生成连贯、语义丰富的文本,从而模拟人类行为和互动。该功能使大型语言模型智能体能够在模拟世界、与环境和其他智能体互动的过程中扮演各种角色,从而构建具有一定真实度的虚拟世界。在世界模拟中,大型语言模型智能体可以被赋予不同的任务和属性,如扮演游戏中的角色、模拟社会中的行为以及进行经济决策分析,从而促进各个领域中的模拟和研究。
    游戏领域: 大型语言模型智能体的应用涵盖多种角色,从作为参与游戏的玩家,模拟非玩家角色(NPC)的对话和行为,到提供玩家帮助和游戏设计支持。这些智能体能够生成连贯的文本以增强游戏中角色的互动性和故事质量,同时也支持游戏设计过程,如关卡生成和概念设计。
    社会模拟: 在社会科学领域,大型语言模型智能体的使用主要围绕模拟人类行为和社会互动。它们能够通过自然语言处理技术与人类进行对话,参与多轮对话,并在模拟环境中学习社交互动。这些智能体通过分析语言数据、识别社会行为模式,并基于此信息做出决策或预测,从而有助于社交网络分析、心理健康支持和教育等领域。
    经济(金融交易): 鉴于基于大型语言模型(LLM)的智能体在文本理解和复杂决策能力方面的提升,研究人员赋予这些智能体诸如财富、信息和偏好等属性,以模拟人类或经济参与者的决策过程,进行深入的经济和金融研究。
    推荐系统: 在推荐系统领域,大型语言模型(LLMs)由于其强大的领域泛化和语言生成能力,常被用作推荐器以及用于增强或模拟推荐器。
    疾病传播模拟: 在疾病传播和流行病学建模中,大型语言模型(LLMs)可以模拟疾病传播中各种智能体的行为和互动,帮助研究人员更深入地理解疾病传播动态并制定有效的控制策略。
讨论

在快速发展的AI领域,由于通过协作和协调处理复杂任务的潜力,多智能体系统引起了广泛关注。然而,这些系统的实施和部署面临众多挑战。
    模型固有问题
      黑盒效应与决策准确性评估 LLMs作为黑盒系统运作,使其决策过程不透明。这种不透明性在评估其决策的准确性和可靠性方面带来了重大挑战,这在高风险应用中至关重要。
      幻觉 LLMs可能产生听起来合理但实际上不正确或无意义的信息,这被称为幻觉。这种现象可能源于模型对训练数据的过度泛化或对不完整或误导性信息的误解。
      偏见大型语言模型中的偏见表现为训练数据中存在的歧视倾向的传播和放大,如种族和性别偏见,导致不公平或有害的输出。
    滥用 尽管MAS(多智能体系统)和LLMs(大型语言模型)具有强大的能力,但它们可能被恶意利用来生成大规模虚假信息、网络攻击以及其他不当行为。此类误用可能对个体、社会和国家安全构成威胁。
    扩展多智能体系统 扩展多智能体系统涉及增加智能体数量以实现更大规模的社会仿真和更复杂的任务处理。虽然这个过程可以提升系统性能和逼真度,但它也带来了与计算资源、通信效率和系统协调相关的挑战。
    动态环境适应性动态环境适应性指的是人工智能智能体在不断变化的环境中有效运作的能力。这种能力要求智能体不仅理解环境的状态,还要预测并适应变化,以实现连续的任务执行和目标达成。环境的动态性部分源于多模态数据流的异质性,部分源于外部条件和任务需求的持续迭代。

内容来源:IF 实验室
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注0

粉丝0

帖子147

发布主题
阅读排行更多+

Powered by Discuz! X3.4© 2001-2013 Discuz Team.( 京ICP备17022993号-3 )