OS Agent(操作系统智能体)作为新型智能体系统的前沿研究方向,其核心特征在于通过人机交互界面实现计算设备的自主操作。
根据IEEE T-PAMI 2023年发布的系统性综述,这类智能体通过模拟人类用户与图形用户界面(Graphical User Interface, GUI)的交互行为,可完成包括文档处理、应用程序管理和跨设备协同等复杂任务。其技术架构主要构建于三个核心模块:
环境: OS Agent所处的操作系统环境,如Windows、macOS、Android等 观察空间: 智能体获取信息的方式,如界面截图、DOM结构等 行动空间: 智能体可执行的操作集合,如点击、输入、滑动等