开启左侧

openclaw 如何训练

[复制链接]
米落枫 发表于 10 小时前 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
作者:Derrick-h
openclaw 如何训练

“训练”这个词在 OpenClaw 语境下其实有两层含义,取决于你希望达到什么目标。
拆开讲清楚,你可以根据自己的需求选择。
两层含义,对应两种训练方法

训练层次目标方法难度
核心进阶训练让 AI 自动学习,越用越聪明强化学习(OpenClaw-RL)高(需学术背景)
基础配置训练让 AI 按你的规矩办事配置文件 + 技能开发低(复制粘贴就行)
一、核心进阶训练:让 AI 边用边学(OpenClaw-RL)

这是最近学术圈最火的方向。北京大学博士、普林斯顿博士后杨灵团队在 2026 年 3 月发布的 OpenClaw-RL 框架,解决的就是这个问题:让 AI 在日常使用中自动学习,无需人工标注。
核心原理:从“下一状态”中学习

传统 AI 训练需要大量标注数据,而 OpenClaw-RL 的洞察是:AI 每执行一次动作之后收到的“下一状态”(用户的回复、工具的输出、错误提示)本身就是最好的训练信号。这些信号包含两类信息:
    评价性信号:用户满意=正分,不满意=负分。通过 PRM(过程奖励模型)裁判模块,把这些信号变成 +1/-1/0 的奖励分数,告诉 AI“做对了还是做错了”。指导性信号:当用户说“你应该先检查文件再编辑”,这不只是差评,还在告诉 AI 具体怎么改。OpenClaw-RL 的 OPD(事

原文地址:https://blog.csdn.net/derrick_un/article/details/159581547
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
阅读排行更多+

Powered by Discuz! X3.4© 2001-2013 Discuz Team.( 京ICP备17022993号-3 )