AI创想

标题: OpenClaw + Codex/ClaudeCode Agent Swarm:单人开发团队 [打印本页]

作者: 米落枫    时间: 昨天 22:02
标题: OpenClaw + Codex/ClaudeCode Agent Swarm:单人开发团队
作者:老周聊架构
我不再直接使用 Codex 或 Claude Code。
我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会生成代理、编写提示、为每个任务选择合适的模型、监控进度,并在 PR 准备好合并时通过 Telegram 通知我。
过去 4 周的成果:
(, 下载次数: 0)

我的 Git 历史记录看起来就像我刚招了个开发团队。实际上,我只是从管理 Claude 代码,转而管理一个 OpenClaw 代理,这个代理又管理着一大批其他的 Claude 代码和 Codex 代理。
成功率:该系统几乎可以一次性完成所有中小型任务,无需任何人工干预。
费用:Claude 每月约 100 美元,Codex 每月约 90 美元,但您可以从 20 美元起步。
这就是为什么它比直接使用 Codex 或 Claude Code 更有效的原因:
Codex 和 Claude Code 对您的业务了解甚少。
它们只能看到代码,而无法了解您业务的全貌。
OpenClaw 改变了这种局面。它充当您和所有代理之间的协调层——它将我所有的业务背景信息(客户数据、会议记录、过往决策、成功经验和失败教训)保存在我的 Obsidian 存储库中,并将历史背景信息转化为每个编码代理的精准提示。代理可以专注于代码编写,而协调层则可以专注于高层战略。
以下是该系统的工作原理概述:
(, 下载次数: 0)

上周 Stripe 介绍了他们的后台代理系统“Minions”——由集中式编排层支持的并行编码代理。我不小心也搭建了一个类似的系统,不过它运行在我的 Mac mini 本地。
在告诉你如何设置之前,你应该先了解为什么需要代理编排器。
为什么一个人工智能无法同时处理所有事情

上下文窗口是零和博弈。你必须选择放入哪些内容。
如果填充代码 → 就没有空间容纳业务上下文。如果填充客户历史记录 → 就没有空间容纳代码库。这就是双层系统有效的原因:每个人工智能都加载了它所需的全部内容。
OpenClaw 和 Codex 的上下文截然不同:
(, 下载次数: 0)


通过上下文而非不同的模型实现专业化。
完整的八步工作流程

让我举一个上周的实际例子。
步骤 1:客户需求 → 与 Zoe 进行范围界定
我与一家代理机构的客户进行了通话。他们希望在团队中复用已设置的配置。
通话结束后,我与 Zoe 讨论了他们的需求。由于我的所有会议记录都会自动同步到我的 Obsidian Vault,因此我无需进行任何解释。我们一起确定了功能范围,最终确定了一个模板系统,允许他们保存和编辑现有配置。
然后 Zoe 执行三项操作:
步骤 2:生成代理
每个代理都有自己的工作树(隔离分支)和 tmux 会话:
  1. # Create worktree + spawn agentgit worktree add../feat-custom-templates -b feat/custom-templates origin/main
  2. cd../feat-custom-templates &&pnpminstall
  3. tmux new-session -d -s "codex-templates"\
  4.   -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates""$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"
复制代码
该代理程序在 tmux 会话中运行,并通过脚本进行完整的终端日志记录。
以下是启动代理程序的方法:
  1. # Codex
  2. codex --model gpt-5.3-codex \
  3.   -c "model_reasoning_effort=high"\
  4.   --dangerously-bypass-approvals-and-sandbox "Your prompt here"# Claude Code  
  5. claude --model claude-opus-4.5 \
  6.   --dangerously-skip-permissions \
  7.   -p "Your prompt here"
复制代码
我以前用过 codex exec 或 claude -p,但最近改用 tmux 了:
tmux 好得多,因为它支持任务中途重定向。代理程序运行方向错误?别终止它:
  1. # Wrong approach:
  2. tmux send-keys -t codex-templates "Stop. Focus on the API layer first, not the UI." Enter
  3. # Needs more context:
  4. tmux send-keys -t codex-templates "The schema is in src/types/template.ts. Use that." Enter
复制代码
任务跟踪记录在 .clawdbot/active-tasks.json 文件中:
  1. {"id":"feat-custom-templates",
  2.   "tmuxSession":"codex-templates",
  3.   "agent":"codex",
  4.   "description":"Custom email templates for agency customer",
  5.   "repo":"medialyst",
  6.   "worktree":"feat-custom-templates",
  7.   "branch":"feat/custom-templates",
  8.   "startedAt":1740268800000,
  9.   "status":"running",
  10.   "notifyOnComplete":true}
复制代码
完成后,它会更新 PR 编号并进行检查。(更多内容请参见步骤 5)
  1. {"status":"done",
  2.   "pr":341,
  3.   "completedAt":1740275400000,
  4.   "checks":{"prCreated": true,
  5.     "ciPassed": true,
  6.     "claudeReviewPassed": true,
  7.     "geminiReviewPassed":true},
  8.   "note":"All checks passed. Ready to merge."}
复制代码
步骤 3:循环监控
一个 cron 任务每 10 分钟运行一次,监控所有代理。这基本上是一个改进版的 Ralph Loop,稍后会详细介绍。
但它不会直接轮询代理——那样开销太大。相反,它会运行一个脚本来读取 JSON 注册表并检查:
  1. .clawdbot/check-agents.sh
复制代码
该脚本完全确定性,且令牌效率极高:
我不会监控终端。系统会告知我何时需要查看。
步骤 4:代理创建 PR
代理通过 gh pr create --fill 提交、推送并打开一个 PR。此时我不会收到通知——仅仅创建一个 PR 并不算完成。
完成的定义(代理必须了解这一点,非常重要):
步骤 5:自动化代码审查
每个 PR 都会由三个 AI 模型进行审查。它们各自负责不同的问题:
Codex Reviewer — 擅长处理各种极端情况。审查最为彻底,能够发现逻辑错误、缺失的错误处理和竞态条件。误报率极低。
Gemini Code Assist Reviewer — 免费且非常实用。能够发现其他工具遗漏的安全问题和可扩展性问题,并提出具体的修复建议。安装它绝对没错。
Claude Code Reviewer — 基本没什么用,往往过于谨慎。它会给出很多“考虑添加……”之类的建议,而这些建议通常都是过度设计。除非被标记为“严重”,否则我一般会跳过它的所有建议。它很少能独立发现严重问题,但会验证其他审查员标记的问题。
这三个工具都会直接在 PR 上发布评论。
步骤 6:自动化测试
我们的 CI 流水线运行大量自动化测试:
我上周添加了一条新规则:如果 PR 更改了任何 UI,则必须在 PR 描述中包含屏幕截图。否则 CI 测试将失败。这大大缩短了审核时间——我无需点击预览即可准确了解更改内容。
步骤 7:人工审核
现在我收到了 Telegram 通知:“PR #341 已准备好进行审核。”
此时:
我的审核耗时 5-10 分钟。许多 PR 我甚至无需阅读代码即可合并——屏幕截图显示了我需要的所有信息。
步骤 8:合并
PR 合并。每日定时任务会清理孤立的工作树和任务注册表 JSON 文件。
Ralph Loop V2

这本质上是 Ralph Loop 的升级版。
Ralph Loop 从内存中提取上下文信息,生成输出,评估结果,并保存学习成果。但大多数实现方式在每个循环中都运行相同的提示。虽然提炼出的学习成果可以改进未来的检索,但提示本身却保持不变。
我们的系统则不同。当代理失败时,Zoe 不会简单地用相同的提示重新启动它。她会结合完整的业务上下文来分析失败原因,并找出解决方法:
Zoe 会全程指导代理完成任务。她掌握着代理所不了解的上下文信息——客户历史记录、会议记录、我们之前的尝试以及失败的原因。她利用这些上下文信息,在每次重试时编写更完善的提示。
但她也不会等着我分配任务。她会主动寻找工作:
我打完客户电话后出去散步。回到 Telegram 后看到:“7 个 PR 已准备好审核。3 个功能,4 个 bug 修复。”
代理成功后,会记录模式。“这种提示结构适用于计费功能。”“Codex 需要预先提供类型定义。”“始终包含测试文件路径。”
奖励信号包括:持续集成通过、所有三个代码审查均通过、人工合并。任何失败都会触发循环。随着时间的推移,Zoe 编写的提示越来越完善,因为她记住了哪些内容已发布。
选择合适的代码处理工具

并非所有代码处理工具都一样。快速参考:
Codex 是我的主力工具。后端逻辑、复杂的 bug、多文件重构,以及任何需要跨代码库推理的任务,它都能胜任。虽然速度较慢,但​​处理得非常彻底。我 90% 的任务都用它完成。
Claude Code 速度更快,前端工作也更出色。它的权限问题也更少,因此非常适合 Git 操作。(我以前更多地用它来管理日常工作,但现在 Codex 5.3 的速度更快、性能更优。)
Gemini 拥有另一种超能力——设计感。为了创建美观的 UI,我会先让 Gemini 生成 HTML/CSS 规范,然后交给 Claude Code 在我们的组件系统中实现。Gemini 负责设计,Claude 负责构建。
Zoe 会为每个任务选择合适的工具,并在它们之间路由输出。例如,计费系统 bug 交给 Codex 处理。按钮样式修复交给 Claude Code。新的仪表盘设计则由 Gemini 发起。
如何设置

将本文全部复制到 OpenClaw 中,并告诉它:“为我的代码库实现此代理集群设置。”
它将读取架构、创建脚本、设置目录结构并配置 cron 监控。只需 10 分钟即可完成。
无需购买任何课程。
意想不到的瓶颈

我目前遇到的瓶颈是:内存。
每个代理都需要自己的工作树。每个工作树都需要自己的 node_modules 目录。每个代理都会运行构建、类型检查和测试。五个代理同时运行意味着五个并行 TypeScript 编译器、五个测试运行器以及五组加载到内存中的依赖项。
我的 16GB 内存的 Mac Mini 最多只能运行 4-5 个代理,之后就会开始使用交换空间——而且我还要祈祷它们不会同时尝试构建。
所以我买了一台配备 128GB 内存的 Mac Studio M4 Max(3500 美元)来驱动这个系统。它将于三月底到货,到时候我会分享它是否值得入手。
接下来:一人百万美元公司

我们将在2026年看到大量由一人打造的百万美元公司涌现。对于那些懂得如何构建递归式自我改进智能体的人来说,杠杆效应是巨大的。
它的样子是这样的:一个作为你自身延伸的AI编排器(就像Zoe之于我一样),将工作委派给负责不同业务职能的专业智能体。工程、客户支持、运营、市场营销。每个智能体都专注于自己擅长的领域。你可以保持高度专注和完全掌控。
下一代创业者不会雇佣一个10人的团队去做一个人用合适的系统就能完成的事情。他们会像这样构建——保持小规模,快速行动,每日交付。
现在充斥着太多AI生成的垃圾产品。围绕智能体和“任务控制”的炒作铺天盖地,却没有真正创造出任何有用的东西。花哨的演示,却没有实际意义。
我的目标是反其道而行之:减少炒作,更多地记录构建实际业务的过程。真实的客户,真实的收入,真正上线的产品,以及真实的亏损。
我正在打造什么?Agentic PR——一家挑战传统企业公关公司的单人公司。我们帮助初创公司获得媒体曝光,而无需每月支付1万美元的顾问费。
如果你想看看我最终能做到什么程度,请继续关注。

原文地址:https://blog.csdn.net/riemann_/article/details/158394065




欢迎光临 AI创想 (https://llms-ai.com/) Powered by Discuz! X3.4