AI创想

标题: OpenClaw + Codex/ClaudeCode Agent Swarm：单人开发团队 [打印本页]

作者: 米落枫 时间: 2026-3-3 22:02
标题: OpenClaw + Codex/ClaudeCode Agent Swarm：单人开发团队
作者：老周聊架构
我不再直接使用 Codex 或 Claude Code。
我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会生成代理、编写提示、为每个任务选择合适的模型、监控进度，并在 PR 准备好合并时通过 Telegram 通知我。
过去 4 周的成果：

(, 下载次数: 23)

我的 Git 历史记录看起来就像我刚招了个开发团队。实际上，我只是从管理 Claude 代码，转而管理一个 OpenClaw 代理，这个代理又管理着一大批其他的 Claude 代码和 Codex 代理。
成功率：该系统几乎可以一次性完成所有中小型任务，无需任何人工干预。
费用：Claude 每月约 100 美元，Codex 每月约 90 美元，但您可以从 20 美元起步。
这就是为什么它比直接使用 Codex 或 Claude Code 更有效的原因：

Codex 和 Claude Code 对您的业务了解甚少。

它们只能看到代码，而无法了解您业务的全貌。
OpenClaw 改变了这种局面。它充当您和所有代理之间的协调层——它将我所有的业务背景信息（客户数据、会议记录、过往决策、成功经验和失败教训）保存在我的 Obsidian 存储库中，并将历史背景信息转化为每个编码代理的精准提示。代理可以专注于代码编写，而协调层则可以专注于高层战略。
以下是该系统的工作原理概述：

(, 下载次数: 19)

上周 Stripe 介绍了他们的后台代理系统“Minions”——由集中式编排层支持的并行编码代理。我不小心也搭建了一个类似的系统，不过它运行在我的 Mac mini 本地。
在告诉你如何设置之前，你应该先了解为什么需要代理编排器。
为什么一个人工智能无法同时处理所有事情

上下文窗口是零和博弈。你必须选择放入哪些内容。
如果填充代码 → 就没有空间容纳业务上下文。如果填充客户历史记录 → 就没有空间容纳代码库。这就是双层系统有效的原因：每个人工智能都加载了它所需的全部内容。
OpenClaw 和 Codex 的上下文截然不同：

(, 下载次数: 18)

通过上下文而非不同的模型实现专业化。
完整的八步工作流程

让我举一个上周的实际例子。
步骤 1：客户需求 → 与 Zoe 进行范围界定
我与一家代理机构的客户进行了通话。他们希望在团队中复用已设置的配置。
通话结束后，我与 Zoe 讨论了他们的需求。由于我的所有会议记录都会自动同步到我的 Obsidian Vault，因此我无需进行任何解释。我们一起确定了功能范围，最终确定了一个模板系统，允许他们保存和编辑现有配置。
然后 Zoe 执行三项操作：

步骤 2：生成代理
每个代理都有自己的工作树（隔离分支）和 tmux 会话：

# Create worktree + spawn agentgit worktree add../feat-custom-templates -b feat/custom-templates origin/main
cd../feat-custom-templates &&pnpminstall
tmux new-session -d -s "codex-templates"\
-c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates""$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"

复制代码

该代理程序在 tmux 会话中运行，并通过脚本进行完整的终端日志记录。
以下是启动代理程序的方法：

# Codex
codex --model gpt-5.3-codex \
-c "model_reasoning_effort=high"\
--dangerously-bypass-approvals-and-sandbox "Your prompt here"# Claude Code
claude --model claude-opus-4.5 \
--dangerously-skip-permissions \
-p "Your prompt here"

复制代码

我以前用过 codex exec 或 claude -p，但最近改用 tmux 了：
tmux 好得多，因为它支持任务中途重定向。代理程序运行方向错误？别终止它：

# Wrong approach:
tmux send-keys -t codex-templates "Stop. Focus on the API layer first, not the UI." Enter
# Needs more context:
tmux send-keys -t codex-templates "The schema is in src/types/template.ts. Use that." Enter

复制代码

任务跟踪记录在 .clawdbot/active-tasks.json 文件中：

{"id":"feat-custom-templates",
"tmuxSession":"codex-templates",
"agent":"codex",
"description":"Custom email templates for agency customer",
"repo":"medialyst",
"worktree":"feat-custom-templates",
"branch":"feat/custom-templates",
"startedAt":1740268800000,
"status":"running",
"notifyOnComplete":true}

复制代码

完成后，它会更新 PR 编号并进行检查。（更多内容请参见步骤 5）

{"status":"done",
"pr":341,
"completedAt":1740275400000,
"checks":{"prCreated": true,
"ciPassed": true,
"claudeReviewPassed": true,
"geminiReviewPassed":true},
"note":"All checks passed. Ready to merge."}

复制代码

步骤 3：循环监控
一个 cron 任务每 10 分钟运行一次，监控所有代理。这基本上是一个改进版的 Ralph Loop，稍后会详细介绍。
但它不会直接轮询代理——那样开销太大。相反，它会运行一个脚本来读取 JSON 注册表并检查：

.clawdbot/check-agents.sh

复制代码

该脚本完全确定性，且令牌效率极高：

我不会监控终端。系统会告知我何时需要查看。
步骤 4：代理创建 PR
代理通过 gh pr create --fill 提交、推送并打开一个 PR。此时我不会收到通知——仅仅创建一个 PR 并不算完成。
完成的定义（代理必须了解这一点，非常重要）：

步骤 5：自动化代码审查
每个 PR 都会由三个 AI 模型进行审查。它们各自负责不同的问题：
Codex Reviewer — 擅长处理各种极端情况。审查最为彻底，能够发现逻辑错误、缺失的错误处理和竞态条件。误报率极低。
Gemini Code Assist Reviewer — 免费且非常实用。能够发现其他工具遗漏的安全问题和可扩展性问题，并提出具体的修复建议。安装它绝对没错。
Claude Code Reviewer — 基本没什么用，往往过于谨慎。它会给出很多“考虑添加……”之类的建议，而这些建议通常都是过度设计。除非被标记为“严重”，否则我一般会跳过它的所有建议。它很少能独立发现严重问题，但会验证其他审查员标记的问题。
这三个工具都会直接在 PR 上发布评论。
步骤 6：自动化测试
我们的 CI 流水线运行大量自动化测试：

我上周添加了一条新规则：如果 PR 更改了任何 UI，则必须在 PR 描述中包含屏幕截图。否则 CI 测试将失败。这大大缩短了审核时间——我无需点击预览即可准确了解更改内容。
步骤 7：人工审核
现在我收到了 Telegram 通知：“PR #341 已准备好进行审核。”
此时：

我的审核耗时 5-10 分钟。许多 PR 我甚至无需阅读代码即可合并——屏幕截图显示了我需要的所有信息。
步骤 8：合并
PR 合并。每日定时任务会清理孤立的工作树和任务注册表 JSON 文件。
Ralph Loop V2

这本质上是 Ralph Loop 的升级版。
Ralph Loop 从内存中提取上下文信息，生成输出，评估结果，并保存学习成果。但大多数实现方式在每个循环中都运行相同的提示。虽然提炼出的学习成果可以改进未来的检索，但提示本身却保持不变。
我们的系统则不同。当代理失败时，Zoe 不会简单地用相同的提示重新启动它。她会结合完整的业务上下文来分析失败原因，并找出解决方法：

Zoe 会全程指导代理完成任务。她掌握着代理所不了解的上下文信息——客户历史记录、会议记录、我们之前的尝试以及失败的原因。她利用这些上下文信息，在每次重试时编写更完善的提示。
但她也不会等着我分配任务。她会主动寻找工作：

我打完客户电话后出去散步。回到 Telegram 后看到：“7 个 PR 已准备好审核。3 个功能，4 个 bug 修复。”
代理成功后，会记录模式。“这种提示结构适用于计费功能。”“Codex 需要预先提供类型定义。”“始终包含测试文件路径。”
奖励信号包括：持续集成通过、所有三个代码审查均通过、人工合并。任何失败都会触发循环。随着时间的推移，Zoe 编写的提示越来越完善，因为她记住了哪些内容已发布。
选择合适的代码处理工具

并非所有代码处理工具都一样。快速参考：
Codex 是我的主力工具。后端逻辑、复杂的 bug、多文件重构，以及任何需要跨代码库推理的任务，它都能胜任。虽然速度较慢，但处理得非常彻底。我 90% 的任务都用它完成。
Claude Code 速度更快，前端工作也更出色。它的权限问题也更少，因此非常适合 Git 操作。（我以前更多地用它来管理日常工作，但现在 Codex 5.3 的速度更快、性能更优。）
Gemini 拥有另一种超能力——设计感。为了创建美观的 UI，我会先让 Gemini 生成 HTML/CSS 规范，然后交给 Claude Code 在我们的组件系统中实现。Gemini 负责设计，Claude 负责构建。
Zoe 会为每个任务选择合适的工具，并在它们之间路由输出。例如，计费系统 bug 交给 Codex 处理。按钮样式修复交给 Claude Code。新的仪表盘设计则由 Gemini 发起。
如何设置

将本文全部复制到 OpenClaw 中，并告诉它：“为我的代码库实现此代理集群设置。”
它将读取架构、创建脚本、设置目录结构并配置 cron 监控。只需 10 分钟即可完成。
无需购买任何课程。
意想不到的瓶颈

我目前遇到的瓶颈是：内存。
每个代理都需要自己的工作树。每个工作树都需要自己的 node_modules 目录。每个代理都会运行构建、类型检查和测试。五个代理同时运行意味着五个并行 TypeScript 编译器、五个测试运行器以及五组加载到内存中的依赖项。
我的 16GB 内存的 Mac Mini 最多只能运行 4-5 个代理，之后就会开始使用交换空间——而且我还要祈祷它们不会同时尝试构建。
所以我买了一台配备 128GB 内存的 Mac Studio M4 Max（3500 美元）来驱动这个系统。它将于三月底到货，到时候我会分享它是否值得入手。
接下来：一人百万美元公司

我们将在2026年看到大量由一人打造的百万美元公司涌现。对于那些懂得如何构建递归式自我改进智能体的人来说，杠杆效应是巨大的。
它的样子是这样的：一个作为你自身延伸的AI编排器（就像Zoe之于我一样），将工作委派给负责不同业务职能的专业智能体。工程、客户支持、运营、市场营销。每个智能体都专注于自己擅长的领域。你可以保持高度专注和完全掌控。
下一代创业者不会雇佣一个10人的团队去做一个人用合适的系统就能完成的事情。他们会像这样构建——保持小规模，快速行动，每日交付。
现在充斥着太多AI生成的垃圾产品。围绕智能体和“任务控制”的炒作铺天盖地，却没有真正创造出任何有用的东西。花哨的演示，却没有实际意义。
我的目标是反其道而行之：减少炒作，更多地记录构建实际业务的过程。真实的客户，真实的收入，真正上线的产品，以及真实的亏损。
我正在打造什么？Agentic PR——一家挑战传统企业公关公司的单人公司。我们帮助初创公司获得媒体曝光，而无需每月支付1万美元的顾问费。
如果你想看看我最终能做到什么程度，请继续关注。

原文地址：https://blog.csdn.net/riemann_/article/details/158394065

欢迎光临 AI创想 (https://llms-ai.com/)