gstack：将 Claude Code 变成一支虚拟工程团队

Garry Tan，Y Combinator 的总裁兼 CEO，已经做了二十年的产品。但现在，他说自己出货的速度前所未有——六十天内上线了三个生产服务和超过四十个功能，同时还在全职运营 YC。这背后的秘密武器是 gstack，一个将 Claude Code 从单智能体副驾升级为完整虚拟工程团队的开源工具包。

gstack 是什么？

gstack 是一套包含二十三个明确立场的斜杠命令技能——CEO、工程经理、设计师、QA 主管、安全官、发布工程师等等——在 Claude Code 会话中执行。每个技能都是一个 Markdown 文件，内嵌工作流和决策启发式规则。全部免费、MIT 协议、三十秒安装。

gstack 的数据令人瞩目：截至 2026 年 4 月，87,201 个 GitHub Star，超过 12,800 次 Fork，53 个不同的 SKILL.md 文件驱动整个系统。Garry Tan 声称，按照规范化计算，他 2026 年的生产力达到了 2013 年水平的 810 倍（每天 11,417 行 vs. 14 行逻辑代码），跨越四十个公开和私有仓库进行测算。

Garry 自己的定位毫不含糊：

"这是我的开源软件工厂。我每天都在用。我把它们分享出来，因为这些工具应该对所有人开放。"

技能 Sprint：思考 → 规划 → 构建 → 审查 → 测试 → 发布 → 反思

gstack 不是一堆互不关联的工具。它是一个流程——技能按照 sprint 运行的顺序相互衔接：

阶段	技能	做什么
思考	`/office-hours`, `/plan-ceo-review`	智能体挑战你的框架、驳斥假设，并撰写设计文档
规划	`/plan-eng-review`, `/plan-design-review`, `/plan-devex-review`	架构图、设计审计（0–10 评分），以及 20–45 个开发者体验强迫性问题
构建	`/autoplan`（自动运行 CEO → Design → Eng → DX 审查）	按批准的计划实施；连续检查点提交防止崩溃丢失上下文
审查	`/review`, `/codex`	高级工程师审查发现生产 bug；Codex 提供跨模型的第二意见
测试	`/qa`, `/qa-only`, `/canary`, `/benchmark`	真实 Chromium 浏览器测试、部署后错误监控、Core Web Vitals 前后对比
发布	`/ship`, `/land-and-deploy`	同步 main 分支、运行测试、打开 PR，CI 后合并、验证生产环境——一条命令
反思	`/retro`, `/document-release`, `/learn`	按周的团队回顾、自动更新文档、跨会话的学习积累

每一步都知道上一步做了什么。/office-hours 写的设计文档被 /plan-ceo-review 读取。/plan-eng-review 写的测试计划被 /qa 拾取。没有任何东西会被遗漏。

浏览器组件

多个 gstack 技能依赖真实的 Chromium 浏览器，因此工具包内置了 GStack 浏览器——一个长期运行的守护进程，CLI 通过 localhost HTTP 与之通信。

架构设计非常优雅：

Claude Code                    gstack
─────────                    ────────
Tool call: $B snapshot -i     CLI（编译好的二进制文件）
────────────────────────→     • 读取状态文件
                               • POST /command 到 localhost

                               服务器（Bun.serve）
                               • 分发命令
                               • 通过 CDP 与 Chromium 通信

                               Chromium（headless）
                               • 持久化的标签页和 cookie
                               • 30 分钟空闲超时

第一次调用启动所有东西（约 3 秒）。之后每次调用：约 100–200 毫秒。这个亚秒级延迟让一场包含二十多次命令的交互式 QA 会话变得可行，而每次命令都冷启动 Playwright 则会累积四十多秒的开销。

浏览器用 Bun 构建——编译成单个约 58MB 的二进制文件，零运行时依赖。原生 SQLite（用于 cookie 解密）、原生 TypeScript 和 Bun.serve() 让整个栈保持精简。瓶颈始终是 Chromium；CLI 和服务器从来不是限制因素。

AI 系统集成：超越 Claude Code

这是 gstack 不止于 Claude Code 增强器的地方。工具包被设计为 智能体无关。它的安装脚本自动检测已安装的 AI 编码智能体，并相应部署技能：

AI 智能体	安装参数	技能目标路径
Claude Code	（默认）	`~/.claude/skills/gstack-*/`
OpenAI Codex CLI	`--host codex`	`~/.codex/skills/gstack-*/`
OpenCode	`--host opencode`	`~/.config/opencode/skills/gstack-*/`
Cursor	`--host cursor`	`~/.cursor/skills/gstack-*/`
Factory Droid	`--host factory`	`~/.factory/skills/gstack-*/`
Kiro	`--host kiro`	`~/.kiro/skills/gstack-*/`
Hermes	`--host hermes`	`~/.hermes/skills/gstack-*/`
GBrain	`--host gbrain`	`~/.gbrain/skills/gstack-*/`

这意味着二十三人的虚拟专家团队并不锁定在 Anthropic 的生态里。你可以通过 Codex 运行 /cso（首席安全官——OWASP Top 10 + STRIDE 威胁建模）。你可以通过 Hermes 运行 /qa（真实浏览器测试）。每个智能体看到的是相同的 Markdown 技能、相同的工作流、相同的决策启发式。

添加新智能体的支持只需要一个 TypeScript 配置文件——零代码改动。

OpenClaw 集成

gstack 与 OpenClaw（Peter Steinberger 的 247k 星 AI 智能体编排系统）的协同尤为出色。四个 gstack 方法论技能——office-hours、ceo-review、investigate 和 retro——通过 ClawHub 以原生 OpenClaw 技能形式发布：

clawhub install gstack-openclaw-office-hours gstack-openclaw-ceo-review \
                gstack-openclaw-investigate gstack-openclaw-retro

这些是对话式技能。你的 OpenClaw 智能体直接通过聊天运行它们——不需要 Claude Code 会话。对于更重的工作负载，OpenClaw 会派发预装 gstack 的 Claude Code 会话，并遵循区分简单修复和完整功能构建的路由规则。

学习循环

gstack 会随着时间推移不断加深对你的代码库的理解。/learn 技能管理工具包在跨会话中学到的内容：模式、陷阱、偏好和项目特定的启发式。这些学习成果会话叠加会话——你在一个项目上用 gstack 越久，它就越理解你的架构、你的测试哲学和你的品味。

连续检查点模式（可选）在你工作的过程中自动提交 WIP: 快照。崩溃或上下文切换不会丢失状态。/ship 在创建 PR 前会过滤合并所有 WIP 提交，保持 bisect 记录干净。

构建者精神

gstack 最有趣的部分不是代码——而是自动注入到每个技能序言中的构建者哲学。三条原则尤为突出：

1. 煮沸湖泊（Boil the Lake）。 AI 辅助编程让完备性的边际成本趋近于零。当完整实现比捷径只多花费几分钟时，做完整的事——100% 测试覆盖、所有边缘情况、每条错误路径。"先发布捷径"是旧时代的思维，在那些年代里人类工程时间是真正的瓶颈。

2. 构建之前先搜索。 在构建涉及不熟悉模式的任何东西之前，智能体会停下来先搜索。三层知识体系：（1）已验证的已有分布模式；（2）新兴流行的博客和趋势（作为思考的输入，而非答案）；（3）第一性原理的观察——最宝贵的一层，那些真正超出分布的东西。

3. 完备性很便宜。 评估"方案 A（完整，约 150 行）vs. 方案 B（覆盖 90%，约 80 行）"时，始终选 A。70 行增量在 AI 编程下只需几秒。

这套哲学解释了 gstack 用户报告的压缩比：脚手架和样板代码 100×，测试编写 50×，功能实现 30×，带回归测试的 Bug 修复 20×，架构和研究任务 3–5×。

安全：七层提示注入防御

一个读取恶意网页并通过 AI 智能体执行 shell 命令的工具，必须配以严肃的安全防护。gstack 的防御是多层的，而非单点设防：

L1–L3 内容安全：每条页面内容命令和工具输出的数据标记、隐藏元素剥离、ARIA 正则过滤、URL 黑名单和信任边界信封包装。
L4 机器学习分类器：内置 22MB 的 BERT-small ONNX 模型（int8 量化），在模型看到内容之前扫描每条用户消息和工具输出。本地运行，无网络调用。
L4b 对话转录分类器：Claude Haiku 通道，查看完整的对话形态（用户消息、工具调用、工具输出），而非单个文本片段，带有阈值门控使大部分干净流量跳过付费调用。
L5 金丝雀令牌：会话启动时注入到系统提示中的随机令牌。滚动缓冲区检测捕获令牌是否会出现在模型输出、工具参数或文件写入中——确定性地 BLOCK。
L6 集成裁决器：BLOCK 需要两个机器学习分类器在 >= WARN 级别达成一致，而非单个高置信度命中。这缓解了合法指令编写流量的误报问题。
物理端口隔离：当浏览器守护进程为 /pair-agent 进行外部隧道连接时，它运行两个 HTTP 监听器——本地监听器（完整面，永不转发）和隧道监听器（锁定白名单、作用域令牌）。端口分离意味着隧道调用者物理上无法接触到 /health、/cookie-picker 或令牌生成端点。
Shell 注入防护：所有浏览器注册表都是硬编码的。数据库路径由常量构造，不来源于用户输入。钥匙串访问使用显式参数数组，而非 shell 字符串插值。

这不是一份检查清单——它是一个基于"智能体会遇到敌对输入"这一前提设计的架构。

如何在你的 AI 系统中使用 gstack

如果你要将 gstack 集成到已有的 AI 工作流中，这里是推荐的路径：

安装（三十秒）：克隆仓库并运行 ./setup。Hermes 用户传入 --host hermes。
从 /office-hours 开始：描述你正在构建的东西。在写一行代码之前，让智能体重新框定问题。
在任何功能想法上运行 /autoplan：自动运行 CEO → Design → Eng → DX 审查，只将品味决策推给用户批准。
对每个有改动的分支，运行 /review 或 /codex（来自 Codex 的跨模型第二意见）。
对每个预发布 URL，运行 /qa：真实浏览器测试捕获静态分析漏掉的 bug。
每次部署到生产环境，依次运行 /ship 和 /land-and-deploy：从已批准 PR 到已验证生产环境的一条命令。
每周以 /retro 结束：从团队视角分析速度、测试健康度和成长机会。
与 GBrain 串联：如果你配置了 /setup-gbrain（PGLite 或 Supabase，约 5 分钟），gstack 会将项目学习成果跨会话存储——随着时间推移，它在你的代码库上变得越来越聪明。

核心洞见：gstack 是一个流程，不是一堆工具的集合。你可以挑选单个技能——用 /cso 做安全审计，用 /qa 做浏览器测试——但完整的加速来自于端到端地跑完整 sprint。每个技能喂给下一个。没有任何东西被遗漏，因为每一步都知道上一步做了什么。

这意味着什么

gstack 代表了我们对 AI 编程工具思考模式的一次哲学转变。它不把智能体当作一个更快的打字员。它把智能体当作一支团队——有角色、有职责、有审查关卡、有共享的流程。"帮我写一个功能"（副驾模式）和"运行 /autoplan、实施计划、然后运行 /ship"（团队模式）之间的区别，就是从生成代码到交付软件的跨越。

一个人，配上正确的工具，现在可以比一支传统团队移动得更快。Garry Tan 的生产力是 2013 年的 810 倍，Andrej Karpathy 说从 2025 年 12 月起他就没打过一行代码，Peter Steinberger 基本上用 AI 智能体独自构建了 247k 星的 OpenClaw。这就是 Garry 描述的黄金时代：工程门槛已经消失；剩下的只有品味、判断力，以及做完整事情的意愿。

gstack 是免费的、MIT 协议的，在 GitHub 上可获得。Fork 它。改进它。把它变成你的。