gstack:将 Claude Code 变成一支虚拟工程团队
Garry Tan,Y Combinator 的总裁兼 CEO,已经做了二十年的产品。但现在,他说自己出货的速度前所未有——六十天内上线了三个生产服务和超过四十个功能,同时还在全职运营 YC。这背后的秘密武器是 gstack,一个将 Claude Code 从单智能体副驾升级为完整虚拟工程团队的开源工具包。
gstack 是什么?
gstack 是一套包含二十三个明确立场的斜杠命令技能——CEO、工程经理、设计师、QA 主管、安全官、发布工程师等等——在 Claude Code 会话中执行。每个技能都是一个 Markdown 文件,内嵌工作流和决策启发式规则。全部免费、MIT 协议、三十秒安装。
gstack 的数据令人瞩目:截至 2026 年 4 月,87,201 个 GitHub Star,超过 12,800 次 Fork,53 个不同的 SKILL.md 文件驱动整个系统。Garry Tan 声称,按照规范化计算,他 2026 年的生产力达到了 2013 年水平的 810 倍(每天 11,417 行 vs. 14 行逻辑代码),跨越四十个公开和私有仓库进行测算。
Garry 自己的定位毫不含糊:
"这是我的开源软件工厂。我每天都在用。我把它们分享出来,因为这些工具应该对所有人开放。"
技能 Sprint:思考 → 规划 → 构建 → 审查 → 测试 → 发布 → 反思
gstack 不是一堆互不关联的工具。它是一个流程——技能按照 sprint 运行的顺序相互衔接:
| 阶段 | 技能 | 做什么 |
|---|---|---|
| 思考 | /office-hours, /plan-ceo-review |
智能体挑战你的框架、驳斥假设,并撰写设计文档 |
| 规划 | /plan-eng-review, /plan-design-review, /plan-devex-review |
架构图、设计审计(0–10 评分),以及 20–45 个开发者体验强迫性问题 |
| 构建 | /autoplan(自动运行 CEO → Design → Eng → DX 审查) |
按批准的计划实施;连续检查点提交防止崩溃丢失上下文 |
| 审查 | /review, /codex |
高级工程师审查发现生产 bug;Codex 提供跨模型的第二意见 |
| 测试 | /qa, /qa-only, /canary, /benchmark |
真实 Chromium 浏览器测试、部署后错误监控、Core Web Vitals 前后对比 |
| 发布 | /ship, /land-and-deploy |
同步 main 分支、运行测试、打开 PR,CI 后合并、验证生产环境——一条命令 |
| 反思 | /retro, /document-release, /learn |
按周的团队回顾、自动更新文档、跨会话的学习积累 |
每一步都知道上一步做了什么。/office-hours 写的设计文档被 /plan-ceo-review 读取。/plan-eng-review 写的测试计划被 /qa 拾取。没有任何东西会被遗漏。
浏览器组件
多个 gstack 技能依赖真实的 Chromium 浏览器,因此工具包内置了 GStack 浏览器——一个长期运行的守护进程,CLI 通过 localhost HTTP 与之通信。
架构设计非常优雅:
Claude Code gstack
───────── ────────
Tool call: $B snapshot -i CLI(编译好的二进制文件)
────────────────────────→ • 读取状态文件
• POST /command 到 localhost
服务器(Bun.serve)
• 分发命令
• 通过 CDP 与 Chromium 通信
Chromium(headless)
• 持久化的标签页和 cookie
• 30 分钟空闲超时
第一次调用启动所有东西(约 3 秒)。之后每次调用:约 100–200 毫秒。这个亚秒级延迟让一场包含二十多次命令的交互式 QA 会话变得可行,而每次命令都冷启动 Playwright 则会累积四十多秒的开销。
浏览器用 Bun 构建——编译成单个约 58MB 的二进制文件,零运行时依赖。原生 SQLite(用于 cookie 解密)、原生 TypeScript 和 Bun.serve() 让整个栈保持精简。瓶颈始终是 Chromium;CLI 和服务器从来不是限制因素。
AI 系统集成:超越 Claude Code
这是 gstack 不止于 Claude Code 增强器的地方。工具包被设计为 智能体无关。它的安装脚本自动检测已安装的 AI 编码智能体,并相应部署技能:
| AI 智能体 | 安装参数 | 技能目标路径 |
|---|---|---|
| Claude Code | (默认) | ~/.claude/skills/gstack-*/ |
| OpenAI Codex CLI | --host codex |
~/.codex/skills/gstack-*/ |
| OpenCode | --host opencode |
~/.config/opencode/skills/gstack-*/ |
| Cursor | --host cursor |
~/.cursor/skills/gstack-*/ |
| Factory Droid | --host factory |
~/.factory/skills/gstack-*/ |
| Kiro | --host kiro |
~/.kiro/skills/gstack-*/ |
| Hermes | --host hermes |
~/.hermes/skills/gstack-*/ |
| GBrain | --host gbrain |
~/.gbrain/skills/gstack-*/ |
这意味着二十三人的虚拟专家团队并不锁定在 Anthropic 的生态里。你可以通过 Codex 运行 /cso(首席安全官——OWASP Top 10 + STRIDE 威胁建模)。你可以通过 Hermes 运行 /qa(真实浏览器测试)。每个智能体看到的是相同的 Markdown 技能、相同的工作流、相同的决策启发式。
添加新智能体的支持只需要一个 TypeScript 配置文件——零代码改动。
OpenClaw 集成
gstack 与 OpenClaw(Peter Steinberger 的 247k 星 AI 智能体编排系统)的协同尤为出色。四个 gstack 方法论技能——office-hours、ceo-review、investigate 和 retro——通过 ClawHub 以原生 OpenClaw 技能形式发布:
clawhub install gstack-openclaw-office-hours gstack-openclaw-ceo-review \
gstack-openclaw-investigate gstack-openclaw-retro
这些是对话式技能。你的 OpenClaw 智能体直接通过聊天运行它们——不需要 Claude Code 会话。对于更重的工作负载,OpenClaw 会派发预装 gstack 的 Claude Code 会话,并遵循区分简单修复和完整功能构建的路由规则。
学习循环
gstack 会随着时间推移不断加深对你的代码库的理解。/learn 技能管理工具包在跨会话中学到的内容:模式、陷阱、偏好和项目特定的启发式。这些学习成果会话叠加会话——你在一个项目上用 gstack 越久,它就越理解你的架构、你的测试哲学和你的品味。
连续检查点模式(可选)在你工作的过程中自动提交 WIP: 快照。崩溃或上下文切换不会丢失状态。/ship 在创建 PR 前会过滤合并所有 WIP 提交,保持 bisect 记录干净。
构建者精神
gstack 最有趣的部分不是代码——而是自动注入到每个技能序言中的构建者哲学。三条原则尤为突出:
1. 煮沸湖泊(Boil the Lake)。 AI 辅助编程让完备性的边际成本趋近于零。当完整实现比捷径只多花费几分钟时,做完整的事——100% 测试覆盖、所有边缘情况、每条错误路径。"先发布捷径"是旧时代的思维,在那些年代里人类工程时间是真正的瓶颈。
2. 构建之前先搜索。 在构建涉及不熟悉模式的任何东西之前,智能体会停下来先搜索。三层知识体系:(1)已验证的已有分布模式;(2)新兴流行的博客和趋势(作为思考的输入,而非答案);(3)第一性原理的观察——最宝贵的一层,那些真正超出分布的东西。
3. 完备性很便宜。 评估"方案 A(完整,约 150 行)vs. 方案 B(覆盖 90%,约 80 行)"时,始终选 A。70 行增量在 AI 编程下只需几秒。
这套哲学解释了 gstack 用户报告的压缩比:脚手架和样板代码 100×,测试编写 50×,功能实现 30×,带回归测试的 Bug 修复 20×,架构和研究任务 3–5×。
安全:七层提示注入防御
一个读取恶意网页并通过 AI 智能体执行 shell 命令的工具,必须配以严肃的安全防护。gstack 的防御是多层的,而非单点设防:
- L1–L3 内容安全:每条页面内容命令和工具输出的数据标记、隐藏元素剥离、ARIA 正则过滤、URL 黑名单和信任边界信封包装。
- L4 机器学习分类器:内置 22MB 的 BERT-small ONNX 模型(int8 量化),在模型看到内容之前扫描每条用户消息和工具输出。本地运行,无网络调用。
- L4b 对话转录分类器:Claude Haiku 通道,查看完整的对话形态(用户消息、工具调用、工具输出),而非单个文本片段,带有阈值门控使大部分干净流量跳过付费调用。
- L5 金丝雀令牌:会话启动时注入到系统提示中的随机令牌。滚动缓冲区检测捕获令牌是否会出现在模型输出、工具参数或文件写入中——确定性地 BLOCK。
- L6 集成裁决器:BLOCK 需要两个机器学习分类器在 >= WARN 级别达成一致,而非单个高置信度命中。这缓解了合法指令编写流量的误报问题。
- 物理端口隔离:当浏览器守护进程为
/pair-agent进行外部隧道连接时,它运行两个 HTTP 监听器——本地监听器(完整面,永不转发)和隧道监听器(锁定白名单、作用域令牌)。端口分离意味着隧道调用者物理上无法接触到/health、/cookie-picker或令牌生成端点。 - Shell 注入防护:所有浏览器注册表都是硬编码的。数据库路径由常量构造,不来源于用户输入。钥匙串访问使用显式参数数组,而非 shell 字符串插值。
这不是一份检查清单——它是一个基于"智能体会遇到敌对输入"这一前提设计的架构。
如何在你的 AI 系统中使用 gstack
如果你要将 gstack 集成到已有的 AI 工作流中,这里是推荐的路径:
- 安装(三十秒):克隆仓库并运行
./setup。Hermes 用户传入--host hermes。 - 从
/office-hours开始:描述你正在构建的东西。在写一行代码之前,让智能体重新框定问题。 - 在任何功能想法上运行
/autoplan:自动运行 CEO → Design → Eng → DX 审查,只将品味决策推给用户批准。 - 对每个有改动的分支,运行
/review或/codex(来自 Codex 的跨模型第二意见)。 - 对每个预发布 URL,运行
/qa:真实浏览器测试捕获静态分析漏掉的 bug。 - 每次部署到生产环境,依次运行
/ship和/land-and-deploy:从已批准 PR 到已验证生产环境的一条命令。 - 每周以
/retro结束:从团队视角分析速度、测试健康度和成长机会。 - 与 GBrain 串联:如果你配置了
/setup-gbrain(PGLite 或 Supabase,约 5 分钟),gstack 会将项目学习成果跨会话存储——随着时间推移,它在你的代码库上变得越来越聪明。
核心洞见:gstack 是一个流程,不是一堆工具的集合。你可以挑选单个技能——用 /cso 做安全审计,用 /qa 做浏览器测试——但完整的加速来自于端到端地跑完整 sprint。每个技能喂给下一个。没有任何东西被遗漏,因为每一步都知道上一步做了什么。
这意味着什么
gstack 代表了我们对 AI 编程工具思考模式的一次哲学转变。它不把智能体当作一个更快的打字员。它把智能体当作一支团队——有角色、有职责、有审查关卡、有共享的流程。"帮我写一个功能"(副驾模式)和"运行 /autoplan、实施计划、然后运行 /ship"(团队模式)之间的区别,就是从生成代码到交付软件的跨越。
一个人,配上正确的工具,现在可以比一支传统团队移动得更快。Garry Tan 的生产力是 2013 年的 810 倍,Andrej Karpathy 说从 2025 年 12 月起他就没打过一行代码,Peter Steinberger 基本上用 AI 智能体独自构建了 247k 星的 OpenClaw。这就是 Garry 描述的黄金时代:工程门槛已经消失;剩下的只有品味、判断力,以及做完整事情的意愿。
gstack 是免费的、MIT 协议的,在 GitHub 上可获得。Fork 它。改进它。把它变成你的。