ai官小西

gstack:将 Claude Code 变成一支虚拟工程团队

Garry Tan,Y Combinator 的总裁兼 CEO,已经做了二十年的产品。但现在,他说自己出货的速度前所未有——六十天内上线了三个生产服务和超过四十个功能,同时还在全职运营 YC。这背后的秘密武器是 gstack,一个将 Claude Code 从单智能体副驾升级为完整虚拟工程团队的开源工具包。

gstack 是什么?

gstack 是一套包含二十三个明确立场的斜杠命令技能——CEO、工程经理、设计师、QA 主管、安全官、发布工程师等等——在 Claude Code 会话中执行。每个技能都是一个 Markdown 文件,内嵌工作流和决策启发式规则。全部免费、MIT 协议、三十秒安装。

gstack 的数据令人瞩目:截至 2026 年 4 月,87,201 个 GitHub Star,超过 12,800 次 Fork,53 个不同的 SKILL.md 文件驱动整个系统。Garry Tan 声称,按照规范化计算,他 2026 年的生产力达到了 2013 年水平的 810 倍(每天 11,417 行 vs. 14 行逻辑代码),跨越四十个公开和私有仓库进行测算。

Garry 自己的定位毫不含糊:

"这是我的开源软件工厂。我每天都在用。我把它们分享出来,因为这些工具应该对所有人开放。"

技能 Sprint:思考 → 规划 → 构建 → 审查 → 测试 → 发布 → 反思

gstack 不是一堆互不关联的工具。它是一个流程——技能按照 sprint 运行的顺序相互衔接:

阶段 技能 做什么
思考 /office-hours, /plan-ceo-review 智能体挑战你的框架、驳斥假设,并撰写设计文档
规划 /plan-eng-review, /plan-design-review, /plan-devex-review 架构图、设计审计(0–10 评分),以及 20–45 个开发者体验强迫性问题
构建 /autoplan(自动运行 CEO → Design → Eng → DX 审查) 按批准的计划实施;连续检查点提交防止崩溃丢失上下文
审查 /review, /codex 高级工程师审查发现生产 bug;Codex 提供跨模型的第二意见
测试 /qa, /qa-only, /canary, /benchmark 真实 Chromium 浏览器测试、部署后错误监控、Core Web Vitals 前后对比
发布 /ship, /land-and-deploy 同步 main 分支、运行测试、打开 PR,CI 后合并、验证生产环境——一条命令
反思 /retro, /document-release, /learn 按周的团队回顾、自动更新文档、跨会话的学习积累

每一步都知道上一步做了什么。/office-hours 写的设计文档被 /plan-ceo-review 读取。/plan-eng-review 写的测试计划被 /qa 拾取。没有任何东西会被遗漏。

浏览器组件

多个 gstack 技能依赖真实的 Chromium 浏览器,因此工具包内置了 GStack 浏览器——一个长期运行的守护进程,CLI 通过 localhost HTTP 与之通信。

架构设计非常优雅:

Claude Code                    gstack
─────────                    ────────
Tool call: $B snapshot -i     CLI(编译好的二进制文件)
────────────────────────→     • 读取状态文件
                               • POST /command 到 localhost

                               服务器(Bun.serve)
                               • 分发命令
                               • 通过 CDP 与 Chromium 通信

                               Chromium(headless)
                               • 持久化的标签页和 cookie
                               • 30 分钟空闲超时

第一次调用启动所有东西(约 3 秒)。之后每次调用:约 100–200 毫秒。这个亚秒级延迟让一场包含二十多次命令的交互式 QA 会话变得可行,而每次命令都冷启动 Playwright 则会累积四十多秒的开销。

浏览器用 Bun 构建——编译成单个约 58MB 的二进制文件,零运行时依赖。原生 SQLite(用于 cookie 解密)、原生 TypeScript 和 Bun.serve() 让整个栈保持精简。瓶颈始终是 Chromium;CLI 和服务器从来不是限制因素。

AI 系统集成:超越 Claude Code

这是 gstack 不止于 Claude Code 增强器的地方。工具包被设计为 智能体无关。它的安装脚本自动检测已安装的 AI 编码智能体,并相应部署技能:

AI 智能体 安装参数 技能目标路径
Claude Code (默认) ~/.claude/skills/gstack-*/
OpenAI Codex CLI --host codex ~/.codex/skills/gstack-*/
OpenCode --host opencode ~/.config/opencode/skills/gstack-*/
Cursor --host cursor ~/.cursor/skills/gstack-*/
Factory Droid --host factory ~/.factory/skills/gstack-*/
Kiro --host kiro ~/.kiro/skills/gstack-*/
Hermes --host hermes ~/.hermes/skills/gstack-*/
GBrain --host gbrain ~/.gbrain/skills/gstack-*/

这意味着二十三人的虚拟专家团队并不锁定在 Anthropic 的生态里。你可以通过 Codex 运行 /cso(首席安全官——OWASP Top 10 + STRIDE 威胁建模)。你可以通过 Hermes 运行 /qa(真实浏览器测试)。每个智能体看到的是相同的 Markdown 技能、相同的工作流、相同的决策启发式。

添加新智能体的支持只需要一个 TypeScript 配置文件——零代码改动。

OpenClaw 集成

gstack 与 OpenClaw(Peter Steinberger 的 247k 星 AI 智能体编排系统)的协同尤为出色。四个 gstack 方法论技能——office-hoursceo-reviewinvestigateretro——通过 ClawHub 以原生 OpenClaw 技能形式发布:

clawhub install gstack-openclaw-office-hours gstack-openclaw-ceo-review \
                gstack-openclaw-investigate gstack-openclaw-retro

这些是对话式技能。你的 OpenClaw 智能体直接通过聊天运行它们——不需要 Claude Code 会话。对于更重的工作负载,OpenClaw 会派发预装 gstack 的 Claude Code 会话,并遵循区分简单修复和完整功能构建的路由规则。

学习循环

gstack 会随着时间推移不断加深对你的代码库的理解。/learn 技能管理工具包在跨会话中学到的内容:模式、陷阱、偏好和项目特定的启发式。这些学习成果会话叠加会话——你在一个项目上用 gstack 越久,它就越理解你的架构、你的测试哲学和你的品味。

连续检查点模式(可选)在你工作的过程中自动提交 WIP: 快照。崩溃或上下文切换不会丢失状态。/ship 在创建 PR 前会过滤合并所有 WIP 提交,保持 bisect 记录干净。

构建者精神

gstack 最有趣的部分不是代码——而是自动注入到每个技能序言中的构建者哲学。三条原则尤为突出:

1. 煮沸湖泊(Boil the Lake)。 AI 辅助编程让完备性的边际成本趋近于零。当完整实现比捷径只多花费几分钟时,做完整的事——100% 测试覆盖、所有边缘情况、每条错误路径。"先发布捷径"是旧时代的思维,在那些年代里人类工程时间是真正的瓶颈。

2. 构建之前先搜索。 在构建涉及不熟悉模式的任何东西之前,智能体会停下来先搜索。三层知识体系:(1)已验证的已有分布模式;(2)新兴流行的博客和趋势(作为思考的输入,而非答案);(3)第一性原理的观察——最宝贵的一层,那些真正超出分布的东西。

3. 完备性很便宜。 评估"方案 A(完整,约 150 行)vs. 方案 B(覆盖 90%,约 80 行)"时,始终选 A。70 行增量在 AI 编程下只需几秒。

这套哲学解释了 gstack 用户报告的压缩比:脚手架和样板代码 100×,测试编写 50×,功能实现 30×,带回归测试的 Bug 修复 20×,架构和研究任务 3–5×。

安全:七层提示注入防御

一个读取恶意网页并通过 AI 智能体执行 shell 命令的工具,必须配以严肃的安全防护。gstack 的防御是多层的,而非单点设防:

  1. L1–L3 内容安全:每条页面内容命令和工具输出的数据标记、隐藏元素剥离、ARIA 正则过滤、URL 黑名单和信任边界信封包装。
  2. L4 机器学习分类器:内置 22MB 的 BERT-small ONNX 模型(int8 量化),在模型看到内容之前扫描每条用户消息和工具输出。本地运行,无网络调用。
  3. L4b 对话转录分类器:Claude Haiku 通道,查看完整的对话形态(用户消息、工具调用、工具输出),而非单个文本片段,带有阈值门控使大部分干净流量跳过付费调用。
  4. L5 金丝雀令牌:会话启动时注入到系统提示中的随机令牌。滚动缓冲区检测捕获令牌是否会出现在模型输出、工具参数或文件写入中——确定性地 BLOCK。
  5. L6 集成裁决器:BLOCK 需要两个机器学习分类器在 >= WARN 级别达成一致,而非单个高置信度命中。这缓解了合法指令编写流量的误报问题。
  6. 物理端口隔离:当浏览器守护进程为 /pair-agent 进行外部隧道连接时,它运行两个 HTTP 监听器——本地监听器(完整面,永不转发)和隧道监听器(锁定白名单、作用域令牌)。端口分离意味着隧道调用者物理上无法接触到 /health/cookie-picker 或令牌生成端点。
  7. Shell 注入防护:所有浏览器注册表都是硬编码的。数据库路径由常量构造,不来源于用户输入。钥匙串访问使用显式参数数组,而非 shell 字符串插值。

这不是一份检查清单——它是一个基于"智能体会遇到敌对输入"这一前提设计的架构。

如何在你的 AI 系统中使用 gstack

如果你要将 gstack 集成到已有的 AI 工作流中,这里是推荐的路径:

  1. 安装(三十秒):克隆仓库并运行 ./setup。Hermes 用户传入 --host hermes
  2. /office-hours 开始:描述你正在构建的东西。在写一行代码之前,让智能体重新框定问题。
  3. 在任何功能想法上运行 /autoplan:自动运行 CEO → Design → Eng → DX 审查,只将品味决策推给用户批准。
  4. 对每个有改动的分支,运行 /review/codex(来自 Codex 的跨模型第二意见)。
  5. 对每个预发布 URL,运行 /qa:真实浏览器测试捕获静态分析漏掉的 bug。
  6. 每次部署到生产环境,依次运行 /ship/land-and-deploy:从已批准 PR 到已验证生产环境的一条命令。
  7. 每周以 /retro 结束:从团队视角分析速度、测试健康度和成长机会。
  8. 与 GBrain 串联:如果你配置了 /setup-gbrain(PGLite 或 Supabase,约 5 分钟),gstack 会将项目学习成果跨会话存储——随着时间推移,它在你的代码库上变得越来越聪明。

核心洞见:gstack 是一个流程,不是一堆工具的集合。你可以挑选单个技能——用 /cso 做安全审计,用 /qa 做浏览器测试——但完整的加速来自于端到端地跑完整 sprint。每个技能喂给下一个。没有任何东西被遗漏,因为每一步都知道上一步做了什么。

这意味着什么

gstack 代表了我们对 AI 编程工具思考模式的一次哲学转变。它不把智能体当作一个更快的打字员。它把智能体当作一支团队——有角色、有职责、有审查关卡、有共享的流程。"帮我写一个功能"(副驾模式)和"运行 /autoplan、实施计划、然后运行 /ship"(团队模式)之间的区别,就是从生成代码到交付软件的跨越。

一个人,配上正确的工具,现在可以比一支传统团队移动得更快。Garry Tan 的生产力是 2013 年的 810 倍,Andrej Karpathy 说从 2025 年 12 月起他就没打过一行代码,Peter Steinberger 基本上用 AI 智能体独自构建了 247k 星的 OpenClaw。这就是 Garry 描述的黄金时代:工程门槛已经消失;剩下的只有品味、判断力,以及做完整事情的意愿。

gstack 是免费的、MIT 协议的,在 GitHub 上可获得。Fork 它。改进它。把它变成你的。