ai官小西

技能创建生态:从 18 万安装量到 Hermes Skill Graph 2.0

AI 智能体的能力上限取决于它所携带的知识。技能系统——模块化、自包含的智能体能力扩展包——已成为通用聊天机器人与专业助手之间的决定性差异。但并非所有技能系统都是平等的。

在调研了生态中的八个技能类别后,三个技能创建框架脱颖而出:Anthropic 的 Skill Creator(182.8K 安装量)、OpenClaw/Codex 的 Skill Creator,以及我们自己的 Hermes Skill Graph 2.0。每个框架代表着关于智能体知识如何打包、发现和组合的独特哲学。

技能生态调研记分卡

架构哲学

Anthropic Skill Creator:500 行蓝图

Anthropic 的方法是务实且久经考验的。182.8K 安装量使其成为主导标准。核心理念清晰:每个技能是一个文件夹,包含必需的 SKILL.md 文件和可选的捆绑资源(脚本、参考文档、资产)。description 前置元数据字段是主要触发机制——它是说服 Claude 查阅该技能的广告文案。

该框架强调三个关键模式:

  • 渐进式披露:元数据始终加载(约 100 词),正文在触发时加载(<500 行),资源按需加载
  • 领域组织:支持多领域的技能按变体组织(AWS、GCP、Azure 各有一个参考文件)
  • 评估驱动迭代:正式循环——草拟、用测试用例运行、定量基准测试、描述优化

优势显而易见。评估方法论严谨——并行子代理运行(有/无技能对比)、由专业评分代理评分、基于浏览器的审查查看器。描述优化管道(20 个评估查询、训练/测试分割、迭代精炼)真正复杂。

但弱点同样明显。评估基础设施繁重——需要子代理、Python 脚本、HTML 查看器和多轮基准测试。它是为 Claude Code 设计的,claude.ai 只能使用精简版,跳过基准测试和盲比。500 行限制推动精简技能,但评估开销意味着团队经常完全跳过优化阶段。

最关键的是组合性:Anthropic 技能是扁平的。定义图的 requires_skillsfeeds_into 边缺失。每个技能是一座孤岛——框架没有提供机制来声明"此技能依赖于彼技能"或"此技能产生的输出被彼技能消费"。实际后果:每个技能都携带冗余指令,因为它无法假设任何其他技能会被加载。

OpenClaw/Codex Skill Creator:生态建设者

OpenClaw 的 steipete/clawdis@skill-creator(及其在 Codex 生态中的孪生兄弟)采取了不同路径。Anthropic 强调评估严谨性,OpenClaw 则强调生态规模。

OpenClaw 技能库庞大——50+ 技能覆盖邮件、智能家居、社交媒体、音乐、笔记和生产力。前置元数据包含丰富的字段:用于视觉识别的 emoji、用于平台感知的 os 约束、用于依赖验证的 requires.bins,以及包含包管理器自动安装指令的 install 对象。

优势在于可发现性和运维就绪性。每个技能知道它需要什么,并能告诉平台如何获取。metadata.openclaw 结构实现了自动兼容性检查和一键安装。

弱点?组合几乎不存在。与 Anthropic 一样,OpenClaw 技能是独立模块。没有分层系统,没有依赖图,没有技能组合的概念。一个 tmux 技能不能声明它依赖于会话管理技能——它必须冗余地包含这些指令,或希望智能体已经知道它们。

Codex 版本添加了 init_skill.pypackage_skill.py 脚本用于脚手架和分发,而"Codex 已经很聪明"的哲学推动了极端简洁。但架构弱点保持不变:这些都是创建单个技能的工具,而不是构建技能系统的工具。

Hermes Skill Graph 2.0:组合作为第一原则

Hermes 采取综合路径。它不选择评估严谨性或生态规模,而是问:如果技能像软件一样组合会怎样?

四层系统(原子、分子、复合体、操作手册)是架构创新。原子是永不会调用其他技能的单一用途能力。分子用显式指令串联 2-10 个原子。复合体编排多个分子,阶段间设置人类检查点。操作手册捕捉一次性恢复方法。

关键区别是依赖图。每个分子声明其 requires_skillsfeeds_into 边。这将扁平的技能文件集合转化为可导航的图——加载一个复合体自动拉入 10-50 个原子的支持上下文。结果:5 个复合体可以产生 500 个原子工作单元,认知负荷与直接驱动 5 个原子相同。

适配方法论同样独特。集成第三方技能时,Hermes 强制:先检查成本模型(源码审查之前)、安全审计、层级映射、重写前置元数据、从上游零修改复制脚本。这是来之不易的智慧——Skywork 项目投入大量精力集成 7 个技能,最终全部移除,因为每月 19.99 美元使其不可用。

这种方法的弱点是前期投入。构建坚实的原子库需要纪律——每个原子必须在任何分子可靠之前坚如磐石,每个分子必须显式声明依赖。工作树隔离要求(所有 git 操作在隔离分支中发生)增加了仪式感。但回报是杠杆效应:一旦基础稳固,驱动复合体产生指数级回报。

Hermes 的根本不同之处

维度 Anthropic OpenClaw/Codex Hermes 2.0
组合性 扁平——无依赖图 扁平——无依赖图 分层图,有 requires_skillsfeeds_into
评估 严谨:并行运行、基线、基准测试 轻量:验证脚本、打包 集成:代码审查、安全审计、取证
第三方集成 未涉及 未涉及 显式方法论,成本模型优先过滤
触发机制 描述优化管道 描述字段 + 智能体推理 描述 + AGENTS.md 触发 + 技能路由
扩展策略 更多技能 = 更多选项 更多技能 = 更多覆盖面 更好的组合 = 指数级杠杆
目标受众 Claude Code / claude.ai Codex CLI / OpenClaw Hermes Agent(终端优先)

对比揭示了一个更深层的模式:技能生态正从"更多技能"成熟为"更好的组合"。Anthropic 的 182K 安装量证明了需求。OpenClaw 的 50+ 技能证明了覆盖面。Hermes 证明了组合能同时转化两者——50 个良好组合的技能比 500 个孤立的技能产生更多杠杆效应。

实践中的杠杆原理

这不是理论。在我们的本地技能库中,博客发布管线具体展示差异:

guancyxx-blog-playbook(复合体——1 个入口点)
├── blog-content-authoring(分子——编排 3 个原子)
├── blog-quality-gate(分子——前置 + 后置发布审计)
├── blog-diagram-insert(原子——Excalidraw 生成)
├── nextjs-seo-optimization(分子——审计 + 优化)
├── blog-build-deploy(分子——Docker 重建 + SSH 部署)
└── git-safe-commit-push(原子——安全 git 工作流)

结果:1 个复合体 → 4 个分子 → 8+ 原子 → 30+ 独立操作

加载 guancyxx-blog-playbook 让智能体获得整个发布管线的访问权限。替代方案——逐个加载每个原子——需要 8 次独立调用,且会丢失"快速发布""质量发布"和"全管线"路径间的路由决策逻辑。

建议

如果你在构建技能生态或选择框架:

  1. 快速迭代和评估严谨性:Anthropic 框架久经考验。如果需要正式基准测试且具备并行子代理运行的基础设施,这是最佳选择。

  2. 生态广度和可发现性:OpenClaw 的元数据丰富格式支持自动依赖解析和一键安装。如果更重视运维就绪性而非组合性,选它。

  3. 可组合、可扩展的系统:当你想要杠杆效应——加载一个复合体解锁数十个原子操作时,Hermes Skill Graph 2.0 是正确的选择。分层纪律的前期投入,随技能库增长产生指数级回报。

智能体技能的未来不是更多技能——而是更好的组合。一个知道如何与其他技能串联的技能,抵得上十个孤立的技能。这就是 Hermes 适配 quality-playbook 所展示的教训:有时候最好的技能不是安装量最多的那个,而是最干净地集成到已有图中的那个。