技能创建生态：从 18 万安装量到 Hermes Skill Graph 2.0

AI 智能体的能力上限取决于它所携带的知识。技能系统——模块化、自包含的智能体能力扩展包——已成为通用聊天机器人与专业助手之间的决定性差异。但并非所有技能系统都是平等的。

在调研了生态中的八个技能类别后，三个技能创建框架脱颖而出：Anthropic 的 Skill Creator（182.8K 安装量）、OpenClaw/Codex 的 Skill Creator，以及我们自己的 Hermes Skill Graph 2.0。每个框架代表着关于智能体知识如何打包、发现和组合的独特哲学。

技能生态调研记分卡

架构哲学

Anthropic Skill Creator：500 行蓝图

Anthropic 的方法是务实且久经考验的。182.8K 安装量使其成为主导标准。核心理念清晰：每个技能是一个文件夹，包含必需的 SKILL.md 文件和可选的捆绑资源（脚本、参考文档、资产）。description 前置元数据字段是主要触发机制——它是说服 Claude 查阅该技能的广告文案。

该框架强调三个关键模式：

渐进式披露：元数据始终加载（约 100 词），正文在触发时加载（<500 行），资源按需加载
领域组织：支持多领域的技能按变体组织（AWS、GCP、Azure 各有一个参考文件）
评估驱动迭代：正式循环——草拟、用测试用例运行、定量基准测试、描述优化

优势显而易见。评估方法论严谨——并行子代理运行（有/无技能对比）、由专业评分代理评分、基于浏览器的审查查看器。描述优化管道（20 个评估查询、训练/测试分割、迭代精炼）真正复杂。

但弱点同样明显。评估基础设施繁重——需要子代理、Python 脚本、HTML 查看器和多轮基准测试。它是为 Claude Code 设计的，claude.ai 只能使用精简版，跳过基准测试和盲比。500 行限制推动精简技能，但评估开销意味着团队经常完全跳过优化阶段。

最关键的是组合性：Anthropic 技能是扁平的。定义图的 requires_skills 和 feeds_into 边缺失。每个技能是一座孤岛——框架没有提供机制来声明"此技能依赖于彼技能"或"此技能产生的输出被彼技能消费"。实际后果：每个技能都携带冗余指令，因为它无法假设任何其他技能会被加载。

OpenClaw/Codex Skill Creator：生态建设者

OpenClaw 的 steipete/clawdis@skill-creator（及其在 Codex 生态中的孪生兄弟）采取了不同路径。Anthropic 强调评估严谨性，OpenClaw 则强调生态规模。

OpenClaw 技能库庞大——50+ 技能覆盖邮件、智能家居、社交媒体、音乐、笔记和生产力。前置元数据包含丰富的字段：用于视觉识别的 emoji、用于平台感知的 os 约束、用于依赖验证的 requires.bins，以及包含包管理器自动安装指令的 install 对象。

优势在于可发现性和运维就绪性。每个技能知道它需要什么，并能告诉平台如何获取。metadata.openclaw 结构实现了自动兼容性检查和一键安装。

弱点？组合几乎不存在。与 Anthropic 一样，OpenClaw 技能是独立模块。没有分层系统，没有依赖图，没有技能组合的概念。一个 tmux 技能不能声明它依赖于会话管理技能——它必须冗余地包含这些指令，或希望智能体已经知道它们。

Codex 版本添加了 init_skill.py 和 package_skill.py 脚本用于脚手架和分发，而"Codex 已经很聪明"的哲学推动了极端简洁。但架构弱点保持不变：这些都是创建单个技能的工具，而不是构建技能系统的工具。

Hermes Skill Graph 2.0：组合作为第一原则

Hermes 采取综合路径。它不选择评估严谨性或生态规模，而是问：如果技能像软件一样组合会怎样？

四层系统（原子、分子、复合体、操作手册）是架构创新。原子是永不会调用其他技能的单一用途能力。分子用显式指令串联 2-10 个原子。复合体编排多个分子，阶段间设置人类检查点。操作手册捕捉一次性恢复方法。

关键区别是依赖图。每个分子声明其 requires_skills 和 feeds_into 边。这将扁平的技能文件集合转化为可导航的图——加载一个复合体自动拉入 10-50 个原子的支持上下文。结果：5 个复合体可以产生 500 个原子工作单元，认知负荷与直接驱动 5 个原子相同。

适配方法论同样独特。集成第三方技能时，Hermes 强制：先检查成本模型（源码审查之前）、安全审计、层级映射、重写前置元数据、从上游零修改复制脚本。这是来之不易的智慧——Skywork 项目投入大量精力集成 7 个技能，最终全部移除，因为每月 19.99 美元使其不可用。

这种方法的弱点是前期投入。构建坚实的原子库需要纪律——每个原子必须在任何分子可靠之前坚如磐石，每个分子必须显式声明依赖。工作树隔离要求（所有 git 操作在隔离分支中发生）增加了仪式感。但回报是杠杆效应：一旦基础稳固，驱动复合体产生指数级回报。

Hermes 的根本不同之处

维度	Anthropic	OpenClaw/Codex	Hermes 2.0
组合性	扁平——无依赖图	扁平——无依赖图	分层图，有 `requires_skills` 和 `feeds_into`
评估	严谨：并行运行、基线、基准测试	轻量：验证脚本、打包	集成：代码审查、安全审计、取证
第三方集成	未涉及	未涉及	显式方法论，成本模型优先过滤
触发机制	描述优化管道	描述字段 + 智能体推理	描述 + AGENTS.md 触发 + 技能路由
扩展策略	更多技能 = 更多选项	更多技能 = 更多覆盖面	更好的组合 = 指数级杠杆
目标受众	Claude Code / claude.ai	Codex CLI / OpenClaw	Hermes Agent（终端优先）

对比揭示了一个更深层的模式：技能生态正从"更多技能"成熟为"更好的组合"。Anthropic 的 182K 安装量证明了需求。OpenClaw 的 50+ 技能证明了覆盖面。Hermes 证明了组合能同时转化两者——50 个良好组合的技能比 500 个孤立的技能产生更多杠杆效应。

实践中的杠杆原理

这不是理论。在我们的本地技能库中，博客发布管线具体展示差异：

guancyxx-blog-playbook（复合体——1 个入口点）
├── blog-content-authoring（分子——编排 3 个原子）
├── blog-quality-gate（分子——前置 + 后置发布审计）
├── blog-diagram-insert（原子——Excalidraw 生成）
├── nextjs-seo-optimization（分子——审计 + 优化）
├── blog-build-deploy（分子——Docker 重建 + SSH 部署）
└── git-safe-commit-push（原子——安全 git 工作流）

结果：1 个复合体 → 4 个分子 → 8+ 原子 → 30+ 独立操作

加载 guancyxx-blog-playbook 让智能体获得整个发布管线的访问权限。替代方案——逐个加载每个原子——需要 8 次独立调用，且会丢失"快速发布""质量发布"和"全管线"路径间的路由决策逻辑。

建议

如果你在构建技能生态或选择框架：

快速迭代和评估严谨性：Anthropic 框架久经考验。如果需要正式基准测试且具备并行子代理运行的基础设施，这是最佳选择。
生态广度和可发现性：OpenClaw 的元数据丰富格式支持自动依赖解析和一键安装。如果更重视运维就绪性而非组合性，选它。
可组合、可扩展的系统：当你想要杠杆效应——加载一个复合体解锁数十个原子操作时，Hermes Skill Graph 2.0 是正确的选择。分层纪律的前期投入，随技能库增长产生指数级回报。

智能体技能的未来不是更多技能——而是更好的组合。一个知道如何与其他技能串联的技能，抵得上十个孤立的技能。这就是 Hermes 适配 quality-playbook 所展示的教训：有时候最好的技能不是安装量最多的那个，而是最干净地集成到已有图中的那个。