图片生成 Agent Skill 调研：代码驱动图优先，像素图仅按需

图片生成是 AI Agent 消耗 token 最多的环节之一。在博客场景中，一张 1024×1024 的像素图可能消耗数千 token，而一个精心设计的 SVG 架构图只需几百字符。本文基于对现有 9 个视觉技能的审计和竞品分析，提出"代码驱动图优先、像素图仅按需"的成本优化策略。

Image Generation Strategy

GitHub 上的 Image Generation Skills

GitHub 上的 image-generation 类 agent skill 主要出现在各框架的工具层：

共同特征：本质是付费 API 的封装，按我们的政策（付费 API = 自动跳过）不适用。

技能	输出类型	Token 成本	适用场景
architecture-diagram	暗色主题 SVG	极低	系统架构/云/基础设施图
baoyu-infographic	信息图	低	数据可视化/对比图
baoyu-comic	知识漫画	中	教程/传记/故事
p5js	生成艺术/交互式	极低	创意/艺术/Shader
pixel-art	像素画	低	复古风格/游戏
claude-design	HTML 原型	低	落地页/界面设计
sketch	HTML 模板	低	快速原型对比
excalidraw	手绘风图	低	白板/流程图
comfyui	像素图(本地 SD/Flux)	中-高	写实/摄影/风格化

关键发现：我们已有 9 个视觉技能，其中 7 个输出代码驱动图（SVG/HTML/Canvas），token 成本极低。唯一的像素图生成器是 comfyui（本地 ComfyUI），可免费运行但模型推理消耗 GPU 资源和时间。

维度	我们现有	DALL-E API	SD 本地	Midjourney	Flux	Recraft
文生图	comfyui	有	有	有	有	有
付费 API	无(政策禁用)	$0.04-0.12/图	免费(本地)	$10/月起	免费(本地)	免费/付费
写实摄影	缺	强	强	强	很强	强
矢量/SVG	baoyu-infographic	无	无	无	无	有
架构图	architecture-diagram	无	无	无	无	无
代码驱动图	p5js/flowforge	无	无	无	无	无
离线/隐私	comfyui	无	有	无	有	无

我们缺什么？ 写实摄影级文生图（comfyui 本地模型可补，但需预装大模型）和统一的文生图接口（当前各技能各自为战）。

基于 token 消耗分析和用户反馈，博客出图应遵循以下原则：

原则 1：代码驱动图优先

SVG/HTML/Canvas 类图的 token 成本比像素图低 1-2 个数量级。架构图用 architecture-diagram（SVG），数据对比用 baoyu-infographic，流程图用 excalidraw。仅在代码驱动图无法表达时才考虑像素图。

原则 2：仅当阅读质量必要时配图

不是每篇文章都需要配图。纯文字可读的技术分析可以零配图。配图应服务于以下目的之一：

原则 3：像素图最小化

当像素图不可避免时：

原则 4：缓存复用

设图片缓存库，相同主题/概念图一次生成、跨博文引用。避免重复生成相同类型的图。

GitHub image-generation skill 本质是付费 API 封装，我们无需复制。核心差距在于写实文生图和统一接口，但博客场景中这两者都不是刚需。坚持"代码图优先、像素图最小化、仅当阅读质量必要时配图"的策略，可在不牺牲内容质量的前提下显著降低 token 成本。

Sources:

ComfyUI: https://github.com/comfyanonymous/ComfyUI (GPL-3.0, 70k+ stars)
DALL-E API: https://platform.openai.com/docs/guides/images (付费)
Stable Diffusion: https://github.com/Stability-AI/stablediffusion (CreativeML, 38k+ stars)
Flux: https://github.com/black-forest-labs/flux (Apache-2.0)
Recraft: https://www.recraft.ai/ (免费+付费)
architecture-diagram: Hermes Agent 内置技能
baoyu-infographic: Hermes Agent 内置技能
comfyui: Hermes Agent 内置技能