图片生成 Agent Skill 调研:代码驱动图优先,像素图仅按需
图片生成是 AI Agent 消耗 token 最多的环节之一。在博客场景中,一张 1024×1024 的像素图可能消耗数千 token,而一个精心设计的 SVG 架构图只需几百字符。本文基于对现有 9 个视觉技能的审计和竞品分析,提出"代码驱动图优先、像素图仅按需"的成本优化策略。
GitHub 上的 Image Generation Skills
GitHub 上的 image-generation 类 agent skill 主要出现在各框架的工具层:
- LangChain Tools: dall-e-tool、stable-diffusion-tool,封装 API 调用
- AutoGPT/AgentGPT 插件: image-gen 插件,调用 DALL-E/SD API
- CrewAI Tools: DallETool、StableDiffusionTool
- Semantic Kernel Plugins: ImageGenPlugin (DALL-E 3)
共同特征:本质是付费 API 的封装,按我们的政策(付费 API = 自动跳过)不适用。
我们现有的视觉技能能力矩阵
| 技能 | 输出类型 | Token 成本 | 适用场景 |
|---|---|---|---|
| architecture-diagram | 暗色主题 SVG | 极低 | 系统架构/云/基础设施图 |
| baoyu-infographic | 信息图 | 低 | 数据可视化/对比图 |
| baoyu-comic | 知识漫画 | 中 | 教程/传记/故事 |
| p5js | 生成艺术/交互式 | 极低 | 创意/艺术/Shader |
| pixel-art | 像素画 | 低 | 复古风格/游戏 |
| claude-design | HTML 原型 | 低 | 落地页/界面设计 |
| sketch | HTML 模板 | 低 | 快速原型对比 |
| excalidraw | 手绘风图 | 低 | 白板/流程图 |
| comfyui | 像素图(本地 SD/Flux) | 中-高 | 写实/摄影/风格化 |
关键发现:我们已有 9 个视觉技能,其中 7 个输出代码驱动图(SVG/HTML/Canvas),token 成本极低。唯一的像素图生成器是 comfyui(本地 ComfyUI),可免费运行但模型推理消耗 GPU 资源和时间。
竞品对比
| 维度 | 我们现有 | DALL-E API | SD 本地 | Midjourney | Flux | Recraft |
|---|---|---|---|---|---|---|
| 文生图 | comfyui | 有 | 有 | 有 | 有 | 有 |
| 付费 API | 无(政策禁用) | $0.04-0.12/图 | 免费(本地) | $10/月起 | 免费(本地) | 免费/付费 |
| 写实摄影 | 缺 | 强 | 强 | 强 | 很强 | 强 |
| 矢量/SVG | baoyu-infographic | 无 | 无 | 无 | 无 | 有 |
| 架构图 | architecture-diagram | 无 | 无 | 无 | 无 | 无 |
| 代码驱动图 | p5js/flowforge | 无 | 无 | 无 | 无 | 无 |
| 离线/隐私 | comfyui | 无 | 有 | 无 | 有 | 无 |
我们缺什么? 写实摄影级文生图(comfyui 本地模型可补,但需预装大模型)和统一的文生图接口(当前各技能各自为战)。
博客出图成本优化策略
基于 token 消耗分析和用户反馈,博客出图应遵循以下原则:
原则 1:代码驱动图优先
SVG/HTML/Canvas 类图的 token 成本比像素图低 1-2 个数量级。架构图用 architecture-diagram(SVG),数据对比用 baoyu-infographic,流程图用 excalidraw。仅在代码驱动图无法表达时才考虑像素图。
原则 2:仅当阅读质量必要时配图
不是每篇文章都需要配图。纯文字可读的技术分析可以零配图。配图应服务于以下目的之一:
- 解释难以用文字描述的空间关系(架构图)
- 展示数据对比趋势(信息图)
- 增强记忆锚点(关键概念的视觉化)
- 展示实际 UI/视觉效果(截图)
原则 3:像素图最小化
当像素图不可避免时:
- 分辨率限制 512×512 或 768×512,禁止 1024+
- 使用 WebP 格式代替 PNG,体积降 50%+
- ComfyUI 设 economy 模式:步数 15-20,CFG 降低
- 相同主题图一次生成、多博文引用
原则 4:缓存复用
设图片缓存库,相同主题/概念图一次生成、跨博文引用。避免重复生成相同类型的图。
结论
GitHub image-generation skill 本质是付费 API 封装,我们无需复制。核心差距在于写实文生图和统一接口,但博客场景中这两者都不是刚需。坚持"代码图优先、像素图最小化、仅当阅读质量必要时配图"的策略,可在不牺牲内容质量的前提下显著降低 token 成本。
Sources:
- ComfyUI: https://github.com/comfyanonymous/ComfyUI (GPL-3.0, 70k+ stars)
- DALL-E API: https://platform.openai.com/docs/guides/images (付费)
- Stable Diffusion: https://github.com/Stability-AI/stablediffusion (CreativeML, 38k+ stars)
- Flux: https://github.com/black-forest-labs/flux (Apache-2.0)
- Recraft: https://www.recraft.ai/ (免费+付费)
- architecture-diagram: Hermes Agent 内置技能
- baoyu-infographic: Hermes Agent 内置技能
- comfyui: Hermes Agent 内置技能