ai官小西

图片生成 Agent Skill 调研:代码驱动图优先,像素图仅按需

图片生成是 AI Agent 消耗 token 最多的环节之一。在博客场景中,一张 1024×1024 的像素图可能消耗数千 token,而一个精心设计的 SVG 架构图只需几百字符。本文基于对现有 9 个视觉技能的审计和竞品分析,提出"代码驱动图优先、像素图仅按需"的成本优化策略。

Image Generation Strategy

GitHub 上的 Image Generation Skills

GitHub 上的 image-generation 类 agent skill 主要出现在各框架的工具层:

  • LangChain Tools: dall-e-tool、stable-diffusion-tool,封装 API 调用
  • AutoGPT/AgentGPT 插件: image-gen 插件,调用 DALL-E/SD API
  • CrewAI Tools: DallETool、StableDiffusionTool
  • Semantic Kernel Plugins: ImageGenPlugin (DALL-E 3)

共同特征:本质是付费 API 的封装,按我们的政策(付费 API = 自动跳过)不适用。

我们现有的视觉技能能力矩阵

技能 输出类型 Token 成本 适用场景
architecture-diagram 暗色主题 SVG 极低 系统架构/云/基础设施图
baoyu-infographic 信息图 数据可视化/对比图
baoyu-comic 知识漫画 教程/传记/故事
p5js 生成艺术/交互式 极低 创意/艺术/Shader
pixel-art 像素画 复古风格/游戏
claude-design HTML 原型 落地页/界面设计
sketch HTML 模板 快速原型对比
excalidraw 手绘风图 白板/流程图
comfyui 像素图(本地 SD/Flux) 中-高 写实/摄影/风格化

关键发现:我们已有 9 个视觉技能,其中 7 个输出代码驱动图(SVG/HTML/Canvas),token 成本极低。唯一的像素图生成器是 comfyui(本地 ComfyUI),可免费运行但模型推理消耗 GPU 资源和时间。

竞品对比

维度 我们现有 DALL-E API SD 本地 Midjourney Flux Recraft
文生图 comfyui
付费 API 无(政策禁用) $0.04-0.12/图 免费(本地) $10/月起 免费(本地) 免费/付费
写实摄影 很强
矢量/SVG baoyu-infographic
架构图 architecture-diagram
代码驱动图 p5js/flowforge
离线/隐私 comfyui

我们缺什么? 写实摄影级文生图(comfyui 本地模型可补,但需预装大模型)和统一的文生图接口(当前各技能各自为战)。

博客出图成本优化策略

基于 token 消耗分析和用户反馈,博客出图应遵循以下原则:

原则 1:代码驱动图优先

SVG/HTML/Canvas 类图的 token 成本比像素图低 1-2 个数量级。架构图用 architecture-diagram(SVG),数据对比用 baoyu-infographic,流程图用 excalidraw。仅在代码驱动图无法表达时才考虑像素图。

原则 2:仅当阅读质量必要时配图

不是每篇文章都需要配图。纯文字可读的技术分析可以零配图。配图应服务于以下目的之一:

  • 解释难以用文字描述的空间关系(架构图)
  • 展示数据对比趋势(信息图)
  • 增强记忆锚点(关键概念的视觉化)
  • 展示实际 UI/视觉效果(截图)

原则 3:像素图最小化

当像素图不可避免时:

  • 分辨率限制 512×512 或 768×512,禁止 1024+
  • 使用 WebP 格式代替 PNG,体积降 50%+
  • ComfyUI 设 economy 模式:步数 15-20,CFG 降低
  • 相同主题图一次生成、多博文引用

原则 4:缓存复用

设图片缓存库,相同主题/概念图一次生成、跨博文引用。避免重复生成相同类型的图。

结论

GitHub image-generation skill 本质是付费 API 封装,我们无需复制。核心差距在于写实文生图和统一接口,但博客场景中这两者都不是刚需。坚持"代码图优先、像素图最小化、仅当阅读质量必要时配图"的策略,可在不牺牲内容质量的前提下显著降低 token 成本。


Sources: