AI 音乐 Agent Skill 全景评估：2026 年谁能用？

给 AI agent 装个能写歌的 skill，听起来很酷。但现状是：这个赛道里几乎没有一个能直接拿来用的工具。依赖付费 API 的项目被上游服务封杀，本地程序化生成的音质劝退，商业 SDK 又没有 agent 集成路径。三头不靠。

我们看了四个音乐 agent skill 项目。结论前置：一个都装不了。但有一条技术路线值得长期跟踪。

选手一览

EsshUwU/music-skill（1 星，Python）——程序化音乐生成和 MIDI 混音，用 pretty_midi、pyfluidsynth 和 FFmpeg。纯本地，零 API 依赖。从文字 prompt 出发，一个音符一个音符地构建曲子，覆盖电影管弦到 lo-fi 嘻哈等多种风格。也能拿现成的 MIDI 文件重新编曲。

Cynaps3 OpenClaw 插件（2 星，TypeScript）——26 个 agent 工具，双 provider 方案（Suno + Sonauto）。绑定 skill playbook，面向 OpenClaw 平台。

vargHQ/skills（18 星，TypeScript）——多模态 agent skill 套装，覆盖视频、图片、语音和音乐生成。兼容 Claude Code、Cursor、Windsurf、OpenCode、ClawHub。音乐路径依赖外部生成 API。

fltman/claude-code-suno-musicgen-skill（6 星）——给 Claude Code 用的 Suno 音乐生成 skill。README 已删除，项目描述明确指出 Suno 阻止脚本自动点击和下载。

SamurAIGPT/Generative-Media-Skills（3,167 星，多模态）——泛生成式媒体的巨无霸，覆盖图片、视频、音频，走 muapi。不是专门的音乐 skill，但体量绕不开。

API 依赖的死结

四个音乐项目里，三个依赖 Suno。Suno 禁止自动化操作——fltman 项目的描述里白纸黑字写了。Cynaps3 插件主 provider 是 Suno，Sonauto 当后备。它们都不是官方 agent API，而是网页服务的包装器。

这跟之前 Skywork Office 的情况一模一样——skill 能用多久取决于上游服务什么时候改规则、封自动化、开始收费。我们的规则很简单：skill 依赖付费 API = 自动 PASS。一个能不能用取决于第三方网站「容忍度」的 skill，不是基础设施，是演示。

SamurAIGPT 的 3,167 星看着唬人，但它是个多模态内容工厂包装器，音乐只是几十个子功能之一，全走 muapi。同样的问题，更大的规模。

本地路线：EsshUwU/music-skill

这个项目走了完全不同的路。零 API。零网络请求。Python 代码逐音符构建 MIDI 文件，然后用 FluidSynth 渲染成音频。

支持两种模式：

create-music——从文字 prompt 生成新曲子。处理段落结构、和弦进行、旋律发展和乐器选择。输入「电影管弦，紧张感渐强」，输出多轨 MIDI，包含弦乐、铜管和打击乐。

remix-music——拿现成 MIDI 文件重新编曲。保留原曲的节奏和时值，叠加新声部、和声和乐器配置。

输出是一个目录，里面有生成脚本、MIDI 文件和渲染好的 WAV/MP3。全程本地。全程可审查。

依赖可控：pretty_midi、numpy、scipy、mido、pyfluidsynth。系统要求：FluidSynth（apt/brew 都能装）、FFmpeg、一个 SoundFont 文件。推荐 SoundFont（FluidR3_GM）141 MB，本地用没问题。

哪里行

本地优先方案的核心价值是：用音质换了可靠性。FluidSynth 搭配好 SoundFont 能出不错的器乐声——相当于游戏配乐水平，谈不上录音室品质。给 agent 生成内容做背景音乐够用。想在流媒体发歌就算了。

程序化生成还意味着 agent 有完全控制权。可以精确指定音符序列、力度、演奏法。想改哪改哪，不用等黑盒 API 重新生成一遍碰运气。

MIDI 混音这个功能实打实有用。拿个现成的 MIDI，让 agent 把它改编成别种风格或乐器编制，这是个很具体的实用场景。

哪里不行

1 个 star。README 是个 markdown，安装说明粗糙，没有代码结构详解，只有一个高层次的流程描述。SKILL.md 文件 404——skill 元数据可能只存在 repo 顶层结构里。

音质天花板是真实的。FluidSynth + SoundFont 听起来就是 FluidSynth + SoundFont。1990 年代的技术栈在 2026 年还在用，不是因为好听，是因为稳定。做氛围音乐、游戏配乐、通知音效行，带人声或者要现代制作的就算了。

没有 Hermes Agent 集成。这个 skill 当初设计时是给通用 agent 用的，不是专门面向 Hermes。要把它移植成带正确 skill_manage 钩子的 Hermes 兼容 skill 格式。

结论

当前没有一个音乐 agent skill 能装进生产环境。依赖 API 的按规则一票否决。本地程序化的架构方向对，但缺 Hermes 集成，音质也需要提升。

能改变判断的条件：

一个基于程序化 MIDI 路线的 Hermes 原生 music skill
用本地模型音频生成（Stable Audio、AudioCraft）替换 FluidSynth 做渲染引擎，提升音质
把「作曲（MIDI）」和「渲染（音频引擎）」解耦，渲染后端可以随意换

目前 agent 音乐生成的处境跟 2023 年的图片生成差不多——本地工具存在，集成路径不成熟。关注程序化 MIDI 路线。一切依赖 Suno 的东西跳过。

Sources: EsshUwU/music-skill GitHub, Cynaps3 OpenClaw Plugin GitHub, vargHQ/skills GitHub, fltman/suno-skill GitHub, SamurAIGPT/Generative-Media-Skills GitHub