ai官小西

HyperFrames:当 AI Agent 学会写 HTML,视频生成就变得像说话一样简单

HeyGen 在 2026 年 3 月开源了 HyperFrames,一个用 HTML 定义视频的渲染框架。上线不到两个月,GitHub 星标已突破 12,700。它的核心主张只有一句话:Write HTML. Render video. Built for agents.

这不是又一个"用代码生成视频"的工具。它的设计哲学比这更激进——它赌的是:AI Agent 最擅长写的格式就是 HTML,所以视频的定义格式就应该是 HTML。

为什么这很重要

传统的 AI 视频生成走的是两条路:

  1. 生成式模型(Sora、Kling)——直接从文本生成像素,创意无限但不可控、不可编辑、不可复现。
  2. 模板驱动(Canva API、Remotion)——用代码或模板控制视频,精确可控但需要 React/TSX,Agent 写起来很吃力。

HyperFrames 走了第三条路:HTML 原生 + 确定性渲染 + Agent 优先设计。

它的核心洞察是:LLM 在海量 HTML 数据上训练,天生就"会写" HTML。不需要教 Agent 学 React 组件、不需要自定义 DSL、不需要复杂的 API 调用序列。Agent 只需要像写网页一样写 HTML,框架把它变成视频。

一个视频就是一段 HTML

这是 HyperFrames 的核心数据结构——一个完整的视频定义:

<div id="root" data-composition-id="intro"
     data-start="0" data-width="1920" data-height="1080">

  <h1 id="title" class="clip"
      data-start="0" data-duration="5" data-track-index="0"
      style="font-size: 72px; color: white;">
    Hello, HyperFrames!
  </h1>

  <audio id="bg-music" data-start="0" data-duration="5"
         data-track-index="1" data-volume="0.5" src="music.wav">
  </audio>
</div>

<script>
  const tl = gsap.timeline({ paused: true });
  tl.from("#title", { opacity: 0, y: -50, duration: 1 }, 0);
  window.__timelines["intro"] = tl;
</script>

就这么简单。data-start 控制出场时间,data-duration 控制持续时长,data-track-index 控制轨道层级,GSAP 控制动画。浏览器能预览,npx hyperframes render 能输出 MP4。

AI Agent 集成的简洁性

这是 HyperFrames 真正的杀手锏。对比一下 Agent 生成同样效果需要的"认知负担":

操作 Remotion (React) HyperFrames (HTML)
定义一个标题动画 写 TSX 组件 + React state + useCurrentFrame() 写一个 <h1> + data-* 属性
添加背景音乐 <Audio> 组件 + import + src 路径 <audio> 标签
动画控制 interpolate() + spring() GSAP timeline (Agent 大量训练数据)
构建步骤 需要 bundler (Webpack/Vite) 无,index.html 直接可预览
输出视频 npx remotion render npx hyperframes render

关键区别:Agent 生成 HTML 的能力已经通过预训练内置了。不需要 few-shot 示例、不需要微调、不需要复杂的 system prompt 来教它"如何写 Remotion 组件"。你告诉 Agent "做一个 10 秒的产品介绍视频",它直接输出一段 HTML,框架直接渲染。

HyperFrames 团队甚至为此设计了完整的 Skills 系统——一套可安装的 Agent 技能文档,教 Agent 如何写正确的 composition:

npx skills add heygen-com/hyperframes

安装后,Claude Code、Cursor、Codex 等 Agent 就能通过 /hyperframes 命令直接创作视频。这不是"Agent 调用视频 API"——这是 Agent 直接写视频源代码

渲染管线:确定性是关键

HyperFrames 的渲染引擎做了一件很重要的事:完全消除时间依赖。

frame = floor(time × fps)

每一帧都是独立捕获的。引擎用 Puppeteer 启动 headless Chrome,通过 beginFrame API 逐帧截图,然后用 FFmpeg 编码成 MP4。没有 wall-clock 依赖、没有动画"卡顿"导致的帧差异。同样的输入永远产生同样的输出。

这对 Agent 工作流至关重要——你不能接受"每次运行结果略有不同"的视频输出。

本地试跑演示

我用 HyperFrames 做了一个 16 秒的演示视频,4 个场景,每个场景都有 GSAP 入场动画:

整个过程只用了一个 HTML 文件。从 npx hyperframes init 到渲染完成,不到 3 分钟。代码量:一个 200 行的 index.html,其中 CSS 和 GSAP 动画占了大部分。

核心结构就四步:

  1. 定义场景——<div class="clip" data-start="0" data-duration="4">
  2. 写样式——标准 CSS,渐变、Flexbox、字体
  3. 加动画——gsap.from("#title", { y: 60, opacity: 0 })
  4. 渲染——npx hyperframes render --output demo.mp4

与 Remotion 的对比

HyperFrames 在设计上明显受 Remotion 启发(源码中保留了致谢注释),两者都用 headless Chrome 做确定性渲染。核心区别在于"作者写什么":

HyperFrames Remotion
编写格式 HTML + CSS + GSAP React 组件 (TSX)
构建步骤 无,index.html 直接可用 需要 bundler
动画库时钟 可逐帧 seek 按 wall-clock 播放
HTML/CSS 透传 直接粘贴 需要改写为 JSX
分布式渲染 目前单机 Lambda,生产就绪
协议 Apache 2.0 (完全开源) 源码可用,有付费门槛

对于 Agent 驱动的工作流,HTML 原生是一个决定性优势。React 组件需要理解组件生命周期、hooks、import 路径——这些都是 Agent 容易出错的地方。HTML 的容错性要高得多。

生态系统

HyperFrames 不只是一个渲染引擎,它构建了一个完整的生态:

  • 50+ 可复用组件——社交叠加层、着色器转场、数据可视化、电影效果,npx hyperframes add <name> 一键安装
  • Studio 编辑器——浏览器端可视化编辑器,热重载预览
  • Player Web Component——可嵌入的 <hyperframes-player> 标签
  • Skills 系统——6 个 Agent 技能,覆盖 composition 编写、CLI 操作、GSAP 动画、Remotion 迁移等
  • MCP 集成——通过 Model Context Protocol 暴露工具给 Agent

适合什么场景

HyperFrames 特别适合:

  • Agent 自动生成的视频——GitHub repo 演示、数据可视化、产品介绍
  • 程序化批量视频——同一模板不同数据,确定性渲染保证一致性
  • HTML 内容转视频——网页、邮件、报告直接变成视频
  • 快速原型——不需要 After Effects,几分钟出一个可用的视频

不太适合的场景:需要分布式大规模渲染的生产环境(目前仅单机)、需要精细像素级控制的影视制作。

开始使用

# 最快方式:让 Agent 帮你做
npx skills add heygen-com/hyperframes
# 然后描述你想要的视频

# 手动方式
npx hyperframes init my-video
cd my-video
npx hyperframes preview      # 浏览器预览
npx hyperframes render       # 渲染 MP4

要求:Node.js >= 22,FFmpeg。协议是 Apache 2.0,完全开源可商用。


HyperFrames 代表了一个有趣的趋势:AI 工具正在围绕 LLM 的原生能力重新设计。 与其教 Agent 学新 API,不如让工具适配 Agent 已经擅长的格式。HTML 只是开始——下一个可能是 SQL、SVG、或者任何 LLM 已经"理解"的结构化语言。

来源