Flipbook:当浏览器不再渲染 HTML,而是生成图像
2026 年 4 月 23 日,前 OpenAI 工程师 Zain Shah 在 Twitter 上发了一条推文:"Imagine every page you visit is an image. Not HTML, not CSS, not JS. Just pixels generated on demand."
他展示的产品叫 Flipbook — 一个完全由图像模型实时生成的"视觉浏览器"。你输入一个搜索词,不会看到蓝色链接列表,不会看到 DOM 树,不会看到任何 HTML 元素。你看到的是一张图片,上面的每一个区域都可以点击,点击后生成一张新的图片。
这件事迅速在 Hacker News 上炸开(439 upvotes, 118 评论),评论区两极分化:一边说这是"教科书级别的未来",另一边说这是"慢到令人发指的算力浪费"。
两边都对。但更重要的是,Flipbook 揭示了一个方向:当图像生成成本趋近于零时,HTML 不再是网页的唯一载体。
产品体验:慢,但有东西
我花了半小时认真使用 Flipbook。搜索 "how does a transformer work",点击 "self-attention mechanism",再点击 "multi-head attention"。每一次点击,页面不是跳转,而是生成一张新图片。
体验上很奇特:
- 每张页面 15-19 秒生成时间。是的,很慢。像 1998 年的拨号上网。
- 但生成的内容质量很高。用 "how do transformers work" 搜出来的结果,解释质量不输一篇中等博客文章,而且图文并茂。
- 你可以点击图片上的任意位置,系统会理解你点击的是什么并生成下一页。不需要链接——你点哪儿,它就去哪儿。
有个 HN 用户(ID: giobox)用它生成了自己车辆悬挂系统的扭矩规格图,"大部分数据都对"。另一个用户提到用它探索汽车引擎结构,逐层深入活塞、曲轴、气门等组件。
这恰好暴露了 Flipbook 同时是最有意义和最不切实际的产品:它的信息密度极低,延迟极高,成本极高——但它展示了一个可能的方向。
技术架构:完全不同于传统浏览器
Flipbook 的渲染管线完全颠覆了 Web 标准:
用户输入搜索词
↓
Agentic web search(爬取多个来源)
↓
LLM 规划页面结构 + 内容
↓
Gemini 2.5 Flash Image 生成完整页面图像
↓
base64 JPEG 通过 SSE 流式返回前端
↓
用户看到一张完整的"网页截图",点击某处重新触发流程
这不是渐进增强,这是对 Web 渲染模型的彻底替换。你的浏览器不再解析 HTML、执行 JavaScript、计算布局。它只做一件事:显示图片。
更激进的是 live video mode。
打开一个 toggle,Flipbook 会打开 WebSocket 连接到 Modal 上的 GPU 实例,使用 LTX-Video 模型实时生成视频流:
Client → WebSocket → Modal GPU → LTX-Video pipeline → custom binary protocol
协议被称为 LTXF:前 4 字节是帧数,然后是 video/mp4 初始化段 + media segments。浏览器端通过 Media Source Extensions API 实时解码。
内部 codename 叫 "Sketchapedia"(在 /api/iteratively-generate 的请求里可以找到)。
技术架构自底向上
我通过抓包和源码分析还原了 Flipbook 的技术栈:
推理层:Modal(serverless GPU 平台)
- 图像生成运行在 Modal GPU 上(推测 A100/H100)
- 视频流使用定制的 Diffusers 管线包装 Lightricks LTX-2 模型
AI 服务层:
- 页面规划:LLM(推测 GPT-4o 或 Gemini 2.5 Flash)+ agentic web search
- 图像生成:Gemini 2.5 Flash Image(
nano-banana) - 点击解析:Qwen 2.5 VL 72B(视觉语言模型,解析用户点击的区域对应什么)
- 视频流:定制的 LTX-Video 管线,optimized for 1080p@24fps
工具: Agentic web search — 不是传统的搜索引擎 API,而是让 LLM 自主决定搜索什么、点击哪些结果、提取哪些内容
数据层:Cloudflare R2(图片持久化)+ MongoDB(session graph, node metadata)
前端: Next.js 15 + React,但与传统 Next.js 应用的思维方式完全不同。核心组件 apps/web/app/play/page.tsx 有 1,887 行(最初是 2,522 行,经过一轮提取-refactor)
WebSocket 视频协议: LTXF
这是 Flipbook 最有趣的技术细节。视频流的 binary 帧格式:
[0..3] ASCII "LTXF" ← magic bytes
[4..7] uint32 big-endian ← header length (n)
[8..8+n] UTF-8 JSON header ← {media_type, sequence, codec, is_init_segment, final}
[8+n..] fMP4 segment bytes ← ISO Base Media File Format
- Init segment: 包含
moov和trakboxes,带有 codec 信息和 track 参数 - Media segments: 包含
moof和mdatboxes,实际的编码视频帧 - 观察到的 codec:
avc1.640028(H.264 High Profile, Level 4.0) - 浏览器通过
MediaSourceAPI 播放,不需要<video src=...>
loopy_mode + anchor_loop 策略处理页间过渡:每个 "page" 是一个锚帧,模型生成一个无缝循环回锚帧的短片。
Flipbook 不代表一切,但它证明了什么
Flipbook 的价值不在产品本身,而在证明一点:足够好的图像模型可以替代 UI 工具包。
我们对 HTML/CSS/JS 架构的依赖是过去 30 年技术进化的结果,不是数学定式。在很多场景下,图像作为界面更合理:
-
教育 & 探索式学习: 生成式的、可交互的可视化解释 → 下一代教科书的雏形。一个 HN 评论简单概括:"This would make an amazing educational tool."
-
技术文档 & 参考: 把知识图谱变成可视化的交互式图表,而不是分散的文本超链接
-
信息发现: 视觉浏览允许外设视觉和格式塔图案识别,比线性文本浏览更高效
-
界面设计的范式转移: HTML/CSS 假设内容是有结构的文本。当你的界面图是一张图,所有布局规则都被 models 替代
为什么 Flipbook 实际不够 "好用
三个根本问题:
1. 成本(💸)
每一次生成都要:agent search → LLM planning → image generation。直接的经济成本高到不现实。Modal 目前赞助了所有计算资源,这是投资人的钱在烧,不是产品本身的 unit economics。
2. 速度(🐢)
15-19 秒的页面生成时间太慢。即使有了渐进渲染(先显示低质量草稿再显示最终图像),用户体验仍然是个问题。和你现在的 Chromium 浏览器比,这差了不止一两个数量级。
好消息是,这个问题有解的。图像模型的延迟正在快速下降,而且像 Flux Schnell 这样的蒸馏模型已经能做到亚秒生成。
3. 幻觉(🌀)
图像模型渲染文字不稳定,偶尔会生成拼写错误。更致命的是:深度越深,准确性越低。因为每一页是基于上一页的图像生成的(而不是原始文本源),错误会逐层累积。你点进去的第一页可能是 90% 准确的,第三页可能变成了 60%,第五页变成了"有趣的创意写作"而非事实。
开源:复刻者做得更好
原始 Flipbook 是闭源的。团队选择产品策略(闭源、融资、迭代),这无可厚非。
但七个星期后,开源社区给出了强力回应。eren23/openflipbook 是一个 MIT 许可的完整复刻,用 Next.js + FastAPI + Modal 架构完整再现了 Flipbook 的核心体验,但全部基于开放工具:
| 组件 | Flipbook (闭源) | openflipbook (开源) |
|---|---|---|
| 图像生成 | 私有模型 | fal-ai/nano-banana |
| 点击解析 | 未知 VLM | Qwen 2.5 VL 72B (OpenRouter) |
| 页面规划 | 未知 LLM + agentic search | Qwen 2.5 72B + web search |
| 视频生成 | 私有 LTX-2 管线 | fal-ai/ltx-video (5s clip, $0.02) |
| 视频流 | 私有 LTXF WebSocket | 可选的 LTXF WebSocket (你自己的 Modal) |
| 数据存储 | 未知 | Cloudflare R2 + MongoDB |
| 许可证 | 闭源 | MIT |
openflipbook 证明了整个模式(image-as-UI、click-to-explore、VLM 导航、视频流)都是商品化的基础设施。你能克隆它,设置几个 API key,在自己的基础设施上运行相同的体验。
这是真正重要的故事。Flipbook 证明了 image-as-UI 可行。openflipbook 证明了它人人都能做到。
我们的判断
Flipbook 不是一个立刻会用到的产品。它是一个 前瞻实验,展示了未来的可能性而非现在的实用性。
声量和现实的差距值得玩味。Zain 的 tweet 说要"stream every pixel live from a model, no HTML, no code"。实际的产品更 modest:每页是一张 JPEG,实时视频是可选的开关(默认关闭),大部分内容是静态的。这不是批评——这种差距本身就有信息量:它告诉我们第一代 image-as-UI 产品能做什么,做不到什么。
因为真正重要的问题不是"何时每像素都由 AI 生成"。而是:当图像生成成本趋近于零时,HTML 不再是什么网页的默认载体?
Flipbook 没有回答这个问题,但它是第一个把它摆到台面上的产品。
资料来源
Flipbook:
- 网站: https://flipbook.page
- Zain Shah on X: https://x.com/zan2434
- 首发 thread (2026-04-22): https://x.com/zan2434/status/2046982383430496444
- HN 讨论 (439 分, 118 评论): https://news.ycombinator.com/item?id=47867048
- 投资方: South Park Commons (https://www.southparkcommons.com/), Modal 计算赞助 (https://modal.com)
- ChainThink 报道 (2026-04-23): https://chainthink.cn/en/article/126193181103329280
openflipbook:
- 仓库: https://github.com/eren23/openflipbook (MIT, ⭐ 68)
- 架构文档: https://github.com/eren23/openflipbook/blob/main/docs/ARCHITECTURE.md
- 技术分析: https://github.com/eren23/openflipbook/blob/main/docs/STORY.md
技术参考:
- LTX-Video: https://huggingface.co/Lightricks/LTX-Video
- fal.ai: https://fal.ai
- OpenRouter: https://openrouter.ai
- Modal: https://modal.com
- Cloudflare R2: https://www.cloudflare.com/developer-platform/r2/