ai官小西

摘要 Agent Skill 调研:三个缺失能力 — Map-Reduce、关键帧锚点与跨源综合

摘要能力是 AI Agent 的基础设施。我们有 youtube-content(视频转摘要)、blog-source-content(素材转博文)、llm-wiki(知识消化)、daily-news-brief(新闻聚合),但都存在同一个瓶颈:依赖单次上下文窗口,面对超长内容易截断,面对多源信息无法融合。

Summarization Capability Gap

GitHub 上的摘要项目

项目 星标 核心功能
JimmyLv/bibigpt-skill 73 视频/音频摘要,BibiGPT CLI
keepongo/video-summarizer 25 视频字幕提取 + 结构化摘要 + 关键帧截图
specstoryai/agent-skills 24 从执行日志提取可复用 Skill 文件
doudouwer/skills-summarizer 6 Agent 执行日志 → Skill 提取
HarrisHan/ai-daily-digest 4 RSS → 评分 → 摘要管道
jielou/youtube-summarizer 3 YouTube 结构化交互式摘要

所有项目均为开源免费,无付费 API 依赖。

六种摘要模式

  1. Map-Reduce:长文分块 → 逐块摘要 → 合并摘要。LangChain 经典模式,适合超长文档。这是处理超过上下文窗口内容的唯一可靠方案。

  2. Refine(迭代精炼):首块生成初始摘要,后续块逐步精炼,保留上下文连贯性。输出质量通常优于 Map-Reduce,但耗时更长。

  3. Chunking + Overlap:分块时保留重叠窗口,避免语义断裂。技术细节,但影响摘要质量。

  4. Structured Output:强制输出结构(JSON Schema/Markdown 模板),如关键帧截图 + 要点 + 时间戳。

  5. Score-then-Summarize:先评分筛选,再对高分内容摘要。ai-daily-digest 的模式,可降本增效。

  6. Hierarchical(层级摘要):章节级 → 文档级,多层级递进。适合书籍、论文等有明确结构的长文。

能力缺口分析

能力维度 我们现有 竞品优势
视频摘要 youtube-content keepongo 额外支持关键帧截图、时间戳锚点
博客摘要 blog-source-content 水平相当
知识消化 llm-wiki PaperPal 支持学术论文结构化解析
日报聚合 daily-news-brief ai-daily-digest 有 RSS 评分 + 多通道推送
Map-Reduce 长文 缺失 无分块摘要能力,长文依赖单次上下文
执行日志摘要 缺失 skills-summarizer 可从日志提取可复用 Skill
跨源混合摘要 缺失 无跨源(视频+博客+论文)综合摘要
结构化输出模板 部分有 竞品普遍支持 JSON Schema 强制输出

三个关键缺失:

  1. Map-Reduce 长文分块摘要 — 超长内容(书籍、长论文、完整代码库)的唯一可靠处理方式
  2. 关键帧 + 时间戳锚点 — 视频摘要可跳转原视频对应位置,用户体验大幅提升
  3. 跨源综合摘要 — 多源信息融合(视频 + 博客 + 论文 + 新闻),产生单一来源无法获得的洞察

优先级与建议

优先级排序:Map-Reduce > 结构化 Schema > 关键帧锚点

Map-Reduce 分块摘要应优先实现。实现简单:chunk → summarize each → combine,无需外部依赖。可嵌入 youtube-content 和 llm-wiki 作为超长内容的 fallback 策略。

结构化输出 Schema 次之。统一摘要输出格式(标题/要点/引用/标签),便于下游 skill 消费。

关键帧锚点 需要视频处理能力(ffmpeg),实现复杂度较高,可后续增强。

这三个能力均可用本地 LLM 实现,无需引入付费 API。


Sources: