宝玉@dotey

2026-05-06 23:37·57天前

AI 摘要

作者利用豆包Seed2.0-lite全模态理解模型，重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳，新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字，进行联合推理，从而保留技术视频中的关键视觉信息（如代码、图表）。通过将多模态能力封装为可复用的Agent Skill，并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题，使输出更接近人类技术编辑的整理成果。

http://x.com/i/article/2052049052275978244

把视频变成图文博客：Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流

两年前，Andrej Karpathy 发过一条很有意思的推文。他想把自己 2 小时 13 分钟的 tokenizer 教学视频，自动转换成一本书的章节，或者一篇关于 tokenizer 的博客。

这件事当时我也关注过，还动手尝试过。那时候比较自然的实现流程大概是这样：

用 Whisper 给视频转写；

把视频切成"图像 + 文本"对齐的小段；

用 LLM 一段段改写成文章；

导出成页面，并给原视频片段加引用链接。

这个方案听起来很合理，也确实能做。但问题是：效果往往不够稳定，因为整条流水线的每一步都在丢信息。

ASR（自动语音识别），只留下了"说话的人说了什么"，但丢掉了语气、停顿、背景音和现场节奏；LLM 只能读转录稿，看不到屏幕上的代码、图表、PPT 和 UI；配图又是另一个独立任务，要么人工挑帧，要么再引入视觉模型做画面理解。最后还要把文字、时间戳、截图重新对齐。

这就像请一个人只听课堂录音写笔记，再让另一个人只看 PPT 截图挑插图，最后让第三个人把两份结果拼起来。每个人都只拿到了一部分上下文，出错很正常。

这件事当时虽然没完全做成，但给我留下了很深的印象。因为它代表了一类很常见的需求：我们希望有一种把视频重新整理成可阅读、可搜索、可复用知识的方式。

最近受邀提前测试了 Doubao-Seed-2.0-lite，我第一时间又把这件事拿出来试了一遍。

Doubao-Seed-2.0-lite 是一款轻量级全模态理解模型。这里的"全模态"是指模型能够同时输入并理解视频、图片、语音和文本，并在这些信号之间做联合推理。换句话说，它不只是"看图""听音频""读文字"三个能力的简单相加，更可以处理那些必须音画结合才能判断的问题。

Doubao-Seed-2.0-lite 模型的更多信息可以看官方的这篇文章：《Doubao-Seed-2.0-lite 升级，支持全模态理解》：

全模态理解：不止看懂图文，更能听懂世界新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升，在物理（HiPhO）、医疗（MedXpertQA）等高阶学科推理上，表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知（BabyVision、WorldVQA）与具身理解（ERQA）等关键领域达到 SOTA 水平，更适合企业在高价值场景规模化部署。

视频转博客，正好就是这样一个问题。

你看一场技术演讲时，不会只听声音。你会看讲者切到了哪一页 slide，会看代码里哪几行被高亮，会注意 demo 页面有没有真的跑起来，也会根据讲者的语气判断他是在介绍背景、强调风险，还是现场调试失败。一个真正好用的视频转博客系统，也应该尽量接近这种理解方式。

所以这次我做的不是"先转文字，再让 LLM 改写"。我更想试的是：如果让 Agent 拥有多模态理解能力，它能不能像一个认真看完视频的技术编辑一样，把视频整理成一篇图文并茂的博客？

为什么这一次不一样：多模态减少了中间损耗

传统的 ASR（自动语音识别）+ LLM 流水线，本质上是先把视频压缩成文本，再让模型基于文本写文章。这对纯访谈、播客、会议纪要已经很有用，但对技术视频会遇到天然瓶颈。

技术视频里的大量关键信息并不在语音里，而在画面里：

宝玉@dotey · X

65导出 Markdown

2026-05-06 23:37·57天前

在 X 看原推· x.com

AI 摘要

http://x.com/i/article/2052049052275978244

把视频变成图文博客：Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流

这件事当时我也关注过，还动手尝试过。那时候比较自然的实现流程大概是这样：

用 Whisper 给视频转写；

把视频切成"图像 + 文本"对齐的小段；

用 LLM 一段段改写成文章；

导出成页面，并给原视频片段加引用链接。

这个方案听起来很合理，也确实能做。但问题是：效果往往不够稳定，因为整条流水线的每一步都在丢信息。

把视频变成图文博客：Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流

为什么这一次不一样：多模态减少了中间损耗

把视频变成图文博客：Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流

先给 Agent 装一个多模态 Skill

这套四步流程，是和 Agent 一起跑出来的最佳实践

第一步：长视频切片，但不把视频"拍扁"成纯文本

第二步：先让模型生成"文章素材"，而不是直接憋终稿

第三步：根据文章反查视频，自动挑关键帧

第四步：用 ffmpeg 截图，把图片插回 Markdown

最终博客长什么样？

这套方法的局限

不只视频博客：还可以怎么用？

1. 竞品直播追踪：GUI 采集 + 多模态理解 + 看板生成

2. 在线课堂报告：学生表现不是只看答对没答对

3. 游戏赛后复盘：录屏、队友语音和事件时间线一起看

最后

为什么这一次不一样：多模态减少了中间损耗

先给 Agent 装一个多模态 Skill

这套四步流程，是和 Agent 一起跑出来的最佳实践

第一步：长视频切片，但不把视频"拍扁"成纯文本

第二步：先让模型生成"文章素材"，而不是直接憋终稿

第三步：根据文章反查视频，自动挑关键帧

第四步：用 ffmpeg 截图，把图片插回 Markdown

最终博客长什么样？

这套方法的局限

不只视频博客：还可以怎么用？

1. 竞品直播追踪：GUI 采集 + 多模态理解 + 看板生成

2. 在线课堂报告：学生表现不是只看答对没答对

3. 游戏赛后复盘：录屏、队友语音和事件时间线一起看

最后