AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 658 条
全部一手资讯X论文
标签「视频」清除
AK@_akhaliq · 5月7日58

Stream-R1 Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation paper: https://huggingface.co/papers/2605.03849

译Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏 论文: https://huggingface.co/papers/2605.03849

TestingCatalog News 🗞@testingcatalog · 5月7日45

GOOGLE 🚨: A new Agent Mode is being prepared on Flow to handle complete video production process! Users will be able to: - Plan out scenes - Discuss in-progress project changes - Trigger generation workflows - Manage both project-level and app-level creative tools - Update the state of a project directly from a chat surface Everything is an Agent now 👀

译GOOGLE 🚨: Flow平台正在准备全新的智能体模式,用于处理完整的视频制作流程! 用户将能够: - 规划场景 - 讨论进行中的项目变更 - 触发生成工作流 - 管理项目级和应用级的创意工具 - 直接通过聊天界面更新项目状态 万物皆可智能体 👀

PixVerse@PixVerse_ · 5月7日72

4K Upscale is live! Enhance your images and videos in one place. Get 3 free runs, then enjoy 35% off credits. Limited time: May 7-14, 08:00 UTC. RT+ Follow+ Reply = 300Creds in DMs (72H ONLY)

译4K超分功能现已上线!在一处增强您的图像和视频。 获得3次免费使用机会,之后享受35%的积分折扣。 限时活动:5月7日至14日,UTC时间08:00。 转发+关注+回复=私信领取300积分(仅限72小时)。

Chubby♨️@kimmonismus · 5月7日53

1/ Okay this is kind of insane. Same face across different angles, different cuts, and different expressions without that usual drifting that makes AI video fall apart.

译1/ 这有点疯狂。同一张脸在不同角度、不同剪辑和不同表情下,没有出现那种导致AI视频崩坏的常见漂移现象。

swyx 🌉@swyx · 5月7日55

congrats to @mattpocockuk for crossing 1m views across his two sessions in <2 weeks - the fastest "time to 1m" in @aidotengineer history

译祝贺 @mattpocockuk 的两场分享在不到两周内获得超100万次观看——这是 @aidotengineer 历史上最快的“破百万速度”记录。

karminski-牙医@karminski3 · 5月7日50

完了! 我的整活被官方相中了! 搞了个AI电竞教练的 Harness Agent 框架, 拖进去 CS2 录屏视频后就能分析走位, 身法, 对枪, 预瞄, 投掷物, 经济, 等各种数据, 然后还能给出建议和训练方向. 结果被字节跳动相中了, 于是结合 Doubao-Seed-2.0-Lite 整了个大活, 连续运行25小时不间断分析对局视频总结玩家的帝王干拉是否到位(x 这次 Doubao-Seed-2.0-Lite 的宣发 Demo 视频那个AI电竞教练的就是这个 Demo 哈. 以及, 具体的整活视频还在制作中~ 大家稍安勿躁, 稍后给大家带来全部整活细节~ #seed20lite #doubao #doubaoseed #字节跳动

译作者开发的AI电竞教练框架“Harness Agent”被字节跳动官方采用。该框架能分析CS2游戏录屏中的走位、身法、对枪、经济等多维度数据,并提供改进建议。字节跳动将其与自家的Doubao-Seed-2.0-Lite模型结合,进行了长达25小时的不间断对局分析演示,该演示已成为Doubao-Seed-2.0-Lite的官方宣传案例。具体的项目细节视频仍在制作中。

Luma@LumaLabsAI · 5月7日57

The right message to the right person at the right time. Now you can build every version of it. Define the audience. Set the variation. Luma Agents generate every targeted ad from there. Hit every audience → http://lumalabs.ai/app

译在正确的时间,将正确的信息传递给正确的人。现在你可以构建它的每个版本。 定义受众。设置变量。Luma Agents 由此生成每个定向广告。 触达所有受众 → http://lumalabs.ai/app

Luma@LumaLabsAI · 5月7日20

A brand refresh isn't about starting over. It's about showing up better. Define the evolution. Set the direction. Luma Agents build every element of the new identity from there. Build it now → http://lumalabs.ai/app

译品牌焕新并非从头开始,而是为了更好呈现。 定义演进方向,确立发展路径。Luma Agents由此构建新品牌形象的每个元素。 立即构建 → http://lumalabs.ai/app

Chubby♨️@kimmonismus · 5月7日33

Interview with Dario Amodei and Daniela Amodei in ~25minutes on Anthropics YouTube Could be interesting

译约25分钟后Anthropic的YouTube频道将播出对Dario Amodei和Daniela Amodei的访谈 可能值得一看

Luma@LumaLabsAI · 5月7日51

Come meet us at AI on the Lot in Culver City. May 27-28, two days, 2,000+ attendees. The largest AI media conference focused on the entertainment industry. 10% off with our link: https://my.aionthelot.com/invite/LUMA10

译欢迎来卡尔弗城参加AI on the Lot会议。 5月27-28日,为期两天,超过2000名参会者。这是聚焦娱乐产业的最大规模AI媒体会议。 通过我们的链接可享九折优惠:https://my.aionthelot.com/invite/LUMA10

宝玉@dotey · 5月7日65

http://x.com/i/article/2052049052275978244 # 把视频变成图文博客:Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流 两年前,Andrej Karpathy 发过一条很有意思的推文。他想把自己 2 小时 13 分钟的 tokenizer 教学视频,自动转换成一本书的章节,或者一篇关于 tokenizer 的博客。 这件事当时我也关注过,还动手尝试过。那时候比较自然的实现流程大概是这样: 1. 用 Whisper 给视频转写; 1. 把视频切成“图像 + 文本”对齐的小段; 1. 用 LLM 一段段改写成文章; 1. 导出成页面,并给原视频片段加引用链接。 这个方案听起来很合理,也确实能做。但问题是:效果往往不够稳定,因为整条流水线的每一步都在丢信息。 ASR(自动语音识别),只留下了“说话的人说了什么”,但丢掉了语气、停顿、背景音和现场节奏;LLM 只能读转录稿,看不到屏幕上的代码、图表、PPT 和 UI;配图又是另一个独立任务,要么人工挑帧,要么再引入视觉模型做画面理解。最后还要把文字、时间戳、截图重新对齐。 这就像请一个人只听课堂录音写笔记,再让另一个人只看 PPT 截图挑插图,最后让第三个人把两份结果拼起来。每个人都只拿到了一部分上下文,出错很正常。 这件事当时虽然没完全做成,但给我留下了很深的印象。因为它代表了一类很常见的需求:我们希望有一种把视频重新整理成可阅读、可搜索、可复用知识的方式。 最近受邀提前测试了 Doubao-Seed-2.0-lite,我第一时间又把这件事拿出来试了一遍。 Doubao-Seed-2.0-lite 是一款轻量级全模态理解模型。这里的“全模态”是指模型能够同时输入并理解视频、图片、语音和文本,并在这些信号之间做联合推理。换句话说,它不只是“看图”“听音频”“读文字”三个能力的简单相加,更可以处理那些必须音画结合才能判断的问题。 Doubao-Seed-2.0-lite 模型的更多信息可以看官方的这篇文章:《Doubao-Seed-2.0-lite 升级,支持全模态理解》: > 全模态理解:不止看懂图文,更能听懂世界新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。 视频转博客,正好就是这样一个问题。 你看一场技术演讲时,不会只听声音。你会看讲者切到了哪一页 slide,会看代码里哪几行被高亮,会注意 demo 页面有没有真的跑起来,也会根据讲者的语气判断他是在介绍背景、强调风险,还是现场调试失败。一个真正好用的视频转博客系统,也应该尽量接近这种理解方式。 所以这次我做的不是“先转文字,再让 LLM 改写”。我更想试的是:如果让 Agent 拥有多模态理解能力,它能不能像一个认真看完视频的技术编辑一样,把视频整理成一篇图文并茂的博客? ## 为什么这一次不一样:多模态减少了中间损耗 传统的 ASR(自动语音识别)+ LLM 流水线,本质上是先把视频压缩成文本,再让模型基于文本写文章。这对纯访谈、播客、会议纪要已经很有用,但对技术视频会遇到天然瓶颈。 技术视频里的大量关键信息并不在语音里,而在画面里: - slide 上的架构图; - 终端里刚跑出的命令; - IDE 里被修改的那几行代码; - GitHub issue、PR、Action runner 的状态变化; - demo 页面里一个按钮、表单、报错、加载状态的变化。 这些信息如果在第一步就没有进入模型上下文,后面再怎么 prompt engineering,都只能补救,很难真正还原。 多模态模型的价值,是把“音频”“画面”“屏幕文字”“上下文文本”放到同一个理解空间里。它可以同时回答三类问题: - 讲者刚才说了什么? - 画面上现在出现了什么? - 这两件事合在一起,真正表达的技术含义是什么? 这也是我这次测试 Doubao-Seed-2.0-lite 时最明显的体感:它不仅能把视频转成一段文字,还可以把视频当成一个完整的知识对象来处理。 ## 先给 Agent 装一个多模态 Skill 这两年大模型领域除了多模态能力的提升,另一个重要变化是 Agent 能力也进步了很多。 以前做这类工作流,需要自己写一堆胶水代码:下载视频、转码、切片、上传、调用模型、解析 JSON、截图、插图、保存文件,还要人工检查哪里失败了。现在更自然的方式,是把这些能力封装成一个 Skill,让 Agent 在需要的时候自己调用。 有人可能会问:Agent 自身不是也可以有多模态能力吗? 这取决于 Agent 背后的模型。有些 Agent 底层模型主要擅长文本和代码,不一定能直接理解视频;有些模型支持图像,但不一定支持长视频和音频;也有一些模型支持得很完整,但成本可能不适合高频、批量任务。 把多模态能力做成 Skill 的好处是: - 如果 Agent 自身没有视频理解能力,它可以借助 Skill 获得这项能力; - 如果 Agent 自身有多模态能力,也可以把轻量模型作为更便宜的批处理工具; - 如果你经常做类似任务,可以把稳定下来的流程沉淀成 Skill,而不是每次从零写 prompt。 我写了一个 Skill,叫 doubao-multimodal(https://github.com/JimLiu/doubao-multimodal-skill)。它里面是一个 Bun + TypeScript 写的 CLI,封装 Doubao-Seed 的多模态 chat completion endpoint。它接收本地文件或远程 URL,自动处理下载、本地文件上传到云端、视频切片、并发调用、结果合并、token 统计等工程细节。 我把常用能力拆成了几类 task: 注意,这里我没有做一个专门的“视频转博客”Skill,而是把能力拆成一组原子化 task。好处是:这些 task 可以自由组合,不只服务于博客写作——换一套 prompt 和输出格式,同一个 Skill 就可以用在转写报告、竞品分析、课堂记录、游戏复盘等完全不同的场景里。 有了这些原子化能力,Agent 不需要每次都重新发明轮子。它只要知道“现在要做的是转写、打轴、整体理解,还是关键帧抽取”,就可以选择合适的 task 和 prompt。 ## 这套四步流程,是和 Agent 一起跑出来的最佳实践 回到“视频转博客”这个场景。现在我只需要给 Agent 一个很短的指令: > [plain] /doubao-multimodal 帮我基于 <~/downloads/xxx.mp4> 这个视频写一篇中文技术博客,内容翔实,要图文并茂,保存到 out 下,新建一个目录,包括 markdown 和 imgs。 如果 Agent 背后的模型足够聪明,它有时候会自己摸索出一条不错的流程,甚至一步到位完成:分析视频、写文章、挑截图、保存文件。 但在实际工作里,我更建议把这件事明确拆成四步。因为这四步是我和 Agent 反复实践后得到的稳定做法:让模型负责理解和判断,让工具负责确定性执行;先生成可检查的中间结果,再生成最终文章。 如果你只是偶尔写一篇,可以在提示词里直接引导 Agent: > [plain] 请不要直接一次性生成终稿。请按四个阶段完成: 1. 先检查视频大小、时长和分辨率,必要时切片,但不要把视频退化成纯文本; 2. 先输出结构化写作素材,包括主题、段落、画面证据、关键术语和不确定点; 3. 基于文章内容反查视频,挑选适合作为配图的关键帧,并解释每张图服务于哪个论点; 4. 用 ffmpeg 等确定性工具截图,把图片按顺序插入 Markdown,最后检查路径和标题。 如果你经常要做视频转文章,那就不应该每次都把这段 prompt 重新打一遍,而应该把它沉淀成 Skill:固定 task、固定输出 schema、固定重试逻辑、固定文件结构。这样 Agent 每次做的时候就不会“自由发挥”,而会调用一套可复用的工作流。 下面展开讲这四步。 ## 第一步:长视频切片,但不把视频“拍扁”成纯文本 模型单次输入通常会有时长和大小限制,所以 Skill 会先检查视频。如果视频超过 20 分钟或 50 MB,就用 ffmpeg 自动切片;如果分辨率高于 720p,就下采样到 720p;切片后并发调用模型,再按时间顺序合并结果。 这里有一个关键点:切片不是转写。 切片只是为了让输入更稳定、更容易被模型处理,但每个切片仍然保留视频、画面和音频信息。也就是说,模型在处理每一段时,仍然可以看到 slide、代码、UI 和听到讲者声音,而不是只能读一段 ASR 文本。 这一步看起来像工程细节,但它直接决定了后面的稳定性。长视频硬塞给模型,容易遇到输入限制;把长视频先压成文字,又会丢掉画面。切片保留了多模态信息,同时把问题变成多个可控的小任务。 ## 第二步:先让模型生成“文章素材”,而不是直接憋终稿 很多人第一次用模型写文章时,会直接说:“请根据这个视频写一篇漂亮的博客。” 短视频可能还行,但长视频不建议这么做。更稳定的方式,是先让模型输出结构化素材:主题是什么、视频分成哪几段、每段画面出现了什么、讲解重点是什么、哪些命令和术语应该保留、哪些结论只是推论,不能过度发挥。 这个 prompt 的核心是要先把事实边界整理清楚: > [plain] 请基于这段技术演讲视频,输出一份用于撰写中文技术博客的结构化素材。 请同时利用画面、语音和屏幕文字,不要只总结语音。 请至少包含: - 视频主题和一句话摘要; - 按时间顺序拆分的章节; - 每一章的讲解重点; - 画面中出现的关键证据,例如代码、架构图、命令、UI 状态; - 需要原样保留的英文术语、命令、文件名、API 名称; - 不确定或需要人工复核的点。 这一步相当于让模型先当“研究助理”,而不是直接当“作者”。 对长视频来说,这非常重要。因为一个好的技术博客是要重新组织知识而不是仅仅把视频逐句翻译:该合并的地方合并,该补上下文的地方补上下文,该保留命令和术语的地方不要漏,该提醒不确定性的地方不要瞎编。 拿到结构化素材后,Agent 再进入写作阶段,把素材改写成中文博客初稿。这样写出来的文章通常比一步到位更稳定,也更容易检查。 ## 第三步:根据文章反查视频,自动挑关键帧 文章初稿出来后,下一步是让 Agent 把“文章内容”和“原视频”一起交给同一个多模态模型,让它为博客挑配图。 这一步的输出的是结构化 JSON: > [json] { "keyframes": [ { "timestamp": "03:15", "timestamp_sec": 195.0, "description": "VS Code 中出现完整命令行输出,展示 JSON 结构", "suggested_caption": "图:结构化输出示例", "reason": "对应文章中关于 JSON / stream-json 可被上层系统解析的论点" } ] } 这里最重要的字段是 reason。 description 只是告诉你“画面里有什么”;reason 则要求模型解释“为什么这一帧应该放进文章”。换句话说,模型必须同时回答三件事: - 文章这一段在讲什么? - 视频这个时刻画面里有什么? - 这张图能不能帮助读者理解这个论点? 这正是传统 ASR + LLM 流水线很难做好的地方。 比如生成结果里的第一张图,是视频开头的标题页: 它适合作为第一张图,因为它第一次完整呈现了演讲主题,是后文所有内容的视觉锚点。 再比如 GitHub Action demo 部分,模型挑到了 issue 触发、Action run、todo list 这类画面: 这些图能帮助读者理解:Agent 会真的进入 GitHub issue、PR、runner 这套工程协作流程里,把需求推进成可 review 的代码变更。 这一步也是多模态模型最有价值的地方:它会读过文章、理解过视频,再反过来选择最能支撑论点的画面。 ## 第四步:用 ffmpeg 截图,把图片插回 Markdown 拿到关键帧 JSON 后,剩下的就是机械活:用 timestamp_sec 调 ffmpeg 截图,然后把图片按顺序插进 Markdown。 这里不需要再让模型“想办法截图”。截图、命名、保存、插入路径,都应该交给确定性工具。 > [bash] mkdir -p imgs i=0 jq -r ' (.segments[0].text | fromjson | .keyframes[]) | [.timestamp_sec, .suggested_caption] | @tsv ' out/keyframe-extract.json | while IFS=$'\t' read -r ts caption; do i=$((i + 1)) file=$(printf "%02d.jpg" "$i") ffmpeg -hide_banner -loglevel error \ -ss "$ts" -i talk.mp4 \ -frames:v 1 -q:v 2 "imgs/$file" printf "%s[%s](imgs/%s)\n\n" "!" "$caption" "$file" >> frames.md done 如果视频被切成了多段,还需要注意一个小细节:模型返回的 timestamp_sec 可能是分段内的局部时间戳。稳妥做法是让 Skill 在合并结果时把 segment.start_sec 加回去,统一转换成原视频的全局时间戳。 这一步没有什么“AI 魔法”,但非常重要:一个好用的多模态 Agent 工作流,不应该把所有事情都塞给模型。模型负责理解和决策,脚本负责稳定执行。 ## 最终博客长什么样? 这次测试的视频是一段 20 分钟左右的英文技术演讲,主题是 Building headless automation with Claude Code。生成出来的文章标题是: > Claude Code SDK 与 GitHub Action:把代码 Agent 接入 CI 和 GitHub 协作流 开头几段大概是这样: 文章中间会穿插对应截图。例如讲到 Power-ups 功能时,配图是能直接看到 50/50 和 Skip Question 按钮的最终效果: 讲到 Action 架构时,配图则是三层结构:Claude Code SDK、Base Action、PR Action。 这类图片对读者很有价值。因为技术博客不仅仅是把视频“翻译成文字”,还要帮读者节省时间:该看的图直接放出来,该解释的概念重新组织,该保留的命令和术语不要漏。 从读者角度看,最终得到的是一篇可以搜索、可以收藏、可以快速扫读的文章;从作者角度看,原来需要人工看视频、暂停、截图、整理大纲、改写的过程,被压缩成了一套 Agent 可以执行的工作流。 ## 这套方法的局限 这次 Doubao-Seed-2.0-lite 的多模态测试体验给我感觉非常不错,但也有一些局限需要说清楚。多模态模型是把很多过去做不了、或者成本很高的事情,变成了可以工程化处理的事情。 - 第一,输入长度和大小仍然有限制。 长视频、高清录屏、大体积文件不适合直接一次性塞给模型。我的做法是先切片、必要时降到 720p,再并发处理,最后把结果按时间线合并。这样牺牲了一点端到端的“优雅”,但换来了稳定性。 - 第二,多模态输出的形式可以很丰富,但长输出的稳定性仍然要特别设计。 让模型一次性输出一篇很长的文章、几十张图、复杂 JSON 和完整文件结构,失败概率会变高。更稳的做法是拆阶段:先素材,再文章,再关键帧 JSON,再由脚本落盘。每一步输出都尽量结构化、可解析、可重试。 - 第三,时间戳不是永远帧级精确。 模型能定位“大概哪个时刻适合截图”,但如果你对画面清晰度要求很高,最好在 timestamp_sec 前后再取几张候选帧,让 Agent 或脚本做二次筛选。 - 第四,技术文章最终仍然需要人工审稿。 模型能帮你理解视频、整理结构、保留术语、挑图,但涉及具体 API、版本、命令、事实判断时,发布前最好人工过一遍。尤其是英文技术视频转中文文章,术语翻译和上下文补充很容易影响读者理解。 - 最后,这类能力更适合异步深度理解,不等同于实时流式音视频助手。 像“录完一节课后生成报告”“看完一场直播后出分析”“处理完一段演讲后写博客”这样的场景很适合;如果要边看边实时反馈,就还需要另外的实时系统设计。 ## 不只视频博客:还可以怎么用? “视频转图文博客”只是一个比较直观、也比较适合开发者理解的精品 Demo。真正有意思的是,这套模式可以迁移到很多场景:多模态模型负责理解,Agent 负责拆解任务,GUI / Browser Use 负责采集和操作,Coding 能力负责把结果生成页面、看板或报告。 ## 1. 竞品直播追踪:GUI 采集 + 多模态理解 + 看板生成 比如海外电商团队想分析竞品直播。过去这件事很依赖人工:运营要定时进入直播间,记录商品、价格、促销话术、逼单节奏,再整理成表格。 放到 ArkClaw 或 Hermes Agent 这样的框架里,流程可以变成: 1. GUI Agent 定时打开直播平台,搜索指定竞品账号,进入直播间并录屏; 1. Agent 抓取商品列表、价格、优惠信息,同时保存直播视频; 1. Doubao Seed 2.0 Lite 对录屏做多模态理解:看画面上的商品、听主播话术、识别价格变化和促销节点; 1. Coding Agent 把分析结果生成 HTML 看板,展示不同场次的商品节奏、转化话术、价格策略和高光片段; 1. Agent 把报告链接发到飞书或 Slack。 这里如果只有 ASR,就只能得到主播说了什么;如果只有截图,就不知道主播当时在强调什么。必须把画面、音频和时间线结合起来,才能分析“这个商品为什么在这个时刻被重点推”。 ## 2. 在线课堂报告:学生表现不是只看答对没答对 在线教育里也有类似需求。比如一节英语直播课结束后,家长想知道孩子这节课表现如何。传统系统可以统计答题正确率,但很难判断孩子是否专注、回答是否流畅、发音是否犹豫、老师是否及时引导。 多模态 Agent 可以把课堂录屏、学生语音、老师语音和互动 UI 放在一起分析: - 学生回答了什么,是否听懂问题; - 回答是否流畅,是否有长时间停顿; - 发音、语调和情绪是否稳定; - 画面里是否频繁走神、低头、离开屏幕; - 老师有没有及时反馈和追问。 最后由 Coding Agent 生成一份家长能看懂的课后报告:本节课知识点、孩子高光时刻、需要复习的内容、老师建议。对教研团队,也可以生成另一份老师表现反馈。 这个场景的关键同样不仅要“把课堂录音转成文字”,还要把声音、画面、互动状态一起理解。 ## 3. 游戏赛后复盘:录屏、队友语音和事件时间线一起看 游戏复盘也是很适合三模态理解的场景。以 CS2 这类游戏为例,一场比赛里有枪声、脚步声、队友报点、经济系统、道具使用、站位选择、击杀时机。只看录像会漏掉语音,只听语音又看不到站位和画面。 Agent 可以在赛后处理整场录屏:先切成多个 round,再分析每一局的经济选择、道具使用、准星位置、队友沟通、关键失误和高光操作。最后生成一份像教练写的复盘报告,告诉玩家:哪一局该保枪,哪一次道具丢早了,哪一次听到了脚步但没有及时反应。 这种任务对实时性要求不一定高,但对长程视频理解、多模态线索追踪和结构化输出要求很高,正是轻量全模态模型适合进入生产的地方。 ## 最后 回头看 Karpathy 两年前那条推文,他说这个想法“feels tractable but non-trivial”。 两年后,我的感受是:它仍然不是一个“丢进去就完事”的玩具任务,但已经从一个复杂的研究型流水线,变成了一个可以工程化复用的 Agent 工作流。 变化的核心,不只是模型更强了,而且多模态理解开始变成一种可组合的工程原语。 以前我们会把视频拆成音频、文字、截图,再让不同模型分别处理;现在更自然的方式是让模型直接理解同一个事件的多个模态,再把结果以结构化形式交给 Agent 和工具链继续处理。 豆包 Seed 2.0 Lite 0415 让我印象最深的地方也在这里:它不仅只在某个单点能力上更进一步,还把视频、图片、语音、文本放进同一个理解框架里,同时又足够轻量,适合被封装成 Skill,接入 Agent、Coding、GUI 这些真实开发流程。 对开发者来说,这意味着很多过去“能想明白,但实现很麻烦”的音视频任务,开始值得重新做一遍。 你手里如果有课程视频、会议录屏、直播回放、产品演示、游戏录像、客服质检视频,不妨问自己一个问题: > 如果模型能同时看画面、听声音、读文字,并且能把结果交给 Agent 自动执行下一步,这个工作流还能不能重做一遍? 这可能才是多模态模型真正进入生产的开始。

译作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。

Alibaba Cloud@alibaba_cloud · 5月6日22

Registration extended! Want to recreate history with AI and stand a chance to win exciting prizes? Join Alibaba Cloud Singapore's Stories Unearthed: WAN AI Video Challenge and reimagine Singapore's heritage through AI video creation using Alibaba Cloud's WAN model. Pick a theme, tell your story, and turn it into a video - it's as simple as that. Looking for inspiration? Swing by ArCH Square, where ongoing exhibitions bring Singapore's heritage stories to life and spark ideas for your own creation. Sign up now: https://int.alibabacloud.com/m/1000411888/ An email will be sent to you to confirm your registration. Fooyo & HeritageSG #AlibabaCloudSG #AlibabaCloudPartner #AlibabaCloud #AI #LLM #Qwen #Wan #AInnovation #OnlineWorkshop #SingaporeHeritage #HeritageSG

译阿里云新加坡推出“被发掘的故事:WAN AI视频挑战赛”,邀请参与者使用其WAN模型创作AI视频,重新构想新加坡文化遗产。活动注册期已延长,参与者需选择主题、讲述故事并制作视频,优胜者有机会赢取奖品。为激发创意,可参考ArCH Square的遗产展览获取灵感。该活动旨在推动AI技术与文化遗产的创新结合,涉及技术包括人工智能、大语言模型和通义千问等。立即报名,用科技重现历史。

Alibaba Cloud@alibaba_cloud · 5月6日38

Registration extended! Want to recreate history with AI and stand a chance to win exciting prizes? Join Alibaba Cloud Singapore's Stories Unearthed: WAN AI Video Challenge and reimagine Singapore's heritage through AI video creation using Alibaba Cloud's WAN model. Pick a theme, tell your story, and turn it into a video - it's as simple as that. Looking for inspiration? Swing by ArCH Square, where ongoing exhibitions bring Singapore's heritage stories to life and spark ideas for your own creation. Sign up now: https://int.alibabacloud.com/m/1000411888/ An email will be sent to you to confirm your registration. @Fooyo @HeritageSG #AlibabaCloudSG #AlibabaCloudPartner #AlibabaCloud #AI #LLM #Qwen #Wan #AInnovation #OnlineWorkshop #SingaporeHeritage #HeritageSG

译阿里巴巴云新加坡宣布延长“故事发掘:WAN AI视频挑战赛”的注册时间,邀请参与者利用其WAN模型创作AI视频,重新构想新加坡文化遗产。参赛者需选择主题,将故事转化为视频,优秀作品可获奖励。ArCH Square的展览为创作提供灵感来源。活动涉及AI、大语言模型和Qwen等技术,旨在推动创新。参与者可通过指定链接完成注册,确认邮件将随后发送。@Fooyo和@HeritageSG为本次合作方。

小互@xiaohu · 5月6日63

一张图生成一个实时回应你的对话视频角色 Runway 推出 Runway Characters 你给它一张参考图,它就能生成一个可以和用户实时说话的视频角色。 • 角色能实时对话,官方称支持 HD、24fps • 它能看摄像头,也能看屏幕共享 • 声音、性格、开场白可以配置,也能生成或克隆自定义声音 • 可以接文本或 Markdown 知识库,让角色按资料回答 • 可以调用工具,比如高亮网页按钮、滚动页面、打开弹窗,或去后端查订单和库存 • 可以通过 API、React SDK、网页 Widget 接进自己的产品。 你可能觉得,这不就是“数字人”吗。上传一张脸,让它眨眼、张嘴、读稿,过去几年大家已经看过很多。 但 Runway Characters 不是在重复这件事。 它想把视频生成从“等模型出片”,往前推到“现场接话”。 用户不是等一段生成好的视频,而是在和屏幕里的角色说话。这个角色要能听懂你、看见你正在看的东西、按资料回答,还能在产品里做一点动作。

译Runway推出Runway Characters功能,用户上传参考图即可生成能实时对话的视频角色。该角色支持高清视频流,可注视摄像头或屏幕共享内容,并允许配置声音、性格与知识库。其核心突破在于将视频生成从预渲染推进至实时交互,使角色能理解对话、依据资料回答问题,并能调用工具执行网页操作或数据查询,支持通过API等方式集成至自有产品。

PixVerse@PixVerse_ · 5月6日25

Shout out to our wonderful models!

译致敬我们出色的模型!

歸藏(guizang.ai)@op7418 · 5月6日47

最近有两个非常出圈、非常牛逼的短剧: 一个是《Enemy》,一个是《吉时已到》,可以看看 热度爆表,制作效果也很好,成本不高 如果要做 AI 内容,或者说做 AI 短剧之类的内容的话可以把这两个剧当成暂时的质量标杆去对齐

译推文指出短剧《Enemy》和《吉时已到》近期热度极高,制作效果出色且成本较低,已成为出圈案例。作者建议,如果从事AI内容或AI短剧制作,可以将这两个剧集视为暂时的质量标杆,以对齐内容创意、制作效率和市场接受度,从而提升AI生成作品的竞争力。

Luma@LumaLabsAI · 5月6日70

Introducing the Uni-1.1 API. It reasons through briefs, not just tokens. First-pass results that actually ship. No middleware, no prompt engineering required. Fashion tools. Architecture renderers. Manga pipelines. Cinematic quality across every vertical. Intelligence you can direct. Aesthetic you can ship. → http://lumalabs.ai/api

译推出Uni-1.1 API。 它通过简报进行推理,而不仅仅是处理标记。首次生成的结果即可实际交付。 无需中间件,无需提示工程。时尚工具。建筑渲染器。漫画制作流程。每个垂直领域都具备电影级品质。 可指挥的智能。可交付的审美。→ http://lumalabs.ai/api

Luma@LumaLabsAI · 5月6日35

Interior studios. Fashion tools. Jewelry configurators. Storyboard generators. All of these are being built with the Uni-1.1 API right now. Whatever you're building, the intelligence layer is here. → http://lumalabs.ai/api

译室内设计工作室。时尚工具。珠宝配置器。故事板生成器。 所有这些都正在使用Uni-1.1 API构建。 无论你在构建什么,智能层已就位。→ http://lumalabs.ai/api

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月6日59

Do you realize how many companies - and jobs - are about to look like this?

译梦工厂联合创始人杰弗里·卡森伯格预测,AI将在三年内使动画电影制作成本降低90%,所需人力减少至原先的10%。这不仅将彻底颠覆娱乐产业,更将迅速波及所有行业。好莱坞艺术家的反抗凸显了危机感——AI已在艺术创作领域实现从低水平到超人类能力的飞跃。若其在操纵、编程、生物工程等领域取得类似突破,将引发大规模失业潮,可能促使有组织劳工运动复兴。尽管可能带来更多电影产出,但各行各业的游戏规则已被永久改变。

Luma@LumaLabsAI · 5月5日70

The Uni-1.1 API is live today. Built-in prompt enhancement, research, and reference gathering at the API level. Trained in collaboration with Hollywood cinematographers, VFX artists, and world-class artists across cultural forms. Less than half the price and latency of comparable models. Designed for builders shipping in production — and ranked top 3 lab in the Image Arena across Text-to-Image and Image Edit. Start Building → https://lumalabs.ai/api

译Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。 与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。 价格和延迟仅为同类模型的一半以下。 专为在生产环境中部署产品的开发者设计——在 Image Arena 的文本到图像和图像编辑类别中排名前三。 开始构建 → https://lumalabs.ai/api

Alibaba Cloud@alibaba_cloud · 5月5日39

Tired of AI videos that glitch, shift, and look like a mess? You’ve seen the hype, but you know the struggle: inconsistent characters, lost details, and render times that kill your productivity. Happy Horse 1.0 isn't "just another AI tool." It’s a production-first engine built to solve the problems that actually matter to creatives: ✨ Pixel-Perfect Consistency: No more morphing. Keep your characters and assets stable from frame 1 to the end. ✨ Enterprise-Grade Efficiency: Optimized for quality, speed and cost. Join us for the HappyHorse 1.0 Masterclass. We’re showing you exactly how to take your AI video workflow from "experimental" to "professional." 📅 15 May 2026 (Friday) | 3:00 - 5:30 PM 📍 27/F, Time Square, Causeway Bay, HK 🔗 Register now: https://luma.com/ew5g3w9x #HappyHorse #AlibabaCloud #CreativeProfessional #AIMasterclass #AIVideo

译Happy Horse 1.0是一款面向创意工作者的生产级AI视频引擎,旨在解决现有AI视频工具的核心痛点。它主打“像素级一致性”,确保角色和资产在视频中保持稳定,不再出现变形或闪烁。同时,引擎具备企业级效率,在质量、速度和成本上进行了优化。官方将于2026年5月15日在香港举办大师班,演示如何将AI视频工作流程从“实验性”提升至“专业级”。

阿绎 AYi@AYi_AInotes · 5月5日64

起步成本90美元,30秒一条视频,这是我今年见过门槛最低杠杆最高的美元生意,没有之一。 整个流程一个人就能干,跑通了月入10万美元不是空话。 先给你们看完整的四步流程,看完就能立刻去做。 1. 打开http://swaptok.app,不用下载任何App 2. 让Grok生成一张你想要的高清人脸,1080×1920 3. 粘贴任意一条TikTok或Reels的公开链接 4. 点击生成,30秒后下载无水印视频 就这么简单🚀 1️⃣你得到的是什么? 一个和原视频动作表情背景音频完全一样,只是脸换成了你生成的那个人的视频。 2️⃣效果好到什么程度? 我把生成的视频发给三个做TikTok的朋友,没有一个人看出来是AI换脸。 3️⃣最离谱的是价格。 89.99美元一年,无限生成。 平均一条视频成本不到1美分。 以前你拍一条短视频,要模特化妆灯光剪辑,成本至少几百块。 现在30秒,1美分。 这已经不是啥新鲜的灰色玩法了, 简直就是内容生产的降维打击。 所有需要真人出镜的生意,现在都可以被你用1美分的成本,无限复制。 说一下大家最关心的,怎么赚钱。 四条已经被验证过的变现路径,按难度从低到高排。 第一条,AI网红矩阵 建10-20个垂直账号,健身美妆舞蹈搞笑,每条视频都是换脸后的趋势内容。 靠创作者基金品牌合作直播带货变现。 单个账号月入1-3万美元很正常,矩阵放大直接破10万。 第二条,广告外包 专门给品牌做前后对比类的UGC广告,减肥护肤护发。 客户给你产品和参考视频,你一天能出100条不同人脸的素材。 单条报价200-500美元,利润接近100%。 第三条,自有产品闭环 自己卖课程卖货卖虚拟产品。 用AI生成无限量的广告素材,测到跑赢的就无限复制。 广告成本直接降到接近0。 第四条,卖铲子 把这个方法做成课程,或者帮别人代做账号。 这是目前最快回本的方式,很多人愿意为一个能立刻赚钱的方法付几百美元。 当然这里面也不是没有坑, 我把最容易踩的五个坑直接说出来,希望能帮你们省几万块学费。 第一,不要直接发原视频,一定要加字幕微调背景音乐裁剪几帧做二次创作,不然一定会被限流。 第二,不要只用一张脸,多生成几套不同种族不同风格的头像,做矩阵。 第三,优先用无音乐的趋势视频,或者自己换音轨,规避版权风险。 第四,侧脸快速动作复杂光影下效果会差一点,选正面慢动作的视频。 第五,红利期只有6-12个月,现在入场是最好的时机,晚了就全是竞争对手了。 可能会有人说这是灰色生意。 说实话,我觉得这只是技术进步带来的必然结果。 以前我们用相机代替了画师,用电脑代替了打字员。 现在我们用AI代替了出镜的模特和演员。 这没有什么对错,只是时代变了。 最后说一句, 所有的技术红利,都属于第一个敢去试的人。 现在花30秒,去生成第一个视频,比你看100篇分析文章都有用。 #AI副业 #TikTok #美元生意 #AI换脸 #自媒体创业

译文章介绍一款年费89.99美元的在线AI换脸工具Swaptok,用户可通过四步流程在30秒内将TikTok或Reels公开视频中的人脸替换为AI生成的高清人脸,单条成本极低。作者提出四条变现路径:运营AI网红矩阵账号、承接品牌广告外包、为自有产品制作素材以及出售课程或服务。同时指出需进行二次创作避免限流、注意版权风险及把握红利期等关键建议,视其为技术发展催生的新内容生产方式。

Kling AI@Kling_ai · 5月5日25

Visions take motion with Kling AI. Every frame, a heartbeat. Every story, alive. Welcome to April Inspirations from Kling AI Creators! 🎬

译愿景随Kling AI而动。 每一帧,都是心跳。每一个故事,都栩栩如生。 欢迎来到Kling AI创作者的四月光影灵感集!🎬

阿绎 AYi@AYi_AInotes · 5月5日74

分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥 能做的事,放在一起看有点夸张, 输入:任意 YouTube 链接 ↓ 自动下载视频 ↓ 人声分离(干净去除背景音) ↓ 语音转文字 ↓ 翻译成 100+ 种语言 ↓ 克隆原始声线 ↓ 自动配音合成 输出:完整配音视频 全程:< 2 分钟 以前这条流水线要什么,先用yt-dlp 下载,再用Audacity 分离人声,然后用Whisper 转录,再用DeepL 翻译,接着用ElevenLabs 克隆声线,最后再手动合成, 光订阅费加起来就不便宜, Voice-Pro 把这六步压成一个本地工具,100% 跑在自己机器上,数据不出门,免费, 我觉得对做多语言内容的创作者来说,这个工作流改变挺明显的, 老规矩GitHub地址评论区自取👇

译开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

Luma@LumaLabsAI · 5月5日66

Define the concept. Set the direction. Let Luma Agents turn your ideas into a full ad system. See the concept → http://lumalabs.ai/app

译定义概念。设定方向。 让Luma Agents将你的想法转化为完整的广告系统。 查看概念 → http://lumalabs.ai/app

AK@_akhaliq · 5月5日68

UniVidX A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors paper: https://huggingface.co/papers/2605.00658

译UniVidX 一个通过扩散先验实现多功能视频生成的统一多模态框架 paper: https://huggingface.co/papers/2605.00658

PixVerse@PixVerse_ · 5月5日17

Adorable cat girl mirror moment @Kawaiizice! Share your pet's silly mirror reactions—let's spread the cuteness! 🐱🪞

译可爱的猫娘对镜瞬间 @Kawaiizice!分享你家宠物面对镜子的搞笑反应——一起传播这份可爱吧!🐱🪞

PixVerse@PixVerse_ · 5月5日30

Capybara soccer GOATS! 😍So fun, @FotachuARGUY Keep it up!

译水豚足球巨星!😍太有趣了,@FotachuARGUY 继续保持!

Runway@runwayml · 5月5日69

Real-time video agents are here. Today, we’re sharing how we built Runway Characters, allowing you to turn one image into a fully expressive, conversational video agent streaming at 24 frames per second in HD. With just 1.75 seconds of end-to-end latency. Learn more below.

译实时视频智能体已到来。 今天,我们将分享如何构建Runway Characters,让你能将一张图片转化为一个完全富有表现力、可对话的视频智能体,以每秒24帧的高清画质流畅播放。端到端延迟仅需1.75秒。 了解更多信息请见下文。

Chubby♨️@kimmonismus · 5月4日62

A little-known startup just landed on the @ArtificialAnlys AI Video leaderboard, now ranked among the top 6 in the world. Very cool @video_rebirth

译初创公司Video Rebirth的文本生成视频模型Bach-1.0 Preview在Artificial Analysis的全球AI视频排行榜上首次亮相即位列第六。其性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等知名模型相当。该模型计划于五月下旬广泛发布。

Rohan Paul@rohanpaul_ai · 5月4日64

A startup in the Top 6 on Artificial Analysis Text-to-Video Leaderboards Alongside Alibaba, ByteDance, and xAI. Video Rebirth came out of nowhere. The AI video leaderboard has been exclusively trillion-dollar companies. Today, a startup just broke in. Video Rebirth. Super realistic results. Their model BACH just hit Top 6 on @ArtificialAnlys.

译初创公司Video Rebirth凭借其模型Bach-1.0 Preview,在Artificial Analysis的文本转视频榜单中首次进入前六名,打破了该榜单长期由阿里巴巴、字节跳动、xAI等万亿美元级巨头主导的局面。其模型性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等顶尖模型相当,并计划于五月下旬广泛发布。这一突破标志着初创企业在高质量AI视频生成领域取得了显著进展,为该领域的竞争格局带来了新的变数。

小互@xiaohu · 5月4日56

据传Google将在本月的Google I/O 大会上发布一个全新的模型 将 Gemini 从“聊天助手”推向“全模态生产力入口” 一个名为Omni 的疑似新模型泄露 它可能会承担更深的视频与多模态生成能力,甚至让 Gemini 原生支持视频输出,而不只是文字、图片和调用外部视频模型。 如果这个方向成立,Gemini 接下来真正要拼的就不只是模型分数,而是“一个入口完成多种内容生产”:写作、图片、视频、长上下文记忆、复杂任务流,全部都在 Gemini 里打通。 同时,Gemini 3.2、3.5 也被传正在测试,重点可能会放在更快、更高效的推理体验上。 Ultra 版本则可能继续往长上下文、重记忆、多步骤工作流方向演进,服务那些需要连续执行、反复调用上下文的高价值任务。

译据传谷歌将在I/O大会发布名为“Omni”的新模型,旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出,超越现有的Veo 3.1。同时,Gemini 3.2/3.5版本或专注于提升推理速度与效率,而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型。

Artificial Analysis@ArtificialAnlys · 5月4日56

Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1.0 Preview is the latest Text to Video model from @video_rebirth, with similar performance to Vidu Q3 Pro, Kling 3.0 Omni 1080p (Pro), and grok-imagine-video. Bach-1.0 Preview is intended for broad release later in May. See example generations from Bach-1.0 Preview in the Artificial Analysis Video Arena below 🧵

译Bach-1.0 Preview from Video Rebirth 在 Artificial Analysis 文本转视频排行榜(无音频)中首次亮相,位列第6! Bach-1.0 Preview 是来自 @video_rebirth 的最新文本转视频模型,其性能与 Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro) 和 grok-imagine-video 相近。 Bach-1.0 Preview 计划于五月下旬广泛发布。 在下方 Artificial Analysis 视频竞技场中查看 Bach-1.0 Preview 的生成示例 🧵

阿绎 AYi@AYi_AInotes · 5月4日77

Claude终于补上了自己最大的短板,现在能真正看懂视频了。 不用等Anthropic官方慢吞吞的更新,现在通过Algrow的MCP平台,你只要扔一个YouTube、TikTok或者Instagram的链接,Claude就能完整看完整个视频,分析画面、音频、节奏、文字叠加,甚至给你出一份可落地的深度分析报告。 演示效果直接颠覆认知, 输入一个YouTube Shorts频道的URL,Claude会自动调用视频分析工具,批量拉取该频道所有短视频,生成包含标题、播放量、点赞率的完整数据表格。 接着它会做病毒化深度拆解,告诉你为什么有的视频爆了,有的却石沉大海。 它能精准识别出所有视频共用的模板、配音和动画风格,然后一针见血地指出:决定性差异从来不是后期特效,而是前2秒的hook概念冲击力。 最狠的是帧级留存分析,它会画出每一秒的观众流失曲线,标出哪些时间段是“死亡区”,观众会在这一秒毫不犹豫划走。 以前你要花三天时间,手动刷几十条视频、记满一本笔记、做无数个表格才能得出的结论。 现在一句话,30秒搞定。 Algrow的后端会自动完成视频下载、关键帧提取、音频转写,再把多模态数据完整喂给Claude。 通过MCP工具链,它能一口气跑完“看视频→抓数据→交叉对比→输出报告”的全流程,中间不需要你任何干预。 目前这个功能正处于免费无限试用的推广期。 正式上线后定价也非常亲民,1个积分可分析约8分钟视频,最低25美元/月的订阅就包含12小时以上的分析额度。 为什么这件事意义重大? 1. 大模型的战争已经彻底转向生态 Claude的文本推理能力一直是行业顶尖,但原生视频能力长期落后于Gemini。这次第三方开发者用MCP的方式,一夜之间就把Claude拉到了同一水平线,甚至因为工具链式调用能力变得更强。这证明未来的胜负手从来不是参数,而是谁的生态能长出更多杀手级应用。 2. 内容创作者迎来核武器级生产力工具 以后再也不用熬夜刷竞品了。让Claude帮你把同赛道所有爆款和扑街视频全看一遍,直接提炼出可复制的hook公式、转场节奏和内容结构。谁先用上这套工具,谁就能在流量战里领先别人一个身位。 3. 视频研究Agent的时代正式开启 视频是互联网上体量最大、最难处理的数据类型。一旦Claude能看懂视频,再结合MCP的工具链能力,很快就能诞生能自动监控全网流量趋势、生成完整内容策略、甚至迭代创意的AI Agent。内容分析这个曾经的人力密集型工作,正在被彻底重构。 当然它也有局限,对小众文化梗和细腻情绪的理解仍有误差,敏感内容不要随意投喂,免费期结束后算力成本可能会传导到价格上。 但这些都不重要,潘多拉的盒子已经打开了。

译借助Algrow的MCP平台,Claude现已能直接分析YouTube等平台的视频内容,自动生成包含数据表格、爆款拆解与留存曲线的深度报告。这标志着大模型竞争重点转向生态建设,第三方开发者通过工具链迅速弥补了Claude的原生视频短板。该功能为内容创作者提供了高效分析竞品、提炼爆款公式的生产力工具,并预示视频研究Agent时代的开启。目前处于免费试用阶段,未来订阅定价亲民。

Kling AI@Kling_ai · 5月4日42

Classic films. Iconic moments. Now in stunning Kling 4K motion. The posters aren’t just hanging anymore. They’re playing. 🎬

译经典电影。标志性时刻。 现以惊艳的Kling 4K动态呈现。 海报不再只是悬挂着了。 它们在播放。🎬

PixVerse@PixVerse_ · 5月4日26

That monster bash energy is UNREAL 🧛‍♀️🤘 Shoutout to @StevieMac03 for this epic Seedance 2.0 banger!

译那场怪物派对的能量简直不可思议 🧛‍♀️🤘 感谢 @StevieMac03 带来这首史诗级的 Seedance 2.0 热曲!

PixVerse@PixVerse_ · 5月4日11

🔥Those cannons slap so hard! Awesome job bringing this detailed art to life @UminekoStudio Love it🥰

译🔥这些炮火效果太震撼了!@UminekoStudio 将如此精细的艺术作品生动呈现,做得太棒了🥰

Chubby♨️@kimmonismus · 5月3日42

Rumors so far: - Google Gemini Flash 3.2/3.5 (already being tested) - New Omni Model, maybe even updated Veo in competition to Seedance - "spark Robin" - new visual model?

译目前的传闻: - Google Gemini Flash 3.2/3.5(已在测试中) - 新的Omni模型,甚至可能推出更新的Veo来与Seedance竞争 - "spark Robin"——新的视觉模型?

Chubby♨️@kimmonismus · 5月3日45

Google Omni model incoming. Probably being prepared for google i/o. However i assume they will launch a new video model with it instead of Veo 3.1 since Seedance jumped to the top a few months ago

译据泄露信息显示,谷歌可能正在为其Gemini平台测试一款全新的Omni模型,专注于视频生成功能,其界面标语为“由Omni驱动”。该模型的内部代号接近当前基于Veo的视频工具“Toucan”。分析指出,若谷歌正式发布名为Gemini Omni的视频生成模型,其性能很可能超越现有的Veo 3.1版本。此举若成真,Gemini将成为首个具备视频输出能力的顶级Omni模型,相关进展或于即将到来的Google I/O大会上正式公布。

Kling AI@Kling_ai · 5月3日24

Old film becomes 4K quality. Black and white looks like it was shot yesterday. Classic movies don't get old. They just wait to be seen again. 🎞️

译老电影呈现出4K画质。 黑白影像看起来宛如昨日拍摄。 经典电影永不褪色。 它们只是等待被再次观看。🎞️

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月7日
23:04
AK@_akhaliq
58
Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏 论文: https://huggingface.co/papers/2605.03849
Hugging Face多模态视频论文/研究
22:41
TestingCatalog News 🗞@testingcatalog
45
GOOGLE 🚨: Flow平台正在准备全新的智能体模式,用于处理完整的视频制作流程! 用户将能够: - 规划场景 - 讨论进行中的项目变更 - 触发生成工作流 - 管理项目级和应用级的创意工具 - 直接通过聊天界面更新项目状态 万物皆可智能体 👀
智能体Google产品更新视频
20:33
PixVerse@PixVerse_
72
4K超分功能现已上线!在一处增强您的图像和视频。 获得3次免费使用机会,之后享受35%的积分折扣。 限时活动:5月7日至14日,UTC时间08:00。 转发+关注+回复=私信领取300积分(仅限72小时)。
产品更新图像生成视频
20:01
Chubby♨️@kimmonismus
53
1/ 这有点疯狂。同一张脸在不同角度、不同剪辑和不同表情下,没有出现那种导致AI视频崩坏的常见漂移现象。
现象/趋势视频
17:38
swyx 🌉@swyx
55
祝贺 @mattpocockuk 的两场分享在不到两周内获得超100万次观看--这是 @aidotengineer 历史上最快的"破百万速度"记录。

AI Engineer: We're excited to end the week with a @mattpocockuk special double header! - AI Coding for Real Engineers - full workshop...

教程/实践编码视频
07:07
karminski-牙医@karminski3
50
字节跳动Doubao-Seed-2.0-Lite集成AI电竞教练框架

作者开发的AI电竞教练框架“Harness Agent”被字节跳动官方采用。该框架能分析CS2游戏录屏中的走位、身法、对枪、经济等多维度数据,并提供改进建议。字节跳动将其与自家的Doubao-Seed-2.0-Lite模型结合,进行了长达25小时的不间断对局分析演示,该演示已成为Doubao-Seed-2.0-Lite的官方宣传案例。具体的项目细节视频仍在制作中。

智能体行业动态视频
06:34
Luma@LumaLabsAI
57
在正确的时间,将正确的信息传递给正确的人。现在你可以构建它的每个版本。 定义受众。设置变量。Luma Agents 由此生成每个定向广告。 触达所有受众 → http://lumalabs.ai/app
智能体产品更新视频
04:34
Luma@LumaLabsAI
20
品牌焕新并非从头开始,而是为了更好呈现。 定义演进方向,确立发展路径。Luma Agents由此构建新品牌形象的每个元素。 立即构建 → http://lumalabs.ai/app
产品更新视频
04:01
Chubby♨️@kimmonismus
33
约25分钟后Anthropic的YouTube频道将播出对Dario Amodei和Daniela Amodei的访谈 可能值得一看
Anthropic行业动态视频
01:03
Luma@LumaLabsAI
51
欢迎来卡尔弗城参加AI on the Lot会议。 5月27-28日,为期两天,超过2000名参会者。这是聚焦娱乐产业的最大规模AI媒体会议。 通过我们的链接可享九折优惠:https://my.aionthelot.com/invite/LUMA10
行业动态视频
00:02
宝玉@dotey
65
把视频变成图文博客:Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流

作者利用豆包Seed2.0-lite全模态理解模型,重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳,新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字,进行联合推理,从而保留技术视频中的关键视觉信息(如代码、图表)。通过将多模态能力封装为可复用的Agent Skill,并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题,使输出更接近人类技术编辑的整理成果。

智能体多模态教程/实践视频
5月6日
17:28
Alibaba Cloud@alibaba_cloud
22
报名延期!用AI重现历史,赢取精彩奖品

阿里云新加坡推出“被发掘的故事:WAN AI视频挑战赛”,邀请参与者使用其WAN模型创作AI视频,重新构想新加坡文化遗产。活动注册期已延长,参与者需选择主题、讲述故事并制作视频,优胜者有机会赢取奖品。为激发创意,可参考ArCH Square的遗产展览获取灵感。该活动旨在推动AI技术与文化遗产的创新结合,涉及技术包括人工智能、大语言模型和通义千问等。立即报名,用科技重现历史。

多模态行业动态视频
16:58
Alibaba Cloud@alibaba_cloud
38
报名延期!用AI重现历史,赢取精彩奖品

阿里巴巴云新加坡宣布延长“故事发掘:WAN AI视频挑战赛”的注册时间,邀请参与者利用其WAN模型创作AI视频,重新构想新加坡文化遗产。参赛者需选择主题,将故事转化为视频,优秀作品可获奖励。ArCH Square的展览为创作提供灵感来源。活动涉及AI、大语言模型和Qwen等技术,旨在推动创新。参与者可通过指定链接完成注册,确认邮件将随后发送。@Fooyo和@HeritageSG为本次合作方。

行业动态视频
16:37
小互@xiaohu
63
Runway推出可实时对话的视频角色生成功能

Runway推出Runway Characters功能,用户上传参考图即可生成能实时对话的视频角色。该角色支持高清视频流,可注视摄像头或屏幕共享内容,并允许配置声音、性格与知识库。其核心突破在于将视频生成从预渲染推进至实时交互,使角色能理解对话、依据资料回答问题,并能调用工具执行网页操作或数据查询,支持通过API等方式集成至自有产品。

智能体产品更新视频
14:59
PixVerse@PixVerse_
25
致敬我们出色的模型!

ART: The Met Gala 2026🎉 2026 theme "Fashion Is Art"🎨 FULL VERSION+Tutorial for creating these with @PixVerse_ C1 reference ...

行业动态视频
12:20
歸藏(guizang.ai)@op7418
47
两个热门短剧暂成AI内容制作质量标杆

推文指出短剧《Enemy》和《吉时已到》近期热度极高,制作效果出色且成本较低,已成为出圈案例。作者建议,如果从事AI内容或AI短剧制作,可以将这两个剧集视为暂时的质量标杆,以对齐内容创意、制作效率和市场接受度,从而提升AI生成作品的竞争力。

现象/趋势视频
08:01
Luma@LumaLabsAI
70
推出Uni-1.1 API。 它通过简报进行推理,而不仅仅是处理标记。首次生成的结果即可实际交付。 无需中间件,无需提示工程。时尚工具。建筑渲染器。漫画制作流程。每个垂直领域都具备电影级品质。 可指挥的智能。可交付的审美。→ http://lumalabs.ai/api
产品更新图像生成视频
04:01
Luma@LumaLabsAI
35
室内设计工作室。时尚工具。珠宝配置器。故事板生成器。 所有这些都正在使用Uni-1.1 API构建。 无论你在构建什么,智能层已就位。→ http://lumalabs.ai/api
产品更新多模态视频
02:27
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
59
梦工厂联合创始人杰弗里·卡森伯格预测,AI将在三年内使动画电影制作成本降低90%,所需人力减少至原先的10%。这不仅将彻底颠覆娱乐产业,更将迅速波及所有行业。好莱坞艺术家的反抗凸显了危机感--AI已在艺术创作领域实现从低水平到超人类能力的飞跃。若其在操纵、编程、生物工程等领域取得类似突破,将引发大规模失业潮,可能促使有组织劳工运动复兴。尽管可能带来更多电影产出,但各行各业的游戏规则已被永久改变。

AI Notkilleveryoneism Memes ⏸️: AGI is the Great Flipper of All The Gameboards Dreamworks co-founder Jeff Katzenberg says AI will cut animated movie cos...

现象/趋势视频
5月5日
23:56
Luma@LumaLabsAI
70
Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。 与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。 价格和延迟仅为同类模型的一半以下。 专为在生产环境中部署产品的开发者设计--在 Image Arena 的文本到图像和图像编辑类别中排名前三。 开始构建 → https://lumalabs.ai/api
产品更新图像生成视频
15:46
Alibaba Cloud@alibaba_cloud
39
Happy Horse 1.0发布,AI视频制作告别闪烁与失真

Happy Horse 1.0是一款面向创意工作者的生产级AI视频引擎,旨在解决现有AI视频工具的核心痛点。它主打“像素级一致性”,确保角色和资产在视频中保持稳定,不再出现变形或闪烁。同时,引擎具备企业级效率,在质量、速度和成本上进行了优化。官方将于2026年5月15日在香港举办大师班,演示如何将AI视频工作流程从“实验性”提升至“专业级”。

产品更新视频
13:14
阿绎 AYi@AYi_AInotes
64
起步成本90美元,30秒一条视频:AI换脸工具带来的低门槛高杠杆生意

文章介绍一款年费89.99美元的在线AI换脸工具Swaptok,用户可通过四步流程在30秒内将TikTok或Reels公开视频中的人脸替换为AI生成的高清人脸,单条成本极低。作者提出四条变现路径:运营AI网红矩阵账号、承接品牌广告外包、为自有产品制作素材以及出售课程或服务。同时指出需进行二次创作避免限流、注意版权风险及把握红利期等关键建议,视其为技术发展催生的新内容生产方式。

图像生成教程/实践视频
11:26
Kling AI@Kling_ai
25
愿景随Kling AI而动。 每一帧,都是心跳。每一个故事,都栩栩如生。 欢迎来到Kling AI创作者的四月光影灵感集!🎬
其他视频
10:14
阿绎 AYi@AYi_AInotes
精选74
分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥

开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

GitHub开源/仓库视频语音

推荐理由:一个开源工具把 yt-dlp + Whisper + 翻译 + 声线克隆六步压缩成一条本地流水线,之前每月烧几百刀订阅费的事现在免费跑在自己机器上,做多语言视频的人可以直接换掉整套工具链。
06:55
Luma@LumaLabsAI
66
定义概念。设定方向。 让Luma Agents将你的想法转化为完整的广告系统。 查看概念 → http://lumalabs.ai/app
智能体产品更新视频
05:49
AK@_akhaliq
68
UniVidX 一个通过扩散先验实现多功能视频生成的统一多模态框架 paper: https://huggingface.co/papers/2605.00658
Hugging Face多模态视频论文/研究
03:48
PixVerse@PixVerse_
17
可爱的猫娘对镜瞬间 @Kawaiizice!分享你家宠物面对镜子的搞笑反应--一起传播这份可爱吧!🐱🪞

Kawaiizice: Gatinha e espelho! 😺🪞 Não é curioso? (=^・ω・^=) Quem tem bichinho, tem reações engraçadas com espelhos pra compartilhar...

其他视频
02:48
PixVerse@PixVerse_
30
水豚足球巨星!😍太有趣了,@FotachuARGUY 继续保持!

Fotachu - AR GUY: MY SUBMISSION TO THE @PixVerse_ "Seedance 1080p on PixVerse" CHALLENGE! CABYBARA SOCCER BALL - EPISODE 1 #SEEDANCE

行业动态视频
01:58
Runway@runwayml
精选69
实时视频智能体已到来。 今天,我们将分享如何构建Runway Characters,让你能将一张图片转化为一个完全富有表现力、可对话的视频智能体,以每秒24帧的高清画质流畅播放。端到端延迟仅需1.75秒。 了解更多信息请见下文。
产品更新多模态视频

推荐理由:Runway 把 AI 视频从生成拉入实时对话时代,1.75 秒的延迟让视频代理第一次有了「对话感」,做交互设计的同学可以认真看一眼。
5月4日
23:48
Chubby♨️@kimmonismus
62
初创公司Video Rebirth的文本生成视频模型Bach-1.0 Preview在Artificial Analysis的全球AI视频排行榜上首次亮相即位列第六。其性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等知名模型相当。该模型计划于五月下旬广泛发布。

Artificial Analysis: Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1...

模型发布视频评测/基准
22:16
Rohan Paul@rohanpaul_ai
64
初创公司Video Rebirth凭借其模型Bach-1.0 Preview,在Artificial Analysis的文本转视频榜单中首次进入前六名,打破了该榜单长期由阿里巴巴、字节跳动、xAI等万亿美元级巨头主导的局面。其模型性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等顶尖模型相当,并计划于五月下旬广泛发布。这一突破标志着初创企业在高质量AI视频生成领域取得了显著进展,为该领域的竞争格局带来了新的变数。

Artificial Analysis: Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1...

模型发布视频
21:24
小互@xiaohu
56
传谷歌I/O将发布Omni模型,Gemini或升级为全模态生产力入口

据传谷歌将在I/O大会发布名为“Omni”的新模型,旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出,超越现有的Veo 3.1。同时,Gemini 3.2/3.5版本或专注于提升推理速度与效率,而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google多模态模型发布视频
17:48
Artificial Analysis@ArtificialAnlys
56
Bach-1.0 Preview from Video Rebirth 在 Artificial Analysis 文本转视频排行榜(无音频)中首次亮相,位列第6! Bach-1.0 Preview 是来自 @video_rebirth 的最新文本转视频模型,其性能与 Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro) 和 grok-imagine-video 相近。 Bach-1.0 Preview 计划于五月下旬广泛发布。 在下方 Artificial Analysis 视频竞技场中查看 Bach-1.0 Preview 的生成示例 🧵
模型发布视频
16:14
阿绎 AYi@AYi_AInotes
精选77
Claude通过第三方平台补足视频分析能力,开启AI应用新生态

借助Algrow的MCP平台,Claude现已能直接分析YouTube等平台的视频内容,自动生成包含数据表格、爆款拆解与留存曲线的深度报告。这标志着大模型竞争重点转向生态建设,第三方开发者通过工具链迅速弥补了Claude的原生视频短板。该功能为内容创作者提供了高效分析竞品、提炼爆款公式的生产力工具,并预示视频研究Agent时代的开启。目前处于免费试用阶段,未来订阅定价亲民。

AnthropicMCP/工具产品更新视频

推荐理由:第三方MCP插件让Claude终于能分析视频,做视频的一键生成爆款拆解和帧级留存分析,比手动刷三天视频强多了。
11:19
Kling AI@Kling_ai
42
经典电影。标志性时刻。 现以惊艳的Kling 4K动态呈现。 海报不再只是悬挂着了。 它们在播放。🎬
产品更新图像生成多模态视频
04:47
PixVerse@PixVerse_
26
那场怪物派对的能量简直不可思议 🧛♀️🤘 感谢 @StevieMac03 带来这首史诗级的 Seedance 2.0 热曲!

Stevie Mac: It was quite the weekend at the Monster bash! Created with Seedance 2.0 1080p with native audio via @PixVerse_ Which is ...

教程/实践视频
03:47
PixVerse@PixVerse_
11
🔥这些炮火效果太震撼了!@UminekoStudio 将如此精细的艺术作品生动呈现,做得太棒了🥰

UMINEKO STUDIO: PixVerse経由のSeedance2.0の1080pサンプルです。 緻密なイラストをアニメーションさせてみました いかがでしょうか @PixVerse_

产品更新视频
5月3日
20:15
Chubby♨️@kimmonismus
42
目前的传闻: - Google Gemini Flash 3.2/3.5(已在测试中) - 新的Omni模型,甚至可能推出更新的Veo来与Seedance竞争 - "spark Robin"--新的视觉模型?
Google多模态行业动态视频
16:45
Chubby♨️@kimmonismus
45
据泄露信息显示,谷歌可能正在为其Gemini平台测试一款全新的Omni模型,专注于视频生成功能,其界面标语为"由Omni驱动"。该模型的内部代号接近当前基于Veo的视频工具"Toucan"。分析指出,若谷歌正式发布名为Gemini Omni的视频生成模型,其性能很可能超越现有的Veo 3.1版本。此举若成真,Gemini将成为首个具备视频输出能力的顶级Omni模型,相关进展或于即将到来的Google I/O大会上正式公布。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google多模态模型发布视频
11:18
Kling AI@Kling_ai
24
老电影呈现出4K画质。 黑白影像看起来宛如昨日拍摄。 经典电影永不褪色。 它们只是等待被再次观看。🎞️
产品更新视频
‹ 上一页
1…121314151617
下一页 ›