5月19日

11:10

Luma@LumaLabsAI

优秀的广告不止于翻译，更在于共鸣。单一营销活动很难适用于所有市场。明确目标区域，设定核心信息，然后让 Luma Agents 处理后续所有本地化变体。为每个目标受众打造合适的创意与语言。触达每个市场 → http://lumalabs.ai/app

智能体产品更新视频

10:59

歸藏(guizang.ai)@op7418

谷歌新视频模型的演示表明其可能具备视频编辑功能，引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关，Sundar Pichai推文预告会议将于明天10am PT举行，预示着更多技术细节可能在此次活动中披露。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google 产品更新多模态视频

10:40

Alibaba Cloud@alibaba_cloud

阿里云新加坡展会主推AI企业转型方案

阿里云新加坡将在ATxEnterprise展会展示其通过智能基础设施、AI原生技术与现实解决方案加速企业转型的成果。重点展示包括AI Business Card Studio、AI视频工具Happy Horse、代理式AI助手Qoder、基于PingCAP AI就绪数据库能力的TiDB，以及Lingyang的企业AI解决方案。其合作伙伴Lumen Technologies亚太区也将参与。

智能体行业动态视频

09:56

Berryxia.AI@berryxia

Gemini 视频Veo4.X ？要来了，期待超越SD2啊！兄弟们~~

Logan Kilpatrick: Gemini

Google 行业动态视频

09:26

meng shao@shao__meng

推文疑似展示或讨论了Veo 4的视频生成能力，重点提及了视频续写、不同特效切换等效果，以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告，暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google 多模态行业动态视频

08:49

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。而"GEMINI"意味着新模型的发布！🤯

Logan Kilpatrick: Gemini

Google 图像生成多模态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

HL-OutPaint：高分辨率长时视频的由粗到精视频外绘

HL-OutPaint 是一个用于长序列的高分辨率视频外绘框架。它采用由粗到精的策略，包含两阶段管线：首先通过全局-局部帧交换机制构建低分辨率的全局粗糙指导（GCG），以统一表示视频的长期结构一致性与短期时间动态；随后在该表示的引导下，进行高分辨率的外绘，生成细节丰富且时间一致的内容。实验表明，其在宽空间外推和长视频序列的挑战性场景中优于现有方法。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ParaVT：通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

现有通过强化学习（RL）训练大语言模型（LLM）调用视频工具（如裁剪）的方法是顺序执行的，易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架，能在单次调用中分派多个时间窗口裁剪任务。研究发现，预训练模型中存在“工具先验悖论”：既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题，提出了PARA-GRPO方法，通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上，相比Qwen3-VL基线平均提升了7.9%，并将训练时的格式合规率从0.13提升至0.64。

智能体视频论文/研究

05:39

Luma@LumaLabsAI

最好的功能自己会说话。给它们视觉来展现。定义亮点。设定美学。Luma Agents 从那里构建每个功能视觉。展示它 → http://lumalabs.ai/app

产品更新视频

00:52

Hugging Face：Blog（RSS）

精选67

NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型，可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层（to_q, to_k, to_v, to_out.0）和前馈层注入可训练适配器，冻结全部基座权重，在单个 80GB GPU 上即可完成参数高效微调，避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库，利用 92 个机器人操作视频训练集与 50 个 (prompt， image) 测试对进行微调，并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练，切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由：这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了，做机器人合成数据的同行可以直接抄作业，LoRA/DoRA切换也很方便，值得收藏。

00:20

Elon Musk@elonmusk

xAI更新了Grok的Agent模式，这被视为其能力的一次重大提升。该模式显著简化了AI视频创作流程。基于Grok Imagine，创作者能更流畅地制作视频，并借助Grok的理解能力完成素材生成与对话，无需额外配音，极大节省了时间成本。据早期测试，生成视频的写实效果良好，且图片参考等功能增强了实用性。这标志着AI在自动化、高质量内容生成领域取得了新的进展。

Déborah: I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...

智能体 xAI 产品更新图像生成

5月18日

23:13

Kling AI@Kling_ai

视角：把我的朋友变成视频游戏加载界面 ⌛️

其他图像生成视频

22:31

Runway@runwayml

Runway角色现在不仅能说话，还能执行操作。告诉实时视频代理你想要什么，它们就能为你调用工具。了解更多如何将工具调用集成到你的产品中，请点击下方链接。

智能体产品更新视频

18:59

歸藏(guizang.ai)@op7418

基于PPT Skill的视频生成工具接近完成

该工具基于藏师傅PPT Skill，结合Codex与远程控制，可实现离家时一键生成讲解视频。方案以极低成本保证了视频的可用性与表现力，主要通过前端技术生成内容，仅配音和部分分镜使用了Seedance 2.0等模型。此组合能直接基于文本生成带动效的解释视频。

歸藏(guizang.ai): 藏师傅的 PPT Skill+Codex+Heygen HyperFrames 这个组合太顶了! 可以直接基于问当生成带动效的解释视频而且 Codex 居然可以在聊天里面直接预览视频,这个挺厉害的。再加上即梦 CLI 补几个真实视频片段...

智能体 OpenAI 教程/实践视频