On our way to I/O 2026. See you at 10am PT tomorrow!
阿里云新加坡将在ATxEnterprise展会展示其通过智能基础设施、AI原生技术与现实解决方案加速企业转型的成果。重点展示包括AI Business Card Studio、AI视频工具Happy Horse、代理式AI助手Qoder、基于PingCAP AI就绪数据库能力的TiDB,以及Lingyang的企业AI解决方案。其合作伙伴Lumen Technologies亚太区也将参与。
On our way to I/O 2026. See you at 10am PT tomorrow!
Gemini
HL-OutPaint 是一个用于长序列的高分辨率视频外绘框架。它采用由粗到精的策略,包含两阶段管线:首先通过全局-局部帧交换机制构建低分辨率的全局粗糙指导(GCG),以统一表示视频的长期结构一致性与短期时间动态;随后在该表示的引导下,进行高分辨率的外绘,生成细节丰富且时间一致的内容。实验表明,其在宽空间外推和长视频序列的挑战性场景中优于现有方法。
现有通过强化学习(RL)训练大语言模型(LLM)调用视频工具(如裁剪)的方法是顺序执行的,易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架,能在单次调用中分派多个时间窗口裁剪任务。研究发现,预训练模型中存在“工具先验悖论”:既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题,提出了PARA-GRPO方法,通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上,相比Qwen3-VL基线平均提升了7.9%,并将训练时的格式合规率从0.13提升至0.64。
NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。
I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...
该工具基于藏师傅PPT Skill,结合Codex与远程控制,可实现离家时一键生成讲解视频。方案以极低成本保证了视频的可用性与表现力,主要通过前端技术生成内容,仅配音和部分分镜使用了Seedance 2.0等模型。此组合能直接基于文本生成带动效的解释视频。
藏师傅的 PPT Skill+Codex+Heygen HyperFrames 这个组合太顶了! 可以直接基于问当生成带动效的解释视频 而且 Codex 居然可以在聊天里面直接预览视频,这个挺厉害的。 再加上即梦 CLI 补几个真实视频片段...
陆军英模系列AI微短剧《战魂》于5月18日首播。该剧由陆军政治工作部宣传局联合中央广播电视总台军事节目中心,首次运用AI技术制作推出。内容聚焦5支英模连队的5段烽火传奇,以全新视听形式还原经典战役战斗,并展示新时代陆军官兵风貌。该剧将在CCTV-7国防军事频道及“央视军事”渠道,连续5天每日播出一集。
This might be the easiest viral AI edit yet. PixVerse → upload a selfie → instant Korean baseball cam video No prompts. ...
OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本,覆盖9个子任务、3个认知层级和6项基础能力,其中84%样本依赖语音或非语音音频信号,并标注模态隔离标签。该基准引入探测和在线双模式评估协议,以全面测试内容理解和主动能力。对11个模型的评估揭示:音频信号能提升性能但模型利用效率差异大;性能随时间下降,长程鲁棒性不足;非语音音频感知仍是当前最薄弱环节。
针对基础模型生成无限长视频时存在的训练-推理不匹配与长期一致性维持难题,研究提出了一种名为MIGA的无训练长视频生成方法。该方法通过两阶段对齐机制减少输入噪声跨度,有效弥合了训练与推理的差距;并创新性地引入双一致性增强机制,结合自反射修正与长距离帧引导,利用不同噪声水平的帧信息协同提升时序一致性。在VBench与NarrLV基准测试上,MIGA以较低的额外计算开销实现了当前最优的超长视频生成性能,项目主页已公开。
研究团队提出了Artifact-Bench,一个用于评估多模态大语言模型(MLLMs)检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系,并在此基础上定义了三项任务:真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明,这些模型在瑕疵感知与推理上存在显著局限,许多模型在挑战性场景中表现接近甚至低于随机水平,且其判断与人类感知偏好存在明显偏差,凸显了其作为通用AI视频真实感评估器的可靠性不足。
Netflix正在组建名为INKubator的内部AI动画工作室,专注于利用生成式人工智能制作短篇动画。该工作室正招募制片人、软件工程师等人才,其长期战略将围绕生成式AI驱动的工作流、艺术家工具及可扩展的多剧集环境展开,目标是开发电影长片质量的内容。这是Netflix在AI制作领域的又一重要布局,此前该公司已收购AI影视技术公司Interpositive,并多次强调对AI技术的投入。
近日,一段“湖南张家界大峡谷玻璃桥断裂垮塌”的13秒视频在网上流传,画面惊险,引发关注。经查,该视频系嫌疑人马某某利用AI技术,将其十年前在景区拍摄的照片生成伪造而成。视频发布4天内获1.5万点赞、1.1万转发,下架后马某某又截取图片再次发布。目前相关虚假视频已全部清理,马某某因涉嫌编造、故意传播虚假信息罪被公安机关采取刑事强制措施。
作者推荐一套由“藏师傅的PPT Skill”、Codex和Heygen HyperFrames构成的AI工具组合,能基于提问直接生成带动效的解释视频。其亮点在于Codex可在聊天界面内直接预览视频,极大提升了流程效率。结合即梦CLI补充真实视频片段,该组合非常适合用于制作产品更新介绍等类型的视频内容。
http://x.com/i/article/2053655813877870592
Soap2Soap是一个用于系列级长视频重制的多智能体框架,旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性:使用场景感知的JSON剧本作为持久的语义骨架,并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移,并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明,该方法在长程一致性与叙事保真度上显著优于商业视频生成API。
针对视频大语言模型处理长视频时视觉Token激增的瓶颈,本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此,我们提出了LiteFrame,一种高效视觉编码器。其核心是压缩Token蒸馏训练框架,指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示,从而避免冗余计算。结合语言模型适配后,该方案构建了新的延迟-精度帕累托前沿:与基线相比,它将端到端延迟降低了35%,可处理帧数提升8倍,同时在多个基准上提高了视频理解的平均准确率,为固定算力下理解更长视频提供了新途径。
NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。
YouTube 将其“肖像检测”工具向所有18岁及以上的创作者全面开放。该系统能识别其他用户视频中由AI生成的人脸伪造内容,并允许创作者直接通过YouTube Studio提交移除请求。此前该功能仅限于合作伙伴计划成员使用,此次开放旨在为更多小型频道提供保护。
WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性,而非图像质量。ByteDance的Seedance 2.0在该测试中领先,超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍,逻辑推理是所有模型中最困难的类别,表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果,但尚未实现从像素生成器到真实世界模型的飞跃。
Defy the laws of physics. Dreams don't have rules. Made in Pixverse. @PixVerse_
2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。