Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...
Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...
Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...
Google AI 推出两大模型更新:1)Nano Banana 2 Lite——最快、最经济的 Gemini 图像模型,文本生成图像不到 4 秒,已上线 Gemini API 和 AI Studio,即将登陆 NotebookLM、Google 搜索、Google Photos 等;2)Gemini Omni Flash 进入公开预览——原生多模态模型,支持低成本视频生成与对话式编辑,可通过 Gemini API、AI Studio 及 Gemini Enterprise Agent Platform 集成。两模型结合可快速实现空间设计重绘:上传照片、滑动选择设计方案,Omni 将细节以电影级动画呈现。演示应用已在 AI Studio 上架。
关联讨论 1 条Google DeepMind:Blog(RSS)We're shipping 2 major releases: 🔘 Nano Banana 2 Lite: our fastest and cheapest Gemini Image model 🔘 Gemini Omni Flash...
视频与播客录制工具 Riverside 新增新闻通讯发布功能,用户可通过 AI 助手将已有视频和播客内容自动转换为新闻通讯,也可在应用内从头创建并直接发送。Riverside 同时更新录制套件,支持多机位录制和远程嘉宾添加。新版 AI 功能还包括自动生成录制初稿、为社交媒体创建钩子与内容,以及基于对话视频播客训练的 AI 视频增强功能,可改善光线、深度和锐度。Riverside 已累计融资超 6000 万美元。
《纽约时报》报道,美国两党竞选团队已将AI融入候选人审查、选民微定向等环节,87%策略师每日使用AI。民主党团体Swing Left用AI分析选民对话,American Bridge 21st Century用AI审查约250名共和党候选人。共和党更依赖私营公司,民主党偏向非营利模式且选民对AI更怀疑。欧洲则不同:2025年10月起欧盟政治广告须明确标注出资方等信息,禁止使用敏感数据画像;AI Act于2026年8月2日生效,要求对涉及公共利益的深度伪造和AI内容显著标注。德国2025年联邦选举中,多数党签署公平协议承诺标注AI内容,但AfD和BSW未签署。
Seedance 2.0 的推出推动了 AI 视频短片生态的快速发展。近日,制作《神秘复苏》AI 视频的三位博主被该作品动画官方举报,导致视频被删除。这些博主的 AI 视频质量高且粉丝不少。作为回应,小说粉丝将动画官方的 PV 举报下架。
⚡️🍌🔮
本届戛纳国际创意节首次设立“AI Craft”子赛道。可灵AI参与制作的两部广告获奖:《L’Ultimo Uomo Reale》获Classic单元Film银奖及Craft单元Film Craft铜奖;《Lorem Ipsum》获Classic单元Film铜奖。这标志着AI创作正式进入全球最高级别广告创意奖评审体系。
NeuWorld提出场景中心范式Walking in the Implicit,将交互式视频生成的滚动变量从帧级潜变量替换为固定长度的可渲染隐式状态NIS。模型利用Transformer VAE从稀疏有姿态帧学习局部锚定的NIS,并通过扩散Transformer根据未来相机轨迹和几何感知历史演化NIS。通过复用VAE编码器作为统一条件器,将相机、参考图像和历史线索映射到同一NIS模态,避免外部异构编码器。模型在公开姿态视图数据上从头训练,未使用预训练视频骨干或3D重建器,实现了强长程一致性和有利推理效率。
DreamForge-World 0.1 Preview 是一款低算力实时交互世界模型预览版,基于 LongLive 1 自回归视频栈(源自 Wan2.1-T2V-1.3B)和 Matrix-Game 系列的残差动作路径。支持实时键盘鼠标控制、多模态初始化、中流重提示及双视角操作。在单张 RTX 4090 上以原生 480p 分辨率达到 14-15 FPS,内存占用低,展示了在消费级 GPU 上实现实时可控世界模型预览的低算力路线。
可灵Kling AI在2026年戛纳狮子国际创意节上拿下三座狮子奖:电影类(消费品)银狮、电影类(B2B)铜狮,以及新设的AI工艺类铜狮。推文指出,这些奖项标志着AI作为真正工艺工具的地位——Kling旨在为创作者提供对可信物理、真实情感、角色面部微表情及镜头间一致性的控制。获奖作品来自Lipstick Film、Purga Films等团队。
62 岁香港演员吴启华近日卖出肖像权拍摄 AI 电影,制片方用其 20 岁样貌制作影片,本人无需出演。他看过成品后满意,认为 AI 不会冲击演员工作,反而开辟新路线,并透露酬劳不错。多位同行持相反观点:马修·麦康纳警告 AI 取代人类从业者,尼古拉斯·凯奇抨击 AI 改变表演是“死胡同”,演员王劲松感叹 AI 生成视频真假难辨。此外,伦敦“AI 女演员”Tilly Norwood 引发争议,美国演员工会 SAG-AFTRA 明确反对合成演员。
Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息,该技能就能自动生成基础的讲解视频。作者询问社区兴趣度,表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。
据《正在新闻》报道,舒先生制作的 AI 动画被搬运至优酷平台,剧集《小企鹅咕嘎冒险记》更新至29集,最新一集来自舒先生5月1日发布的作品。前4集免费,后续需VIP。舒先生称动画由AI生成并剪辑,未在任何平台备案,也不清楚备案号来源。优酷客服表示该剧是站内官方少儿节目,非私人上传,但无法查询备案号,侵权问题需通过知识产权投诉平台处理。目前该剧集已无法在优酷搜索到,从搜索引擎进入会提示“版权受限暂无可播源”。
这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...
近日,豆包与人民教育出版社合作发起「经典课文名师AI共创计划」,邀请康震、蒙曼、骆玉明、梁永安、苏德超五位名师讲解,使用 Seedance 视频模型还原经典文本中的场景、人物与情境。同时,豆包旗下教育产品豆包爱学上线“豆包课堂”专区,同样基于 Seedance 视频模型呈现经典古诗文。该计划旨在以AI视频生成技术让经典课文“活”起来。
新加坡公司Sapiens AI旗下Agnes AI推出免费视频创作平台Pavo。用户提供一句话初始需求,平台自动生成需求、大纲、角色场景道具设计、分镜、关键帧及分镜视频,用户逐环节微调确认即可成片。Pavo免费使用Agnes自研模型,包括文本模型Agnes-2.0-Flash、图片模型Agnes-Image-2.1-Flash、视频模型Agnes-Video-2.0。即将上线的Agnes-Video-2.5-Preview在动作、角色、相机移动和场景连贯性上接近Veo 3。
AVTok 是一种新颖的统一分词器,专为整体音频-视频生成设计。它采用双流 Transformer 架构,包含共享编码器-解码器和模态特定的可学习查询,将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡,研究者设计了分层训练策略,逐步重建各模态。实验表明,AVTok 在音频-视频重建及下游任务(音频到视频、视频到音频、类别条件联合生成)中均表现优异,为构建统一音视频大语言模型提供了潜在方向。
病気から回復したぺんぎんちゃん。 いつもの日常に戻ったはずなのに、 夢、星、小さな光、古い箱...... 少しずつ不思議なことが増えてきました。 でも本人は相変わらずマイペースです🐧📷 #pixversecpp @PixVerse_
论文提出VG-GUIBench基准,用于评估多模态大语言模型(MLLM)的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索,而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法,联合考虑任务相关性与场景动态筛选信息帧。实验显示,TASKER在EgoSchema全集上超出最优基线2.0%,在NExT-QA数据集上超出1.8%,展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。
这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...
字节跳动将于7月初发布视频生成模型Seedance 2.5,将生成长度从15秒翻倍至30秒,支持音频+4K视频;参考图片/音频/视频数量提升至50个以上;支持局部编辑(特定角色、闭合、细节),附带版权过滤。其前代Seedance 2已是视频生成模型第一名,ARR达20亿美元,定价$2.5/15秒,累计生成超330万小时视频。对比时间线:Veo 3(2025年5月)首降音视频生成15秒,Kling 3(2026年1月)15秒,Seedance 2(2026年2月)15秒,Seedance 2.5(2026年7月)30秒。中国视频模型持续扩大对美国的领先优势。