本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。
本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。
Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。
Easily add yourself to your video creations in Gemini. Here's how to create your own digital avatar that looks and sound...
前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出,视频模型的智能主要来自LLM,而非单纯扩大视频数据规模,因此正从视频生成转向LLM领域。他认为,视频生成的下一个前沿是训练用于编排视频模型的视频Agent模型。AI视频的发展将类似编程Agent路径,当前文本到视频仅是“自动补全”阶段。未来,世界模型将变得实时交互,语言模型或成为视频的控制层。
🆕Grok Imagine's Video Agent Moment: Cosmos, xAI, World Models, Generative UI, & the Codex Phase for Video! https://www....
针对AI图片和视频中多人场景空间关系控制难的问题,LibTV推出3D导演台功能,在画布中嵌入轻量级3D构图节点。用户可添加人体素模、基础几何体、群众阵列,自由移动、旋转、缩放并调整人物关节姿势。支持在同一3D场景中放置多个机位,预设或手动调整视角,截图作为参考图发送到画布,关联人物并编写提示语,即可生成符合构图的图片或视频。还可利用宫格切分工具拆分九宫格分镜,配合视频合成功能连续成短片。该功能避免了用长提示语描述位置关系,提升创作可控性。
KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。
Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...
Runway 宣布在伦敦建立新的欧洲总部和专注于通用世界模型的研究中心。公司计划在未来18个月向英国AI生态投资$100M,到2028年投资额将翻倍以上。过去12个月,其在欧洲的订阅销量增长了50%,企业客户占比超20%。新总部将扩大其在欧洲的研究与商业布局,公司正招聘欧洲负责人以组建跨研究、产品、工程和销售的团队,并深化与BBC、Fremantle、WPP等企业的合作。世界模型是其研究的核心,旨在将生成式AI的应用扩展至机器人、科学研究与工业模拟等领域。
关联讨论 1 条X:Runway (@runwayml)儿童节前夕,豆包旗下教育 App 豆包爱学推出「豆包课堂」功能,采用字节跳动最新版 Seedance 视频模型,将课本古诗文中的情境融入 AI 生成视频,降低理解门槛。课堂内置 AI 老师主动设问、引导孩子观察思考,同时支持孩子随时提问并得到回应。结合学生对知识点的掌握程度和学习习惯,可即时生成专属 AI 互动课程,实现个性化学习。该功能已在豆包爱学 App 底部导航栏第三入口开放体验。
人魚の耀が海の中を案内してくれる動画🐬 🪼1個目の動画がPixVerse V6 スピード感とか色使いとか、夢の世界感ある😆 🪼2個目の動画がSeedance2.0 フォトリアルな写真も使えるようになったらしい。耀の顔が崩れずに動画に...
英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...
女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏 从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。 但看到她认真玩进去的那一刻--...
AdaCodec是一种预测性视觉编码,仅在场景难以从先前上下文预测时向参考帧分配完整视觉token,否则将帧间变化(运动与预测残差)编码为紧凑的P-tokens。在全部11项基准测试中,AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下,使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线;在五项通用视频基准上平均得分提升,同时首token延迟从9.26秒降至1.62秒。
《Backrooms》首周末票房达8100万美元,以34%的票房占比打破同期纪录,超越《星球大战》系列成为五月最高开画成绩。但该片票房后劲不足,上映第二、三周票房分别下滑75%和22%。同期上映的《碟中谍》最终累计票房为1.8亿美元。
Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_
Seedance2.0の動画で、赤い線で進行ルートを決めるやつやってみた😊(1/2) 細かい軌跡は無視しがち @PixVerse_ [PR]
Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...
τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型,旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建,提供两个接口:一个联合预测未来视觉潜在表示与连续动作块的视频动作模型,以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练,包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时,模型通过测试时计算采样动作候选,并利用去噪一致性和基于模拟器的修正来筛选低质量动作,在长时程和精细机器人操控任务上表现出优于相关基准的性能。
推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...
阿里巴巴与欧足联达成多年战略合作,自2027/2028赛季起成为欧洲冠军联赛、欧足联欧洲联赛、欧足联协会联赛及2028年欧洲杯的官方独家AI、云计算服务及电子商务合作伙伴。合作期间,阿里巴巴将运用包括千问大模型在内的AI能力,为赛事提供球迷互动、内容管理及沉浸式观赛体验,并依托其云计算基础设施和全球电商平台支持欧足联构建下一代AI能力与商品销售。
一个漏洞导致 Google Gemini 应用中的 Omni 视频仅一两个就会消耗完整个使用配额。Google 已修复该漏洞,Ultra 订阅用户现在获得双倍的视频生成次数,失败的请求也不再计入配额消耗。此外,Google 计划围绕其他使用情况增加更多透明度。
Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5,并同步提供了 11 个视频,集中演示了这两款模型在实际场景中的能力。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》