通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。
通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。
在戛纳展示的Kling AI视频生成技术已深度融入好莱坞工业级制作流程。其首个公开应用于剧集《David之家》的项目,吸引了超过4400万全球观众,位列美国新剧前十并登顶Prime Video。该技术能够无缝对接实拍制作,以高标准交付大量高质量镜头,证明了AI作为全球电影制作可靠、高效新基础的潜力。
Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。
在2026年谷歌I/O开发者大会上,XREAL展示了基于安卓XR系统的Project Aura智能眼镜,并确认产品将于2026年底前出货。眼镜采用分离式设计,配备外接计算模块兼触控板,整机重量低于90克。硬件搭载自研X1S芯片和高通骁龙XR平台,通过三个摄像头实现手势控制。系统原生运行谷歌空间应用,支持Google Maps 3D导航和YouTube沉浸式视频播放,并集成Gemini AI以将2D应用自动转换为3D窗口。当前版本续航约4小时,但软件功能尚未完全就绪,最终规格可能调整。
4月23日,Kling AI正式推出全球首个原生4K视频生成模型,专为专业内容创作设计。该功能支持一键生成真4K画质视频,显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出,这是其工作流中首个使用的原生4K基础模型;Wonder Studios强调,原生4K从底层生成避免了传统放大技术的角色变形问题,保持了画面一致性;动画导演则认为,该模型在保留艺术色调与复杂特效纹理方面优于同类产品。
商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。
🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...
谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像,生成对应的可探索环境,带来强烈的代入感。该功能还支持风格化处理,能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。
Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时,也显著改变了 Flash 系列以往低成本的市场定位。
Google's new Gemini 3.5 Flash is the clear leader on the Intelligence vs Speed Pareto frontier and makes large gains on ...
现有室内场景合成方法常生成静态网格,难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括:通过规划-设计-批评循环生成对象资产请求,经五种代码生成策略转化为分部件的Blender Python程序,并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产,并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明,SceneCode提升了场景生成与提示词的一致性,产生了网格结构更清晰、包含可加载关节元数据的资产。
本文提出MSAVBench,首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度,支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性,并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明,当前模型在导演级控制和精细音视频同步上仍存在瓶颈,而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。
2026年5月,微信AI团队模式识别中心的论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》在西班牙巴塞罗那举办的ICASSP 2026上荣获最佳工业论文奖。这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出的WalkVLM-LR模型专为视障人士行走辅助设计,其核心创新在于减少输出与时间冗余,优化了视觉语言模型的提醒时机。目前模型延迟控制在百毫秒量级,实时性较为可用,但距离实际落地应用仍需进一步优化。
Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...
Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
.@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...
.@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...
Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。
Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。
I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...
现有大型视觉语言模型基准测试主要关注粗粒度任务,且依赖易于语言描述的实体。为此,研究者提出了Flat-Pack Bench,这是一个专注于家具组装任务的新基准,旨在评估模型的细粒度时空理解能力。该基准采用选择题与视觉提示的形式,考察模型在组装动作排序、状态定位、部件匹配理解与追踪等方面的表现。实验表明,最先进的模型在此类细粒度推理任务上表现欠佳,暴露出其在利用视频时序信息、进行目标追踪以及理解物理空间交互方面的不足。
本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题,提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则,以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则,并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明,该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号,在多个基准测试中性能优于强基线,并能有效提升下游生成任务的质量。
针对现有3D生成方法在物理属性与对象类别上的局限,本文提出PhysX-Omni,一个统一的模拟就绪物理3D生成框架,可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法,能够无压缩地直接编码高分辨率3D结构,从而显著提升生成质量。同时,研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse,并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明,PhysX-Omni在3D生成与理解任务上均取得了优异性能,并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。
谷歌正在测试 Gboard 输入法的三项新 AI 功能,包括自定义提示词输入框、根据描述起草完整内容以及支持读取屏幕上下文或对话内容以提供更贴合语境的回复建议。此次升级标志着 Gboard 的 AI 能力从固定的润色、改写预设,转向更灵活的个性化写作辅助。新功能将允许用户以自然语言指令(如“让语气更幽默”)直接定制文本风格,并可能结合图库截图等屏幕信息自动组织回复。
OpenAI宣布在其AI生成的图像中集成谷歌的SynthID水印技术,并推出配套的验证工具。这一举措旨在增强AI生成内容的可追溯性,使用户能够识别图像是否由AI生成。该更新已于2026年5月19日生效。SynthID水印技术此前由谷歌开发,可嵌入难以察觉的数字标识,而新验证工具则允许用户检测这些标识。OpenAI表示这将帮助打击虚假信息传播。
同一事件,精选展示《SynthID水印技术扩展合作,覆盖超千亿内容》谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验,支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话,搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。
Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力,旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞,显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Google AI Edge推出LiteRT-LM引擎,为跨平台移动和边缘设备提供高度优化的基础设施,支持Gemma 4模型在设备端运行。通过内存高效动态加载和多令牌预测技术,实现高达2.2倍的速度提升,并集成思维模式、约束解码等高级工具。同时,该引擎正扩展至Apple生态,新增原生Swift API和WebGPU加速的JavaScript API,支持高性能浏览器端推理。
WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。