一个漏洞导致 Google Gemini 应用中的 Omni 视频仅一两个就会消耗完整个使用配额。Google 已修复该漏洞,Ultra 订阅用户现在获得双倍的视频生成次数,失败的请求也不再计入配额消耗。此外,Google 计划围绕其他使用情况增加更多透明度。
Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5,并同步提供了 11 个视频,集中演示了这两款模型在实际场景中的能力。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。
🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...
针对大语言模型或多模态模型在时间序列异常检测中表现不佳的问题,研究者构建了高质量基准VisAnomBench。该基准基于公开时间序列数据集,并利用多个大型视觉语言模型的输出进行了增强。基于此,他们开发了参数高效的视觉语言模型VisAnomReasoner,专用于该任务。实验显示,VisAnomReasoner在VisAnomBench上的异常定位更准确,精确度和F1值分别比所有基线模型高出至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验也验证了其出色的跨基准泛化能力,精确度和F1值分别提升了9.57和13.39个百分点。
DynaFLIP 是一个动力学感知的多模态预训练框架,旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号,以单纯形体积最小化为核心思想,结合余弦正则化与对比学习目标,优化单一图像编码器在共享超球面空间中的对齐。分析表明,该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络,在多种下游策略(包括视觉语言动作模型)中均优于基线。在分布外场景下,性能提升高达 +22.5%。
Kiwibot 推出一款 AI 驱动的智能喂鸟器,用户可以通过配套应用记录并收集遇到的鸟类物种,玩法类似在 Pokémon 中收集宝可梦。
🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...
通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。
关联讨论 1 条公众号:通义实验室(千问)作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。
视频大语言模型在视频理解中能力强,但处理海量视觉token效率低下。现有方案多在预填充后期压缩,未优化视觉编码器本身。研究指出视觉编码对时间首token(TTFT)延迟贡献大,因此压缩应提前。为此提出EarlyTom,一个免训练的压缩框架,它在视觉编码器内部执行早期视觉token压缩,并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时,EarlyTom将TTFT最高降低2.65倍,FLOPs减少高达61%,同时保持与全token基线相当的准确度,提升了部署实用性。
StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...
通义实验室发布教程,演示如何在 Android 手机上部署 MCP 感知服务器,使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型(约 1.3GB),摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON,再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据,仅传输语义提取结果。项目已开源,实测可识别红绿灯状态等场景。
小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。
We've heard your feedback about hitting limits too quickly on @GeminiApp. We're rolling out several fixes to make your q...
用户展示使用 Opus 4.8 模型,仅通过约两轮自然语言对话即可生成基础 3D CAD 模型(如球体、圆圈等),初步演示效果良好,但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。
大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。
PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示,该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体,物体则通过物质点方法模拟为物理智能体,并以3D高斯作为统一可微表示。交互通过三个耦合机制监督:时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟,以及增强接触保真度的遮罩视频-SDS目标。实验证明,PhyGenHOI能生成物理一致的交互,性能优于基线方法。
自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效,但缺乏显式3D意识,易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验,使用SAM3D估计物体几何与位姿,并通过渲染比较优化进行细化。随后,基于估计位姿将PartField描述符从重建几何渲染至图像平面,生成几何感知特征图以补充DINO与Stable Diffusion特征,同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督,训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同,此框架自动获取实例级3D结构并用于指导对应学习。实验表明,该方法在减少人工几何监督的同时提升了语义对应性能。
元宝助手正式入驻QQ浏览器,搜索栏、划词等AI入口全面升级为元宝助手,底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频,以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用,Mac版本已更新,其他版本逐步放量。
SenseTime高管Lewis Fung表示,香港凭借先进基础设施、多模态基础模型和生态伙伴合作,有条件成为可信AI创新中心。他近日出席数码港与警方智能 policing 联合 AI 实验室启动活动,分享了AI在网络安全、公共安全与智慧城市方面的应用。SenseTime将继续与伙伴合作推动可信AI发展,打造更智慧安全的香港。
大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而,可验证的多模态深度研究仍面临挑战。为此,研究提出了Ptah,一个多智能体框架。它通过规划、研究和写作阶段,协调从用户查询到网页报告的生成全流程,其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明,Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。
Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...
Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...
Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...
Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧,导致注意力缓存中的关键值表示占据特权位置,使生成的视频动态性不足、场景进展迟缓,呈现时间上的浅薄性。为此,AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量,模型在每个生成块中将其与内容一起去噪,但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点,使参考点随内容演化。这一设计将时间视为相对概念,为生成过程引入了循环性。实验证明,该自适应状态显著提升了视频动态性,能实现更丰富的运动和自然的场景进展。
视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调,导致过拟合;或集成专用3D编码器,显得笨重且不灵活。本研究提出GASP框架,直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据,通过一个小型对应头进行双目标训练:对比损失强化2D视角不变性,深度一致性监督解决3D几何歧义。分析表明,标准模型内部的对应匹配准确率极低(常低于5%);GASP训练后,该指标峰值超过70%,且时间鲁棒性超过85%。这在下游基准测试中带来显著提升,包括在All-Angles Bench上提升+18.2%,在VSI-Bench上提升+29.0%,且无需任何3D VQA数据训练。
当前数据驱动方法在静态3D物体重建上表现突出,但生成符合物理规律的4D动态形变仍具挑战,现有方法多依赖预定义物理模型与参数估计,局限于特定类别。该研究提出NeuROK,通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器,实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型,将动态生成简化为低维潜空间中的操作,从而能更高效地生成多类物体的逼真动态。
现有视觉语言模型存在“载体敏感性”问题,即将文本问题替换为等义图像后性能会显著下降,原因在于训练数据中文本和图像的角色不对称。为此,研究者提出一种轻量级、架构无关的数据整理范式LoMo,其通过将单模态提示词动态重构为“文本、图像、文本”的交错多模态序列,来提供跨模态表征不变性的监督信号。在13个多模态基准测试上的实验表明,LoMo能有效提升模型的多模态推理能力,相比标准SFT,LLaVA-OneVision-1.5-8B提升2.67分,Qwen3.5-9B提升2.82分。
针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。该基准包含400个多会话多模态任务,涵盖“终身进化”和“智能体执行”两类场景,支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较,发现记忆写入与存储质量的提升不直接带来性能改善,且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。
Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。