针对现有SVG生成方法采用字节级分词破坏几何结构、导致坐标幻觉和序列冗余的问题,本文提出HiVG层次化分词框架。该方法将SVG字符串分解为结构化原子token,并压缩命令-参数组为几何约束的段token,同时引入Hierarchical Mean-Noise初始化策略注入数值先验,结合课程训练逐步提升程序复杂度。实验表明,HiVG在文本到SVG和图像到SVG任务中显著提升了生成保真度、空间一致性和序列效率。
腾讯发布首个专为近距离人机交互感知的视觉语言模型TAIHRI,突破传统全身重建范式,实现任务相关身体部位的精确度量级3D空间定位。该模型通过将3D关键点量化为有限交互空间,结合2D关键点推理与下一token预测机制,在自我中心相机坐标系下精准定位关键身体部位。实验表明,TAIHRI在任务关键身体部位估计精度上显著优于传统方法,并支持自然语言控制与全局人体网格重建等下游任务,相关代码已开源。
研究团队提出一种元优化的fMRI语义视觉解码方法,通过上下文学习实现免训练的跨受试者泛化。该方法仅需少量图像-脑激活样本作为条件,即可快速推断新受试者的独特神经编码模式,并采用分层反演策略完成解码。实验表明,无需重新训练、微调、解剖对齐或刺激重叠,即可在多种视觉主干网络上实现强跨受试者和跨扫描仪泛化能力,为构建非侵入式脑解码通用基础模型奠定关键基础。
Uni-ViGU框架通过扩展扩散式视频生成器统一视频生成与理解,反转了传统以理解为中心的多模态模型范式。该框架采用统一流方法,在单一过程中对视频进行连续流匹配、对文本进行离散流匹配;引入模态驱动的MoE架构,以轻量级层增强Transformer实现文本生成;并通过双向训练机制(知识召回与能力细化两阶段)将生成知识迁移至理解任务。实验表明,该模型在视频生成与理解任务上均达到竞争性性能,验证了以生成为中心的架构路径可行性。
MoZoo是一个生成式动力学求解器,能绕过传统精炼流程,从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE,通过基于角色的索引重映射同步运动对齐;同时引入非对称解耦注意力机制,强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题,提出了MoZoo-Data合成到真实的流水线,并构建了包含120对网格-视频的评测基准MoZooBench。实验表明,MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟,并保持了优异的时间与结构一致性。
Ming-flash-omni 模型具备全模态创作能力,能够同时完成照片中路人干扰的识别、自动修图、修图效果自评,并最终生成一段社交媒体推文,实现从视觉理解到内容发布的完整闭环。
OmniGUI 是一个步级基准,专门设计用于评估全模态智能手机环境中的图形用户界面代理。它提供每个动作步骤的连续交错多模态输入,包括静态图像、同步音频和视频片段,数据集覆盖709个专家演示片段、2579个动作步骤和29个应用程序,并标注了多模态依赖级别。评估显示,基础多模态模型在处理需要同步时序和听觉信号的任务时,动作预测性能显著下降。消融实验指出,跨模态干扰是主要瓶颈,尤其在处理任务无关环境噪声时。数据集、评估流程和基线提示已开源。
美团发布原生多模态模型 LongCat-Next,将视觉与语音作为模型的固有输入输出模态,而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统,强调多模态能力在底层架构中的原生融合,而非后期拼接。
Google 正式发布了 Gemma 4,这是一款前沿的多模态人工智能模型,其核心特点是能够在设备端本地运行。该模型通过开源方式发布,旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成,无需持续连接云端,这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。
Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。
智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。
可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。
IBM Granite团队发布了Granite 4.0 3B Vision模型,这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿,具备视觉理解能力,能够同时处理文本和图像信息,特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本,使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。
Qwen3.5-Omni发布,在215项基准上达到SOTA,并自然涌现出Vibe Coding能力,成为原生全模态新标杆。
Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。
关联讨论 1 条Qwen:Blog Retrieval(API)当前前沿多模态大模型在标准胸部X光问答基准测试中,无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷,表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞,指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。
Lyria 3 Pro 发布,支持生成更长音轨并具备结构感知能力,同时将集成至更多 Google 产品和平台。
Google 将 Lyria 3 Pro 扩展至更多产品,支持生成更长音轨,并集成至专业人士日常工作和创作工具中。
Lyria 3 音乐生成模型现已开放付费预览,开发者可通过 Gemini API 调用,或在 Google AI Studio 免费测试。
Suno发布v5.5模型,推出Voices、Custom Models与My Taste三大功能。Voices支持Pro及Premier订阅者录制或上传人声,经语音验证后仅限本人使用;Custom Models可基于用户原创曲库训练最多三个个性化模型;My Taste则面向所有用户,自动学习其音乐偏好。此次更新旨在同时服务专业音乐人与普通创作者,并为与音乐产业合作的下一代模型奠定基础。
Realiz3D是一个轻量级扩散模型训练框架,旨在解决3D生成中因使用合成数据微调预训练模型而导致的控制信号与合成外观不当关联问题,从而避免真实性下降。该方法通过引入协变量和小型残差适配器,将视觉领域(真实或合成)与其他控制信号(如几何、材质和视角)解耦,使模型在应用精确控制时仍能保持照片级真实感。基于对扩散模型不同层和去噪步骤作用的洞察,框架提出了新的训练与推理策略,增强了控制向真实领域的可迁移性。实验表明,在文本到多视图生成和3D输入纹理化等任务中,Realiz3D能同时保证3D一致性与高真实感,有效克服了领域差距带来的挑战。
Google XR 团队推出 Vibe Coding XR 工作流,结合 Gemini Canvas 与开源框架 XR Blocks,利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建,支持手势交互与深度感知,可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室,用户可通过捏合等手势操作 3D 对象,快速验证空间交互设计。
该工作流通过Gemini Canvas,借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型,采用低延迟的“轻量”模型和稳定的追踪点(如肩部关节点)以确保游戏响应灵敏。最后,流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序,使其能够支持多种多模态输入,从而显著简化了体感控制游戏的开发过程。
MiniMax 发布 Token Plan 订阅计划,该计划支持全模态模型,宣称是全球首个覆盖多模态能力的订阅服务。
生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。
PersonaVLM 是一个支持长期个性化的多模态智能体框架,具备记忆提取、多轮推理和响应对齐三大核心能力,可将通用 MLLM 转化为持续学习用户偏好的个性化助手。研究团队同步发布了包含 2000 余个案例的 Persona-MME 评测基准,涵盖 7 个维度与 14 项细粒度任务。实验表明,在 128k 上下文下,该方法较基线模型在 Persona-MME 和 PERSONAMEM 上分别提升 22.4% 和 9.8%,并超越 GPT-4o 达 5.2% 和 2.0%。
Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。
研究团队推出 SPRITE 系统,可将静态游戏UI设计稿自动转换为引擎可编辑的交互资源。该工具结合视觉语言模型(VLMs)与结构化YAML中间表示,专门解决游戏界面中不规则几何形状与深层视觉层次带来的转换难题,能精确捕获复杂容器嵌套关系。经游戏UI基准测试及专业开发者评估验证,SPRITE 显著简化了从美术设计到技术实现的流程,通过自动化繁琐编码工作支持快速引擎内迭代。
H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型,使用专有数据混合进行训练,专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构,在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量,在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中,性能从基线的35.1%提升至80.5%,在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。
Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导;乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症;多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试,协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者,糖尿病视网膜病变筛查模型已服务超 100 万例,AI 正从实验室走向真实临床场景。