通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。
通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。
ElevenLabs 发布了升级版 AI 音乐生成模型 Music v2。该模型支持跨流派创作,单首乐曲可实现从歌剧到重金属再到说唱的风格转换,并保持音乐连贯性。新功能支持音乐局部重新生成,允许用户在不修改乐曲其他部分的情况下,对特定片段进行重写。
OmniVerifier-M1是一个通过符号化元验证和解耦强化学习训练的多模态验证器。研究发现,使用符号化验证输出(如边界框)作为元验证依据,优于文本解释,便于基于规则的强化学习;同时将二元判断与元验证的强化学习目标解耦,显著优于联合优化。基于此,OmniVerifier-M1实现了稳健的视觉验证与细粒度错误定位,并支持M1-TTS,一个通过该验证器实现动态区域级自校正的生成系统。
针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。
提出一种名为NEO-ov的原生视觉语言基础模型,它能够端到端地学习跨帧和像素-词语的对应关系,无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界,使得精细、统一的时空建模能力在模型内部原生涌现。研究表明,NEO-ov在精细视觉感知任务上表现优异,大幅缩小了与模块化模型的性能差距,验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。
研究提出一个基于LLM的多模态音乐推荐框架,在LastFM-1K数据集上融合三类信号:预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展,集成SASRec、BERT4Rec、GRU4Rec等编码器,并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线,内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现,简单拼接多模态特征并不总能带来叠加提升,并开放了一个大规模音乐推荐多模态基准。
Stable-Layers 是一个强化学习框架,无需配对监督即可微调预训练层分解模型,仅使用视觉语言模型(VLM)的反馈。基于 Qwen-Image-Layered 初始模型,采用 Flow-GRPO 和 LoRA 适配,每张图像采样多个候选分解,由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题,设计两阶段评估流程:先按五项编辑标准逐样本评分,再进行网格校准让 VLM 并列重评所有候选。相比基模型,Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层,并降低每层重建误差。
大型视觉语言模型在推理时面临将视觉输入映射为密集token序列带来的二次计算瓶颈。现有视觉token压缩方法在激进压缩下会损失空间保真度。本文提出PARCEL,一种新的视觉token化架构。它通过建立空间池token作为低频布局锚点,并以此为条件对弹性查询token进行重采样,从而动态分配特征提取任务。在27项基准测试中,PARCEL在不同视觉token预算下均优于现有基线方法,改善了性能与效率的帕累托前沿。
针对从fMRI信号解码视觉内容并回答问题的挑战,研究提出了Brain-IT-VQA框架。该框架基于Brain-IT,从大脑活动解码语言token并与大语言模型整合以回答视觉问题,性能显著超越现有方法。同时,引入了新基准NSD-VQA数据集,每张图像平均提供20个问题-答案对,涵盖20个受控问题类别,以实现更可靠和可解释的评估。Brain-IT-VQA与NSD-VQA结合,既提供了强大的预测框架,也成为研究大脑视觉表征的工具。
科学图表生成是论文准备中最耗时的环节之一,现有自动化系统仅支持单一图表类型和纯文本输入,且输出不可编辑。为此,研究团队提出了Crafter,一个多智能体框架,它能适配多种图表类型和输入条件,生成出版质量的图表。其配套工具CraftEditor可将生成的栅格图转换为可编辑的SVG文件。同时发布的CraftBench评测基准涵盖了三种图表类型和四种输入条件。实验显示,Crafter在PaperBanana-Bench和CraftBench上均优于独立生成器和现有智能体基线,其组件贡献也得到了验证。代码与基准已开源。
传统细胞实例分割模型在分布外细胞类型上性能下降,交互式基础模型虽能解决但逐实例提示的成本过高。本文提出Group Prompting新范式,将交互成本从逐实例优化为逐类型。其核心是Chain-of-Prompts框架,利用冻结的Segment Anything Model图像编码器在特征空间中自然形成的细胞聚类特性,仅需为每种细胞类型提供一个用户点击,即可通过识别多尺度编码器特征中的可靠同类型位置,并迭代选择空间距离最远的可靠点作为新提示,从而分割该类型所有实例。该方法无需任何训练,在多个基准上,单个点击可保持逐实例性能的90%甚至99%以上。
研究构建了 SpatialUncertain 评估框架,测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下,模型平均准确率分别约为 30% 和低于 10%,并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。
提出OmniHuMo大规模高质量数据集,包含超过5000小时运动数据与320万序列,提供文本、语音、音乐和轨迹等多模态精准标注。基于此构建AnyMo统一多模态框架,结合Residual FSQ运动分词器与可扩展的掩码建模Transformer,支持任意模态组合下的高保真实时运动生成,并能灵活控制运动的空间与风格属性。
该研究主张视觉语言模型(VLM)是原生的3D学习者。通过大规模研究发现,实现有效3D学习仅需三个核心要素:统一焦距、基于文本的像素参考以及数据混合与缩放。传统的模型架构改变、超大模型、复杂数据增强和损失函数(包括回归公式)并非必要条件。基于此,研究提出了VLM3方法,以最简设计使标准VLM掌握多样3D任务。VLM3将VLM的深度估计精度从0.84大幅提升至0.9,并实现了像素对应、相机位姿估计和物体级3D理解等任务,其精度匹配专家视觉模型,同时保持标准架构和文本训练方式。
微软的 MAI-Image-2.5 在 Arena 文本生成图像排行榜上排名第三,与谷歌的 Nano Banana 2 持平,但仍落后于 OpenAI 的 Image-2。该模型相比其前代产品有显著提升,特别是在渲染图像内文字和商业视觉效果方面。
QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。
ElevenLabs 发布的新模型支持用户对歌曲的任意片段进行重新生成,且修改过程不会影响该曲目的其他部分。
雷鸟推出两款AR眼镜:主打观影的GT Max采用孔雀光引擎3.0 Max与PWG光学结构,搭载视涯5.5代Micro-OLED双层面板,提供267英寸巨幕体验与1200nits峰值亮度,售价2599元(国补后2209元)。另一款AI拍摄眼镜V4仅重38g,具备IP67防水,首发OG09B方形传感器,支持2.5K画质与11.5小时续航,售价2199元(国补后1869元)。
Runway 正式推出 Runway MCP 服务器,允许任何兼容 MCP 的 AI 智能体(如 Claude、ChatGPT、Cursor)在对话界面中直接生成图像与视频,无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型,包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便,通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用,无需单独申请 API 密钥。
关联讨论 1 条X:Runway (@runwayml)雷鸟创新发布雷鸟V4 AI拍摄眼镜,标准版售价2199元,国补后1869元起,5月30日交付。该机型聚焦AI响应速度优化,采用高通骁龙AR1与恒玄BES2800BP双芯架构,引入通义千问模型,AI最快响应0.2秒,较上一代提升超138%。电池容量提升57%,连续视频录制可达约47分钟。影像方面,首次搭载1/2.9英寸、1:1方形传感器OG09B,单像素尺寸2.09微米。防护等级提升至IP67,整机重量约38克。
Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。
索尼 PlayStation 提交了一项新专利,旨在通过人工智能赋予游戏中的非玩家角色(NPC)拟人化的交互能力。该专利描述了通过麦克风和摄像头捕捉玩家情绪与神态,进而让 NPC 模仿玩家行为与情绪反应的技术方案。此外,专利还提出可利用游戏主播等数据训练 NPC,以复刻特定人物性格。此举是索尼打造高度拟人化 NPC、提升玩家沉浸感的一次尝试,目前英伟达等公司也在进行类似技术研发。
MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。
空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。
LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。
本研究系统比较了视觉语言模型与视频生成模型两种预训练范式在空间智能方面的表现。通过冻结特征探测方法,在语义标注、实例分组和三维几何预测三个关键维度上进行评估。结果显示两者具有明确的互补性:视觉语言模型在语义与实例任务上更强,而视频生成模型则在密集几何与相机运动信号上表现更优。研究进一步发现,简单地融合二者特征即可获得在几何与语义任务上均表现出色的表示,为构建更强的空间智能骨干模型指明了有前景的方向。
BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架,用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp,并扩展Diffusion DPO技术,联合优化图像与文本偏好。此外,采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明,BiDPO在多个基准测试上显著提升了组合保真度,并持续优于现有方法。
DEMON 是一个实时扩散引擎,将扩散去噪过程转化为可实时演奏的乐器。它基于 ACE-Step 1.5 和 StreamDiffusion 的环形缓冲区架构,采用 TensorRT 加速,在单块 RTX 5090 GPU 上可实现每秒 12.3 次解码完成(60秒音乐),在生产环境环深度 4 下达每秒 11.3 次生成。通过四个核心机制——异构去噪调度、共享可变状态、逐帧源混合与窗口化 VAE 解码——实现了参数的低延迟控制与高达 8.0 倍的解码加速。
现有视频生成方法多依赖文本或首尾帧等稀疏条件,难以精确控制叙事结构与节奏。为此,本文提出SmartDirector框架,通过引入多个关键帧来增强视频生成的叙事能力,支持单镜头生成、多镜头合成及视频扩展。该框架分为两阶段:Director-Gen根据关键帧生成低分辨率视频;Director-SR利用高分辨率关键帧作为语义锚点进行超分优化,以恢复细节。为支持训练,构建了从电影中策划单、多镜头序列的数据管道。实验表明,该方法显著优于现有先进方案。
Stability AI 发布了 Stable Audio 3,这是一个用于器乐和音效生成的潜在扩散模型家族。此次发布包含 Small 和 Medium 两个开放权重变体。Small 变体可在 MacBook Pro M4 CPU 上运行,Medium 变体适配 8GB 显存的消费级显卡。两者均采用流匹配、蒸馏预热和对抗后训练的三阶段流水线,以生成 44.1 kHz 的立体声音频。在 BBC Sound Effects 基准测试(5秒片段)中,SA3 Medium 的 FAD 得分为 0.369,优于论文中评估的所有开放权重基线。
Runway通过Project Luxo研究发现,AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片,评估显示观众开始关注故事本身,而非技术瑕疵。所有作品均由单人团队制作,耗时从3周到4小时不等。Runway认为,这标志着AI媒体成熟——当技术足够好以至于“隐形”,观众沉浸于故事时,便实现了这一跨越。
关联讨论 1 条X:Runway (@runwayml)该教程以 TuringEnterprises/Open-MM-RL 数据集为实践基础,构建多模态推理与可验证奖励强化学习(RLVR)流程。内容涵盖数据集加载、结构分析(包括领域、格式、问题长度、答案类型和图像分布),并可视化各领域示例。同时实现了一个轻量级奖励函数,用于检查精确匹配等条件,并演示了如何将流程导出为 GRPO 格式。
网龙与火山引擎达成合作,将底层架构全面上云并率先接入Seedance 2.0 API,依托豆包大模型构建覆盖文本、图像、视频的全链路AI智能生产体系,已落地2000余门标准化课程。豆包图像创作模型实现分镜风格统一,视频生成模型保障声画同步与角色声线一致,并用于制作K12虚拟实验互动资源。业务上云后资源利用率提升50%。双方计划2026年每月新增1500门以上AI融合课程,培训超1万名骨干教师,借助火山引擎全球化部署覆盖190多个国家和地区。
本文提出InstructSAM,一个用于在任意指令下执行多实例分割的统一框架。该方法将问题形式化为集合结构的查询预测任务,通过在视觉语言模型中注入可学习实例查询,并设计混合注意力机制与SAM3交互,实现了在单次前向传播中完成多实例分割。论文同时构建了大规模指令实例分割数据集与基准Inst2Seg。实验表明,仅2B规模的InstructSAM在相关基准上取得了优异性能,优于此前的端到端方法和SAM3的智能体流程。
Helix4D是一个动态网格生成框架,旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力,将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量,它采用了滑动窗口跨帧注意力并锚定第一帧。同时,其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度,无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。
小米汽车发布 Xiaomi Auto World Model 框架,首次将三维重建与视频生成深度耦合,打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在合成数据生成(已交付超10万 clips 数据)、仿真测试、辅助驾驶学堂三大场景落地。