研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。
研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。
研究团队提出FlowAnchor,一个无需训练、基于光流的免反演视频编辑框架。现有免反演方法在视频编辑中面临挑战,多物体或长视频场景下易失败,其根源在于高维潜在空间中编辑信号不稳定,存在空间定位不准和强度衰减问题。FlowAnchor通过空间感知注意力优化确保文本引导与空间区域精确对齐,并采用自适应强度调制维持足够编辑强度,从而稳定编辑信号,引导光流向目标分布演化。实验表明,该方法在多物体和快速运动场景中能实现更忠实、时序一致且高效的视频编辑。
研究提出“编辑即推理”(EAR)新范式,将视觉规划重构为单步图像转换任务,以提升计算效率。为分离推理与识别能力,团队创建了抽象谜题数据集AMAZE,包含迷宫和皇后两类任务,支持对自回归与扩散模型进行像素与逻辑的自动评估。测试发现,主流编辑模型在零样本设置下表现不佳,但经基础尺度微调后,能良好泛化至更大尺度及域外几何形状。然而,最佳模型在零样本效率上仍不及人类,揭示了神经视觉推理领域的持续差距。
研究系统评估了用于评估其他模型输出的视觉-语言模型(VLMs)的可靠性。通过引入超过40个扰动维度、涵盖4000多个扰动实例的基准测试,对4个主流VLMs在图像到文本和文本到图像任务中的表现进行了检验。结果显示,当前评估型VLMs存在显著盲点:它们时常无法检测出质量已下降的输出,在某些情况下漏检率超过50%;尤其难以识别细粒度的组合性与空间错误;对于与输入图像相矛盾的幻觉内容也常不敏感。尽管成对比较范式相对更可靠,但失误率依然存在。这些发现凸显了当前评估型VLMs的不可靠性,警示在将其用于基准测试和开发决策时需保持谨慎。相关代码与数据已公开。
Sapiens2是一个专注于以人为中心的视觉任务的高分辨率Transformer模型家族,旨在实现泛化性、多功能性和高保真输出。模型参数量从4亿到50亿不等,原生支持1K分辨率,其分层变体可支持4K。相比前代,Sapiens2在预训练和后训练阶段均有显著改进:结合了掩码图像重建与自蒸馏对比目标以学习兼顾低级细节和高级语义的特征;在10亿张高质量人体图像数据集上进行预训练,并提升了任务标注的质量与数量;架构上吸收了前沿模型的进展,支持更长的稳定训练。其4K模型采用窗口注意力机制处理更长空间上下文,并以2K输出分辨率进行预训练。该模型在姿态估计、身体部位分割、法线估计等任务上刷新了最佳性能,并扩展了点云图和反照率估计等新任务。
SketchVLM 是一个无需训练、模型无关的框架,能让 Gemini-3-Pro、GPT-5 等视觉语言模型在输入图像上生成非破坏性、可编辑的 SVG 标注层,以视觉化方式解释其答案。该框架在涵盖视觉推理与绘图的七项基准测试中,将视觉推理任务准确率最高提升 28.5 个百分点,标注质量最高提升 1.48 倍,且生成的标注更忠实于模型给出的答案。单轮生成已能实现较高的准确率与标注质量,多轮生成为人机协作提供了更多可能。
(注:提供的正文内容仅有一句话,缺乏必要的具体信息,如研究数据、性能指标、模型版本或测试结果等,无法撰写符合 100-200 字要求且包含关键数字/指标的摘要。请提供完整正文以便提取关键信息点。)
Qwen3.6-27B 开源发布,采用270亿稠密参数,无需MoE路由,部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE,在SWE-bench Verified(77.2)、SWE-bench Pro(53.5)、Terminal-Bench 2.0(59.3)、SkillsBench(48.2)等基准上领先,深度思考能力媲美超大参数模型。原生支持多模态,可处理图像、视频与文本,支持视觉推理、文档理解和视觉问答,具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope,API即将在阿里云百炼上线,兼容OpenAI与Anthropic协议,即时对话可通过Qwen Studio体验。
AnyRecon框架通过视频扩散模型实现任意无序稀疏输入的3D重建。该方法构建持久全局场景记忆以支持长距离条件,移除时间压缩保持大视角变化下的帧级对应,并引入几何感知条件策略耦合生成与重建过程。结合4步扩散蒸馏和上下文窗口稀疏注意力降低计算复杂度,解决了传统方法仅依赖1-2帧导致的局限性,在非规则输入、大视角间隙和长轨迹场景下实现稳健可扩展的重建。
CoInteract框架基于Diffusion Transformer架构,支持以人物参考图像、产品图像、文本及语音为条件生成视频。其引入Human-Aware Mixture-of-Experts模块,通过空间监督路由将token分配至区域专家,以极小参数开销提升手部与面部的结构稳定性;并采用Spatially-Structured Co-Generation双流训练范式,联合建模RGB外观与HOI结构流以注入交互几何先验,避免手物穿透。训练时结构流正则化共享权重,推理时移除该分支实现零额外开销。实验表明,该方法在结构保真度、逻辑一致性与物理合理性上显著优于现有方案。
阿里巴巴4月22日发布生态级AI助手数字人形象"千问小酒窝"。该数字人已接入淘宝、飞猪、高德、支付宝等阿里生态业务,支持通过对话完成外卖点单、行程规划、演出购票、打车及机酒预订等跨服务串联执行。用户现可在千问App中选择"小酒窝"音色进行对话互动并生成专属合照,未来该形象将全面接入阿里各生态应用,提供统一智能体验。
OPPO Find X9 Ultra搭载双两亿像素双潜望五摄系统,配备哈苏2亿超大底主摄(进光量提升10%)、2亿超大底长焦(进光量达前代136%)及首创五反射潜望棱镜的10倍光变天眼长焦(230mm/460mm)。配合第二代丹霞色彩还原镜头与LUMO超像素引擎,相较Find X8 Ultra补齐远景拍摄短板,实现全焦段高画质输出,在10倍至120倍变焦下保持画面纯净与细节清晰。
YouTube向娱乐行业开放人脸声纹检测工具,用于识别并下架未经授权的AI深度伪造内容。该技术类似Content ID系统,专门检测复制他人外貌或声音特征的AI生成视频及音频,标记后当事人可直接审核并要求移除,无需通过常规举报渠道。该工具于2024年启动测试,今年早些时候已覆盖政府官员及新闻记者,现进一步向演艺明星和娱乐从业者开放,无论其是否拥有YouTube频道。YouTube与CAA、UTA等经纪公司合作优化了该系统。
研究团队发布了一套用于构建精确视频语言模型的开源数据集、基准与可扩展监督方案。其核心是提出了CHAI监督框架,由训练有素的专家对模型生成的初版描述进行批判与修订,生成高质量后版描述。这种分工提升了标注效率与准确性。基于这些修订与偏好数据,团队改进了Qwen3-VL等开源模型在描述生成、奖励建模与批判生成方面的性能。在适度专家监督下,所得模型性能超越了Gemini-3.1-Pro等闭源模型。该方法还被应用于为专业视频重新生成描述,并微调Wan等视频生成模型,使其能精细遵循长达400词的详细提示,实现对摄像机运动、构图等电影摄影元素的控制。
OPPO Pad Mini 小平板发布,搭载8.8英寸2.5K OLED屏幕,支持144Hz刷新率,机身仅重279g、厚5.39mm。配备第五代骁龙8芯片与8000mAh电池,支持无感联网、双5G共享及跨生态互传,可搭配AI手写笔。售价3699元起,国补到手价3199元起,提供三种存储版本,高配可选柔光屏。
音乐流媒体平台 Deezer 最新报告显示,其每日新上传歌曲中高达 44% 完全由 AI 生成,这一比例揭示了 AI 音乐内容的爆发式增长。为应对这一趋势,Deezer 已部署自研检测技术识别 AI 生成内容,并计划将该技术授权给更广泛的音乐行业,以帮助各大平台有效管理海量 AI 音乐上传带来的挑战。
微信鸿蒙版App推送8.0.17.16邀测更新,测试期为2026年4月20日至5月19日。新版本支持视频号注册及资料修改,视频播放新增自动旋转功能,"听一听"模块可分享歌曲至状态并跳转QQ音乐,同时灰度测试AI写歌与AI翻唱功能。自去年1月登陆鸿蒙应用市场以来,该应用安装量已突破5000万次。
研究人员针对MeanFlow单步生成框架难以有效整合大语言模型文本编码器的问题,提出采用高判别性文本表征的解决方案。通过适配基于LLM的文本编码器并优化生成流程,首次实现高效的文本条件单步图像合成。实验表明,该方法在主流扩散模型上显著提升了生成性能,突破了原有类别标签条件的局限。相关代码已开源。
研究团队发布WebCompass基准,首次对代码语言模型进行全生命周期多模态网页开发能力评估。该基准涵盖文本、图像、视频三种输入模态,设置生成、编辑、修复三类共七项任务,覆盖15个生成领域、16种编辑操作及11种缺陷类型,难度分三级。评估采用LLM-as-a-Judge与Agent-as-a-Judge(基于MCP在真实浏览器中自动测试)相结合的方法。实测显示:闭源模型综合能力显著领先;美学表现是开源模型的最大瓶颈;Vue框架难度最高,React和Vanilla/HTML表现更稳定。
研究人员发布受控多模态乘法基准,系统评估大模型在文本、图像和音频输入下的算术极限。研究定义算术负载指标C(总位数与非零位数乘积),发现当C>100时准确率急剧下降至接近零,且该指标跨模态预测性能R²常超0.5。实验表明模型失败主要源于计算缺陷而非感知能力——匹配感知测试中各模态准确率均超99%。此外,模型倾向于采用分配式分解策略而非传统列式乘法进行计算。
辽宁大连庄河8岁男孩孙典锋爬山时认出"问荆草",经AI验证该植物常与金矿伴生。父子俩在约五公里范围内发现大量问荆草及含黑云母、硅化褐铁矿化的岩石。辽宁省地质勘查院专家根据多重地质特征判断该山脉"大概率含金"。目前当地自然资源部门已介入调查,最终结论待化学分析确认。该地区2026年3月刚挂牌出让9宗探矿权。
本研究首次系统探究了视觉变换器(ViT)中间层表示在人脸图像质量评估中的作用。通过分析ViT-FIQA的全部12个变换器块,发现不同深度捕获了互补的质量信息。研究提出一种无需修改架构或额外训练的分数融合框架,采用深度加权平均策略,对深层块赋予更高权重,从而有效利用ViT的层次化特征。在八个基准数据集和四种人脸识别模型上的评估表明,该策略优于单退出方法,能在显著节省计算资源的同时保持竞争力。这项工作挑战了“仅深层特征重要”的传统观点,为实际生物识别系统提供了自适应计算方案。
本文提出ATTN-FIQA,一种无需训练的人脸图像质量评估方法。该方法利用预训练Vision Transformer人脸识别模型中提取的softmax前注意力分数作为质量指标,仅需单次前向传播。其核心假设是注意力幅度内在地编码了图像质量:高质量图像产生集中、高幅度的注意力模式,退化图像则生成分散、低幅度的模式。通过在八个基准数据集和四个识别模型上的评估,证明该注意力分数能有效关联人脸图像质量,并提供空间可解释性,清晰揭示对质量判定贡献最大的面部区域。
研究团队提出ToolsRL框架,通过工具监督强化学习提升多模态大语言模型的视觉推理能力。该框架采用课程学习策略,第一阶段利用工具特定奖励训练基础工具操作(包括放大、旋转、翻转、绘制点线等),第二阶段结合准确性奖励进行端到端优化。这种分离式训练避免了异构任务间的优化冲突,使模型先掌握工具调用能力再应用于复杂视觉推理。实验表明,该方法能高效习得可解释的视觉工具使用技能,显著提升复杂视觉推理任务表现。
MMCORE 是一个统一的多模态图像生成与编辑框架,通过预训练视觉语言模型(VLM)预测语义视觉嵌入,并将其作为条件信号引导扩散模型。该设计无需深度融合自回归与扩散模型或从头训练,显著降低计算成本的同时保持高保真合成。框架支持文本到图像生成与交错图像生成,在空间推理和视觉定位等复杂场景中展现出强大的多模态理解能力,在多项文本到图像及单/多图像编辑基准测试中均优于现有最先进基线。
华为在Pura系列发布会上推出Pura 90系列手机。其中Pro和Pro Max版本搭载全新麒麟9030S处理器,该芯片NPU图像理解能力提升200%,AI ISP色彩引擎提升43%,长焦视频清晰度提升110%,防抖精度提升30%。标准版则搭载麒麟9010S处理器,该芯片此前已用于nova 15 Ultra,相较上代产品整机性能提升18%。
研究团队提出PSRD(分阶段自奖励解码)框架,在推理阶段动态缓解大型视觉语言模型(LVLMs)的视觉幻觉问题,无需外部监督。研究发现幻觉在每个语义阶段开始时达到峰值,据此将LVLMs的幻觉引导信号蒸馏为轻量级奖励模型,实现解码过程中的实时干预。实验显示,该方法使LLaVA-1.5-7B的幻觉率降低50.0%,并在五个幻觉评估基准上持续优于现有事后方法,同时实现了性能与推理效率的可控平衡。
研究团队提出MM-JudgeBias基准,用于评估MLLM-as-a-Judge的组合偏见。该基准通过Query、Image、Response三维度受控扰动,结合Bias-Deviation与Bias-Conformity指标,对26个主流模型进行测试。数据集涵盖29个源基准的1800余个样本,可细粒度诊断9种偏见类型。实验揭示模型存在系统性模态忽视与不对称评估倾向,表明当前MLLM评判器在证据缺失或扰动下可靠性不足。
RealChart2Code 基准测试针对基于真实数据集构建的复杂可视化图表,对14个领先AI模型进行评估。结果显示,当图表结构趋于复杂时,即使是最顶尖的专有模型,其性能也损失近半,远低于在简单测试中的表现。这一发现揭示了当前AI模型在理解和转换复杂数据可视化内容方面存在显著局限。
针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题,研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验,并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括:表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征,以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中,UniGeo在广泛及有限的相机运动设置下,于视觉质量和几何一致性方面均显著优于现有方法。
研究团队提出四层认知复杂度分类法定义时间序列推理(TSR)任务,发布包含83k样本的HiTSR数据集,涵盖多样化任务组合与验证CoT轨迹。基于此开发的LLaTiSA模型整合可视化模式与精度校准数值表增强视觉语言模型(VLM)的时间感知,经多阶段课程微调策略训练,在多样TSR任务及真实场景中实现卓越性能与强分布外泛化。
UniMesh是一个统一3D网格理解与生成的新型框架,通过单一架构联合学习两大任务。该框架引入Mesh Head连接扩散式图像生成与隐式形状解码器;提出Chain of Mesh (CoM)几何迭代推理机制,实现用户驱动的语义网格编辑闭环;并构建Actor-Evaluator-Self-reflection自反思机制,可诊断纠正3D字幕等高级任务错误。实验表明,UniMesh不仅性能优异,更实现了生成与理解的相互增强及迭代编辑能力。
研究人员提出名为 MedFocusLeak 的高可迁移性黑盒多模态攻击方法,通过在非诊断性背景区域注入协调扰动并运用注意力分散机制,使医学视觉语言模型生成错误但临床可信的诊断。该方法在六种医学影像模态的测试中达到最先进的攻击成功率,且保持扰动不可察觉。研究同时引入统一评估框架与新指标,揭示了现代临床视觉语言模型推理能力的关键缺陷。
研究团队针对原生全模态大语言模型(OLLMs)的模态偏好现象,构建了冲突基准测试并提出模态选择率指标,对10个代表性模型进行系统评估。结果发现与传统视觉语言模型的"文本主导"不同,多数OLLMs呈现显著视觉偏好,且通过逐层探测证实该偏好是在中后层逐渐涌现而非静态存在。基于这一机制,团队利用内部信号诊断跨模态幻觉,在三个多模态基准测试中取得竞争性表现,无需任务特定数据。
EasyVideoR1 是一款专为视频理解任务设计的强化学习框架,通过离线预处理与张量缓存技术消除冗余视频解码,将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由,采用离线-在线混合数据训练范式,并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准,复现精度与官方报告高度一致,为视觉语言模型的视频推理训练提供了完整高效的基础设施。
针对多模态大语言模型在图像翻译中难以捕捉细粒度文本信息的问题,本文提出模态神经元感知微调方法MNAFT。该方法通过指令驱动的激活分析,识别视觉与语言模块中的语言无关及语言特定神经元,选择性更新与目标任务相关的神经元参数,同时保留其他预训练知识。实验表明,MNAFT在多个基准测试中显著优于级联模型、标准全量微调及现有参数高效微调方法,有效缩小了视觉文本与文本间的模态差距。
当前最先进的文本到3D生成模型存在"潜在汇点陷阱":模型在特定区域对文本提示修改不敏感,导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足,而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验,将几何表示与语言敏感性解耦以绕过该陷阱,实现了对分布外3D形状的高保真语义编辑,突破了现有3D流水线的局限性。
阶跃 Step 3.5 Flash 大规模上车极氪8X,深度集成该模型的整车智能体超级 Eva 随车量产上市。超级 Eva 融合阶跃三款大模型:Step 3.5 Flash 作为核心大脑,提供模糊指令理解与多步骤任务规划;语音大模型带来低延迟、更自然的交互;视觉理解模型可感知车外环境并决策,如判断路况、找车位。即日起用户可在极氪8X驾驶场景中体验。未来超级 Eva 将覆盖更多车型。