VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准,采用生成模型主动合成高度可控的多样化评估场景,克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建,建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件,解耦了低级视觉感知与高级时空推理,实现了对模型能力的细粒度诊断。
VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准,采用生成模型主动合成高度可控的多样化评估场景,克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建,建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件,解耦了低级视觉感知与高级时空推理,实现了对模型能力的细粒度诊断。
一场涵盖11个大语言模型的30轮大逃杀式评测,花费482美元推理成本,得出了一个应改变读者阅读模型基准方式的关键发现。
Google发布了新一代AI模型Gemini 3.5 Flash,其性能较前代有显著提升,但运行成本大幅增加。基准测试显示,该模型的运行成本是上一代的5.5倍。在代理任务场景中,总成本甚至比更高端的Gemini 3.1 Pro还高出75%,主要原因是该模型需要比同类模型更多的交互步骤。这一现象并非个例,受巨额研发投入的商业回报压力影响,整个AI行业正普遍走向更昂贵的发展阶段。
OpenComputer是一个验证器基础框架,旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件:针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器,以及可记录轨迹并计算部分奖励的评估工具。目前,该框架已覆盖33款桌面应用,生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明,其硬编码验证器比大语言模型评估更贴近人类判断。同时,研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈,表明稳健的计算机自动化仍存在挑战。
本文提出MSAVBench,首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度,支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性,并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明,当前模型在导演级控制和精细音视频同步上仍存在瓶颈,而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。
RankJudge是一个评估大语言模型作为评判者在基于参考文档的多轮对话中表现的基准测试生成器。它通过生成配对对话来工作,其中一个对话的单一轮次被注入缺陷,从而明确评判结果并精准定位错误类别。该基准在机器学习、生物医学和金融三个领域实施,对21个前沿大语言模型评判者进行了评估,并使用Bradley-Terry模型对其排名。RankJudge还能为对话对生成难度评分,用于动态筛选评估数据以降低标签噪音。
尽管具身化AI及多模态大语言模型在推理任务中表现出潜力,但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发,本研究推出ChildAgentEval——首个基于心理测量学的交互式基准,用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段,揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。
Cloudflare在其Project Glasswing项目中测试了Anthropic专注于安全领域的AI模型Mythos Preview。该模型在超过50个Cloudflare自有代码仓库上进行评估后,被发现能够识别并构建出此前其他前沿大语言模型未能检测到的安全漏洞利用链。这项测试结果突显了专用安全模型在复杂代码审计与漏洞挖掘任务上的潜在优势。
2026年,企业自主AI已从试点阶段全面进入生产部署。本文综合评估了当前表现最优的十个平台,包括Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow和LangGraph等,并提供了经过验证的定价信息、真实的采用数据以及客观的局限性分析,旨在帮助企业团队做出明智的平台选择决策。
本文提出了一个名为π-Bench的全新基准测试,旨在评估个人助理代理的主动辅助能力。该测试包含100个多轮任务,覆盖5个特定领域的用户角色,其核心创新在于引入了隐藏的用户意图、任务间的依赖关系以及跨会话的连续性,以更真实地模拟现实交互。实验结果表明,主动辅助对当前大模型而言仍是重大挑战,且代理的“任务完成能力”与“主动识别需求能力”之间存在显著差距。
LLMEval-Logic 是一个专注于中文逻辑推理的LLM评估基准,其数据来源于真实场景,并通过专家编写、审核及Z3验证器闭环验证以确保题目质量。基准包含两个子集:246项的Base子集(配有1400条评分标准)与190项的Hard子集(含938个多步骤子问题)。对14个前沿LLM的评估表明,当前模型在逻辑推理能力上仍有显著不足:最佳模型在Hard项目上的准确率仅为37.5%,即使结合参考符号,形式化得分最高也仅达60.16%。该基准已开源,旨在为模型逻辑推理能力的评估与提升提供可靠工具。
Hugging Face 发布开放 AI 智能体排行榜,用于比较完整智能体系统而非仅底层模型,并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试(SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom),覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议,各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估,相关论文开源。
大疆推出第二代扫地机器人ROMO 2系列,包含P2透明旗舰版、A2进阶版及S V2标准版,售价区间4299元至6499元。该系列在核心性能上全面升级,吸力从初代的25000Pa大幅提升至36000Pa,涨幅达44%,并搭载123°超大外摆机械臂。产品设计在延续透明基站风格的基础上,将机身调整为半透明纯白,更贴近家居环境。此外,水箱版机型支持后续单独购买套件升级自动上下水功能。
Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准,用于评估大模型对三千年汉字的识别能力。
5月18日,中国信息通信研究院泰尔终端实验室启动首批“人工智能营销客服平台能力”测评单位征集。随着技术迭代与行业应用深化,该平台已从智能问答工具发展为涵盖客户触达、知识检索、智能问答、坐席协同、营销运营、服务质检和运营管理的综合性平台。本次测评将重点评估平台技术架构、功能完整性、数据安全等内容,面向智能客服平台、智能营销平台等多类单位征集首批参与方。
OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本,覆盖9个子任务、3个认知层级和6项基础能力,其中84%样本依赖语音或非语音音频信号,并标注模态隔离标签。该基准引入探测和在线双模式评估协议,以全面测试内容理解和主动能力。对11个模型的评估揭示:音频信号能提升性能但模型利用效率差异大;性能随时间下降,长程鲁棒性不足;非语音音频感知仍是当前最薄弱环节。
AI评估正经历结构性变革,因大语言模型日益作为交互系统部署,但现有评估实践仍基于静态响应基准,难以适应持续交互新模式。本文主张交互式评估应被视为独立原则性范式,其证据来源从单一响应转变为交互生成轨迹,评估过程需涵盖流程性、可恢复性、协调性、鲁棒性和系统级表现。基于此定义,提出双轴分类法、设计原则和报告标准,通过典型案例分析揭示轨迹层面评估挑战,为构建系统化交互评估框架提供理论基础。
分析显示,在Apple Silicon芯片(如M2 Ultra)上本地运行Llama 3.1 405B等大型语言模型,其成本高于使用OpenRouter等云端API服务。具体而言,本地运行每百万tokens成本约为0.73美元,而通过OpenRouter仅需0.59美元,成本高出约24%。这突显了对于大规模模型推理,云端服务目前可能比高端本地硬件更具经济性。
现有研究缺乏对实时双工全模态交互的系统评估。为此,本文提出Omni-DuplexEval基准,包含660个带人工标注的视频,涵盖实时描述和主动提醒两大场景共9个现实任务,所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架,能够联合评估响应内容与时机。实验表明,当前最优模型在主动提醒任务上表现不佳,最佳模型总体得分仅39.6%,揭示了模型在协调响应时机与内容质量方面的核心挑战。
针对现有抽象推理基准依赖人工标注或易测记忆而非真实推理的问题,本研究提出A2RBench自动生成管道,涵盖生成、扩展、评估与分析四个阶段。生成阶段利用大语言模型创建需要真实推理的任务;扩展阶段通过复用已验证规则扩展任务变体以实现规模化。为消除生成过程中的幻觉,建立了理论框架,证明程序化验证(即测试逆操作能否完美还原正向操作,保证循环一致性)可确保任务的唯一解。对主流大模型的评估显示:当前模型在抽象推理上存在根本缺陷,顶尖模型在代表性子集上的表现(39.8%)远低于人类水平(68.5%);模型在处理3D复杂任务时表现远低于2D和1D任务,揭示了对高维任务理解不足;此外,输入信息复杂度的提升反而可能简化推理过程。
WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性,而非图像质量。ByteDance的Seedance 2.0在该测试中领先,超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍,逻辑推理是所有模型中最困难的类别,表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果,但尚未实现从像素生成器到真实世界模型的飞跃。
本研究针对现有查询聚类方法因依赖表面语义而无法准确捕捉LLM潜在能力需求的问题,提出了证据校准查询聚类(ECC)算法。ECC通过有限的模型后验比较校准语义嵌入,弥合表面语义与实际能力要求的差距。它利用Bradley-Terry模型参数化的能力画像描述聚类,并通过可训练的混合权重处理混合能力需求的查询,从而构建灵活的、能力感知的聚类结构。实验表明,ECC显著提升了LLM能力排序质量,相比人工标注和嵌入基线方法平均提升17.64和18.02个百分点,并在查询路由等下游任务中表现有效。
针对智能体在真实工作流中需处理多模态输入、调用工具并自我修正的需求,研究团队推出了MM-ToolBench基准。该基准包含来自客户服务与智能创作两大类共100个可执行任务,覆盖20个细分领域,由27个MCP服务器提供324个工具支持。其核心设计理念是“闭环多模态验证”,即智能体必须执行工具、检查输出制品并在不符合要求时进行自我修正。实验表明,该基准极具挑战性,例如Claude Opus 4.6的成功率仅为32.0%,远低于94.0%的人类基准。它旨在为评估和推进下一代全模态工具使用智能体奠定基础。
科技媒体9to5Google在评测Fitbit Air智能手环时,发现其内置的付费AI健康教练Health Coach出现幻觉,虚构了一段不存在的5.2英里(约8.4公里)跑步记录。该AI不仅承认捏造,还将责任推给用户,暗示可能是用户漏记。这项月费10美元的服务因此被指可靠性存疑,削弱了订阅价值。Fitbit Air手环重约12克,原定5月26日开售,而Google Health应用计划5月19日上线,谷歌仍有机会在发布前优化模型、减少幻觉。
研究团队推出MEMLENS基准,系统评估大型视觉语言模型在多模态多轮对话中的长时记忆能力。该基准包含789个问题,涵盖五大记忆能力,并在四种标准上下文长度下测试。评估27个长上下文模型和7个记忆增强代理后发现:长上下文模型在短对话中表现良好但随对话延长性能下降;记忆代理长度稳定性好但损失视觉保真度。多轮推理任务将多数系统性能限制在30%以下,表明需结合长上下文注意力与结构化多模态检索的混合架构。
研究团队推出FutureSim基准,通过按时间顺序重放真实世界事件(如新闻文章),评估AI智能体在动态开放环境中的长期适应能力。智能体需在模拟的2026年1月至3月期间,基于实时信息预测未来事件。测试结果显示,前沿智能体表现差异显著,最佳预测准确率仅为25%,多数模型的评分甚至低于不作预测的基准。该基准为研究长时域测试时适应、搜索、记忆及不确定性推理等方向提供了真实场景,旨在推动衡量AI在现实世界中长期开放适应能力的进展。
针对生成视频模型作为隐式世界模型时几何一致性评估的挑战,研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测,利用单目重建将其提升至3D世界坐标,并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明,PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷,为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。
EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。
本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。
研究团队推出长期记忆评估基准LongMemEval-V2,旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题,涵盖五项核心记忆能力,并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R,以及调用编码智能体收集证据的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率取得最佳性能,显著优于基线方法,但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。
本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。
当前多模态大语言模型的文档问答评估仅核对答案,忽略了支撑证据的正确性。这掩盖了“归因幻觉”——模型可能给出正确答案,却引用了错误的文段,在法律等高风险领域构成重大风险。为此,研究团队推出了CiteVQA基准测试,要求模型为每个答案提供元素级的边界框引用,并对两者进行联合评估。该基准包含711份PDF文档、1897个问题,其核心评估指标“严格归因准确度”要求答案与引用区域均正确才计分。对20个模型的审计发现普遍存在该问题,最强模型的准确度也仅为76.0。CiteVQA揭示了仅评估答案所忽视的可靠性差距。
研究发现,现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题,可能夸大模型性能。为此,我们通过视觉探测清洗九个基准,构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型,提出了三阶段后训练方案OmniBoost:混合双模态监督微调、混合模态RLVR训练,以及在自蒸馏数据上的微调。实验表明,平衡的双模态微调提升有限,RLVR首次带来广泛改进,而自蒸馏则重塑了模型的基准表现。最终,该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展,且小模型可通过分阶段后训练与自蒸馏监督显著提升。
全球权威评测机构Artificial Analysis发布全新Coding Agent Index,包含SWE-Bench-Pro-Hard-AA、Terminal-Bench v2和SWE-Atlas-QnA三项基准,用于衡量模型与Agent harness组合的真实编程能力。闭源模型Opus 4.7(在Cursor CLI中运行)全球第一,智谱GLM-5.1(在Claude Code中运行)获开源第一,代表国产大模型在实际编程Agent场景达到SOTA水平。
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》本研究提出了“代码引导推理”评估协议,用于系统衡量可执行推理脚手架对小语言模型在多选题任务中的性能提升。该协议标准化了从任务接口到结果记录的六个组件。基于20,498条实验数据分析表明,在具有非零基线的样本中,脚手架辅助的平均准确率为66.21%,较直接回答的38.11%提升了28.10个百分点。研究同时也指出,该方法面临计算开销增大、答案提取过程脆弱以及生成程序可能违规等局限性。
当前地理空间基础模型研究缺乏统一评估标准、训练测试协议与预训练控制,导致模型难以公平比较。对152篇论文的审计发现,同一模型在相同基准上存在显著结果分歧;不同研究预训练配置几乎没有重复;且近四成论文未公开模型权重。为此,文章提出六项具体建议,包括发布带许可证权重、共享核心评估框架、明确基线来源、报告结果方差等,以推动社区建立协作标准,促进该领域健康发展。
研究发现,直接使用前沿代码助手(如GPT、Claude)进行智能体评估效果不佳,其执行成功率仅为30%,且生成的评估指标平均超过12项,过于复杂。为此,研究者提出了EvalAgent,它能将评估领域知识编码为可组合的“评估技能”,自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估,EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%,并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要,移除后Eval@1会从65%骤降至30%。
针对现有美学评估常简化为单图像打分的问题,研究提出了视觉美学基准(VAB),将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像,每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现,最强模型仅在26.5%的任务中准确识别最佳和最差图像,远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型,其性能可接近大得多的开源模型,表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。
WildClawBench是一个原生运行环境基准,包含60项人工编写的双语多模态任务,涵盖六大主题。任务平均耗时约8分钟,涉及超20次工具调用,并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分,结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中,表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%,其余均低于60%,且仅更换框架就可使同一模型得分波动高达18分。结果表明,当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。