METR的现有测试套件几乎无法有效评估Claude Mythos Preview,228项任务中仅5项能覆盖其相关能力范围。与此同时,Palo Alto Networks报告指出,前沿AI模型能自主串联利用系统漏洞,将初始访问到数据窃取的时间缩短至仅25分钟。当前评估方法的发展速度已明显落后于模型本身的进化,这可能构成了更严峻的挑战。
METR的现有测试套件几乎无法有效评估Claude Mythos Preview,228项任务中仅5项能覆盖其相关能力范围。与此同时,Palo Alto Networks报告指出,前沿AI模型能自主串联利用系统漏洞,将初始访问到数据窃取的时间缩短至仅25分钟。当前评估方法的发展速度已明显落后于模型本身的进化,这可能构成了更严峻的挑战。
研究团队推出CAFE基准,专门评估提示型分割模型的概念忠实性。该基准通过属性级反事实操作,构建了包含2,146个测试样本的数据集,涵盖表面模仿、上下文冲突和本体冲突三类误导性语义线索。对多种模型的评估揭示了一个系统性差距:模型即使面对误导性提示也常能生成精确掩码,这表明强大的掩码预测能力并不等同于忠实的概念语义基础。CAFE为诊断模型是否基于概念而非视觉捷径进行分割提供了受控的评估标准。
一篇探讨大型语言模型(LLMs)能否使用 Temporal Logic of Actions (TLA) 建模现实世界系统的文章在 SIGOPS 网站发布,并在 Hacker News 上获得 100 点关注。该研究聚焦于 LLMs 在形式化验证领域的应用潜力,评估其建模现实系统时的准确性、效率及挑战,可能涉及对现有建模方法的比较与性能指标分析,以揭示 LLMs 在复杂系统设计中的可行性和局限性。
OpenAI发布了ChatGPT 5.5 Pro模型,该版本在推理能力、代码生成和长上下文处理方面有显著提升。模型支持128K上下文窗口,并在数学问题解决基准测试中准确率达到92.7%,较上一版本提高约15%。实际体验显示,其在处理复杂指令和多步骤任务时响应更精准、逻辑更连贯,但偶尔仍会出现事实性错误。该模型目前通过订阅制向专业用户开放。
阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。
研究团队推出FORTIS基准,用于评估大语言模型智能体在技能调用中的过度权限问题。该基准从两个阶段测试模型:能否从大量重叠技能库中选择最小必要权限的技能,以及执行时是否超出技能允许的工具或操作范围。在十个前沿模型和三个领域的测试中,过度权限行为成为普遍现象。模型倾向于选择比任务所需更高权限的技能和工具,即使在最强模型中,两阶段的失败率依然很高。在用户描述不完整、便捷性引导和接近技能边界等常规交互条件下,问题尤为严重。结果表明,技能层非但未能约束智能体,反而成为当前系统中权限升级的主要来源。
MLS-Bench是一个评估AI系统能否发明通用、可扩展机器学习方法的基准。它包含12个领域的140项任务,要求智能体改进ML系统的特定组件,并证明其改进能在受控环境中泛化与扩展。研究发现,当前智能体远未达到可靠超越人类设计方法的水平,且工程式调优比真正的方法发明更容易。测试阶段的规模扩展、自适应计算分配和额外上下文均无法单独解决核心瓶颈,关键在于智能体缺乏规划、验证和扩展主张所需的科学洞察力。该项目已建立社区平台并开源相关资源。
针对缺乏标注基准的语言、领域或监管场景,本文提出“无基准比较性安全评分”框架,明确了基于场景审计作为部署证据的合约条件。该方法依赖固定的场景包、评分准则等要素,并通过工具有效性链替代真实标签验证,包括对安全与篡改版本的响应灵敏度、目标驱动方差的主导性及重复运行的稳定性。工具SimpleAudit在挪威语安全包上验证有效。实际案例表明,模型安全性取决于具体场景类别和风险度量,因此需完整报告评分、差异、临界率等多维度信息,而非简化为单一排名。
针对现有大语言模型安全基准的英语中心主义局限,研究团队发布了XL-SafetyBench。该基准包含10个国家-语言对的5500个测试用例,设有基于国家的对抗性“越狱基准”和嵌入本地敏感性的“文化基准”。通过引入中立安全率与文化敏感率等补充指标,能更好区分原则性拒绝与理解失败。对37个模型的评估发现,前沿模型的越狱鲁棒性与文化意识不耦合,而本地模型的安全表现更多源于生成失败而非真正对齐。该工作为多语言时代的模型安全提供了细致的跨文化评估工具。
本研究对CODS 2025多智能体编排挑战赛进行了回顾分析。公开规划排行榜在72.73%准确率处饱和,隐藏评估则显著改变了结论:规划任务中公开与私有分数呈中度相关(0.69),而执行任务中呈负相关(-0.13),部分系统分数从45.45%提升至63.64%。官方评分中特定术语影响微弱,调整权重将改变前两名排序。竞赛注册队伍虽多,但仅24支获得有效公开分数,其中超半数为团队协作。成功的执行方法主要集中于改进响应选择、污染清理等护栏机制,而非创新智能体架构。
研究团队推出CreativityBench基准,以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库,生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明,模型虽常能选择合理物体,但在识别正确部件、其可供性及所需物理机制方面存在显著困难,导致性能大幅下降。模型规模扩大带来的改进很快饱和,通用推理能力与思维链等策略均未能有效提升创造性可供性发现,凸显该能力仍是当前模型的主要挑战。
研究团队推出SWE-WebDev Bench评估框架,从交互模式、机构角色和复杂度三个维度,通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷:存在将丰富业务需求过度简化的“规范瓶颈”;普遍存在前端与后端脱节,精美UI常掩盖缺失或故障的后端;生产就绪度陡降,工程质量得分无平台超过60%,且人工后期工作量差异大;安全与基础设施问题广泛,安全得分无平台超过65%,并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。
针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。
研究揭示了LLM智能体长期记忆中的“隐性冲突”缺陷,即新证据在不明确否定的情况下使旧记忆失效。为此,研究者构建了STALE基准,包含400个冲突场景与1200个查询,从状态解析、前提抵抗和隐性策略适应三个维度进行评估。系统测试表明,前沿模型在根据更新证据行动上存在普遍差距,最佳模型准确率仅55.2%。研究进一步提出了CUPMem原型,通过结构化状态整合加强写入时修订,为构建状态感知的鲁棒记忆提供了初步基线。
Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集,涵盖多种口音及脚本式/会话式语音,总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing(针对基准的过度优化)或测试集污染风险。默认平均 WER 仍基于公开数据集计算,用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器,UI 代码和评估脚本已开源。自 2023 年 9 月上线以来,该榜单访问量已超过 71 万次。
针对现有基准将专利审查简化为分类或静态抽取的局限,本文提出了PatRe,首个模拟完整专利审查生命周期(包括审查意见生成与申请人答复)的基准。它包含480个真实案例,支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现,专有与开源模型性能存在差异,且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时,兼具潜力与当前局限。相关代码与数据集已开源。
本文提出了Workspace-Bench 1.0基准,用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件(最大20GB)的模拟工作空间,并设计了388项附带文件依赖图的任务,总计7399个评分项,要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite(100项任务)可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明,最佳智能体得分仅为68.7%,远低于人类表现的80.7%,平均表现仅47.4%,揭示出现有AI在此类任务上仍远未达到可靠水平。
研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。
IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。
美国政府机构评估称中国在人工智能竞赛中落后八个月,但独立数据并未证实这一差距。当前美国实验室持续追求更智能的模型,而中国玩家如深度求索(Deepseek)等提供的价格优势可能成为更关键的竞争筹码。这场竞赛的衡量标准正从单纯的技术指标扩展到包括成本效益在内的综合维度。
一项新基准测试让领先的语言模型处理100个日常伦理场景,涵盖从销售数据滥用到肿瘤学违规操作等领域。测试结果显示,不同前沿模型对相同伦理提示给出了差异显著的回应。这引出了一个核心问题:究竟由谁来决定AI被允许做什么,以及它应遵循谁的伦理准则?该基准旨在揭示和量化主流AI系统在道德判断上的不一致性。
Kimi K2.6在编程挑战赛中击败了Claude、GPT-5.5和Gemini。该模型是一款开源的中国AI模型,在HumanEval编程基准测试中取得了92.7%的准确率,超越了GPT-5.5的92.2%和Claude 3.5 Sonnet的90.2%。其上下文长度扩展至128K tokens,并采用了MoE架构。此次表现标志着开源模型在编程能力上首次超越主流闭源模型。
ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现,三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。
英国 AI 安全研究所评估发现,OpenAI 的 GPT-5.5 成为第二个能够自主完成完整网络攻击模拟的 AI 模型。其表现与 Anthropic 的 Claude Mythos 几乎持平,后者目前仍仅限小范围使用。GPT-5.5 现已通过 ChatGPT 和 API 向公众广泛提供。
Claw-Eval-Live 是一个用于评估工作流智能体的实时基准,它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物,并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中,领先模型仅通过 66.7% 的任务,无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流,而本地修复任务相对容易但仍有提升空间。结果表明,工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。
本文针对非专业低代码用户指令模糊、质量低的现实瓶颈,提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动,系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为,并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境,以实现迭代式意图细化与代码合成。大量实验表明,当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式,在意图识别与自适应交互方面存在明显局限。
本文提出了首个针对真实世界自然场景表格图像的问答基准WildTableBench。该基准包含从在线论坛和网站收集的402张高信息密度表格图像,以及涵盖五大类别、17种子类型的928个人工标注验证问题。研究对21个前沿的专有和开源多模态基础模型进行了评估,结果显示仅有一个模型准确率超过50%,其余模型准确率介于4.1%至49.9%之间。诊断分析进一步揭示了模型在结构感知和数值推理方面存在的持续弱点。该基准为深入评估和提升表格图像理解能力提供了重要的诊断工具。
研究团队发布了EDU-CIRCUIT-HW数据集,包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告,同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现,模型识别的手写内容中存在大量潜在错误,表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明,通过识别错误模式进行预先检测与纠正,仅需极少人工干预(例如将3.3%的作业交由人工评分),即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。
WindowsWorld是一个跨应用工作流基准,旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架,生成包含四个难度级别及中间检查的任务,经人工审核后在模拟环境中执行。基准包含181个任务,平均每个任务有5.0个子目标,覆盖17种常用桌面应用,其中78%为跨应用任务。实验结果显示,当前领先的大模型与代理在跨应用任务上表现不佳(成功率低于21%),远低于简单单应用任务;在需要跨三个及以上应用进行条件判断与推理的任务中大多失败,且执行效率低下。相关代码、基准数据与评估资源已开源。
Anthropic团队开发了BioMysteryBench生物信息学基准测试,用于评估Claude在分析真实数据集、解决开放式研究问题上的能力。测试发现,Claude的生物学科学能力正快速迭代,当前模型表现已与人类专家相当,最新模型甚至解决了部分专家小组未能破解的问题,且有时策略迥异。该基准旨在应对科学评估的固有挑战,如生物学研究中存在多种合理的“正确”方法,以及研究决策的高度主观性。
AI评估成本已突破关键阈值,正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演,单次前沿模型测试成本可达2829美元。研究显示,相同任务成本差异可达33倍,脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减,但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果:例如在GAIA测试中,2828美元方案准确率28.5%,而1686美元方案反达57.6%。当评估包含模型训练时,成本将完全超越常规API框架。
一项测试显示人工智能在计算碳水化合物摄入量时存在显著不一致性。测试要求AI进行27000次计算,结果每次答案均不相同,无法保证重复性。这一发现突显了AI系统在精确计算任务中的不可靠性,尤其对医疗健康管理等需要高可靠性的领域构成挑战。测试基于糖尿病技术网站的文章,相关讨论在Hacker News上获得116点关注,引发对AI算法稳定性的质疑。
为评估AI智能体在自主科学研究中的文献发现能力,研究者推出了AutoResearchBench基准测试平台。它包含两项任务:“深度研究”需通过多步探索定位特定论文;“广度研究”需全面收集满足条件的论文系列。该基准具有研究导向性、文献聚焦性和开放探索性三大特点,对智能体的科学理解与精细推理能力提出高要求。实验显示,即使最强大的大语言模型在深度研究任务上准确率仅为9.39%,在广度研究任务上的IoU指标仅为9.31%,凸显了任务的艰巨性。相关数据集与代码已开源。
针对现有基准在环境隔离、任务单一和意图假设完美等方面的局限,本文提出了DV-World基准。该基准包含260个任务,旨在真实工作流中评估数据可视化智能体。它涵盖三大领域:支持原生电子表格图表创建与诊断的DV-Sheet、要求跨编程范式重构可视化以适应新数据的DV-Evolution,以及通过模拟模糊需求测试主动意图对齐的DV-Interact。基准采用结合数值对齐与多模态大模型语义视觉评判的混合评估框架。实验表明,当前最先进模型整体表现不足50%,凸显其处理真实世界复杂挑战的能力存在严重缺陷。DV-World为引导智能体发展企业级综合专业知识提供了现实测试平台。
HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时,能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息,核心指标 Ask-F1 综合衡量提问精准度与障碍召回率,以平衡过度提问与盲目猜测。评估显示,当前前沿模型在判断求助时机上存在普遍缺陷,其完整信息性能仅能恢复一小部分。失败模式主要体现为三种:过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练,一个 32B 模型在求助质量与任务通过率上均获得提升,且能力可跨领域迁移,表明判断力可通过训练改进。
现有视觉语言模型(VLM)的空间智能评估存在系统性缺陷:基于点云标注的问答对在视频评估中因重建误差和标注伪影导致答案错误或模糊,且评估常假设全场景访问,而实际模型仅处理稀疏采样帧。为提升评估有效性,我们提出ReVSI基准,通过重新标注5个数据集的381个场景并严格生成可信问答对,确保问题在模型实际输入下可答且答案正确。该基准提供多种帧预算变体及细粒度物体可见性元数据,支持可控诊断分析。在ReVSI上的评估揭示了以往基准掩盖的系统性故障模式,实现了更可靠、更具诊断性的空间智能评估。
研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。
每年系统故障导致损失超万亿美元,工程师需通过分析时间序列数据快速定位问题。时间序列问答(TSQA)是关键运维任务,对AI模型构成挑战。为此,研究团队推出ARFBench基准,基于Datadog真实内部事件及遥测数据构建。测试显示,当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型,其整体性能接近前沿水平,为TSQA任务提供了新评估框架和改进方向。
一款名为OSS Agent的开源智能体在谷歌Gemini-3-flash-preview模型上运行,成功登顶终端操作基准测试TerminalBench榜首。该智能体由开发者独立构建,其GitHub仓库地址已公开。这一成果在技术社区Hacker News上获得了113个点赞,引发了广泛关注。