CODA-BENCH 是首个同时评估代码智能体在代码与数据两方面能力的基准测试,专为数据密集型环境设计。该基准基于 Kaggle 生态系统搭建,包含数百个数据集,共 1009 个任务,覆盖 31 个社区。每个任务环境平均拥有 980 个文件,模拟真实的数据规模与噪声。对现有高级智能体的评估显示,即使表现最佳的系统也难以有效整合数据发现与代码执行,成功率仅为 61.1%,暴露了当前智能体在处理数据密集型任务时的能力缺口。
Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...
NVIDIA 首次在 AgentPerf(由 Artificial Analysis 开发)中评测智能体 AI。该基准测试的不是传统 token 生成速度,而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径(长链模型调用、代码编辑、命令运行、工具延迟、增长上下文),涵盖 12+ 编程语言,请求长度 5K–131K tokens(平均 27K)。结果:GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体,H200 仅为 2.6K(20 倍提升)。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统,配合软件优化(MoE 专家分布、通信与计算重叠、大批量保持)。
Artificial Analysis 发布新基准 AA-AgentPerf,首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell(GB300、B300)、Hopper(H200)及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数(要求 20 tokens/s 且 TTFT≤10s):GB300(机架级解耦)达 61,354,B300(单节点解耦)21,053,MI355X 3,551,H200 2,594。基准使用真实编码 agent 轨迹(最多 200 轮、序列超 100K tokens),允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍,且代际大幅领先 Hopper;MI355X 配置较早且未稳定启用推测解码,仍有优化空间。
《自然·医学》一项研究发现,通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中,盲审医生更偏好前沿模型,尤其在其回答的完整性和清晰度方面。
Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...
Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...
AGENTCL 提出评估 AI 智能体是否真正从经验学习,而非单纯累积信息。通过构建组合任务流(前序任务包含可被后续任务复用的代码片段、研究证据或工作流),与无固定复用线索的随意任务流对比。关键发现:当前记忆方法在任务连接明显时可复用过去经验,但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。
苹果发布了新版Siri AI,The Verge编辑David和Nilay在The Vergecast中分享了初期体验。过去十几年Siri在"部分功能勉强可用"和"彻底翻车"之间摇摆,而新版Siri AI在多数任务上表现足够出色,尽管没有带来突破性创新,但相比过往已发生质变。
Claude Fable 5 在 Artificial Analysis Intelligence Index 中取得 64.9 分,在十项基准测试中有五项创下纪录。相比 Opus 4.8,性能提升仅 5.7%,但 token 价格翻倍。安全过滤与回退路由功能进一步推高了成本。
olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。相比 OLMES,它减少了新增评测的实现工作量,支持 agentic 和多轮评测作为一等用例,并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构,模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同,olmo-eval 聚焦开发阶段快速迭代,可逐问题对比检查点输出以区分真实改进与噪声。
For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...
IndustryBench-MIPU是首个大规模多图像工业产品理解基准,聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注,通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示:单图像属性提取精度达86–94%,但产品级多图像召回最高仅49.9%;从单图像转向多图像提取时,召回率下降15–34个百分点。多图像完整性是核心瓶颈,而非单图像准确率。数据集与代码已公开。
Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。
EvoArena是一个基准套件,将环境变化建模为终端、软件和社交领域的渐进更新序列,用于评估LLM智能体在动态环境中的表现。实验显示,当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式,通过结构化更新历史记录记忆演化,使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升,在GAIA和LoCoMo上分别提升6.1%和4.8%,并将EvoArena链级准确率提升3.7%。机制分析表明,EvoMem改善了记忆中的证据捕获,更完整地保留演化环境状态。
EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。
atomic[.]chat 在单张 H100(FP8)上对比 DiffusionGemma 26B A4B 与 Gemma4 26B A4B 在事实性写作任务中的表现。DiffusionGemma 速度达 763 tok/s(3.7 秒),是 Gemma4(218 tok/s,15.1 秒)的 4 倍,但错误率显著更高。在 Steve Jobs 传记、Tetris 历史和 BeOS 故事三项任务中,Gemma4 答对 45 个事实、错 5 个;DiffusionGemma 仅对 33 个、错 28 个。主题越冷门错误越多:Jobs 4 错、Tetris 12 错、BeOS 12 错,例如将 Jobs 母亲写为 Clara Clley、为 Tetris 发明者虚构同事 Geri Gulovik、将 BeBox 价格误报为 $9,999(实价 $1,600)。原因在于 DiffusionGemma 一次生成 256 tokens 并多轮抛光,只追求文本流畅性而非事实准确性。Google 官方也建议在事实重要时使用常规 Gemma4。
Diffusion Gemma is 4x faster, but makes 6x more mistakes! We benchmarked the new diffusion LLM against its autoregressiv...
MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。
PhoneHarness是一个面向手机智能体的混合动作基准与执行框架,支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流,而非仅输出合理答案。在标注评测集上,PhoneHarness达到75.0%通过率,超出最强非PhoneHarness设置12.9个百分点。结果表明,可靠的手机自动化依赖动作表面路由与可验证执行,而非单纯的视觉GUI控制。
Claude Fable 5 在编码任务中取得中等水平结果,Hacker News 上获 109 个点赞。
随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。
Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...
苹果在 WWDC 2026 推出 CoreAI 引擎,接替 CoreML,主攻端侧大语言模型推理。首批测试显示,M4 Mac 上运行 Qwen3 0.6B 时 CoreAI 解码速度约是 MLX 的 2.47 倍,iPhone 17 Pro 上约 1.6 倍;但模型升至 Qwen3 8B(M4 Max)时优势缩至 5%。持续负载下 iPhone 17 Pro GPU 降频,CoreML 配合苹果神经引擎(ANE)性能保持率反超。横向对比,谷歌 LiteRT-LM 运行 Gemma 达 55.4 tok/s,RAM 仅 641 MB,而 MLX 占用 2900 MB。
Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议,用于在公平设置下比较通用智能体框架(claws)的编程能力。完整基准包含350个GitHub issue解决实例,覆盖8种语言和43个仓库,来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上,OpenClaw搭配最小适配器仅得19.1% Pass@1,而完整适配器使用相同GLM 5.1骨干达到73.4%,表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点,框架选择改变27.4个百分点;相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。
一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。
外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。
一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。
DailyReport 是一个用于评估搜索智能体(Search Agents)在日常搜索任务中能力的开放基准。它包含 150 个开放式任务和 3,546 条级联评分规则,将每个任务分解为子任务,并在可分离维度上进行细粒度评分。通过级联性能归因和以用户为中心的聚合,得到每个维度的可解释分数及用户偏好分数。在 17 个智能体系统上的测试结果显示,当前系统仍未达到用户期望。数据集和代码已公开。
针对电子表格中预测用户后续操作的功能缺失,该研究提出新的评估基准。手动从公开语料库整理52个操作序列(共计12K条操作),通过参数化启发式与LLM精炼生成。在线评估方法在每个用户操作后要求模型进行预测,接受或拒绝预测结果,接受则更新后续操作,直至目标电子表格达成。基线预测器涵盖零样本LLM、微调SLM与经典模型。实验分析了已保存操作与假阳性、效率、用户画像、触发条件和上下文等关键属性。
研究提出对抗性重新包装攻击,在不改动科学证据(方法、实验、数据等)的前提下,仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容,并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上,攻击成功率达75.1%,平均得分提高+1.21/10。策略中,相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式:AI审稿人更易被亮点打动而非被说服,且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。
no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...