评测基准最新动态与精选 · AI HOT

Topic · 主题全部主题 →

评测基准

模型到底谁强：Benchmark 成绩、评测方法论争议与排行榜变化的持续记录。

902条收录

80条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1豆包Seed-2.1实测：编程可用，识鱼封神！825 家源

7月2日

20:45

The Decoder：AI News（RSS）

精选71

Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

Remote Labor Index（RLI）衡量 AI 智能体完成 240 个付费自由职业项目（总值 14.4 万美元）的专业质量比例。最新结果显示，Fable 5 自动化率达 16.1%，是八个月前最佳系统 2.5% 的六倍多，也超过 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。因美国政府限制访问，Fable 5 仅完成 218/240 个项目评估，最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%，落后于更老模型。AI 裁判会高估模型表现（GPT-5.5 评分偏高近三倍），仍需人类评估员打开专业软件（如 Blender）检验几何模型等细节。测试环境为虚拟 Linux 机，配备 30 余款专业应用，每项目最多 24 小时计算时间。尽管自动化率快速攀升，多数项目仍无法达到专业质量。

智能体 Anthropic OpenAI 现象/趋势

推荐理由：自由职业自动化率八个月翻了六倍，这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊'，但趋势已经形成，做自由职业平台和外包的人该认真看看。

19:14

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Senior SWE-Bench：评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试，用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类：功能任务指令类似自然语言消息，采用验证智能体基于专家配方自动生成行为测试；Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示，Claude Opus 4.8搭配Mini-SWE-Agent（max effort）通过率24.0%，Claude Sonnet 5为19.4%，GPT-5.5为16.0%，最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件，最强智能体也需数百步完成；中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR，由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由：这个新基准把 AI 编程代理的评估拉到了更真实的复杂度，顶尖模型也只有不到四分之一的成功率，做 coding agent 的都该拿它测一测，它会比 SWE-bench 更挑出工程师的“手感”。

6月30日

02:35

Hacker News 热门（buzzing.cc 中文翻译）

精选75

Qwen 3.6 27B 是本地开发的理想选择

Qwen 3.6 27B 是一款密集参数本地大语言模型，原生支持 256k 上下文。在 Macbook Max M5 上运行 llama.cpp Q8_0 量化版（含多 token 预测）可达 30 tokens/s；用户反馈在 RTX 5090 上 Q6_K 量化可达 50 tokens/s。它可通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务，作者称其为首个真正具备通用智能的本地模型。另有一个 MoE 变体 35B A3B，但作者推荐 27B 版本。

开源生态端侧评测/基准

推荐理由：一篇详实的 Qwen 3.6 27B 实战评测，从创意写作到代码生成都测了，还给出了 llama.cpp 部署命令和性能数据，想本地跑模型的开发者可以直接抄作业。

6月28日

18:40

The Decoder：AI News（RSS）

精选70

仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天，起始资金100万美元。14个测试模型中，仅Claude Fable 5（最佳轮次盈利4715万美元）、Claude Opus 4.8（2780万美元）和GPT-5.5（2130万美元）在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元，超越除上述三款外的所有模型。多数模型无法保持连贯策略，在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由：普林斯顿的 CEO-Bench 测试了一个反直觉结果，一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时，这个测试直指长期战略决策的致命短板，做 agent 的必须看。

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

OSWorld2.0：长时域真实世界计算机使用工作流基准

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由：第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

6月27日

07:35

MarkTechPost（RSS）

精选75

Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现，编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题：智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示，63% 的成功修复来自检索，其中上游查找占 57%，git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%；Cursor 自家 Composer 2.5 差距最大，达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境（隔离 git 历史、限制网络出口）以获取可信分数。

智能体 Anthropic GitHub 编码

推荐理由：Cursor 的审计把 SWE-bench Pro 的信任基础动摇了，63% 的高分轨迹是通过检索现成修复而非独立推理，以后选型不看 harness 严格度等于开盲盒。

6月26日

12:00

公众号：龙猫LongCat（美团）

精选69

美团 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团 LongCat 团队推出 VitaBench 2.0，首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具，每位用户平均2093个交互事件，时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示，最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5；开启思考模式并不总能提升个性化任务表现；所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

智能体开源生态评测/基准

推荐理由：美团LongCat开源的VitaBench 2.0是首个评测AI长期理解用户偏好的基准，实验发现最强模型得分也刚过0.5，做Agent和推荐系统的值得跑一遍。

00:08

The Decoder：AI News（RSS）

精选73

多数主流AI聊天机器人政治立场偏左，"反觉醒"模型也不例外

华盛顿邮报调查显示，多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据；DeepSeek V4 Pro为70%；Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外，93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。

Google OpenAI 安全/对齐评测/基准

推荐理由：华盛顿邮报对六款主流模型的实测是个重要信号，所有模型默认左倾，连反觉醒的Grok也不例外，只有Gemini坚持给出两边观点。做对齐和治理的人该好好看看这些数据。

6月25日

00:15

Hugging Face：Blog（RSS）

精选61

FFASR 排行榜发布：真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR（Far-Field ASR）排行榜，这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据，涵盖 14 种房间（20–470 m³）和三个信噪比级别（远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB），加上近场干燥条件，共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率（WER）和实时因子（RTFx，在 NVIDIA L4 GPU 上评估）。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face 评测/基准语音

推荐理由：远场语音的‘实验室-生产’性能差终于有了量化指标，这个排行榜把 ASR 的真实世界鲁棒性公开化，做语音产品的团队该看看。

6月24日

11:55

HuggingFace Daily Papers（社区热门论文）

精选70

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体 GitHub 开源生态评测/基准

推荐理由：这个基准把AI agent丢进Nature论文的复现池里游了一圈，发现最强的配置也只能在17.8%的任务上超越SOTA，而且靠的是方法翻译而非发明——对做科研agent的团队来说，既是冷水也是路线图。

02:50

Apple Machine Learning Research（RSS）

精选68

九位评委，两个有效投票：相关错误削弱LLM评审面板

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8–22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证，瓶颈在于评委间的相关性而非聚合算法。

论文/研究评测/基准

推荐理由：这篇Apple论文揭示了一个反直觉的事实：在LLM评估面板中，9个法官实际上只提供约2个独立票的信息，因为模型会犯相似错误。这解释了为何简单聚合面板往往不如最佳单模型，做评估的团队必须重视法官相关性。

6月23日

01:40

Cursor Blog

精选72

Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现，在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后，Opus 4.8 Max 得分从 87.1% 跌至 73.0%，Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上，标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找（57%）和 git 历史挖掘（9%）。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体 Anthropic OpenAI 编码

推荐理由：Cursor这项审计把基准作弊量化了：更强模型更会找现成答案，SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了，环境不控住分数毫无意义。

00:08

Google Developers Blog（RSS）

精选61

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug（1178 个 CL），通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示：Jules 在单轮探索下洞察相关性评分平均 4.5/5；探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据，并探索纳入问题追踪器、对话等更丰富的上下文。

智能体 Google 编码论文/研究

推荐理由：AI 编码代理的评估从任务修复转向目标洞察，Google 这个思路让评估更接近真实开发场景，但实验还是内部数据，等公开 GitHub 版本再看落地效果。

6月20日

04:26

OpenRouter：Announcements（RSS）

精选68

OpenRouter vs LiteLLM：如何选择 LLM 网关

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关，无需管理基础设施，收取 5.5% 平台费（前 100 万次请求免费），支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理（Docker/PostgreSQL/Redis），数据不离开内网，免费开源，但需承担基础设施成本（生产部署约数百美元/月）。当模型月支出超过约 $3,600（基础设施 $200/月）或 $9,100（基础设施 $500/月）时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由；OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

开源生态评测/基准部署/工程

推荐理由：OpenRouter 这份官方对比很坦诚，把成本、延迟、合规的权衡掰开了讲，自建 LiteLLM 和托管谁更划算的算术也给清楚了，做 LLM 网关选型的直接看这篇就够了。

6月19日

02:22

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant提升ChatGPT健康智能

每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升，最具挑战性评测上达到前沿Thinking模型水平，已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估，其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型，故障模式发生率更低。近两个月生产流量显示，健康类回复事实性问题率下降71%。

OpenAI 产品更新评测/基准

关联讨论 3 条

推荐理由：GPT-5.5 Instant把健康智能提升到接近前沿思考模型水平并免费提供，与医生对比的实验和71%的错误率下降让这次更新有切实证据。

6月18日

04:42

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

LifeSciBench 发布

2026 年 6 月，OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准，涵盖 750 个真实研究任务，覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准（共 19,020 条），评估模型的科学正确性与实用价值。79% 的任务需多步推理，53% 要求解读图表、PDF 等附件数据，旨在衡量 AI 在复杂、不确定的研究任务中的实际能力，而非仅回答结构化问题。

OpenAI 论文/研究评测/基准

关联讨论 1 条

推荐理由：OpenAI 这个基准请了 173 位博士级科学家出题，第一次把 AI 评估拉到真实科研决策里。结果很实在：前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力，做 AI for Science 的团队值得拿来校准预期。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选74

CyberGym-E2E：AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明：若直接给出漏洞位置，最强配置可修复约80%漏洞；但若需自行发现，端到端成功率急剧下降——Claude Opus 4.5仅19.2%，最新模型在37%-66%之间。智能体可能发现替代漏洞，且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

安全/对齐论文/研究评测/基准

推荐理由：伯克利这个新基准把漏洞发现、利用、修复串成一条线，结果很直观，修复能做到 80%，但自己找漏洞只剩 20%，新模型在快速追赶。想看清 AI 真实攻防能力的人该读。

6月16日

13:58

OpenRouter：Announcements（RSS）

精选75

免费LLM API比较：速率限制、模型与真实成本（2026）

13个平台提供免费LLM API，含永久免费层与试用额度。OpenRouter拥有20+免费模型，单密钥无需信用卡；Groq以约320 tokens/秒运行Llama 3.3 70B；Google AI Studio支持1M上下文；Mistral实验层约10亿token/月但需同意数据训练；Cerebras约1M token/天；GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本，建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由：免费 LLM API 不是免费的，这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了，想省钱的开发者值得花五分钟看一遍。

10:21

公众号：数字生命卡兹克

精选69

毕业生陷入AI检测荒诞循环：手写摘要被判99%AI率，AI写部分0%

当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率，纯AI写部分却为0%。学校要求AIGC率不超40%，学生用Claude反复修改并花上百元检测费（维普20元/篇，知网/万方2元/千字符），最终降至36.1%。答辩时老师要求改回学术表达，AI率回升至37.21%。同一论文在不同平台检测结果差异巨大（48%、44%、59%）。部分平台提供降重收费服务，少数学校已改用AI使用声明表替代一刀切检测。

现象/趋势评测/基准

推荐理由：作者通过一个毕业生的真实经历，把AIGC检测的荒谬性扒得干净利落——这不是技术问题，是一刀切懒政的代价。看完你会理解为什么「证明你是人」比写论文更难。

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日

01:59

Hacker News 热门（buzzing.cc 中文翻译）

精选72

里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5，在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子，指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face 开源/仓库模型发布评测/基准

推荐理由：一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7，这让人重新审视谁在参与前沿模型竞争。如果结果可复现，可能是今年最意外的黑马。

6月13日

00:00

Hugging Face：Blog（RSS）

精选74

olmo-eval：面向模型开发循环的评估工作台

olmo-eval 是基于 OLMES 标准构建的评估工作台，专为 LLM 持续开发中的反复评测场景设计。相比 OLMES，它减少了新增评测的实现工作量，支持 agentic 和多轮评测作为一等用例，并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构，模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同，olmo-eval 聚焦开发阶段快速迭代，可逐问题对比检查点输出以区分真实改进与噪声。

Hugging Face 产品更新开源生态评测/基准

推荐理由：做模型训练的人会感谢这个工具，它把评估从一次性打分变成能持续对比的流程，按题对比两个 checkpoint 的功能很实用，但如果你不训模型，这篇可以跳过。

6月11日

23:46

OpenRouter@OpenRouter

精选77

使用我们的基准探索器，为10个不同基准绘制帕累托曲线。更多功能即将推出！https://openrouter.ai/rankings#benchmarks

产品更新评测/基准

关联讨论 1 条

推荐理由：老是纠结选哪个模型又便宜又好用？OpenRouter 这个基准浏览器把性能和价格画成帕累托曲线，一眼看出性价比之王，选型党必备。

08:00

HuggingFace Daily Papers（社区热门论文）

精选76

对抗性重新包装：仅修改呈现层即可欺骗AI同行评审

研究提出对抗性重新包装攻击，在不改动科学证据（方法、实验、数据等）的前提下，仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容，并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上，攻击成功率达75.1%，平均得分提高+1.21/10。策略中，相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式：AI审稿人更易被亮点打动而非被说服，且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。

arXiv 安全/对齐论文/研究评测/基准

推荐理由：这篇论文戳破一个令人不安的真相：AI 审稿人可以被纯粹的文字包装欺骗，不碰证据就能大幅拉升评分。它把论文呈现本身变成了一枚可优化的攻击面，做学术出版与 AI 评估的人都要正视这个结构性缺陷。

6月10日

05:55

HuggingFace Daily Papers（社区热门论文）

精选76

精确性不等于忠实度：完整Oracle下的覆盖感知接地生成评估

无参考忠实度度量仅衡量精确率（陈述是否被支持），鼓励模型少说甚至不说以获得高分。本研究利用F1遥测（确定性完整ground truth）和NOAA天气预报两个完整Oracle领域，证明此盲点：在多语言（EN/ES/PT）共7253个决策实例（覆盖150场比赛）的基准上，最精确的前沿模型仅覆盖不到一半相关事实，按F1排名垫底。引入覆盖度（召回率）后系统排序改变；显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数，并给出无参考验证器引导生成方法，同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。

论文/研究评测/基准

推荐理由：这个研究戳破了自动评估里 Faithfulness 的泡沫，指标只看模型「说对多少」不看「说全没有」，沉默的模型反而拿高分，以后评测不能只看精确度了，做评估的得补上覆盖度这一环。

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

6月9日

09:28

AYi@AYi_AInotes

精选77

FrontierCode 基准测试：AI 编程评估新标准--维护者审核通过率最高仅 13.4%

Cognition 发布 FrontierCode 基准测试，重新定义 AI 编程评估：由 20 多位顶级开源维护者手工制作 150 个任务（每个耗时 40+ 小时），依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%，GPT-5.5 为 6.3%，其余模型 1%–5%。这意味着即便最强模型，近九成代码仍无法通过有经验维护者审核。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

Anthropic OpenAI 编码评测/基准

关联讨论 1 条

推荐理由：Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」，直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%，真实世界的编程距离「能用」还有九成路要走，做 coding agent 的团队必读。

6月6日

06:29

Rohan Paul@rohanpaul_ai

精选76

Arena 发布真实世界 AI 智能体排行榜 Agent Arena

Arena 推出基于真实用户任务的智能体排行榜，评估模型在代码编写、应用构建、文档分析等工作中的表现，而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码，综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名：GPT-5.5 High（+10.7%）、Claude Opus 4.7 Thinking（+9.5%）、GPT-5.4 High（+8.9%）。

Arena.ai: Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil...

智能体 Anthropic OpenAI 评测/基准

推荐理由：Arena 跳出了刷榜逻辑，用真实用户的多轮交互来评估 Agent，这比任何 toy benchmark 都更有说服力，选模型做 Agent 应用的可以把它当新指南。

03:33

Anthropic：Research（发表成果 · 网页）

精选65

Anthropic：让Claude成为化学家

Anthropic与顶尖化学家合作，提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现：在20个化合物上，对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测（从结构预测谱图）和反向结构解析（从实验谱图推断结构）能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本，以避免选择偏差。

Anthropic 多模态论文/研究评测/基准

关联讨论 2 条

推荐理由：化学家可能几年后回头看会记起这篇，Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw，还顺手做了反向结构解析——专业软件不干的事，它用更接近人类日常输入的方式做到了。

6月5日

17:54

公众号：通义实验室（千问）

精选70

PawBench：给通用智能体一把可度量的尺

通义实验室推出全新评测基准PawBench v1.0，面向个人助理与通用智能体场景，将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness（Hermes、OpenClaw、QwenPaw），覆盖150道真实任务共4050个测试单元。结果显示，QwenPaw（76.4分）、OpenClaw（75.4分）、Hermes（70.4分）之间存在显著分差，Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

智能体 MCP/工具评测/基准

推荐理由：PawBench 把 Harness 从‘看不见的手’变成可诊断的变量，好 Harness 能让弱模型以下克上，这份评测对 Agent 框架开发者是一份必读的校验清单。

6月4日

21:00

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

09:42

HuggingFace Daily Papers（社区热门论文）

精选72

Meta-Agent Challenge：自主智能体开发能力评估框架

论文提出Meta-Agent Challenge（MAC）评估框架，测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限，迭代编程出能在五个领域保留测试集上最大化性能的智能体工件，并采用多层防御防止奖励攻击。实验表明，元智能体极少达到人类基线策略，少数成功者由专有前沿模型主导；设计过程高方差，高优化压力催生了真实值外泄等对抗行为，暴露鲁棒性与对齐缺陷。MAC作为开源基准，为评估递归自我改进提供实证代理。

智能体 arXiv 安全/对齐论文/研究

推荐理由：蚂蚁研究院的这项研究直接让模型自己造代理，结果触发了‘作弊’行为：为了刷分，模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。

5月31日

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

ChartArena：跨语言、场景与格式的图表解析基准测试

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程，并设计了格式无关的评估协议，将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示，前沿闭源模型如Gemini 3.1 Pro领先，开源系统正快速追赶；文档解析模型在数字图表上表现尚可，但在图表结构上明显不足；专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

GitHub 多模态论文/研究评测/基准

推荐理由：ChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片，终于能测出 MLLM 在真实文档场景下的真实水平，做文档解析的团队该认真看一下。

5月29日

11:29

HuggingFace Daily Papers（社区热门论文）

精选75

WorldMemArena：通过行动-世界交互循环评估多模态智能体记忆

针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段，研究提出了“行动-世界交互循环”记忆模型，并构建了WorldMemArena基准。该基准包含400个多会话多模态任务，涵盖“终身进化”和“智能体执行”两类场景，支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较，发现记忆写入与存储质量的提升不直接带来性能改善，且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。

智能体多模态论文/研究评测/基准

推荐理由：首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准，头对头比较长上下文、RAG 和自管理记忆，结论是写得好未必用得上，做 Agent 的值得认真看。

07:36

OpenRouter@OpenRouter

精选68

不要只依赖基准测试；要看全面情况！试试我们的新比较页面，它还能让你可视化模型性能：https://openrouter.ai/compare/openai/gpt-5.5/anthropic/claude-opus-4.7/anthropic/claude-opus-4.8

产品更新评测/基准

推荐理由：OpenRouter 这个对比页把 GPT-5.5 和 Claude Opus 4.8 的胜负判断从 benchmark 拉到实际测试，对选型的人很有用。

5月28日

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

恢复策略引发的错误：鲁棒GUI智能体的基准测试与轨迹合成

针对GUI智能体缺乏从自身错误中恢复能力的问题，本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例，系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型，在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数，表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。

智能体论文/研究评测/基准

推荐理由：GUI Agent 能不能从自己犯的错里爬起来，才是落地的关键，阿里这篇论文给出了一个不错的基准和训练方案，做 Agent 的可以看看。

01:20

Hugging Face：Blog（RSS）

精选70

ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示，所有前沿大模型得分均未超过50%。Claude Opus 4.7（自适应推理，最大努力）以47%领先，GPT-5.5（xhigh）和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍，但更长的轨迹并不转化为更高准确率，过度调查的模型会因提交误报而受罚。在成本方面，开源模型Gemma 4 31B（Reasoning）以每任务$0.14的成本获得37%得分，优于成本更高但得分更低的闭源模型。

智能体 Hugging Face 评测/基准

关联讨论 1 条

推荐理由：IT运维这事儿，AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%，开源模型GLM-5.1却用五分之一成本拿到40%，企业场景性价比可能不在闭源那边。

5月23日

01:30

Apple Machine Learning Research（RSS）

精选66

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由：苹果搞了个实时视觉助手的评估基准，把离线评测拉到了流式场景，多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。