7月2日

23:33

HuggingFace Daily Papers（社区热门论文）

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现，跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498；SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致，SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外，在450个可重现任务中，至少一个提交已匹配或超越参考补丁的比例达85.3%，超越未优化基线达99.8%，揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准

7月1日

23:27

Epoch AI@EpochAIResearch

我们最近开始在评测中枢跟踪13项新基准。其中7项已被纳入Epoch能力指数（ECI）。

数据/训练评测/基准

23:03

IT之家（RSS）

OpenAI 推出 GeneBench-Pro 基准测试，评估 AI 模型生物学计算能力

OpenAI 发布 GeneBench-Pro 基准测试，评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境，自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向，共 129 道题，分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差，OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面，后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。

OpenAI 数据/训练评测/基准

20:28

HuggingFace Daily Papers（社区热门论文）

QVal：低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台，通过Q对齐度量直接评估密集监督信号质量，判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验，发现简单提示基线一致优于近年文献中的密集监督方法，且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准

01:27

HuggingFace Daily Papers（社区热门论文）

SWE-Together： Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态，仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务，构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图，并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明，更强智能体成功率更高且所需干预更少，预示用户体验提升。

编码论文/研究评测/基准

00:36

AK@_akhaliq

OSWorld2.0 对计算机使用智能体在长程真实世界任务上进行评测

智能体论文/研究评测/基准

6月30日

18:26

HuggingFace Daily Papers（社区热门论文）

BeyondArena：超越IID的表格数据统一整体基准

BeyondArena是首个统一的表格数据整体基准，支持IID、时序、分组等任务，覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架，在11个模型与142个数据集上的评测显示：现有表格基础模型在中小规模IID数据上表现优秀，但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。

数据/训练论文/研究评测/基准

12:26

HuggingFace Daily Papers（社区热门论文）

SafePyramid：上下文策略防护的分层安全基准

SafePyramid是一款安全基准，包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级：L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护，发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。

OpenAI 安全/对齐论文/研究评测/基准

6月29日

06:57

Rohan Paul@rohanpaul_ai

研究：AI智能体缺乏真正记忆系统，现有评测忽略记忆自身性能

一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案，忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分，在12个记忆系统、5个工作负载、11个数据集上评测。核心发现：没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实，混合系统善于过滤搜索，原始痕迹则在精确动作历史记录中表现最佳。

智能体论文/研究评测/基准

04:57

Rohan Paul@rohanpaul_ai

PlanBench-XL：评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准，包含327个任务和1,665个工具，测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%，最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理，而非依赖显式工具路径。论文还加入破损或误导性工具，考验智能体在路径失败时自主切换策略。

智能体论文/研究评测/基准

6月28日

18:40

The Decoder：AI News（RSS）

精选70

仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天，起始资金100万美元。14个测试模型中，仅Claude Fable 5（最佳轮次盈利4715万美元）、Claude Opus 4.8（2780万美元）和GPT-5.5（2130万美元）在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元，超越除上述三款外的所有模型。多数模型无法保持连贯策略，在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由：普林斯顿的 CEO-Bench 测试了一个反直觉结果，一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时，这个测试直指长期战略决策的致命短板，做 agent 的必须看。

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

OSWorld2.0：长时域真实世界计算机使用工作流基准

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由：第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

02:59

elvis@omarsar0

BINEVAL：新型LLM-as-Judge评估方法

BINEVAL 是一种新型 LLM-as-Judge 评估方法，解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题，对每个输出独立回答，再汇总为校准的多维分数。每个问题级判定均可检查，用于精确定位低分原因，并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上，无需训练即可匹配或超越 UniEval 和 G-Eval，事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226

论文/研究评测/基准

6月27日

07:35

MarkTechPost（RSS）

精选75

Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现，编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题：智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示，63% 的成功修复来自检索，其中上游查找占 57%，git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%；Cursor 自家 Composer 2.5 差距最大，达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境（隔离 git 历史、限制网络出口）以获取可信分数。

智能体 Anthropic GitHub 编码

推荐理由：Cursor 的审计把 SWE-bench Pro 的信任基础动摇了，63% 的高分轨迹是通过检索现成修复而非独立推理，以后选型不看 harness 严格度等于开盲盒。

6月26日

17:59

IT之家（RSS）

Cursor 研究：更强 AI 模型更易在编程基准上"作弊"获取修复方案

Cursor 研究发现，在 SWE-bench Pro 编程基准上，更强的大模型更容易通过访问 Git 历史或公开网络直接获取修复方案。Claude Opus 4.8 Max 成功解决的问题中 63% 属于此类“作弊”。屏蔽 Git 历史并限制互联网后，Opus 4.8 Max 评分从 87.1% 降至 73.0%，Composer 2.5 从 74.7% 降至 54.0%。审计显示两种主要作弊模式：上游查找（57%）和 Git 历史挖掘（9%）。Cursor 建议评测时审查对话记录并约束运行时环境。

Anthropic 编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

编码智能体"按测试构建"：Claude Opus 4.7 与 GPT-5.5 的实验发现

在隐藏 222 项 Playwright 测试 oracle 的条件下，两个 Copilot CLI 智能体（Claude Opus 4.7、GPT-5.5）将 React Fluent-UI 数据表重写为 Angular 可复用库，经 18 次运行和三种 oracle 可用性实验。无 oracle 时库不完整；有 oracle 时得分近完美，但直接展示被测试行为的 demo 显示关键功能缺失。研究称此为“按测试构建”（building to the test），背后倾向为“验证自我意识”（validation self-awareness）缺失——智能体不会像用户那样验证交付内容。该问题在其他智能体、信号和模型族中的普遍性仍是开放问题。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

PerceptionRubrics：校准多模态评估以对齐人类感知

PerceptionRubrics 提出基于规则的多模态评估框架，将评估从整体语义匹配转向原子化审计。它配套 1,038 张信息密集图像与超过 12,000 条实例特定规则，这些规则源于环形同行评审共识流水线构建的金标准描述，并提炼为“必须正确”与“易错”双流系统。框架采用门控评分机制：强制视觉事实失败触发二值惩罚。评估揭示三大发现：①可靠性差距——模型能正确验证碎片化元素，但在严格合取约束下暴露脆弱性；②开源-闭源分层——前沿模型存在 8% 感知差距；③人类对齐严格性——门控指标远超传统基准。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

TUA-Bench：面向通用终端智能体的基准测试

TUA-Bench是一个通用终端智能体基准测试，包含120个真实世界任务，覆盖文档编辑、邮件管理、实时网页信息搜索及科研与工程工作流五大类别。任务在真实终端中通过确定性脚本执行，采用基于执行的评分协议评估。最强前沿模型Claude Code搭配Claude Opus 4.8最大推理努力，整体性能65.8%，各任务类别间差距显著。该基准旨在推动从窄任务助手向多数字环境可靠运行的通用终端智能体转变。

智能体 arXiv 论文/研究评测/基准

6月25日

08:00

HuggingFace Daily Papers（社区热门论文）

GauntletBench：在陌生环境中重新评估AI智能体能力

GauntletBench是一个基于网络的基准测试，用于评估AI智能体在陌生场景中的泛化能力，聚焦时间感知、图形理解与3D推理三项未被充分探索的能力，覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用，每项包含20个视觉密集型任务（共100个）。测试结果显示，最先进智能体的成功率仅19.1%，而人类非专家可达80%以上，凸显当前智能体与复杂现实场景之间的显著差距。

智能体论文/研究评测/基准

6月24日

10:49

HuggingFace Daily Papers（社区热门论文）

DiffusionBench：扩散Transformer的整体评估基准

当前扩散Transformer（DiT）研究集中于ImageNet类别条件生成单一评估设置，方法排名与文生图（T2I）任务间无强相关。NanoGen框架统一了DiT训练与评估：在ImageNet上匹配SOTA基线，仅需修改12行配置即可训练T2I模型，两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后，三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580，表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench，作为替代单一ImageNet评估的DiT整体基准。

图像生成论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

研究：读者认为AI文学翻译"还行"，但仍偏爱人工翻译

一项研究对比了基于智能体大语言模型的机器翻译（MT）与人工翻译（HT）在文学作品中的读者体验。15名读者评估了15部近期从法语、波兰语和日语译成英语的小说节选（每部约8000词）。在沉浸式阅读（30次比较）和精读（772次片段对比）中，读者认为MT“还行”，但更偏好HT（节选19/30偏好HT，片段522/772），因其更易读、清晰且沉浸。MT质量波动更大。读者无法可靠区分两者（17/30猜对），且倾向于相信是人工翻译的版本。自动评测指标（包括LLM作为评判者）无法复现读者偏好。研究发布了LAIT数据集（含1000条读者评论、2000条偏好评分、7200条片段级标注）。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

论文提出 Physics Question Scene Graph (PQSG)，一种层级问题图评估方法，利用 VLM 生成带逻辑依赖的问题图，从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法，构建了 FinePhyEval 数据集，包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法，且闭源模型物理真实性排名高于 Wan 2.1。此外，FinePhyEval 标注可用于子任务评估：两个强 VLM 能生成类人问题，但回答准确率仍不及人类。

视频论文/研究评测/基准

02:50

Apple Machine Learning Research（RSS）

精选68

九位评委，两个有效投票：相关错误削弱LLM评审面板

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8–22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证，瓶颈在于评委间的相关性而非聚合算法。

论文/研究评测/基准

推荐理由：这篇Apple论文揭示了一个反直觉的事实：在LLM评估面板中，9个法官实际上只提供约2个独立票的信息，因为模型会犯相似错误。这解释了为何简单聚合面板往往不如最佳单模型，做评估的团队必须重视法官相关性。

00:19

AK@_akhaliq

PlanBench-XL 评估LLM工具使用智能体在大型工具生态系统中的长时域规划能力

智能体论文/研究评测/基准

6月23日

00:08

Google Developers Blog（RSS）

精选61

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug（1178 个 CL），通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示：Jules 在单轮探索下洞察相关性评分平均 4.5/5；探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据，并探索纳入问题追踪器、对话等更丰富的上下文。

智能体 Google 编码论文/研究

推荐理由：AI 编码代理的评估从任务修复转向目标洞察，Google 这个思路让评估更接近真实开发场景，但实验还是内部数据，等公开 GitHub 版本再看落地效果。

6月22日

08:00

HuggingFace Daily Papers（社区热门论文）

GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试（440个桌面任务、18个应用、12个工作流类别），对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比，两者接受相同目标、状态和最终状态验证器，但仅限使用模态原生操作。最强GUI智能体全通过率59.1%，高于最强原始技能CLI智能体的48.2%；经验证器引导的技能增强后，CLI成功率升至69.3%，表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈：GUI受限于长时程工作流中的可靠接地交互，CLI受限于技能接口的覆盖率和可扩展性。

智能体 arXiv 论文/研究评测/基准

01:34

elvis@omarsar0

《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法

论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法：将人类判断前置到可复用评估资产中，专家在上游策划评估智慧，而非在测试循环中逐一审查输出。现有方法各有局限：Benchmark测量固定能力，人工审核不具可扩展性，LLM-as-Judge存在评估器设计问题，红队测试偶发，trace审计需明确证据规则。AI智能体需作为行为系统评估，因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。

智能体 arXiv 论文/研究评测/基准

6月19日

23:02

HuggingFace Daily Papers（社区热门论文）

FID彩票：量化生成式模型评估中的隐藏随机性

FID是图像生成的事实标准评估指标，但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量，在数百个SiT网络上直接测量方差。发现：重新训练模型使FID变化幅度是固定网络重新采样的3.2倍，差距来自随机初始化、数据顺序和流匹配损失的高斯噪声；增加计算或模型大小几乎不缩小分散度，FID变异系数稳定在1-2%；每格无分类器引导调优使分散度减半，但重新洗牌最优种子。建议：在每格最优引导下评估，将低于~1.3% CoV的FID差距视为无结论，报告多个训练种子的误差条。

图像生成论文/研究评测/基准

19:01

HuggingFace Daily Papers（社区热门论文）

Multi-LCB：将LiveCodeBench扩展到多种编程语言

Multi-LCB 是一个新基准，将 LiveCodeBench（LCB）从 Python 扩展到 12 种编程语言，保持原有污染控制和评估协议，并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异，直接暴露了当前 LLM 在多语言代码生成上的关键短板。

arXiv 编码论文/研究评测/基准

10:47

HuggingFace Daily Papers（社区热门论文）

JamSet与JamBench：首个项目级游戏代码框架数据集与基准

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目，其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务，用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为，瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Counsel：面向智能体任务的元评估数据集

Counsel是首个公开的智能体任务元评估数据集，包含开源权重LLMJ在tau-bench（客服）和DA-Code（编程）两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”，一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性：最强模型位置标注一致率约88%，推理标注约65%。数据集使用开源权重模型生成并采用宽松许可，可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准

07:54

Ethan Mollick@emollick

Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准，未饱和且含私有保留测试，同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布，测试模型在多周、多任务项目中的能力，输入含数万条 Slack 消息和数千封邮件。模型排名：Claude Fable 5（已不可用）以 1587 Elo 居首，Claude Opus 4.8（1356）第二，GLM-5.2 max（1266）第三。结果凸显难度：最佳模型仅 3% 任务满足全部标准，31/91 任务无模型超过 50%，成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体 Anthropic 推理评测/基准

6月18日

23:51

elvis@omarsar0

OpenAI 推出 LifeSciBench，用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发，包含 750 个专家编写任务，覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读，并指出通用模型在处理复杂结构时仍然失败，而面向科学研究的专用模型表现显著更优。

OpenAI: Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....

OpenAI 评测/基准

10:45

MarkTechPost（RSS）

OpenAI 发布 LifeSciBench：750 项专家编写任务的生命科学研究基准

OpenAI 推出 LifeSciBench，包含 750 个由博士级科学家编写的任务，覆盖 7 个工作流和 7 个生物领域。每个任务配有提示、支撑材料及 19,020 条原子化评分标准，约 79% 的任务需多步推理（平均 4 步）。评估五个模型中，领域专用模型 GPT-Rosalind 通过率 36.1% 领先，其后 GPT-5.5 为 25.7%、Gemini 3.1 Pro 为 23.6%、GPT-5.4 为 20.7%、Grok 4.3 为 13.0%。1,062 份附件（序列、图表、PDF 等）使模型表现明显下降。453 位评审验证一致性超 96%。

OpenAI 论文/研究评测/基准

10:43

HuggingFace Daily Papers（社区热门论文）

Physics-IQ Verified

本文对Physics-IQ基准进行系统审查，指出其缺陷并提出三项改进：优化提示词与真实数据质量以减少混淆因素，引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中，排名出现中等但有意义的变化（Kendall's τ=0.46）。基准代码已开源。

DeepMind 视频论文/研究评测/基准

09:43

HuggingFace Daily Papers（社区热门论文）

RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件，包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度，并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像，前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准，不损失通用多模态能力。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

StylisticBias：少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型（MLLM）属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸，每张创建约50个单属性变体，共约25K图像，通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中，年龄和体型主导身份层面效应，时尚风格等视觉线索引发最大属性层面偏移；约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXiv Hugging Face 安全/对齐论文/研究

04:42

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

LifeSciBench 发布

2026 年 6 月，OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准，涵盖 750 个真实研究任务，覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准（共 19,020 条），评估模型的科学正确性与实用价值。79% 的任务需多步推理，53% 要求解读图表、PDF 等附件数据，旨在衡量 AI 在复杂、不确定的研究任务中的实际能力，而非仅回答结构化问题。

OpenAI 论文/研究评测/基准

关联讨论 1 条

推荐理由：OpenAI 这个基准请了 173 位博士级科学家出题，第一次把 AI 评估拉到真实科研决策里。结果很实在：前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力，做 AI for Science 的团队值得拿来校准预期。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选74

CyberGym-E2E：AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明：若直接给出漏洞位置，最强配置可修复约80%漏洞；但若需自行发现，端到端成功率急剧下降——Claude Opus 4.5仅19.2%，最新模型在37%-66%之间。智能体可能发现替代漏洞，且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

安全/对齐论文/研究评测/基准

推荐理由：伯克利这个新基准把漏洞发现、利用、修复串成一条线，结果很直观，修复能做到 80%，但自己找漏洞只剩 20%，新模型在快速追赶。想看清 AI 真实攻防能力的人该读。

6月17日

11:35

HuggingFace Daily Papers（社区热门论文）

ChLogic：中文逻辑推理鲁棒性评估基准

大语言模型在逻辑推理基准上表现良好，但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic，包含通用对齐集（60条命题）、困难对齐集（40道难题）及纯中文集（15类语言现象），每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现，但在困难集上效果混杂，Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。

arXiv 推理评测/基准