6月19日

10:47

HuggingFace Daily Papers（社区热门论文）

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目，其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务，用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为，瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Counsel：面向智能体任务的元评估数据集

Counsel是首个公开的智能体任务元评估数据集，包含开源权重LLMJ在tau-bench（客服）和DA-Code（编程）两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”，一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性：最强模型位置标注一致率约88%，推理标注约65%。数据集使用开源权重模型生成并采用宽松许可，可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准

07:54

Ethan Mollick@emollick

Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准，未饱和且含私有保留测试，同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布，测试模型在多周、多任务项目中的能力，输入含数万条 Slack 消息和数千封邮件。模型排名：Claude Fable 5（已不可用）以 1587 Elo 居首，Claude Opus 4.8（1356）第二，GLM-5.2 max（1266）第三。结果凸显难度：最佳模型仅 3% 任务满足全部标准，31/91 任务无模型超过 50%，成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体 Anthropic 推理评测/基准

07:24

Artificial Analysis@ArtificialAnlys

AA-Briefcase 基准发布：评估模型长期知识工作智能体能力

Artificial Analysis 推出新基准 AA-Briefcase，用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景（每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文）及一个公开演示场景。评测结果：Claude Fable 5 以 Elo 1587 领先，其次为 Claude Opus 4.8（1356）、Opus 4.7 及智谱 GLM 5.2（max，1266）。成本方面，Claude Fable 5 平均每任务 $31，Opus 4.8 为 $10.40，GPT-5.5 (xhigh) 为 $3.68，GLM 5.2 (max) 为 $2.40，DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准，31/91 个任务无模型得分超 50%，显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。

智能体 Anthropic Hugging Face 推理

03:23

Artificial Analysis@ArtificialAnlys

Wisedocs 推出医学长上下文推理基准 MLCR

Wisedocs 发布 Medical Long Context Reasoning (MLCR) 基准，测试 LLM 对真实医疗档案的长文档推理能力。评测包含 250 个问题，横跨 6 个难度等级，另设私有保留集，涵盖复杂医学推理、幻觉检测及单次查询中的并行提问。Wisedocs 同步开源 10 个合成病例、低三级问题及评估工具。Artificial Analysis 将合作上线该基准。

Wisedocs: Introducing MLCR, a novel Medical Long Context Reasoning benchmark. Our eval measures the ability of LLMs to answer real...

开源/仓库推理评测/基准

02:22

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant提升ChatGPT健康智能

每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升，最具挑战性评测上达到前沿Thinking模型水平，已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估，其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型，故障模式发生率更低。近两个月生产流量显示，健康类回复事实性问题率下降71%。

OpenAI 产品更新评测/基准

关联讨论 3 条

推荐理由：GPT-5.5 Instant把健康智能提升到接近前沿思考模型水平并免费提供，与医生对比的实验和71%的错误率下降让这次更新有切实证据。

01:17

AYi@AYi_AInotes

GLM-5.2 登顶 Design Arena，开源权重压 Claude Fable 5

GLM-5.2 在 Design Arena 上取得第一，Elo 达 1360，超越已关服的 Claude Fable 5。模型为开源权重，排名上升 4 位，Elo 提升 27 分，创下代码类历史最高分。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准

6月18日

23:51

elvis@omarsar0

OpenAI 推出 LifeSciBench，用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发，包含 750 个专家编写任务，覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读，并指出通用模型在处理复杂结构时仍然失败，而面向科学研究的专用模型表现显著更优。

OpenAI: Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....

OpenAI 评测/基准