6月13日

10:35

Artificial Analysis@ArtificialAnlys

今天是我们 Intelligence Frontier 图表首次出现回退。

现象/趋势评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CODA-BENCH：代码智能体能处理数据密集型任务吗？

CODA-BENCH 是首个同时评估代码智能体在代码与数据两方面能力的基准测试，专为数据密集型环境设计。该基准基于 Kaggle 生态系统搭建，包含数百个数据集，共 1009 个任务，覆盖 31 个社区。每个任务环境平均拥有 980 个文件，模拟真实的数据规模与噪声。对现有高级智能体的评估显示，即使表现最佳的系统也难以有效整合数据发现与代码执行，成功率仅为 61.1%，暴露了当前智能体在处理数据密集型任务时的能力缺口。

智能体数据/训练评测/基准

07:44

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

一年之内，AI从几乎无法解决任何最难数学问题，发展到几乎能解决所有它们。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic 推理评测/基准

07:34

Rohan Paul@rohanpaul_ai

NVIDIA 发布首个智能体 AI 基准 AgentPerf：GB300 NVL72 每兆瓦处理智能体数是 H200 的 20 倍

NVIDIA 首次在 AgentPerf（由 Artificial Analysis 开发）中评测智能体 AI。该基准测试的不是传统 token 生成速度，而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径（长链模型调用、代码编辑、命令运行、工具延迟、增长上下文），涵盖 12+ 编程语言，请求长度 5K–131K tokens（平均 27K）。结果：GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体，H200 仅为 2.6K（20 倍提升）。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统，配合软件优化（MoE 专家分布、通信与计算重叠、大批量保持）。

评测/基准部署/工程

06:34

Artificial Analysis@ArtificialAnlys

Artificial Analysis 发布 AA-AgentPerf 基准，首批测试 DeepSeek V4 Pro 推理能效

Artificial Analysis 发布新基准 AA-AgentPerf，首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell（GB300、B300）、Hopper（H200）及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数（要求 20 tokens/s 且 TTFT≤10s）：GB300（机架级解耦）达 61,354，B300（单节点解耦）21,053，MI355X 3,551，H200 2,594。基准使用真实编码 agent 轨迹（最多 200 轮、序列超 100K tokens），允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍，且代际大幅领先 Hopper；MI355X 配置较早且未稳定启用推测解码，仍有优化空间。

DeepSeek 推理评测/基准

06:34

Rohan Paul@rohanpaul_ai

Nature Medicine 研究：通用大语言模型在临床任务上已超越专用医疗 AI

《自然·医学》一项研究发现，通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中，盲审医生更偏好前沿模型，尤其在其回答的完整性和清晰度方面。

Anthropic Google OpenAI 论文/研究

04:21

Chubby♨️@kimmonismus

观察图表，我认为 Fable 5 只会保持领先直到 GPT-5.6。其次，我认为该基准测试很快就会完全饱和。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic OpenAI 推理评测/基准