6月5日

08:00

HuggingFace Daily Papers（社区热门论文）

MMAE是首个专为通用指令音频编辑设计的综合评估基准，涵盖声音、语音、音乐及其混合共7种音频模态，并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本，配套基于评分标准的评估框架，将自由形式任务分解为17,741个可验证指标，实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示，精确匹配率（EMR）整体低于5%，在复杂混合模态任务中降至绝对0%。

arXiv 多模态论文/研究评测/基准

04:56

Ars Technica：AI（RSS）

爱沙尼亚政府基准测试：这些LLM在抵制俄罗斯宣传方面表现最佳

爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估，测试它们对抗俄罗斯“战略叙事”（strategic narratives）的能力，并筛选出表现最佳的模型。

Anthropic Google OpenAI 安全/对齐

04:34

DogeDesigner@cb_doge

ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败，而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。

OpenAI xAI 图像生成评测/基准

03:15

swyx@swyx

Cognition推出面向企业的AI代码评估（eval）

Cognition发布企业级AI代码评估（eval），支持长达100小时深度测试（METR仅约16小时），并附带财务担保：若Devin产出价值低于费用，Cognition将补贴至达标，最高1000万美元。METR数据集覆盖ML工程、GPU内核、网络安全，使用GPT-4o和GPT-5从Claude Code转录估算人类时间，rlog=0.83。Cognition数据集来自126位Devin用户的258个真实会话（Java/TS/Python/C#功能开发、bug修复、迁移），保留集rlog=0.74。

Cognition: AI should earn its keep. Introducing the AI Productivity Guarantee. If Devin delivers less engineering value than you're...

产品更新编码评测/基准

02:25

Artificial Analysis@ArtificialAnlys

NVIDIA 发布 Nemotron 3 Ultra，专注低延迟智能体性能

NVIDIA 今日发布 Nemotron 3 Ultra，重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上，该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度（基于 token 用量与 blackboxai 预部署测得的端点输出速度，以及工具执行实际耗时），在每个轮次限制下完成任务的速度均快于竞品，同时保持了有竞争力的基准分数，处于该评测性能-时间帕累托前沿的领先位置。

智能体推理评测/基准

00:43

HuggingFace Daily Papers（社区热门论文）

圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异

以圣彼得堡博弈为平台，评估28个大语言模型。多数模型在原始博弈中生成有限出价，看似与人类风险行为相似；但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现，模型转向条件性和计算合理性行为，人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。

arXiv 安全/对齐论文/研究评测/基准

6月4日

21:54

Artificial Analysis@ArtificialAnlys

NVIDIA 发布 Nemotron 3 Ultra，成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra，为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7，领先 Gemma 4 31B（39.2）、Nemotron 3 Super（36.0）和 gpt-oss-120b（33.3），但低于中国开源模型 Kimi K2.6（53.9）。模型总参数约 550B，激活 55B，推理速度超 400 tokens/s，较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7，BF16 得分 48.2，精度差异极小。

开源生态推理模型发布评测/基准

21:43

HuggingFace Daily Papers（社区热门论文）

MedSP1000：标准化病人驱动的临床智能体交互式基准

MedSP1000是一个包含1,638个标准化病人（SP）案例和24,602条经同行评审的轨迹级评分标准的交互式基准，用于评估临床智能体动态决策能力。在闭环模拟中，智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现，静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项，最强医学专用模型达40.0%，增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。

智能体论文/研究评测/基准

21:00

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

20:00

OpenRouter：Announcements（RSS）

同事件精选58

OpenRouter 横评 11 款 LLM 机器人冲刺对决：Claude 与 Grok 谁更胜一筹？

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型，共耗 482 美元推理成本。结果指向一个发现：应该重新审视模型 benchmark 的解读方式。

智能体 Anthropic xAI 推理

同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

推荐理由：第一次看到对齐税被游戏化量化，Grok能赢是因为它没被训练成好人，Claude总想组队则拖后腿，怎么选模型得看你想要哪种人。

19:11

IT之家（RSS）

华硕破晓 Ultra 评测：第三代酷睿 Ultra 处理器 + 双层 OLED 触控屏

华硕破晓 Ultra 于今年 3 月发布，搭载第三代酷睿 Ultra X7 358H 处理器和 Intel Arc B390 核显（12 个 Xe3 核心），配备 14 英寸 2.8K 120Hz 双层串联 OLED 触控屏，峰值亮度 1400nit。整机重 1.1kg、厚 10.9mm，内置 70Wh 电池并支持 90W PD 快充，32GB+1TB 版本售价 14999 元。游戏实测方面，1080P 低画质下《CS2》达 306 帧，《赛博朋克：2077》开启 XeSS 后达 100 帧，45W 功耗下噪音不超过 45 分贝。

端侧评测/基准

18:22

karminski-牙医@karminski3

MiniMax-M3 实测

MiniMax-M3 实测：前端适配 KCORES2026p2，空间理解、建模精度、美学表现优秀，颜色运用佳；复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型，略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量，规划突出。使用经验：M3 偏好长推理，单次输出可达 64k token，适合嵌入带 plan 模式的 Coding Agent，需做好 prompt 编排，避免大量 tool call；执行约束不足，需增加代码级 harness 闭环。

智能体编码评测/基准