4月29日

08:00

HuggingFace Daily Papers（社区热门论文）

HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时，能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息，核心指标 Ask-F1 综合衡量提问精准度与障碍召回率，以平衡过度提问与盲目猜测。评估显示，当前前沿模型在判断求助时机上存在普遍缺陷，其完整信息性能仅能恢复一小部分。失败模式主要体现为三种：过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练，一个 32B 模型在求助质量与任务通过率上均获得提升，且能力可跨领域迁移，表明判断力可通过训练改进。

智能体 arXiv 论文/研究评测/基准

07:07

Rohan Paul@rohanpaul_ai

GPT-5.5 Pro在Epoch AI的ECI指数中获得159分，创下该综合能力评分的新纪录，表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力，避免单一测试易被针对性优化的问题。此外，GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI 推理评测/基准

02:09

Epoch AI@EpochAIResearch

GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分！ECI 是我们的统计工具，它将多个基准测试整合到一个统一的量表中。

OpenAI 模型发布评测/基准

4月28日

23:35

阿绎 AYi@AYi_AInotes

DeepSeek V4 Pro质量是Claude的85%，价格只有七分之一。

通过ZenMux平台的PK模式实测，DeepSeek V4 Pro在处理结构化任务（如马斯克思维模型分析）时，输出逻辑清晰、表达母语化，质量达到Claude的85%，但价格仅为其七分之一。作者建议将80%的日常工作（如写代码、调研）交由DeepSeek处理，20%需要顶级文笔的任务使用Claude，可节省70%以上API费用。ZenMux提供免费测试额度、PK对比模式、保险赔付和可观测性工具，帮助用户规避依赖单一API厂商的风险并提升选型效率。

阿绎 AYi: 兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我...

DeepSeek 现象/趋势编码评测/基准

12:34

HuggingFace Daily Papers（社区热门论文）

ReVSI：重建视觉空间智能评估以准确评估VLM的3D推理能力

现有视觉语言模型（VLM）的空间智能评估存在系统性缺陷：基于点云标注的问答对在视频评估中因重建误差和标注伪影导致答案错误或模糊，且评估常假设全场景访问，而实际模型仅处理稀疏采样帧。为提升评估有效性，我们提出ReVSI基准，通过重新标注5个数据集的381个场景并严格生成可信问答对，确保问题在模型实际输入下可答且答案正确。该基准提供多种帧预算变体及细粒度物体可见性元数据，支持可控诊断分析。在ReVSI上的评估揭示了以往基准掩盖的系统性故障模式，实现了更可靠、更具诊断性的空间智能评估。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

PSP：一个面向印度语种TTS的、按音系维度划分的可解释口音基准

研究团队提出PSP（音素替换剖面），一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度：卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统，研究发现：卷舌音错误率随音系难度递增；PSP评估结果与传统可懂度指标排序存在差异；没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。

论文/研究评测/基准语音

00:46

CMU：Machine Learning Blog

精选58

介绍ARFBench：基于真实事件的时间序列问答基准

每年系统故障导致损失超万亿美元，工程师需通过分析时间序列数据快速定位问题。时间序列问答（TSQA）是关键运维任务，对AI模型构成挑战。为此，研究团队推出ARFBench基准，基于Datadog真实内部事件及遥测数据构建。测试显示，当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型，其整体性能接近前沿水平，为TSQA任务提供了新评估框架和改进方向。

论文/研究评测/基准部署/工程

推荐理由：CMU 和 Datadog 联手搞了个基于真实事故的时序问答基准，结论很诚实，现有模型全拉胯。做 SRE Agent 的团队该看看，这比合成数据的 benchmark 有说服力得多。

4月27日

23:26

Hacker News 热门（buzzing.cc 中文翻译）

Show HN：我开发的 OSS Agent 在 Gemini-3-flash-preview 上夺得 TerminalBench 榜首

一款名为OSS Agent的开源智能体在谷歌Gemini-3-flash-preview模型上运行，成功登顶终端操作基准测试TerminalBench榜首。该智能体由开发者独立构建，其GitHub仓库地址已公开。这一成果在技术社区Hacker News上获得了113个点赞，引发了广泛关注。

智能体产品更新开源生态评测/基准

21:58

elvis@omarsar0

开源评估平台FutureAGI助力构建可信自进化AI代理

构建自进化AI代理必须依赖可靠的评估体系，否则将浪费资源。@FutureAGI_ 开源其平台，整合了领先的评估工具与方法，为开发者提供完整基础设施。该平台涵盖幻觉、毒性、偏见等多维度可修改评估器，集成六种提示优化算法，支持多轮模拟测试与实时安全防护，并提供多语言追踪及兼容OpenAI的网关。其开源特性旨在建立可信任的评估基础，推动自进化AI代理领域发展。

智能体产品更新开源生态评测/基准

17:20

Kimi.ai@Kimi_Moonshot

Kimi K2.6 现已登上 OpenRouter 每周 LLM 排行榜首位 🏆 衷心感谢每一位使用 Kimi 进行开发的开发者。我们将继续埋头苦干，持续交付。

开源生态模型发布评测/基准

14:21

karminski-牙医@karminski3

DeepSeek-V4测试进度同步及新增大模型工程能力测试

作者同步了DeepSeek-V4的测试进度，并重点介绍了一项新设计的“大模型工程能力测试”。该测试以约20万行代码的SillyTavern项目为基础，要求大模型通过tool_call创建新的数值系统（如属性、状态），并能注入JS代码与现有系统交互。测试使用魔改的kimi-cli来监督实现过程、统计token与工具使用情况，并运行定制黑盒测试。此外，通过为酒馆增加CLI模式，测试还评估了大模型的Agent能力，使其能自行测试并迭代代码。目前测试仍在进行中。

智能体 DeepSeek 编码评测/基准

08:00

OpenRouter：Announcements（RSS）

Opus 4.7 的新分词器：实际成本是多少

Anthropic 为 Opus 4.7 更换了分词器（tokenizer）。OpenRouter 通过分析用户从 Opus 4.6 迁移至 4.7 的使用量变化，测算了新分词器对实际成本的影响。

Anthropic 评测/基准

08:00

OpenRouter：Announcements（RSS）

精选57

Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据，分析发现这一技术调整改变了文本转换为令牌的方式，直接影响API计价。相同的文本输入可能产生不同数量的令牌，从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力，但关乎运营开销，是开发者和企业用户需评估的关键因素。

Anthropic 评测/基准部署/工程

推荐理由：Opus 4.7 换了 tokenizer，大多数人只知道模型变强了，不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账，做成本预算的产品人值得扫一眼。

08:00

HuggingFace Daily Papers（社区热门论文）

AutoGUI-v2：一个综合性的多模态GUI功能理解基准

为实现真正的数字自主性，研究团队推出了AutoGUI-v2基准，旨在评估智能体对图形用户界面（GUI）的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建，递归解析多平台截图，生成了涵盖六个操作系统的2,753项任务，严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示，基于智能体数据微调的开源模型在功能定位上表现优异，而商业模型则在功能描述上领先。关键发现是，所有模型在面对非常见操作的复杂交互逻辑时均表现不佳，表明深度功能理解仍是当前面临的核心挑战。

智能体多模态论文/研究评测/基准

07:25

François Chollet@fchollet

不，如果不考虑行动效率，最高分将是100%，用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。【引用 @scaling01】：62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

Lisan al Gaib: 62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

大佬观点推理评测/基准

07:25

François Chollet@fchollet

（我们测试过，得分低于1%）【引用 @scaling01】：有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

Lisan al Gaib: there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools

大佬观点推理评测/基准

01:54

Hacker News 热门（buzzing.cc 中文翻译）

精选71

为什么 SWE-bench Verified 不再衡量前沿编码能力

OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建，其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升，基准测试集趋于饱和，区分度下降，现有模型表现已接近人类水平。因此，团队将转向更具挑战性和现实复杂度的新评估方法。

OpenAI 大佬观点编码评测/基准

推荐理由：OpenAI 亲自给 SWE-bench Verified 判了死刑，这比任何第三方评测都有说服力。做 coding agent 选型的人该认真想想，你的 benchmark 体系是不是也该换了。

4月26日