5月29日

06:06

公众号：数字生命卡兹克

Claude Opus 4.8 上线：更精确不偷懒，但主动性减弱，创作仍不及4.6

Claude Opus 4.8 上线，价格与 4.7 相同（$5/M 输入、$25/M 输出），上下文等参数一致。新特性：effort 控制向所有用户开放；模型更精确遵循指令但主动性减弱；代码瑕疵蒙混过关概率降低 4 倍；fast mode 速度 2.5 倍，价格降至之前的 1/3（输入 $10/M、输出 $50/M）。Claude Code 新增 dynamic workflows，可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面，Terminal-Bench 2.1 仍未超过 GPT-5.5。此外，Anthropic 完成 650 亿美元融资，估值近万亿美元。创作能力虽比 4.7 有进步，但整体仍不如 4.6。

智能体 Anthropic 编码评测/基准

5月28日

21:36

Hacker News 热门（buzzing.cc 中文翻译）

五款前沿大型语言模型在1000条现实世界事实核查声明中，有67%的结论存在分歧

推理评测/基准

12:28

HuggingFace Daily Papers（社区热门论文）

LiveBrowseComp：搜索智能体是在真正搜索，还是在验证既有知识？

研究揭示基于LLM的搜索智能体存在“内在知识依赖”：在BrowseComp基准测试中，智能体在无需工具时仍能回答高达44.5%的问题，超过半数的搜索查询源于模型内部假设而非检索线索，移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此，研究引入深度搜索基准LiveBrowseComp，包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上，所有智能体的闭卷准确率低于2%，搜索增强得分显著下降，且先前模型排名不再可靠。

智能体 arXiv Hugging Face 搜索

08:00

HuggingFace Daily Papers（社区热门论文）

SoundnessBench：你的AI科学家真的能分辨好的研究想法和坏的吗？

SoundnessBench 是一个包含1,099个机器学习研究提案的基准，用于评估大语言模型（LLM）判断研究想法方法论可行性的能力。在对12个前沿LLM的测试中发现普遍存在乐观偏差：标准提示下模型常将低合理性提案误判为合理，激进提示则会将错误从假阳性转为假阴性。对照实验表明这种行为并非由单一混淆因素造成。结果表明，当前LLM尚不适合作为独立的科研严谨性初筛评估工具。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

恢复策略引发的错误：鲁棒GUI智能体的基准测试与轨迹合成

针对GUI智能体缺乏从自身错误中恢复能力的问题，本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例，系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型，在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数，表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。

智能体论文/研究评测/基准

推荐理由：GUI Agent 能不能从自己犯的错里爬起来，才是落地的关键，阿里这篇论文给出了一个不错的基准和训练方案，做 Agent 的可以看看。

08:00

HuggingFace Daily Papers（社区热门论文）

看到不等于知道：视觉语言模型（VLMs）是否知道何时不应回答空间问题（以及为什么）？

研究构建了 SpatialUncertain 评估框架，测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下，模型平均准确率分别约为 30% 和低于 10%，并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准

01:20

Hugging Face：Blog（RSS）

精选70

ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示，所有前沿大模型得分均未超过50%。Claude Opus 4.7（自适应推理，最大努力）以47%领先，GPT-5.5（xhigh）和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍，但更长的轨迹并不转化为更高准确率，过度调查的模型会因提交误报而受罚。在成本方面，开源模型Gemma 4 31B（Reasoning）以每任务$0.14的成本获得37%得分，优于成本更高但得分更低的闭源模型。

智能体 Hugging Face 评测/基准

关联讨论 1 条

推荐理由：IT运维这事儿，AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%，开源模型GLM-5.1却用五分之一成本拿到40%，企业场景性价比可能不在闭源那边。

5月27日