全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「评测/基准」清除

5月29日周五

11:29HuggingFace Daily Papers（社区热门论文）75精选WorldMemArena：通过行动-世界交互循环评估多模态智能体记忆

10:32Berryxia.AI72Claude Opus 4.8 在 ZenMux 平台开启免费体验

10:21IT之家（RSS）19【IT之家评测室】《007：初露锋芒》游戏初体验：又一款电影化叙事佳作，NVIDIA DLSS 4.5 助力高帧流畅体验

09:12Ethan Mollick56GPT-5 Pro系列在最难问题上持续领先

08:41Simon Willison 博客64Claude Opus 4.8发布：官方称"适度但切实的改进"

08:21IT之家（RSS）46性价比拉满：Grok Build 0.1 打响 AI 编程实战，马斯克称物超所值

08:00HuggingFace Daily Papers（社区热门论文）47人类心理测量问卷误判LLM行为

08:00HuggingFace Daily Papers（社区热门论文）66PaintBench：精确视觉编辑的确定性评估

08:00HuggingFace Daily Papers（社区热门论文）50OpenSTBench：超越语义评估的语音翻译统一评估框架

08:00HuggingFace Daily Papers（社区热门论文）51MineExplorer：评估多模态大语言模型智能体在 Minecraft 中的开放世界探索能力

07:40karminski-牙医62Claude-Opus-4.8实测：3D渲染空间理解引关注

07:36OpenRouter68精选别只看基准测试，要看全面表现

06:06公众号：数字生命卡兹克58Claude Opus 4.8 上线：更精确不偷懒，但主动性减弱，创作仍不及4.6

05:44Rohan Paul56WallStreetPrep针对真实金融场景进行了非常实用的AI基准测试。

01:19🚨 AI News | TestingCatalog69Claude Opus 4.8发布，SWE-bench Pro得分提升

01:18Artificial Analysis80Anthropic 发布 Claude Opus 4.8，成为 GDPval-AA 基准新领导者

5月28日周四

23:48Artificial Analysis70发布AA-WER Streaming：测量语音智能体场景下流式语音转文本模型的新基准

23:31Berryxia.AI73通义千问（Qwen）发布新T2I评测基准Qwen-Image-Bench，推动评价标准升级

21:36Hacker News 热门（buzzing.cc 中文翻译）64五款前沿大型语言模型在1000条现实世界事实核查声明中，有67%的结论存在分歧

16:37Alibaba Cloud62通义千问（Qwen）模型在企业IT任务新基准测试中排名第三

15:40Artificial Analysis62AI编程智能体基准测试与成本分析发布

15:37Alibaba Cloud59Qwen3.7-Max 在 ITBench-AA 企业IT任务基准测试中位列第三

15:05Qwen60ITBench-AA基准发布：评估AI智能体在企业IT运维任务上的表现

15:04Tibo63独立编程基准测试DeepSWE发布：GPT-5.5表现显著优于Claude Sonnet

12:28HuggingFace Daily Papers（社区热门论文）65LiveBrowseComp：搜索智能体是在真正搜索，还是在验证既有知识？

08:00HuggingFace Daily Papers（社区热门论文）55SoundnessBench：你的AI科学家真的能分辨好的研究想法和坏的吗？

08:00HuggingFace Daily Papers（社区热门论文）70精选恢复策略引发的错误：鲁棒GUI智能体的基准测试与轨迹合成

08:00HuggingFace Daily Papers（社区热门论文）61看到不等于知道：视觉语言模型（VLMs）是否知道何时不应回答空间问题（以及为什么）？

05:08Artificial Analysis37Harvey合作推出法律智能体评测完整榜单

05:07Rohan Paul60Datacurve发布编程新基准DeepSWE

03:08SemiAnalysis36DeepSWE发布：揭示模型真实编码能力差距

02:38Artificial Analysis71Artificial Analysis与IBM联合推出首个AI智能体企业IT评测基准

01:20Hugging Face：Blog（RSS）70精选ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

5月27日周三

21:27Berryxia.AI61腾讯HY实验室发布Chronicles-OCR基准测试

21:14IT之家（RSS）40【IT之家评测室】把 267 吋巨幕戴在头上、将 AI 融入日常：雷鸟 GT Max / V4 智能眼镜评测

20:35Chubby♨️58NVIDIA Vera CPU首份公开基准测试出炉

19:22AYi62DeepSWE新基准揭露旧评测体系的缺陷

16:22karminski-牙医56测试 Qwen3.7-max 的 Rust 编程能力

12:13IT之家（RSS）66英伟达 Vera 数据中心处理器首批跑分曝光，综合成绩比前代 Grace 快 63%

11:33歸藏(guizang.ai)65Qwen3.7 Max在编程智能体榜单排名第四

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月29日

11:29

HuggingFace Daily Papers（社区热门论文）

精选75

WorldMemArena：通过行动-世界交互循环评估多模态智能体记忆

针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段，研究提出了“行动-世界交互循环”记忆模型，并构建了WorldMemArena基准。该基准包含400个多会话多模态任务，涵盖“终身进化”和“智能体执行”两类场景，支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较，发现记忆写入与存储质量的提升不直接带来性能改善，且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。

智能体多模态论文/研究评测/基准

推荐理由：首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准，头对头比较长上下文、RAG 和自管理记忆，结论是写得好未必用得上，做 Agent 的值得认真看。

10:32

Berryxia.AI@berryxia

72

Claude Opus 4.8 在 ZenMux 平台开启免费体验

Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中，该模型根据提示词一次生成可运行的 HTML 网页，仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400，比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一，代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型，并提供限时免费额度。

Anthropic 多模态编码评测/基准

10:21

IT之家（RSS）

19

【IT之家评测室】《007：初露锋芒》游戏初体验：又一款电影化叙事佳作，NVIDIA DLSS 4.5 助力高帧流畅体验

09:12

Ethan Mollick@emollick

56

有趣的是，自去年夏天以来，GPT-5 Pro系列模型在单次尝试解决最难问题方面一直是最强的模型。这段时间内没有真正的竞争。

OpenAI 大佬观点评测/基准

08:41

Simon Willison 博客

64

Claude Opus 4.8发布：官方称"适度但切实的改进"

Anthropic发布了Claude Opus 4.8。官方将其描述为“适度但切实的改进”，核心提升在于诚实性，代码缺陷未被察觉的可能性降低为前代的四分之一。模型定价保持不变，仍为$5/百万输入 token 和$25/百万输出 token，但快速模式价格大幅降低。上下文窗口为100万 token，最大输出128k token，知识截止日期为2026年1月。新功能包括支持对话中途插入系统消息，以及将提示缓存的最低长度要求从4.7的4,096 token降至1,024 token。

Anthropic 安全/对齐模型发布评测/基准

08:21

IT之家（RSS）

46

性价比拉满：Grok Build 0.1 打响 AI 编程实战，马斯克称物超所值

智能体 xAI 编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

47

人类心理测量问卷误判LLM行为

一项研究检验了人类心理测量问卷能否可靠描述和预测LLM在日常用户交互中的行为。研究者分析了8个开源大语言模型，对比了Likert自评问卷（PVQ-40/21和BFI-44/10）与基于用户日常查询生成概率得到的价值/人格画像。结果显示两种画像显著不同：问卷条目中的显性词汇线索让模型识别出目标构念并给出符合对齐、社会期望的回答，而真实用户查询无此类线索。此外，人口统计角色提示在问卷中能按人类模式改变模型回答，但在真实用户查询的生成概率中无此变化，表明其模拟目标人群行为的局限性。研究认为人类心理测量问卷不足以预测LLM行为，建议采用基于生成的画像作为更准确的度量。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

66

PaintBench：精确视觉编辑的确定性评估

PaintBench是一个动态可扩展的基准，涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件，并采用确定性像素级评估（mIoU）。在11个图像编辑模型上，当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难，且模型存在针对性专长。场景变化（如物体数量、背景复杂度、配色方案、编辑区域大小）会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证，PaintBench得分与应用任务表现存在强线性相关（R²=0.91，p<0.001）。

图像生成多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

50

OpenSTBench：超越语义评估的语音翻译统一评估框架

OpenSTBench 是一个统一的多维评估框架，将语音翻译系统（S2TT 和 S2ST，涵盖离线与流式两种模式）输出转化为共享评估格式，联合评测翻译质量、语音质量、说话人保留、情感与副语言保真度、时间一致性以及延迟。实验表明，翻译质量强的系统在语音质量和时间质量上仍存在显著差异。代码与数据集已开源至 GitHub。

arXiv GitHub 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

51

MineExplorer：评估多模态大语言模型智能体在 Minecraft 中的开放世界探索能力

研究提出了 MineExplorer 基准测试，用于评估多模态大语言模型智能体在 Minecraft 开放世界中的探索能力。该基准采用 ReAct 式能力表述，将原子任务组合为隐式多跳任务，并利用多智能体合成工作流共同设计任务图、沙盒场景和基于规则的里程碑评估器。实验表明，开放世界探索仍具挑战性，强模型能处理许多单跳任务，但在需要协调更长轨迹中隐藏先决条件时性能急剧下降。代码与数据集已开源。

arXiv 多模态论文/研究评测/基准

07:40

karminski-牙医@karminski3

62

Claude-Opus-4.8实测：3D渲染空间理解引关注

Claude-Opus-4.8 刚刚发布，用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下，初始去噪渲染效果不错，但发现一处本应垂直撞墙的光源移动轨迹呈水平，疑似模型空间理解能力下降。在 medium 设置下，因生成的 shader 有问题，测试直接失败无法完成。详细测试报告将后续发布。

Anthropic 编码评测/基准

07:36

OpenRouter@OpenRouter

精选68

不要只依赖基准测试；要看全面情况！试试我们的新比较页面，它还能让你可视化模型性能：https://openrouter.ai/compare/openai/gpt-5.5/anthropic/claude-opus-4.7/anthropic/claude-opus-4.8

产品更新评测/基准

推荐理由：OpenRouter 这个对比页把 GPT-5.5 和 Claude Opus 4.8 的胜负判断从 benchmark 拉到实际测试，对选型的人很有用。

06:06

公众号：数字生命卡兹克

58

Claude Opus 4.8 上线：更精确不偷懒，但主动性减弱，创作仍不及4.6

Claude Opus 4.8 上线，价格与 4.7 相同（$5/M 输入、$25/M 输出），上下文等参数一致。新特性：effort 控制向所有用户开放；模型更精确遵循指令但主动性减弱；代码瑕疵蒙混过关概率降低 4 倍；fast mode 速度 2.5 倍，价格降至之前的 1/3（输入 $10/M、输出 $50/M）。Claude Code 新增 dynamic workflows，可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面，Terminal-Bench 2.1 仍未超过 GPT-5.5。此外，Anthropic 完成 650 亿美元融资，估值近万亿美元。创作能力虽比 4.7 有进步，但整体仍不如 4.6。

智能体 Anthropic 编码评测/基准

05:44

Rohan Paul@rohanpaul_ai

56

WallStreetPrep针对真实金融场景进行了非常实用的AI基准测试。

测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中，工具Primer表现突出，关键在于其生成了可审计的关联财务系统，而非逐单元格拼接的表格。Primer将Excel视为最终输出格式，先构建完整的三表模型，再将其转化为结构化记录（如收入、成本、假设、公式链接等），使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。

Ruggero Gargiulo: http://x.com/i/article/2053566242338795520

智能体评测/基准

01:19

🚨 AI News | TestingCatalog@testingcatalog

69

ANTHROPIC 🔥： Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数，而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...

Anthropic 推理模型发布评测/基准

01:18

Artificial Analysis@ArtificialAnlys

80

Anthropic 发布 Claude Opus 4.8，成为 GDPval-AA 基准新领导者

Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准（专注于智能体的现实工作任务）上，以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分，并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中，这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前，为人工智能分析公司提供了早期访问权限以进行评测。

智能体 Anthropic 模型发布评测/基准

关联讨论 17 条Anthropic：Newsroom（网页）TechCrunch：AI（RSS）X：Claude Devs (@ClaudeDevs)X：Boris Cherny (@bcherny)X：Artificial Analysis (@ArtificialAnlys)Hacker News 热门（buzzing.cc 中文翻译）X：洪明 (@hongming731)The Decoder：AI News（RSS）X：OpenRouter (@OpenRouter)X：Thariq (@trq212)X：Kim (@kimmonismus)X：Claude (@claudeai)X：Rohan Paul (@rohanpaul_ai)MarkTechPost（RSS）X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)X：宝玉 (@dotey)

5月28日

23:48

Artificial Analysis@ArtificialAnlys

70

发布AA-WER Streaming：测量语音智能体场景下流式语音转文本模型的新基准

AA-WER Streaming是一个新基准，用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频，报告词错误率与延迟。关键结果显示：Cartesia Ink-2（语义端点）在最终转录中准确率最高（WER 3.59%，延迟0.21秒）；ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高（WER 3.65%，延迟0.13秒）；Deepgram Flux在速度上领先，最终和首次部分转录延迟分别为0.020秒和0.019秒。

智能体评测/基准语音

23:31

Berryxia.AI@berryxia

73

通义千问（Qwen）发布新T2I评测基准Qwen-Image-Bench，推动评价标准升级

阿里通义千问（Qwen）推出了新的文本到图像（T2I）评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度，并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”，提升至关注“真实世界保真度”和“创意生成能力”两大支柱，通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Adina Yakup: Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...

图像生成开源生态评测/基准

21:36

Hacker News 热门（buzzing.cc 中文翻译）

64

五款前沿大型语言模型在1000条现实世界事实核查声明中，有67%的结论存在分歧

推理评测/基准

16:37

Alibaba Cloud@alibaba_cloud

62

通义千问（Qwen）团队宣布，其Qwen3.7-Max模型在新兴的ITBench-AA基准测试中位列第三。该测试由Artificial Analysis与IBM Research合作推出，旨在评估模型解决真实企业IT任务的能力，当前聚焦于站点可靠性工程（SRE）领域。测试包含59个Kubernetes故障诊断任务。结果显示，Claude Opus 4.7以47%的得分排名第一，GPT-5.5（xhigh）以46%紧随其后，Qwen3.7-Max以42%排名第三。所有前沿模型得分均低于50%，表明该测试具有较高挑战性。

Artificial Analysis: Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...

智能体推理评测/基准

15:40

Artificial Analysis@ArtificialAnlys

62

我们近期在 Artificial Analysis 上发布了编程智能体基准测试，并推出了首个 YouTube 视频！我们详细分析了不同编程智能体在性能、成本、token 使用量和速度方面的差异。其中包括 Claude Code 中 Opus 4.7 的领先表现，以及 Composer 2.5 在编程智能体指数/成本帕累托前沿上的强劲定位。我们还推出了 YouTube 频道！欢迎访问并订阅：https://www.youtube.com/@ArtificialAnalysisAI

智能体 Anthropic 编码评测/基准

15:37

Alibaba Cloud@alibaba_cloud

59

由 Artificial Analysis 和 IBM Research 合作推出的首个评估模型处理真实企业IT任务能力的基准测试 ITBench-AA，聚焦于站点可靠性工程（SRE）任务。测试结果显示，通义千问（Qwen3.7-Max）以 42% 的分数排名第三。该测试中，所有前沿模型得分均低于 50%，其中 Claude Opus 4.7 以 47% 领先，GPT-5.5（xhigh）以 46% 紧随其后。在开源模型中，GLM-5.1（Reasoning）以 40% 领衔。该基准未来将扩展到财务运营（FinOps）等任务。

Artificial Analysis: Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...

智能体评测/基准部署/工程

15:05

Qwen@Alibaba_Qwen

60

Artificial Analysis与IBM Research联合推出ITBench-AA，首个评估AI智能体在企业IT运维任务上表现的基准。首批测试聚焦站点可靠性工程（SRE），包含59项Kubernetes事件响应任务。模型需在限定轮次内，通过分析日志、追踪依赖等方式，诊断出导致事件的根本原因实体。该基准采用Stirrup框架，以"全召回下的平均精度"作为评分标准。关键发现显示，Claude Opus 4.7以47%的得分领先，GPT-5.5得46%，通义千问Qwen3.7 Max以42%位列第三。所有前沿模型得分均低于50%，表明该基准极具挑战性。开源模型中，GLM-5.1（推理）以40%领先。

Artificial Analysis: Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...

智能体评测/基准

15:04

Tibo@thsottiaux

63

新发布的独立基准测试 DeepSWE 结果更贴近开发者日常体验。测试显示，在编程任务上，GPT-5.5 得分为 70%，而 Claude Sonnet 得分为 32%，两者差距显著。DeepSWE 聚焦于 AI 智能体在真实工作流中的核心能力，即能否仅凭简短提示词，准确定位代码库并干净地完成修改，无需用户列举具体文件。原文指出，这验证了许多开发者长期以来的观察，并批评了 SWE-Bench 因数据集污染和验证机制较弱而常无法反映真实能力的问题。

Kol Tregaskes: Many developers have suspected for months that GPT-5.5 outperforms Claude Sonnet for coding. But SWE-Bench reported near...

Anthropic OpenAI 推理编码

12:28

HuggingFace Daily Papers（社区热门论文）

65

LiveBrowseComp：搜索智能体是在真正搜索，还是在验证既有知识？

研究揭示基于LLM的搜索智能体存在“内在知识依赖”：在BrowseComp基准测试中，智能体在无需工具时仍能回答高达44.5%的问题，超过半数的搜索查询源于模型内部假设而非检索线索，移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此，研究引入深度搜索基准LiveBrowseComp，包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上，所有智能体的闭卷准确率低于2%，搜索增强得分显著下降，且先前模型排名不再可靠。

智能体 arXiv Hugging Face 搜索

08:00

HuggingFace Daily Papers（社区热门论文）

55

SoundnessBench：你的AI科学家真的能分辨好的研究想法和坏的吗？

SoundnessBench 是一个包含1,099个机器学习研究提案的基准，用于评估大语言模型（LLM）判断研究想法方法论可行性的能力。在对12个前沿LLM的测试中发现普遍存在乐观偏差：标准提示下模型常将低合理性提案误判为合理，激进提示则会将错误从假阳性转为假阴性。对照实验表明这种行为并非由单一混淆因素造成。结果表明，当前LLM尚不适合作为独立的科研严谨性初筛评估工具。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

恢复策略引发的错误：鲁棒GUI智能体的基准测试与轨迹合成

针对GUI智能体缺乏从自身错误中恢复能力的问题，本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例，系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型，在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数，表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。

智能体论文/研究评测/基准

推荐理由：GUI Agent 能不能从自己犯的错里爬起来，才是落地的关键，阿里这篇论文给出了一个不错的基准和训练方案，做 Agent 的可以看看。

08:00

HuggingFace Daily Papers（社区热门论文）

61

看到不等于知道：视觉语言模型（VLMs）是否知道何时不应回答空间问题（以及为什么）？

研究构建了 SpatialUncertain 评估框架，测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下，模型平均准确率分别约为 30% 和低于 10%，并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准

05:08

Artificial Analysis@ArtificialAnlys

37

我们很高兴与Harvey合作，即将在Artificial Analysis推出法律智能体基准测试的完整排行榜！

Gabe Pereyra: http://x.com/i/article/2059284537503285248

智能体评测/基准

05:07

Rohan Paul@rohanpaul_ai

60

Datacurve发布编程新基准DeepSWE

Datacurve发布了新编程基准DeepSWE，旨在揭示模型在长期软件工程任务上的真实能力差距。在该基准上，GPT-5.5得分为70%，而GPT-5.4为56%，Claude Opus 4.7为54%，突显了模型间的显著差异。与旧有基准不同，DeepSWE使用原创任务，要求智能体在代码库中自主搜索、理解设计并修改多个文件。其解决方案所需代码量是SWE-bench Pro的5.5倍，输出token约2倍，反映了开发者日常工作中的实际挑战。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

编码评测/基准

03:08

SemiAnalysis@SemiAnalysis_

36

这里有一个非常重要的教训，但你们中的一些人还没准备好进行这场对话。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

大佬观点编码评测/基准

02:38

Artificial Analysis@ArtificialAnlys

71

Artificial Analysis与IBM联合推出首个AI智能体企业IT评测基准

Artificial Analysis与IBM Research联合推出ITBench-AA，首个评估AI智能体在企业IT任务中表现的基准，首发任务为站点可靠性工程（SRE）。该基准包含59项Kubernetes事件响应任务，所有前沿模型得分均未超过50%。其中，Claude Opus 4.7以47%领先，GPT-5.5得46%，通义千问（Qwen3.7 Max）得42%。开源模型中，智谱GLM-5.1（推理）得分40%，与Gemini 3.5 Flash持平；深度求索（DeepSeek V4 Pro）得38%。分析还发现，模型推理轮次差异近3倍，但更长轮次并不保证更高准确率。

智能体评测/基准

01:20

Hugging Face：Blog（RSS）

精选70

ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示，所有前沿大模型得分均未超过50%。Claude Opus 4.7（自适应推理，最大努力）以47%领先，GPT-5.5（xhigh）和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍，但更长的轨迹并不转化为更高准确率，过度调查的模型会因提交误报而受罚。在成本方面，开源模型Gemma 4 31B（Reasoning）以每任务$0.14的成本获得37%得分，优于成本更高但得分更低的闭源模型。

智能体 Hugging Face 评测/基准

推荐理由：IT运维这事儿，AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%，开源模型GLM-5.1却用五分之一成本拿到40%，企业场景性价比可能不在闭源那边。

5月27日

21:27

Berryxia.AI@berryxia

61

腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR，包含2800张专家标注图像，覆盖甲骨文、金文等七大类。测试显示，28个前沿多模态模型集体表现不佳：VLLM在甲骨文上准确率仅14%，GPT-5与Gemini 2.5 Pro得分近零。值得注意的是，开启推理模式反而损害性能，因模型实为识别龟壳、青铜器等载体（准确率96.7%），而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准

21:14

IT之家（RSS）

40

【IT之家评测室】把 267 吋巨幕戴在头上、将 AI 融入日常：雷鸟 GT Max / V4 智能眼镜评测

多模态端侧评测/基准

20:35

Chubby♨️@kimmonismus

58

NVIDIA Vera CPU首份公开基准测试出炉

Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心，专为智能体AI（Agentic AI）所需的代码执行、工具调用与数据管道设计。测试数据显示，Vera编译Linux内核耗时20秒，为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍，较AMD EPYC 9575F平均领先约10%。内存方面，Vera采用LPDDR5X，提供高达1.2 TB/s的带宽，每核内存带宽是传统x86 CPU的4倍以上，且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比，Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。

智能体推理评测/基准

19:22

AYi@AYi_AInotes

62

DeepSWE新基准揭露旧评测体系的缺陷

DeepSWE新基准模拟了真实的长链编程任务，如定位文件、复现bug和验证修复，挑战了旧有基准的局限性。测试显示，在顶级模型上分数差异模糊的SWE-Bench，被新基准拉开了差距：GPT-5.5达到70%，而Claude Opus为54%。研究发现，使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩，表明许多高分可能源于提示词工程。该基准作者@theo评论称，这是首个与真实编码体验相符的评测。

Theo - t3.gg: This is the first code bench that actually aligns with how it feels to use these models coding.

Anthropic OpenAI 编码评测/基准

16:22

karminski-牙医@karminski3

56

测试 Qwen3.7-max 的 Rust 编程能力

测试显示，Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件，实测运行流畅。该软件设计了三层恢复功能，并利用该模型智能重建文件名和内容。

编码评测/基准

12:13

IT之家（RSS）

66

英伟达 Vera 数据中心处理器首批跑分曝光，综合成绩比前代 Grace 快 63%

英伟达Vera数据中心处理器基准测试成绩显示，其基于Arm v9.2指令集和88个Olympium核心，综合平均性能比前代Grace快63%，同时领先AMD EPYC 9575F 10%及Intel Xeon 6980P 55%。该处理器专为Agentic AI设计，官方称性能比x86处理器高出1.5倍。

推理评测/基准

11:33

歸藏(guizang.ai)@op7418

65

Qwen 3.7 Max 在 Arena Coding Agent 上排第四

Arena.ai: Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....

智能体编码评测/基准

1…10 111213 14…22