全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「评测/基准」清除

4月22日周三

00:14AK39MathNet：全球多模态数学推理与检索基准发布

4月21日周二

10:10IT之家（RSS）RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

09:13SemiAnalysis目前，InferenceX 基准测试显示的是这些芯片的实际最差性能。无前缀缓存，无多轮对话，全为随机数据。真正的提升甚至尚未测量。

4月20日周一

00:38DogeDesigner消息：Grok 刚刚创下有史以来最低的幻觉率，在 AA-Omniscience 基准测试中仅为 17%。击败了： Claude → 36% Gemini → 50% ChatGPT → 89%

4月19日周日

17:08karminski-牙医106美元实测Claude-Opus-4.7：视觉飞跃但推理偷懒

16:37The Decoder：AI News（RSS）新基准测试发现：图表复杂度提升时，顶尖AI模型性能损失近半

13:05Ethan Mollick我觉得这些"泄露"很好笑的是，他们甚至懒得弄个大体准确的基准测试数据来输入到图像生成器里。至少让模型查一下真实数据吧。这很简单！比如 GPQA 在所有近期模型上都超过 90% 了。

03:37SemiAnalysis在 GTC 2024 上，Jensen 表示 GB200 NVL72 比 Hopper 快 35 倍。没人相信，认为这是经典的 fake Jensen Math。当我们测试其性能时，它不仅快了 35 倍，即使面对采用了 MTP、Disagg prefill、wideEP 等所有推理优化组合的强大 Hopper 基线，也快了 50 倍以上。在 InferenceX.com 查看详细结果。

02:06Hacker News 热门（buzzing.cc 中文翻译）Opus 4.7 至 4.6 版本的通胀率约为 45%

4月18日周六

19:44Chubby♨️Opus 4.7 确实似乎有所改进，其自适应思考现在使用了更多 tokens。然而，与 Opus 4.6 相比，它的表现仍然明显更差。

00:28AK55DR3-Eval推进深度研究评估真实性与可复现性

4月17日周五

17:44Chubby♨️Opus 4.7 消耗的 token 数量约为原来的 1.3 倍。指令必须非常精确。许多人在抱怨这是一次"仓促发布"。在 Bullshit Benchmark 中，它的表现比 Opus 4.6 更差。反响非常两极分化。 Anthropic 这次可能帮了 OpenAI 一个大忙。Spud 预计下周发布。如果发布得当，它可能会盖过 Opus 的风头，让 ChatGPT 重回巅峰。 h/t @petergostev 提供基准测试和图片

17:44Chubby♨️31用户吐槽GPT-4.7版本体验不佳

08:00HuggingFace Daily Papers（社区热门论文）MTR-DuplexBench：面向全双工语音语言模型多轮对话的综合评估基准

01:44Chubby♨️等等，这里有些不对劲。Opus 4.7 在大海捞针测试中的表现差了很多？需要深挖一下

00:08AK39迈向标准化可验证的多模态游戏智能体评估

4月16日周四

23:44DeedyOpus 4.7 基准测试按排名着色。 - 编程（SWE-Bench）大幅提升 - 计算机使用大幅提升 - 视觉推理（CharXiv）大幅提升 - Terminal Bench 小幅提升 - BrowseComp 退步介于 4.6 和 Mythos 之间。【图表由 4.7 生成】

01:37AK49OCR模型对多语种文字识别仍存挑战

4月15日周三

17:46François Chollet任何认真努力的聪明人都应该在 ARC-AGI-3 上得分 >90%

10:05Epoch AIOpenAI 已购买 FrontierMath： Open Problems 验证器的访问权限。这使他们能够检查其模型生成的解的有效性。详情见推文串。

02:57Hacker News 热门（buzzing.cc 中文翻译）克劳德会开飞机吗？

00:03AK36QuanBench+：量子代码生成统一基准发布

4月14日周二

17:26Chubby♨️关于 Anthropic 200 美元 Max 计划的投诉正在升级，因为独立测试（例如 Bridgebench）声称 Claude Opus 4.6 在幻觉性能方面急剧下降。可能是发布后进行了量化，人们将其应用到了他们的工作流程中？无论如何，祝贺 Grok 保持第一。

07:25Chubby♨️天哪，Anthropic 没有夸大其词。Claude Mythos 确实与众不同。【引用 @AISecurityInst】：我们对 Claude Mythos Preview 进行了网络安全评估，发现它是首个端到端完成 AISI 网络靶场的模型。🧵

03:56DogeDesigner25Grok 4.20全面领先BridgeBench基准测试

02:44DogeDesignerGrok 4.20 Reasoning 刚刚在 BridgeBench 推理基准测试中夺得第一。🔥 击败 GPT-5.4、Claude Opus 4.6、Google Gemini 等模型。周复一周，Grok 在各个基准测试中持续攀升。🚀

01:16AK40FORGE推出制造业多模态评估基准

4月13日周一

08:00HuggingFace Daily Papers（社区热门论文）CocoaBench：统一数字智能体真实场景能力基准测试

04:33Ethan Mollick目前 ChatGPT 的思维链展示方式最佳：主窗口显示步骤摘要，侧边栏提供详细审计

4月12日周日

23:39DogeDesigner26Claude Opus性能骤降，Grok稳居榜首

08:43DeedyMeta Muse Spark评测：视觉强劲但增长策略惹争议

08:00HuggingFace Daily Papers（社区热门论文）TorchUMM：面向评估、分析与后训练的统一多模态模型代码库

4月11日周六

08:42Rohan PaulAI预测英超赛季全军覆没：Claude亏损最少

03:51Noam Brown我们真正需要的是让 AI 模型生成会玩扑克的 AI 模型的基准测试

01:00SemiAnalysisInferenceX 是行业标准的研究平台，用于在全球最受欢迎的开源 LLM 推理框架中对 AI 芯片性能进行基准测试，并随行业格局演变持续更新。我们很荣幸得到 AI 研究、芯片设计及更广泛推理领域一些领军人物的认可与支持。

4月10日周五

23:22Epoch AIAI 可胜任多大规模的软件工程任务？

4月9日周四

11:37Ethan MollickAmazon Nova 到底什么情况？Nova 2 自去年12月发布，其顶级模型…

07:11Peter Steinberger 🦞正在做角色评估，发现 Claude 总是把自己选为第一名，于是从评判中移除了模型名称并做了调整

02:35Epoch AI我们提前测试了 Meta 的 Muse Spark 模型，并在 FrontierMath 上进行了评估。其得分为…

02:30AKVideo-MME-v2：迈向全面视频理解基准测试的下一阶段

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月22日

00:14

AK@_akhaliq

39

MathNet 一个用于数学推理与检索的全球多模态基准论文： https://huggingface.co/papers/2604.18584

推理论文/研究评测/基准

4月21日

10:10

IT之家（RSS）

RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

摩根士丹利基于开源 X3D RAG 基准测试显示，在 RAG AI 向量搜索场景中，AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中，Ryzen 3D V-Cache 芯片速度领先 88%；20 万规模下，Ryzen 7 9850X3D 较 9700X 提升超 50%，甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法，使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。

检索增强评测/基准部署/工程

09:13

SemiAnalysis@SemiAnalysis_

目前，InferenceX 基准测试显示的是这些芯片的实际最差性能。无前缀缓存，无多轮对话，全为随机数据。真正的提升甚至尚未测量。

评测/基准部署/工程

4月20日

00:38

DogeDesigner@cb_doge

消息：Grok 刚刚创下有史以来最低的幻觉率，在 AA-Omniscience 基准测试中仅为 17%。击败了： Claude → 36% Gemini → 50% ChatGPT → 89%

xAI 评测/基准

4月19日

17:08

karminski-牙医@karminski3

106美元实测Claude-Opus-4.7：视觉飞跃但推理偷懒

花费106美元在OpenRouter上实测Claude-Opus-4.7显示，其视觉能力较4.6版本显著提升，在颜色识别、细节捕捉和空间理解方面表现突出，可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑，核心问题在于即使开启xhigh reasoning effort，模型的思考预算仍显不足，导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

Anthropic 多模态编码评测/基准

16:37

The Decoder：AI News（RSS）

新基准测试发现：图表复杂度提升时，顶尖AI模型性能损失近半

RealChart2Code 基准测试针对基于真实数据集构建的复杂可视化图表，对14个领先AI模型进行评估。结果显示，当图表结构趋于复杂时，即使是最顶尖的专有模型，其性能也损失近半，远低于在简单测试中的表现。这一发现揭示了当前AI模型在理解和转换复杂数据可视化内容方面存在显著局限。

多模态编码评测/基准

13:05

Ethan Mollick@emollick

我觉得这些"泄露"很好笑的是，他们甚至懒得弄个大体准确的基准测试数据来输入到图像生成器里。至少让模型查一下真实数据吧。这很简单！比如 GPQA 在所有近期模型上都超过 90% 了。

大佬观点现象/趋势评测/基准

03:37

SemiAnalysis@SemiAnalysis_

在 GTC 2024 上，Jensen 表示 GB200 NVL72 比 Hopper 快 35 倍。没人相信，认为这是经典的 fake Jensen Math。当我们测试其性能时，它不仅快了 35 倍，即使面对采用了 MTP、Disagg prefill、wideEP 等所有推理优化组合的强大 Hopper 基线，也快了 50 倍以上。在 InferenceX.com 查看详细结果。

评测/基准部署/工程

02:06

Hacker News 热门（buzzing.cc 中文翻译）

Opus 4.7 至 4.6 版本的通胀率约为 45%

监测数据显示，Opus 4.7版本相较4.6版本的token"通胀率"高达45%，即新版本生成内容时消耗的token数量较上一版本大幅增加，直接导致API调用成本上升。该数据来自tokens.billchambers.me的模型对比排行榜，在Hacker News上获得133个赞。

Anthropic 评测/基准部署/工程

4月18日

19:44

Chubby♨️@kimmonismus

Opus 4.7 确实似乎有所改进，其自适应思考现在使用了更多 tokens。然而，与 Opus 4.6 相比，它的表现仍然明显更差。

Anthropic 推理评测/基准

00:28

AK@_akhaliq

55

DR3-Eval 迈向现实且可复现的深度研究评估论文： https://huggingface.co/papers/2604.14683

智能体论文/研究评测/基准

4月17日

17:44

Chubby♨️@kimmonismus

Opus 4.7 消耗的 token 数量约为原来的 1.3 倍。指令必须非常精确。许多人在抱怨这是一次"仓促发布"。在 Bullshit Benchmark 中，它的表现比 Opus 4.6 更差。反响非常两极分化。 Anthropic 这次可能帮了 OpenAI 一个大忙。Spud 预计下周发布。如果发布得当，它可能会盖过 Opus 的风头，让 ChatGPT 重回巅峰。 h/t @petergostev 提供基准测试和图片

Chubby♨️: The mood regarding the Opus 4.7 update has shifted. If I had to guess, I'd say 60% are disappointed with the latest upda...

Anthropic OpenAI 推理评测/基准

17:44

Chubby♨️@kimmonismus

31

😥 【引用 @kimmonismus】：好吧，什么鬼，我直说了。把4.6还给我。这到底是什么鬼东西。我越用4.7越恼火。这真是个仓促的发布。

Chubby♨️: ok wtf, i say it. give me back 4.6 what the heck is this sh*t. The more i use 4.7 the more annoyed i am. this is such a ...

大佬观点评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

MTR-DuplexBench：面向全双工语音语言模型多轮对话的综合评估基准

研究团队发布 MTR-DuplexBench 基准，首次系统评估全双工语音语言模型（FD-SLMs）的多轮对话能力。该基准将连续对话切分为离散回合，涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明，当前 FD-SLMs 在多轮交互中性能波动明显，难以保持上下文一致性。相关代码和数据已开源。

arXiv 论文/研究评测/基准语音

01:44

Chubby♨️@kimmonismus

等等，这里有些不对劲。Opus 4.7 在大海捞针测试中的表现差了很多？需要深挖一下

Anthropic 评测/基准

00:08

AK@_akhaliq

39

GameWorld 迈向标准化且可验证的多模态游戏智能体评估论文： https://huggingface.co/papers/2604.07429

智能体论文/研究评测/基准

4月16日

23:44

Deedy@deedydas

Opus 4.7 基准测试按排名着色。 - 编程（SWE-Bench）大幅提升 - 计算机使用大幅提升 - 视觉推理（CharXiv）大幅提升 - Terminal Bench 小幅提升 - BrowseComp 退步介于 4.6 和 Mythos 之间。【图表由 4.7 生成】

智能体 Anthropic 推理编码

01:37

AK@_akhaliq

49

GlotOCR Bench OCR 模型在少数 Unicode 文字体系之外仍表现不佳 paper： https://huggingface.co/papers/2604.12978

多模态论文/研究评测/基准

4月15日

17:46

François Chollet@fchollet

任何认真努力的聪明人都应该在 ARC-AGI-3 上得分 >90%

推理评测/基准

10:05

Epoch AI@EpochAIResearch

OpenAI 已购买 FrontierMath： Open Problems 验证器的访问权限。这使他们能够检查其模型生成的解的有效性。详情见推文串。

OpenAI 推理数据/训练评测/基准

02:57

Hacker News 热门（buzzing.cc 中文翻译）

克劳德会开飞机吗？

提供的正文内容仅包含文章标题"Can Claude Fly a Plane?"、来源链接及发布元数据（2026年4月14日发布，获100 HN Points），未包含具体文章正文。因此无法提取关于Claude AI是否具备飞行操作能力、具体测试场景、性能数据或关键结论等详细信息以撰写符合要求的摘要。

智能体 Anthropic 推理评测/基准

00:03

AK@_akhaliq

36

QuanBench+ 一个用于基于LLM的量子代码生成的统一多框架基准测试论文： https://huggingface.co/papers/2604.08570

编码论文/研究评测/基准

4月14日

17:26

Chubby♨️@kimmonismus

关于 Anthropic 200 美元 Max 计划的投诉正在升级，因为独立测试（例如 Bridgebench）声称 Claude Opus 4.6 在幻觉性能方面急剧下降。可能是发布后进行了量化，人们将其应用到了他们的工作流程中？无论如何，祝贺 Grok 保持第一。

Anthropic 推理评测/基准

07:25

Chubby♨️@kimmonismus

天哪，Anthropic 没有夸大其词。Claude Mythos 确实与众不同。【引用 @AISecurityInst】：我们对 Claude Mythos Preview 进行了网络安全评估，发现它是首个端到端完成 AISI 网络靶场的模型。🧵

AI Security Institute: We conducted cyber evaluations of Claude Mythos Preview and found that it is the first model to complete an AISI cyber r...

Anthropic 评测/基准

03:56

DogeDesigner@cb_doge

25

Grok 4.20 正在碾压 BridgeBench。🔥 速度排名第一推理排名第一幻觉控制排名第一击败了 GPT-5.4、Claude Opus 4.6、Gemini、Qwen 等模型。

xAI 行业动态评测/基准

02:44

DogeDesigner@cb_doge

Grok 4.20 Reasoning 刚刚在 BridgeBench 推理基准测试中夺得第一。🔥 击败 GPT-5.4、Claude Opus 4.6、Google Gemini 等模型。周复一周，Grok 在各个基准测试中持续攀升。🚀

xAI 推理评测/基准

01:16

AK@_akhaliq

40

FORGE 面向制造场景的细粒度多模态评估论文： https://huggingface.co/papers/2604.07413

多模态论文/研究评测/基准

4月13日

08:00

HuggingFace Daily Papers（社区热门论文）

CocoaBench：统一数字智能体真实场景能力基准测试

CocoaBench 基准测试针对统一数字智能体发布，通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性，同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示，当前最优系统成功率仅为 45.1%，表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。

智能体 arXiv Hugging Face 推理

04:33

Ethan Mollick@emollick

ChatGPT 的思维链展示体验当前最优，主窗口呈现步骤摘要，侧边栏可查看详细审计。Claude 表现接近但总结过度，计算与代码细节难以查看。Gemini 在此功能上存在明显短板。

Anthropic OpenAI 推理评测/基准

4月12日

23:39

DogeDesigner@cb_doge

26

Anthropic的Claude Opus正在下滑。最新基准测试显示，其准确率在短短几天内从83.3%降至68.3%。这在编码过程中的幻觉率出现了大幅飙升。 Grok 4.20仍保持第一的位置。未被超越。

现象/趋势评测/基准

08:43

Deedy@deedydas

Meta Muse Spark评测：视觉强劲但增长策略惹争议

Meta推出免费视觉模型Muse Spark，擅长visual grounding、图像文字识别与网页设计，能精准计数物体并生成边界框。但Meta采用dodgy增长策略，未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖，不及GPT与Claude。凭借庞大分发渠道和免费策略，Muse Spark对大型AI实验室构成长期威胁，尤其在消费级市场可能重塑竞争格局。

Meta 多模态评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

TorchUMM：面向评估、分析与后训练的统一多模态模型代码库

研究团队发布 TorchUMM，首个支持统一多模态模型（UMMs）综合评估、分析与后训练的开源代码库。该框架兼容多种架构范式与规模等级的模型，覆盖理解、生成、编辑三大核心任务维度，并整合新旧数据集以系统评估感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议，TorchUMM 实现了异构模型间的公平可复现比较，助力开发者深入洞察模型优劣，加速统一多模态系统的研发迭代。代码已开源至 GitHub。

Hugging Face 多模态论文/研究评测/基准

4月11日

08:42

Rohan Paul@rohanpaul_ai

AI预测英超赛季全军覆没：Claude亏损最少

KellyBench基准测试检验了主流LLM在英超赛季投注中的长期预测与风险管理能力。所有参测模型均遭遇亏损，部分资金归零。Claude Opus 4.6以-11% ROI表现最佳，GPT-5.4为-13.6%。该测试通过100-150场动态赛季模拟，暴露出现有AI在持续决策中的连贯性、数据适应性与风险控制方面存在显著缺陷。

智能体 Anthropic OpenAI 推理

03:51

Noam Brown@polynoamial

GTOWizard 测试显示，GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Grok 4 等主流模型在与专业扑克 AI 的 5000 手无限注德州扑克单挑中全部落败。推主调侃，既然直接玩扑克不行，不如测试 AI 生成会玩扑克的 AI 的能力。

GTOWizard: We benchmarked every major AI model at poker. GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more. All played 5,00...

智能体 Meta 推理评测/基准

01:00

SemiAnalysis@SemiAnalysis_

InferenceX 是行业标准的研究平台，用于在全球最受欢迎的开源 LLM 推理框架中对 AI 芯片性能进行基准测试，并随行业格局演变持续更新。我们很荣幸得到 AI 研究、芯片设计及更广泛推理领域一些领军人物的认可与支持。

产品更新评测/基准部署/工程

4月10日

23:22

Epoch AI@EpochAIResearch

新基准 MirrorCode 显示，Claude Opus 4.6 能重构 16，000 行生物信息学工具包，任务量相当于人类工程师数周工作。与 METR_Evals 合作开发。

智能体 Anthropic 编码评测/基准

4月9日

11:37

Ethan Mollick@emollick

Amazon Nova 2 自去年12月发布至今，其顶级模型性能仍落后于 Sonnet 4.5，且始终未能脱离预览阶段，进展缓慢。

大佬观点模型发布评测/基准

07:11

Peter Steinberger 🦞@steipete

做角色评估时发现 Claude 总把自己排第一，于是移除评判中的模型名称并调整设置，避免模型自我偏好影响结果。

Anthropic 数据/训练评测/基准

02:35

Epoch AI@EpochAIResearch

Meta Muse Spark 模型在 FrontierMath 基准测试中，Tiers 1-3 得分 39%，Tier 4 得分 15%。该成绩与近期多款前沿模型相当，但仍落后于 GPT-5.4。

Meta 推理评测/基准

02:30

AK@_akhaliq

Video-MME 基准测试发布 v2 版本，推动全面视频理解评估进入新阶段。论文已上传至 Hugging Face。

Hugging Face 多模态视频评测/基准

1…18 192021 22