AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
4月22日周三
00:14AK39MathNet:全球多模态数学推理与检索基准发布
4月21日周二
10:10IT之家(RSS)RAG AI 测试:AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%
09:13SemiAnalysis目前,InferenceX 基准测试显示的是这些芯片的实际最差性能。无前缀缓存,无多轮对话,全为随机数据。真正的提升甚至尚未测量。
4月20日周一
00:38DogeDesigner消息:Grok 刚刚创下有史以来最低的幻觉率,在 AA-Omniscience 基准测试中仅为 17%。 击败了: Claude → 36% Gemini → 50% ChatGPT → 89%
4月19日周日
17:08karminski-牙医106美元实测Claude-Opus-4.7:视觉飞跃但推理偷懒
16:37The Decoder:AI News(RSS)新基准测试发现:图表复杂度提升时,顶尖AI模型性能损失近半
13:05Ethan Mollick我觉得这些"泄露"很好笑的是,他们甚至懒得弄个大体准确的基准测试数据来输入到图像生成器里。至少让模型查一下真实数据吧。这很简单! 比如 GPQA 在所有近期模型上都超过 90% 了。
03:37SemiAnalysis在 GTC 2024 上,Jensen 表示 GB200 NVL72 比 Hopper 快 35 倍。没人相信,认为这是经典的 fake Jensen Math。当我们测试其性能时,它不仅快了 35 倍,即使面对采用了 MTP、Disagg prefill、wideEP 等所有推理优化组合的强大 Hopper 基线,也快了 50 倍以上。在 InferenceX.com 查看详细结果。
02:06Hacker News 热门(buzzing.cc 中文翻译)Opus 4.7 至 4.6 版本的通胀率约为 45%
4月18日周六
19:44Chubby♨️Opus 4.7 确实似乎有所改进,其自适应思考现在使用了更多 tokens。 然而,与 Opus 4.6 相比,它的表现仍然明显更差。
00:28AK55DR3-Eval推进深度研究评估真实性与可复现性
4月17日周五
17:44Chubby♨️Opus 4.7 消耗的 token 数量约为原来的 1.3 倍。指令必须非常精确。许多人在抱怨这是一次"仓促发布"。在 Bullshit Benchmark 中,它的表现比 Opus 4.6 更差。反响非常两极分化。 Anthropic 这次可能帮了 OpenAI 一个大忙。Spud 预计下周发布。如果发布得当,它可能会盖过 Opus 的风头,让 ChatGPT 重回巅峰。 h/t @petergostev 提供基准测试和图片
17:44Chubby♨️31用户吐槽GPT-4.7版本体验不佳
08:00HuggingFace Daily Papers(社区热门论文)MTR-DuplexBench:面向全双工语音语言模型多轮对话的综合评估基准
01:44Chubby♨️等等,这里有些不对劲。Opus 4.7 在大海捞针测试中的表现差了很多?需要深挖一下
00:08AK39迈向标准化可验证的多模态游戏智能体评估
4月16日周四
23:44DeedyOpus 4.7 基准测试按排名着色。 - 编程(SWE-Bench)大幅提升 - 计算机使用大幅提升 - 视觉推理(CharXiv)大幅提升 - Terminal Bench 小幅提升 - BrowseComp 退步 介于 4.6 和 Mythos 之间。 【图表由 4.7 生成】
01:37AK49OCR模型对多语种文字识别仍存挑战
4月15日周三
17:46François Chollet任何认真努力的聪明人都应该在 ARC-AGI-3 上得分 >90%
10:05Epoch AIOpenAI 已购买 FrontierMath: Open Problems 验证器的访问权限。这使他们能够检查其模型生成的解的有效性。详情见推文串。
02:57Hacker News 热门(buzzing.cc 中文翻译)克劳德会开飞机吗?
00:03AK36QuanBench+:量子代码生成统一基准发布
4月14日周二
17:26Chubby♨️关于 Anthropic 200 美元 Max 计划的投诉正在升级,因为独立测试(例如 Bridgebench)声称 Claude Opus 4.6 在幻觉性能方面急剧下降。 可能是发布后进行了量化,人们将其应用到了他们的工作流程中?无论如何,祝贺 Grok 保持第一。
07:25Chubby♨️天哪,Anthropic 没有夸大其词。Claude Mythos 确实与众不同。 【引用 @AISecurityInst】:我们对 Claude Mythos Preview 进行了网络安全评估,发现它是首个端到端完成 AISI 网络靶场的模型。🧵
03:56DogeDesigner25Grok 4.20全面领先BridgeBench基准测试
02:44DogeDesignerGrok 4.20 Reasoning 刚刚在 BridgeBench 推理基准测试中夺得第一。🔥 击败 GPT-5.4、Claude Opus 4.6、Google Gemini 等模型。 周复一周,Grok 在各个基准测试中持续攀升。🚀
01:16AK40FORGE推出制造业多模态评估基准
4月13日周一
08:00HuggingFace Daily Papers(社区热门论文)CocoaBench:统一数字智能体真实场景能力基准测试
04:33Ethan Mollick目前 ChatGPT 的思维链展示方式最佳:主窗口显示步骤摘要,侧边栏提供详细审计
4月12日周日
23:39DogeDesigner26Claude Opus性能骤降,Grok稳居榜首
08:43DeedyMeta Muse Spark评测:视觉强劲但增长策略惹争议
08:00HuggingFace Daily Papers(社区热门论文)TorchUMM:面向评估、分析与后训练的统一多模态模型代码库
4月11日周六
08:42Rohan PaulAI预测英超赛季全军覆没:Claude亏损最少
03:51Noam Brown我们真正需要的是让 AI 模型生成会玩扑克的 AI 模型的基准测试
01:00SemiAnalysisInferenceX 是行业标准的研究平台,用于在全球最受欢迎的开源 LLM 推理框架中对 AI 芯片性能进行基准测试,并随行业格局演变持续更新。我们很荣幸得到 AI 研究、芯片设计及更广泛推理领域一些领军人物的认可与支持。
4月10日周五
23:22Epoch AIAI 可胜任多大规模的软件工程任务?
4月9日周四
11:37Ethan MollickAmazon Nova 到底什么情况?Nova 2 自去年12月发布,其顶级模型…
07:11Peter Steinberger 🦞正在做角色评估,发现 Claude 总是把自己选为第一名,于是从评判中移除了模型名称并做了调整
02:35Epoch AI我们提前测试了 Meta 的 Muse Spark 模型,并在 FrontierMath 上进行了评估。其得分为…
02:30AKVideo-MME-v2:迈向全面视频理解基准测试的下一阶段
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月22日
00:14
AK@_akhaliq
39
MathNet 一个用于数学推理与检索的全球多模态基准 论文: https://huggingface.co/papers/2604.18584
推理论文/研究评测/基准
4月21日
10:10
IT之家(RSS)
RAG AI 测试:AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

摩根士丹利基于开源 X3D RAG 基准测试显示,在 RAG AI 向量搜索场景中,AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中,Ryzen 3D V-Cache 芯片速度领先 88%;20 万规模下,Ryzen 7 9850X3D 较 9700X 提升超 50%,甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法,使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。

检索增强评测/基准部署/工程
09:13
SemiAnalysis@SemiAnalysis_
目前,InferenceX 基准测试显示的是这些芯片的实际最差性能。无前缀缓存,无多轮对话,全为随机数据。真正的提升甚至尚未测量。
评测/基准部署/工程
4月20日
00:38
DogeDesigner@cb_doge
消息:Grok 刚刚创下有史以来最低的幻觉率,在 AA-Omniscience 基准测试中仅为 17%。 击败了: Claude → 36% Gemini → 50% ChatGPT → 89%
xAI评测/基准
4月19日
17:08
karminski-牙医@karminski3
106美元实测Claude-Opus-4.7:视觉飞跃但推理偷懒

花费106美元在OpenRouter上实测Claude-Opus-4.7显示,其视觉能力较4.6版本显著提升,在颜色识别、细节捕捉和空间理解方面表现突出,可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑,核心问题在于即使开启xhigh reasoning effort,模型的思考预算仍显不足,导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

Anthropic多模态编码评测/基准
16:37
The Decoder:AI News(RSS)
新基准测试发现:图表复杂度提升时,顶尖AI模型性能损失近半

RealChart2Code 基准测试针对基于真实数据集构建的复杂可视化图表,对14个领先AI模型进行评估。结果显示,当图表结构趋于复杂时,即使是最顶尖的专有模型,其性能也损失近半,远低于在简单测试中的表现。这一发现揭示了当前AI模型在理解和转换复杂数据可视化内容方面存在显著局限。

多模态编码评测/基准
13:05
Ethan Mollick@emollick
我觉得这些"泄露"很好笑的是,他们甚至懒得弄个大体准确的基准测试数据来输入到图像生成器里。至少让模型查一下真实数据吧。这很简单! 比如 GPQA 在所有近期模型上都超过 90% 了。
大佬观点现象/趋势评测/基准
03:37
SemiAnalysis@SemiAnalysis_
在 GTC 2024 上,Jensen 表示 GB200 NVL72 比 Hopper 快 35 倍。没人相信,认为这是经典的 fake Jensen Math。当我们测试其性能时,它不仅快了 35 倍,即使面对采用了 MTP、Disagg prefill、wideEP 等所有推理优化组合的强大 Hopper 基线,也快了 50 倍以上。在 InferenceX.com 查看详细结果。
评测/基准部署/工程
02:06
Hacker News 热门(buzzing.cc 中文翻译)
Opus 4.7 至 4.6 版本的通胀率约为 45%

监测数据显示,Opus 4.7版本相较4.6版本的token"通胀率"高达45%,即新版本生成内容时消耗的token数量较上一版本大幅增加,直接导致API调用成本上升。该数据来自tokens.billchambers.me的模型对比排行榜,在Hacker News上获得133个赞。

Anthropic评测/基准部署/工程
4月18日
19:44
Chubby♨️@kimmonismus
Opus 4.7 确实似乎有所改进,其自适应思考现在使用了更多 tokens。 然而,与 Opus 4.6 相比,它的表现仍然明显更差。
Anthropic推理评测/基准
00:28
AK@_akhaliq
55
DR3-Eval 迈向现实且可复现的深度研究评估 论文: https://huggingface.co/papers/2604.14683
智能体论文/研究评测/基准
4月17日
17:44
Chubby♨️@kimmonismus
Opus 4.7 消耗的 token 数量约为原来的 1.3 倍。指令必须非常精确。许多人在抱怨这是一次"仓促发布"。在 Bullshit Benchmark 中,它的表现比 Opus 4.6 更差。反响非常两极分化。 Anthropic 这次可能帮了 OpenAI 一个大忙。Spud 预计下周发布。如果发布得当,它可能会盖过 Opus 的风头,让 ChatGPT 重回巅峰。 h/t @petergostev 提供基准测试和图片

Chubby♨️: The mood regarding the Opus 4.7 update has shifted. If I had to guess, I'd say 60% are disappointed with the latest upda...

AnthropicOpenAI推理评测/基准
17:44
Chubby♨️@kimmonismus
31
😥 【引用 @kimmonismus】:好吧,什么鬼,我直说了。把4.6还给我。 这到底是什么鬼东西。 我越用4.7越恼火。这真是个仓促的发布。

Chubby♨️: ok wtf, i say it. give me back 4.6 what the heck is this sh*t. The more i use 4.7 the more annoyed i am. this is such a ...

大佬观点评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
MTR-DuplexBench:面向全双工语音语言模型多轮对话的综合评估基准

研究团队发布 MTR-DuplexBench 基准,首次系统评估全双工语音语言模型(FD-SLMs)的多轮对话能力。该基准将连续对话切分为离散回合,涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明,当前 FD-SLMs 在多轮交互中性能波动明显,难以保持上下文一致性。相关代码和数据已开源。

arXiv论文/研究评测/基准语音
01:44
Chubby♨️@kimmonismus
等等,这里有些不对劲。Opus 4.7 在大海捞针测试中的表现差了很多?需要深挖一下
Anthropic评测/基准
00:08
AK@_akhaliq
39
GameWorld 迈向标准化且可验证的多模态游戏智能体评估 论文: https://huggingface.co/papers/2604.07429
智能体论文/研究评测/基准
4月16日
23:44
Deedy@deedydas
Opus 4.7 基准测试按排名着色。 - 编程(SWE-Bench)大幅提升 - 计算机使用大幅提升 - 视觉推理(CharXiv)大幅提升 - Terminal Bench 小幅提升 - BrowseComp 退步 介于 4.6 和 Mythos 之间。 【图表由 4.7 生成】
智能体Anthropic推理编码
01:37
AK@_akhaliq
49
GlotOCR Bench OCR 模型在少数 Unicode 文字体系之外仍表现不佳 paper: https://huggingface.co/papers/2604.12978
多模态论文/研究评测/基准
4月15日
17:46
François Chollet@fchollet
任何认真努力的聪明人都应该在 ARC-AGI-3 上得分 >90%
推理评测/基准
10:05
Epoch AI@EpochAIResearch
OpenAI 已购买 FrontierMath: Open Problems 验证器的访问权限。这使他们能够检查其模型生成的解的有效性。详情见推文串。
OpenAI推理数据/训练评测/基准
02:57
Hacker News 热门(buzzing.cc 中文翻译)
克劳德会开飞机吗?

提供的正文内容仅包含文章标题"Can Claude Fly a Plane?"、来源链接及发布元数据(2026年4月14日发布,获100 HN Points),未包含具体文章正文。因此无法提取关于Claude AI是否具备飞行操作能力、具体测试场景、性能数据或关键结论等详细信息以撰写符合要求的摘要。

智能体Anthropic推理评测/基准
00:03
AK@_akhaliq
36
QuanBench+ 一个用于基于LLM的量子代码生成的统一多框架基准测试 论文: https://huggingface.co/papers/2604.08570
编码论文/研究评测/基准
4月14日
17:26
Chubby♨️@kimmonismus
关于 Anthropic 200 美元 Max 计划的投诉正在升级,因为独立测试(例如 Bridgebench)声称 Claude Opus 4.6 在幻觉性能方面急剧下降。 可能是发布后进行了量化,人们将其应用到了他们的工作流程中?无论如何,祝贺 Grok 保持第一。
Anthropic推理评测/基准
07:25
Chubby♨️@kimmonismus
天哪,Anthropic 没有夸大其词。Claude Mythos 确实与众不同。 【引用 @AISecurityInst】:我们对 Claude Mythos Preview 进行了网络安全评估,发现它是首个端到端完成 AISI 网络靶场的模型。🧵

AI Security Institute: We conducted cyber evaluations of Claude Mythos Preview and found that it is the first model to complete an AISI cyber r...

Anthropic评测/基准
03:56
DogeDesigner@cb_doge
25
Grok 4.20 正在碾压 BridgeBench。🔥 速度排名第一 推理排名第一 幻觉控制排名第一 击败了 GPT-5.4、Claude Opus 4.6、Gemini、Qwen 等模型。
xAI行业动态评测/基准
02:44
DogeDesigner@cb_doge
Grok 4.20 Reasoning 刚刚在 BridgeBench 推理基准测试中夺得第一。🔥 击败 GPT-5.4、Claude Opus 4.6、Google Gemini 等模型。 周复一周,Grok 在各个基准测试中持续攀升。🚀
xAI推理评测/基准
01:16
AK@_akhaliq
40
FORGE 面向制造场景的细粒度多模态评估 论文: https://huggingface.co/papers/2604.07413
多模态论文/研究评测/基准
4月13日
08:00
HuggingFace Daily Papers(社区热门论文)
CocoaBench:统一数字智能体真实场景能力基准测试

CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。

智能体arXivHugging Face推理
04:33
Ethan Mollick@emollick
ChatGPT 的思维链展示体验当前最优,主窗口呈现步骤摘要,侧边栏可查看详细审计。Claude 表现接近但总结过度,计算与代码细节难以查看。Gemini 在此功能上存在明显短板。
AnthropicOpenAI推理评测/基准
4月12日
23:39
DogeDesigner@cb_doge
26
Anthropic的Claude Opus正在下滑。 最新基准测试显示,其准确率在短短几天内从83.3%降至68.3%。 这在编码过程中的幻觉率出现了大幅飙升。 Grok 4.20仍保持第一的位置。未被超越。
现象/趋势评测/基准
08:43
Deedy@deedydas
Meta Muse Spark评测:视觉强劲但增长策略惹争议

Meta推出免费视觉模型Muse Spark,擅长visual grounding、图像文字识别与网页设计,能精准计数物体并生成边界框。但Meta采用dodgy增长策略,未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖,不及GPT与Claude。凭借庞大分发渠道和免费策略,Muse Spark对大型AI实验室构成长期威胁,尤其在消费级市场可能重塑竞争格局。

Meta多模态评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
TorchUMM:面向评估、分析与后训练的统一多模态模型代码库

研究团队发布 TorchUMM,首个支持统一多模态模型(UMMs)综合评估、分析与后训练的开源代码库。该框架兼容多种架构范式与规模等级的模型,覆盖理解、生成、编辑三大核心任务维度,并整合新旧数据集以系统评估感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议,TorchUMM 实现了异构模型间的公平可复现比较,助力开发者深入洞察模型优劣,加速统一多模态系统的研发迭代。代码已开源至 GitHub。

Hugging Face多模态论文/研究评测/基准
4月11日
08:42
Rohan Paul@rohanpaul_ai
AI预测英超赛季全军覆没:Claude亏损最少

KellyBench基准测试检验了主流LLM在英超赛季投注中的长期预测与风险管理能力。所有参测模型均遭遇亏损,部分资金归零。Claude Opus 4.6以-11% ROI表现最佳,GPT-5.4为-13.6%。该测试通过100-150场动态赛季模拟,暴露出现有AI在持续决策中的连贯性、数据适应性与风险控制方面存在显著缺陷。

智能体AnthropicOpenAI推理
03:51
Noam Brown@polynoamial
GTOWizard 测试显示,GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Grok 4 等主流模型在与专业扑克 AI 的 5000 手无限注德州扑克单挑中全部落败。推主调侃,既然直接玩扑克不行,不如测试 AI 生成会玩扑克的 AI 的能力。

GTOWizard: We benchmarked every major AI model at poker. GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more. All played 5,00...

智能体Meta推理评测/基准
01:00
SemiAnalysis@SemiAnalysis_
InferenceX 是行业标准的研究平台,用于在全球最受欢迎的开源 LLM 推理框架中对 AI 芯片性能进行基准测试,并随行业格局演变持续更新。我们很荣幸得到 AI 研究、芯片设计及更广泛推理领域一些领军人物的认可与支持。
产品更新评测/基准部署/工程
4月10日
23:22
Epoch AI@EpochAIResearch
新基准 MirrorCode 显示,Claude Opus 4.6 能重构 16,000 行生物信息学工具包,任务量相当于人类工程师数周工作。与 METR_Evals 合作开发。
智能体Anthropic编码评测/基准
4月9日
11:37
Ethan Mollick@emollick
Amazon Nova 2 自去年12月发布至今,其顶级模型性能仍落后于 Sonnet 4.5,且始终未能脱离预览阶段,进展缓慢。
大佬观点模型发布评测/基准
07:11
Peter Steinberger 🦞@steipete
做角色评估时发现 Claude 总把自己排第一,于是移除评判中的模型名称并调整设置,避免模型自我偏好影响结果。
Anthropic数据/训练评测/基准
02:35
Epoch AI@EpochAIResearch
Meta Muse Spark 模型在 FrontierMath 基准测试中,Tiers 1-3 得分 39%,Tier 4 得分 15%。该成绩与近期多款前沿模型相当,但仍落后于 GPT-5.4。
Meta推理评测/基准
02:30
AK@_akhaliq
Video-MME 基准测试发布 v2 版本,推动全面视频理解评估进入新阶段。论文已上传至 Hugging Face。
Hugging Face多模态视频评测/基准
‹ 上一页
1…1819202122
下一页 ›