全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「评测/基准」清除

今天7月3日周五

03:38Rohan Paul51Fable 5 分类器误判致 75% 代码路由到 Opus

02:34Epoch AI44GPT-4霸榜Epoch指数352天

00:14Hacker News 热门（buzzing.cc 中文翻译）60CursorBench 3.1

7月2日周四

23:33HuggingFace Daily Papers（社区热门论文）49性能优化基准是否可靠衡量编码智能体？

23:03Ethan Mollick50Ethan Mollick：你真的需要自己的基准测试

20:45The Decoder：AI News（RSS）71精选Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

19:14Hacker News 热门（buzzing.cc 中文翻译）71精选Senior SWE-Bench：评估AI智能体作为高级工程师的基准测试

18:20公众号：卡尔的AI沃茨61实测腾讯Marvis：手机远程操控Mac清出100GB，还能续写小说

10:10Yuchen Jin38Databricks 凭借 AI 智能体登顶 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道

07:37elvis43GLM-5.2/Fugu Ultra/Fable 5 同提示对比

07:37SemiAnalysis57DeepSeek V4 在 InferenceX 部署与性能探讨

07:34Rohan Paul53Fable 5 在 HTML5 物理竞赛中表现优异，但成本是 Opus 4.8 的 6 倍、GLM 5.2 的 39 倍

07:22Chubby♨️44Fable-5 RLI得分16.10%，GPT-5.6下周发布传闻

07:03Artificial Analysis68Fish Audio S2.1 Pro 文本转语音模型发布

07:00Ethan Mollick41Fable早期访问印象：长难任务出色

05:33Artificial Analysis55Claude Sonnet 5在AA-Briefcase基准上仅次于Fable 5

05:03MarkTechPost（RSS）59Anthropic 恢复部署 Claude Fable 5，新增安全分类器

01:59Ethan Mollick61针对实际用例对模型做基准测试：Gemini 3.1 Pro vs GPT-5.5 咖啡馆案例

01:52Chubby♨️73Fable-5 在 Remote Labor Index 上达 16.10% 自动化率

7月1日周三

23:31Berryxia.AI15Omini 1.0 视频编辑能力提升，新版本即将发布

23:31Berryxia.AI586个PPT Skill处理GEO入门文档对比测试

23:27Epoch AI28Epoch AI新增13项评测基准，7项纳入ECI

23:03IT之家（RSS）57OpenAI 推出 GeneBench-Pro 基准测试，评估 AI 模型生物学计算能力

20:28HuggingFace Daily Papers（社区热门论文）44QVal：低成本评估长周期LLM智能体密集监督信号的测试平台

20:25The Verge：AI（RSS）53Google Home Speaker 评测：硬件出色但 Gemini 尚未成熟

17:10公众号：卡尔的AI沃茨71实测美团LongCat-2.0，国产芯片长出来的万亿大模型

15:37小互40Sonnet 5 对比 4.6 与 Opus：翻译成本降 80%

15:32Orange AI54Sonnet 5 新 tokenizer 致费用争议，与 Opus 4.8 持平

08:32Rohan Paul58atomic.chat对比测试：Sonnet 5在物理碰撞演示中与GPT 5.5持平，成本低6倍

07:01Rohan Paul55Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%，高于 Sonnet 4.6 约2倍

05:50Chubby♨️68Claude Sonnet 5 评测：每任务成本高于 Opus 4.8，智力仍落后

05:38Yuchen Jin31Claude Sonnet 5 成本高于 Opus 4.8 及 GLM-5.2

05:28Artificial Analysis60Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分，标准定价下每任务成本高于 Opus 4.8

03:58Artificial Analysis58Artificial Analysis 推出受控语音竞技场

02:28Artificial Analysis53GLM-5.2：开源权重智能最高但最啰嗦的领先模型

01:27HuggingFace Daily Papers（社区热门论文）48SWE-Together： Evaluating Coding Agents in Interactive User Sessions

01:03OpenAI：官网动态（RSS · 排除企业/客户案例）41OpenAI 发布 Genebench-Pro 基准测试：10个案例研究详解

00:50fofr32Omni Flash 图像编辑能力惊艳登场

00:36AK31OSWorld2.0 评测长程真实世界任务

6月30日周二

21:02IT之家（RSS）69Arena 企业级评测服务 AI Evaluations 上线 8 个月，年度经常性收入突破 1 亿美元

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月3日

03:38

Rohan Paul@rohanpaul_ai

51

用户 @bridgemindai 披露一次编码会话花费 $321，其中 Fable 5 仅完成 $78（约 25%），而 Opus 4.8 被回退调用完成 $242（约 75%）。原因在于 Fable 5 的新分类器将常规编码提示误判为网络安全风险，导致大部分工作自动路由到更昂贵的 Opus 模型。Anthropic 曾称仅极少数任务会触发 fallback，但该用户实际体验与此不符。

BridgeMind: I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...

Anthropic 安全/对齐编码评测/基准

02:34

Epoch AI@EpochAIResearch

44

OpenAI的GPT-4在2023年3月发布后，引领Epoch能力指数长达352天，远超此后任何模型。第二长的领先属于OpenAI的o1，为98天。

OpenAI 评测/基准

00:14

Hacker News 热门（buzzing.cc 中文翻译）

60

CursorBench 3.1

CursorBench 3.1 新增代码库理解、bug 查找、规划和代码审查任务，并改进了编辑任务的评分标准。排行榜显示，Fable 5 Max 以 72.9% 得分、$18.02 每任务成本居首，Fable 5 Extra High（72.0%，$13.74）和 Fable 5 High（70.6%，$10.81）紧随其后。Opus 4.7 Max 得分 64.8%、成本 $11.02；GPT-5.5 Extra High 得分 64.3%、成本 $4.37；Composer 2.5 得分 63.2%、成本仅 $0.55。共收录 36 个模型/配置，得分范围 72.9%–31.9%。

编码评测/基准

7月2日

23:33

HuggingFace Daily Papers（社区热门论文）

49

性能优化基准是否可靠衡量编码智能体？

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现，跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498；SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致，SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外，在450个可重现任务中，至少一个提交已匹配或超越参考补丁的比例达85.3%，超越未优化基线达99.8%，揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准

23:03

Ethan Mollick@emollick

50

Ethan Mollick主张用自定义基准测试评估模型，而非依赖通用基准或直接换模型。他举例：翻译埃及象形文字用Gemini 3.5 Flash，运行自动售货机用Opus 4.8。JakeABoggs的HieroglyphBench测试显示，Anthropic Fable 5与GPT-5.5持平，但均远落后于Gemini系列，其中Gemini 3.5 Flash得分是Fable 5的两倍以上。

Jake Boggs: Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...

多模态大佬观点评测/基准

20:45

The Decoder：AI News（RSS）

精选71

Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

Remote Labor Index（RLI）衡量 AI 智能体完成 240 个付费自由职业项目（总值 14.4 万美元）的专业质量比例。最新结果显示，Fable 5 自动化率达 16.1%，是八个月前最佳系统 2.5% 的六倍多，也超过 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。因美国政府限制访问，Fable 5 仅完成 218/240 个项目评估，最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%，落后于更老模型。AI 裁判会高估模型表现（GPT-5.5 评分偏高近三倍），仍需人类评估员打开专业软件（如 Blender）检验几何模型等细节。测试环境为虚拟 Linux 机，配备 30 余款专业应用，每项目最多 24 小时计算时间。尽管自动化率快速攀升，多数项目仍无法达到专业质量。

智能体 Anthropic OpenAI 现象/趋势

推荐理由：自由职业自动化率八个月翻了六倍，这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊'，但趋势已经形成，做自由职业平台和外包的人该认真看看。

19:14

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Senior SWE-Bench：评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试，用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类：功能任务指令类似自然语言消息，采用验证智能体基于专家配方自动生成行为测试；Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示，Claude Opus 4.8搭配Mini-SWE-Agent（max effort）通过率24.0%，Claude Sonnet 5为19.4%，GPT-5.5为16.0%，最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件，最强智能体也需数百步完成；中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR，由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由：这个新基准把 AI 编程代理的评估拉到了更真实的复杂度，顶尖模型也只有不到四分之一的成功率，做 coding agent 的都该拿它测一测，它会比 SWE-bench 更挑出工程师的“手感”。

18:20

公众号：卡尔的AI沃茨

61

实测腾讯Marvis：手机远程操控Mac清出100GB，还能续写小说

腾讯推出桌面AI管家Marvis，可通过手机远程操控Mac。实测功能包括：电脑自检（扫描磁盘、性能、电池、使用习惯，生成网页报告）、垃圾清理（清出100GB至占用80%以下，删除需逐项确认）、远程操控多台电脑（支持鼠标键盘实时操作）、跨浏览器搜索“AAindex前十模型API接入方式”自动整理成表格、一句话生成PPT（质量约80分）、读取本地小说项目《灰质交易》并根据设定续写第一章。Marvis内部接入混元和DeepSeek，定位为电脑AI管家，与偏交付的WorkBuddy差异化。

智能体评测/基准

10:10

Yuchen Jin@Yuchenj_UW

38

Databricks 凭借 AI 智能体登顶 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道

Databricks 在 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道排名第一，完全依靠 AI 智能体自主运行。使用的框架是 KDA、Humanize 和 Omnigent：由 Claude 编写代码，Codex 审查代码，实现了递归自我改进。该工作由 Databricks 的 leshenj15 主导，并与 NVIDIA 及 MIT HAN Lab 的 Ligeng Zhu 和 Dongyun Zou 合作完成。

智能体编码评测/基准

07:37

elvis@omarsar0

43

谁做得最好？ GLM-5.2（左）| Fugu Ultra（中）| Fable 5（右）同样的一次性提示。最后那个是我的最爱！

图像生成评测/基准

07:37

SemiAnalysis@SemiAnalysis_

57

本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel，以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。

DeepSeek 推理评测/基准部署/工程

07:34

Rohan Paul@rohanpaul_ai

53

Fable 5 在 HTML5 物理竞赛中表现优异，但成本是 Opus 4.8 的 6 倍、GLM 5.2 的 39 倍

在 atomic.chat（本地 LLM 桌面应用）的 HTML5 物理竞赛中，Fable 5 以 A+ 成绩完成全部三个场景（火车脱轨、汽车空中碰撞、怪物卡车碾压），消耗 62,158 token，成本 $3.12。相比之下，Opus 4.8 消耗 22,280 token/$0.56，GPT 5.5 消耗 37,753 token/$1.14（在怪物卡车场景中略胜 Fable），GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。

atomic.chat: Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...

Anthropic OpenAI 推理编码

07:22

Chubby♨️@kimmonismus

44

Fable-5在Remote Labor Index（RLI）取得16.10%分数，领跑公开排行榜。RLI使用240个真实远程工作项目（覆盖23个领域、总价值超14万美元），评审将AI输出与人类交付物对比，判断合理客户是否接受。该成绩被称为"疯狂的跃升"，表明AI仍处于指数发展期。与此同时，传闻GPT-5.6将于下周发布，作者向OpenAI喊话并追问Gemini 3.5 Pro去向。

Chubby♨️: This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...

推理评测/基准

07:03

Artificial Analysis@ArtificialAnlys

68

Fish Audio S2.1 Pro 文本转语音模型发布

Fish Audio 发布 S2.1 Pro 文本转语音模型，通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律，质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上，S2.1 Pro 基于 1072 场竞技获得 Elo 1153，排名第 13，超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒，高于 GPT-Realtime-2（45.8 chars/s）和 Gemini 3.1 Flash TTS（25.3 chars/s）。

模型发布评测/基准语音

07:00

Ethan Mollick@emollick

41

自从它回归以来，这里是我几周前作为早期访问用户使用Fable后的印象（是的，它确实非常令人印象深刻，但在更长、更困难的任务中表现最佳）https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_medium=ios

大佬观点评测/基准

05:33

Artificial Analysis@ArtificialAnlys

55

Claude Sonnet 5在AA-Briefcase基准上仅次于Fable 5

Anthropic发布Claude Sonnet 5。在AA-Briefcase（智能体知识工作基准，测试模型处理数千文件并产出表格、演示和UI原型）上，Sonnet 5 (max)得1391 Elo，较Sonnet 4.6 (max)提升312分，排第二，仅次于Fable 5。提升来自rubric评分与分析质量，呈现仍落后Opus 4.8。max设置得分最高，但较低设置不处成本-性能帕累托前沿；Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高，因turn数大增：max平均每任务183 turns（Sonnet 4.6 max的4倍多），medium平均55 turns，各设置成本跨度约17倍。

智能体 Anthropic 评测/基准

05:03

MarkTechPost（RSS）

59

Anthropic 恢复部署 Claude Fable 5，新增安全分类器

Anthropic 于 7 月 1 日面向全球用户恢复部署 Claude Fable 5。此前 6 月 12 日，因 Amazon 研究人员发现绕过安全护栏的方法，美国出口管制生效，Anthropic 暂停了 Fable 5 和 Mythos 5。6 月 30 日管制解除。Anthropic 新增安全分类器，对该技术的阻止率超 99%，被拦截请求将路由至 Claude Opus 4.8 并通知用户。Fable 5 定价 $10/百万输入 token、$50/百万输出 token，可通过 Claude Platform 等使用。Anthropic 联合 Amazon、Microsoft、Google 等起草越狱严重性评分框架，从四维度评估。

Anthropic 产品更新安全/对齐评测/基准

01:59

Ethan Mollick@emollick

61

主推文强调必须针对实际用例做基准测试，因为决策层层叠加时模型差异会被放大，标准基准无法反映 Gemini 3.1 比 GPT-5.5 更不关心咖啡馆财务损失。引用案例：Andon Labs 的 AI 智能体用 Gemini 3.1 Pro 在斯德哥尔摩开咖啡馆，过度采购且易被欺骗，支出 $15k、收入仅 $9k，亏损 $6k，现已切换到 GPT-5.5。

Andon Labs: Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...

智能体 Google OpenAI 现象/趋势

01:52

Chubby♨️@kimmonismus

73

Fable-5 在 Remote Labor Index 上达 16.10% 自动化率

Fable-5 在 Remote Labor Index（RLI）上取得 16.10% 的自动化率，较前代 Opus 4.6 的 4.2% 提升近 4 倍，且是第二名模型的两倍。RLI 使用 240 个来自专业自由职业者的真实远程工作项目，覆盖 23 个领域、超 14 万美元的人类工作，评审者将 AI 输出与人类参考对照，判断合理客户是否会接受。Fable-5 目前领先公共排行榜，作者称这一飞跃表明 AI 仍在指数级发展，甚至最难的基准也开始被攻克。

Center for AI Safety: New Remote Labor Index results: AI automation of real remote work is increasing fast. Claude Fable 5 now completes 16.1%...

Anthropic 评测/基准

7月1日

23:31

Berryxia.AI@berryxia

15

Omini 1.0 在视频修改方面表现不错，演示空间和透视处理有显著提升。新版本很快将可使用，但由于其属于强编辑型工具，目前热度不高。

Berryxia.AI: Omini 1.0 修改视频也还可以,看着演示空间、透视这些都应该提升不少啊。应该很快就发布新版本可以使用了,但是因为属于编辑强,所以热度好像没有很高。

视频评测/基准

23:31

Berryxia.AI@berryxia

58

用户用Codex将GEO入门文档整理后，分别交给6个顶流PPT Skill生成演示内容。部分Skill输出HTML，宝玉走生图路线，PPT Master可直接生成PPT和PDF便于编辑。归藏版本留白较多，适合演讲类内容，而非知识点密集的培训课件。测试仅反映默认表现，不代表各Skill能力上限。用户根据本次交付暂时更倾向PPT Master。

赖叔 | LaiShu.ai: 2 分钟,一边入门 GEO 一边看懂 6 个顶流 PPT Skill 的区别素材来自姚老师 @yaojingang 的分享我先让 Codex 整理成一份入门文档再把完全相同的内容交给 6 个 PPT Skill 最后把 6 份结果剪到...

教程/实践评测/基准

23:27

Epoch AI@EpochAIResearch

28

我们最近开始在评测中枢跟踪13项新基准。其中7项已被纳入Epoch能力指数（ECI）。

数据/训练评测/基准

23:03

IT之家（RSS）

57

OpenAI 推出 GeneBench-Pro 基准测试，评估 AI 模型生物学计算能力

OpenAI 发布 GeneBench-Pro 基准测试，评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境，自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向，共 129 道题，分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差，OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面，后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。

OpenAI 数据/训练评测/基准

20:28

HuggingFace Daily Papers（社区热门论文）

44

QVal：低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台，通过Q对齐度量直接评估密集监督信号质量，判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验，发现简单提示基线一致优于近年文献中的密集监督方法，且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准

20:25

The Verge：AI（RSS）

53

Google Home Speaker 评测：硬件出色但 Gemini 尚未成熟

Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker，售价 99.99 美元。硬件设计精巧，音质在体积相当的产品中表现良好，支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能，可配合 Google TV Streamer 作为音频输出。然而，内置的 Gemini for Home 智能助手响应缓慢、不可靠，且部分功能需要付费才能使用。相比前代 Nest Audio，新款音箱尺寸更小但低频偏弱，在同价位竞品（Echo Dot Max、HomePod Mini）中音质排名第三。

Google 评测/基准语音

17:10

公众号：卡尔的AI沃茨

71

实测美团LongCat-2.0，国产芯片长出来的万亿大模型

美团发布LongCat-2.0，总参数1.6万亿、每个token仅激活约480亿参数的MoE模型，从预训练到大规模部署全程运行在5万张国产算力芯片上，训练消耗超35万亿tokens，无回滚、无不可恢复loss突刺。Agent场景表现突出：在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro，FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K，最高提供1M上下文，采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入，支持OpenAI Compatible和Anthropic API生态，可直接接入Claude Code和Codex等工作流。

智能体开源生态编码评测/基准

关联讨论 9 条X：硅基流动 SiliconFlow (@SiliconFlowAI)X：美团 LongCat (@Meituan_LongCat)Hacker News 热门（buzzing.cc 中文翻译）X：Emad Mostaque (@EMostaque)IT之家（RSS）X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)X：Rohan Paul (@rohanpaul_ai)公众号：龙猫LongCat（美团）

15:37

小互@xiaohu

40

Sonnet 5 对比 4.6 与 Opus：翻译成本降 80%

用 Best.XiaoHu.AI 内容测试显示：Sonnet 5 相比 4.6 在文字和其他任务上提升明显，但前端能力（前端设计、交互、SVG 图像）远不及 Opus。用户将 Sonnet 5 用于文字解读和翻译任务，可节省约一半输入 token，速度提升 1 倍多，翻译成本量级下降约 80%，质量零损失。

Anthropic 评测/基准

15:32

Orange AI@oran_ge

54

Sonnet 5 新 tokenizer 致费用争议，与 Opus 4.8 持平

Sonnet 5 因更换新 tokenizer，实际费用与 Opus 4.8 相近，引发争议。Sonnet 5 在金融领域（如 GDPeval）表现最佳，擅长调用工具核查事实，但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强，写作不及 Opus 4.6，与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。

Anthropic 推理编码评测/基准

08:32

Rohan Paul@rohanpaul_ai

58

atomic.chat桌面应用对Claude Sonnet 5、Opus 4.8、Sonnet 4.6及GPT 5.5进行对比测试。使用同一提示词构建三个HTML5物理碰撞演示（汽车撞墙、破坏球毁屋、投石机砸城）。Sonnet 5在全部测试中与GPT 5.5和Opus 4.8表现相当，其中破坏球场景胜Opus 4.8，投石机场景胜GPT 5.5。Sonnet 5仅用15，047 tokens（$0.15），GPT 5.5使用31，152 tokens（$0.94），成本低约6倍；Opus 4.8使用23，063 tokens（$0.58），Sonnet 4.6使用25，824 tokens（$0.39）。Sonnet 5 token消耗最少，图形细节仍有提升空间。

atomic.chat: New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...

Anthropic OpenAI 编码评测/基准

07:01

Rohan Paul@rohanpaul_ai

55

Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%，高于 Sonnet 4.6 约2倍

Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29，比 Sonnet 4.6 高约 2 倍，比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus，但 Sonnet 5 为完成相同任务使用了更多 token，导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token；Anthropic 提供促销价 $2/$10，持续至 2026 年 8 月 31 日，之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。

Artificial Analysis: Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...

Anthropic 推理评测/基准

05:50

Chubby♨️@kimmonismus

68

Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得分 53，与 GPT-5.5 （xhigh）和 Opus 4.8 （max）差 2-3 分。标准定价（$3/$15 per 1M tokens）下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍，比 Opus 4.8 贵约 15%。推理和知识密集型基准落后 Opus 4.8（如 CritPt 物理推理仅 17%），但在 agentic 知识工作（AA-Briefcase 和 GDPval-AA）上匹配或超越 Opus 4.8。上下文窗口 100 万 token，Anthropic 提供至 9 月 1 日促销价 $2/$10。新增 xhigh effort 设置。整体表现令人失望，并非一次好的发布。

Artificial Analysis: Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost mor...

Anthropic 推理模型发布评测/基准

05:38

Yuchen Jin@Yuchenj_UW

31

Claude Sonnet 5 在 Artificial Analysis Intelligence Index 任务上的成本高于 Claude Opus 4.8，并且是 GLM-5.2 的 4.75 倍。Token 效率很重要。

Anthropic 大佬观点评测/基准

05:28

Artificial Analysis@ArtificialAnlys

60

Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分，标准定价下每任务成本高于 Opus 4.8

Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53（第 5 名），比 Sonnet 4.6 提高 6 分，与 GPT-5.5 (xhigh) 持平，落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%，主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token（促销至 9 月 1 日降至 $2/$10），上下文窗口 1M tokens，新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8，推理基准仍落后。Terminal-Bench v2.1（+9）、HLE（+10）、SciCode（+7）显著提升。

智能体 Anthropic 推理评测/基准

03:58

Artificial Analysis@ArtificialAnlys

58

Artificial Analysis 推出受控语音竞技场

Artificial Analysis 发布 Controlled Voice Arena，通过语音克隆标准化 8 种声音（2 美男、2 美女、2 英男、2 英女），评估 TTS 模型的音频质量、发音、节奏与语调，分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放，本周公布首批排行榜。

评测/基准语音

02:28

Artificial Analysis@ArtificialAnlys

53

GLM-5.2：开源权重智能最高但最啰嗦的领先模型

GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型，但输出 token 达 1.41 亿（95% 推理），远超平均模型的 1.8 倍。相比之下，Claude Opus 4.8 输出 1.17 亿 token 得分 56，GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token（8800 万）集中在 Humanity's Last Exam，是 GPT-5.5 的 3.2 倍，得分仅 40%（Opus 46%，GPT-5.5 44%）。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分，远低于 Opus 4.8（27）、GPT-5.5（20）和 Gemini 3.5 Flash（23）。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三，超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44，落后 7 分。

开源生态推理评测/基准

01:27

HuggingFace Daily Papers（社区热门论文）

48

SWE-Together： Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态，仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务，构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图，并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明，更强智能体成功率更高且所需干预更少，预示用户体验提升。

编码论文/研究评测/基准

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

41

OpenAI 发布 Genebench-Pro 基准测试：10个案例研究详解

OpenAI 推出 GeneBench-Pro 生物医学基准测试，包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料，覆盖体细胞肿瘤学（结构变异指导的肿瘤治疗获益-风险决策）、功能基因组学（CRISPR 靶点验证：lncRNA 转录本或基因组位点）和统计遗传学（连锁遗传位点中蛋白质药物靶点优先排序）等方向，要求模型输出 JSON 格式分析结果。

OpenAI 教程/实践评测/基准

00:50

fofr@fofrAI

32

Omni Flash 模型具有出色的图像编辑能力，能够将桌子变为浅水池，并逼真呈现手部湿润、水波、折射、阴影和音效。该模型现已通过 API 提供，其编辑能力非常适合实现炫酷的流水线。

fofr: Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...

Google 图像生成视频评测/基准

00:36

AK@_akhaliq

31

OSWorld2.0 对计算机使用智能体在长程真实世界任务上进行评测

智能体论文/研究评测/基准

6月30日

21:02

IT之家（RSS）

69

Arena 企业级评测服务 AI Evaluations 上线 8 个月，年度经常性收入突破 1 亿美元

AI 模型评测平台 Arena 宣布，其企业级服务 AI Evaluations 上线仅 8 个月，年度经常性收入已突破 1 亿美元（约合 6.8 亿元人民币）。Arena 前身为加州大学伯克利分校 2023 年启动的 LMArena，2025 年 4 月公司化，同年 9 月推出 AI Evaluations，利用真人反馈数据帮助客户评估模型。另一评测平台 Yupp 已于今年 3 月停止运营，累计用户超 130 万但未找到产品市场契合点。

行业动态评测/基准

‹ 上一页

12 3…22