AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
今天7月3日 周五
03:38Rohan Paul51Fable 5 分类器误判致 75% 代码路由到 Opus
02:34Epoch AI44GPT-4霸榜Epoch指数352天
00:14Hacker News 热门(buzzing.cc 中文翻译)60CursorBench 3.1
7月2日周四
23:33HuggingFace Daily Papers(社区热门论文)49性能优化基准是否可靠衡量编码智能体?
23:03Ethan Mollick50Ethan Mollick:你真的需要自己的基准测试
20:45The Decoder:AI News(RSS)71精选Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍
19:14Hacker News 热门(buzzing.cc 中文翻译)71精选Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试
18:20公众号:卡尔的AI沃茨61实测腾讯Marvis:手机远程操控Mac清出100GB,还能续写小说
10:10Yuchen Jin38Databricks 凭借 AI 智能体登顶 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道
07:37elvis43GLM-5.2/Fugu Ultra/Fable 5 同提示对比
07:37SemiAnalysis57DeepSeek V4 在 InferenceX 部署与性能探讨
07:34Rohan Paul53Fable 5 在 HTML5 物理竞赛中表现优异,但成本是 Opus 4.8 的 6 倍、GLM 5.2 的 39 倍
07:22Chubby♨️44Fable-5 RLI得分16.10%,GPT-5.6下周发布传闻
07:03Artificial Analysis68Fish Audio S2.1 Pro 文本转语音模型发布
07:00Ethan Mollick41Fable早期访问印象:长难任务出色
05:33Artificial Analysis55Claude Sonnet 5在AA-Briefcase基准上仅次于Fable 5
05:03MarkTechPost(RSS)59Anthropic 恢复部署 Claude Fable 5,新增安全分类器
01:59Ethan Mollick61针对实际用例对模型做基准测试:Gemini 3.1 Pro vs GPT-5.5 咖啡馆案例
01:52Chubby♨️73Fable-5 在 Remote Labor Index 上达 16.10% 自动化率
7月1日周三
23:31Berryxia.AI15Omini 1.0 视频编辑能力提升,新版本即将发布
23:31Berryxia.AI586个PPT Skill处理GEO入门文档对比测试
23:27Epoch AI28Epoch AI新增13项评测基准,7项纳入ECI
23:03IT之家(RSS)57OpenAI 推出 GeneBench-Pro 基准测试,评估 AI 模型生物学计算能力
20:28HuggingFace Daily Papers(社区热门论文)44QVal:低成本评估长周期LLM智能体密集监督信号的测试平台
20:25The Verge:AI(RSS)53Google Home Speaker 评测:硬件出色但 Gemini 尚未成熟
17:10公众号:卡尔的AI沃茨71实测美团LongCat-2.0,国产芯片长出来的万亿大模型
15:37小互40Sonnet 5 对比 4.6 与 Opus:翻译成本降 80%
15:32Orange AI54Sonnet 5 新 tokenizer 致费用争议,与 Opus 4.8 持平
08:32Rohan Paul58atomic.chat对比测试:Sonnet 5在物理碰撞演示中与GPT 5.5持平,成本低6倍
07:01Rohan Paul55Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%,高于 Sonnet 4.6 约2倍
05:50Chubby♨️68Claude Sonnet 5 评测:每任务成本高于 Opus 4.8,智力仍落后
05:38Yuchen Jin31Claude Sonnet 5 成本高于 Opus 4.8 及 GLM-5.2
05:28Artificial Analysis60Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分,标准定价下每任务成本高于 Opus 4.8
03:58Artificial Analysis58Artificial Analysis 推出受控语音竞技场
02:28Artificial Analysis53GLM-5.2:开源权重智能最高但最啰嗦的领先模型
01:27HuggingFace Daily Papers(社区热门论文)48SWE-Together: Evaluating Coding Agents in Interactive User Sessions
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)41OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解
00:50fofr32Omni Flash 图像编辑能力惊艳登场
00:36AK31OSWorld2.0 评测长程真实世界任务
6月30日周二
21:02IT之家(RSS)69Arena 企业级评测服务 AI Evaluations 上线 8 个月,年度经常性收入突破 1 亿美元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
03:38
Rohan Paul@rohanpaul_ai
51
用户 @bridgemindai 披露一次编码会话花费 $321,其中 Fable 5 仅完成 $78(约 25%),而 Opus 4.8 被回退调用完成 $242(约 75%)。原因在于 Fable 5 的新分类器将常规编码提示误判为网络安全风险,导致大部分工作自动路由到更昂贵的 Opus 模型。Anthropic 曾称仅极少数任务会触发 fallback,但该用户实际体验与此不符。

BridgeMind: I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...

Anthropic安全/对齐编码评测/基准
02:34
Epoch AI@EpochAIResearch
44
OpenAI的GPT-4在2023年3月发布后,引领Epoch能力指数长达352天,远超此后任何模型。 第二长的领先属于OpenAI的o1,为98天。
OpenAI评测/基准
00:14
Hacker News 热门(buzzing.cc 中文翻译)
60
CursorBench 3.1

CursorBench 3.1 新增代码库理解、bug 查找、规划和代码审查任务,并改进了编辑任务的评分标准。排行榜显示,Fable 5 Max 以 72.9% 得分、$18.02 每任务成本居首,Fable 5 Extra High(72.0%,$13.74)和 Fable 5 High(70.6%,$10.81)紧随其后。Opus 4.7 Max 得分 64.8%、成本 $11.02;GPT-5.5 Extra High 得分 64.3%、成本 $4.37;Composer 2.5 得分 63.2%、成本仅 $0.55。共收录 36 个模型/配置,得分范围 72.9%–31.9%。

编码评测/基准
7月2日
23:33
HuggingFace Daily Papers(社区热门论文)
49
性能优化基准是否可靠衡量编码智能体?

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现,跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498;SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致,SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外,在450个可重现任务中,至少一个提交已匹配或超越参考补丁的比例达85.3%,超越未优化基线达99.8%,揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准
23:03
Ethan Mollick@emollick
50
Ethan Mollick主张用自定义基准测试评估模型,而非依赖通用基准或直接换模型。他举例:翻译埃及象形文字用Gemini 3.5 Flash,运行自动售货机用Opus 4.8。JakeABoggs的HieroglyphBench测试显示,Anthropic Fable 5与GPT-5.5持平,但均远落后于Gemini系列,其中Gemini 3.5 Flash得分是Fable 5的两倍以上。

Jake Boggs: Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...

多模态大佬观点评测/基准
20:45
The Decoder:AI News(RSS)
精选71
Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍

Remote Labor Index(RLI)衡量 AI 智能体完成 240 个付费自由职业项目(总值 14.4 万美元)的专业质量比例。最新结果显示,Fable 5 自动化率达 16.1%,是八个月前最佳系统 2.5% 的六倍多,也超过 Opus 4.8(8.3%)和 GPT-5.5(6.3%)。因美国政府限制访问,Fable 5 仅完成 218/240 个项目评估,最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%,落后于更老模型。AI 裁判会高估模型表现(GPT-5.5 评分偏高近三倍),仍需人类评估员打开专业软件(如 Blender)检验几何模型等细节。测试环境为虚拟 Linux 机,配备 30 余款专业应用,每项目最多 24 小时计算时间。尽管自动化率快速攀升,多数项目仍无法达到专业质量。

智能体AnthropicOpenAI现象/趋势

推荐理由:自由职业自动化率八个月翻了六倍,这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊',但趋势已经形成,做自由职业平台和外包的人该认真看看。
19:14
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由:这个新基准把 AI 编程代理的评估拉到了更真实的复杂度,顶尖模型也只有不到四分之一的成功率,做 coding agent 的都该拿它测一测,它会比 SWE-bench 更挑出工程师的“手感”。
18:20
公众号:卡尔的AI沃茨
61
实测腾讯Marvis:手机远程操控Mac清出100GB,还能续写小说

腾讯推出桌面AI管家Marvis,可通过手机远程操控Mac。实测功能包括:电脑自检(扫描磁盘、性能、电池、使用习惯,生成网页报告)、垃圾清理(清出100GB至占用80%以下,删除需逐项确认)、远程操控多台电脑(支持鼠标键盘实时操作)、跨浏览器搜索“AAindex前十模型API接入方式”自动整理成表格、一句话生成PPT(质量约80分)、读取本地小说项目《灰质交易》并根据设定续写第一章。Marvis内部接入混元和DeepSeek,定位为电脑AI管家,与偏交付的WorkBuddy差异化。

智能体评测/基准
10:10
Yuchen Jin@Yuchenj_UW
38
Databricks 凭借 AI 智能体登顶 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道

Databricks 在 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道排名第一,完全依靠 AI 智能体自主运行。使用的框架是 KDA、Humanize 和 Omnigent:由 Claude 编写代码,Codex 审查代码,实现了递归自我改进。该工作由 Databricks 的 leshenj15 主导,并与 NVIDIA 及 MIT HAN Lab 的 Ligeng Zhu 和 Dongyun Zou 合作完成。

智能体编码评测/基准
07:37
elvis@omarsar0
43
谁做得最好? GLM-5.2(左)| Fugu Ultra(中)| Fable 5(右) 同样的一次性提示。 最后那个是我的最爱!
图像生成评测/基准
07:37
SemiAnalysis@SemiAnalysis_
57
本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel,以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。
DeepSeek推理评测/基准部署/工程
07:34
Rohan Paul@rohanpaul_ai
53
Fable 5 在 HTML5 物理竞赛中表现优异,但成本是 Opus 4.8 的 6 倍、GLM 5.2 的 39 倍

在 atomic.chat(本地 LLM 桌面应用)的 HTML5 物理竞赛中,Fable 5 以 A+ 成绩完成全部三个场景(火车脱轨、汽车空中碰撞、怪物卡车碾压),消耗 62,158 token,成本 $3.12。相比之下,Opus 4.8 消耗 22,280 token/$0.56,GPT 5.5 消耗 37,753 token/$1.14(在怪物卡车场景中略胜 Fable),GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。

atomic.chat: Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...

AnthropicOpenAI推理编码
07:22
Chubby♨️@kimmonismus
44
Fable-5在Remote Labor Index(RLI)取得16.10%分数,领跑公开排行榜。RLI使用240个真实远程工作项目(覆盖23个领域、总价值超14万美元),评审将AI输出与人类交付物对比,判断合理客户是否接受。该成绩被称为"疯狂的跃升",表明AI仍处于指数发展期。与此同时,传闻GPT-5.6将于下周发布,作者向OpenAI喊话并追问Gemini 3.5 Pro去向。

Chubby♨️: This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...

推理评测/基准
07:03
Artificial Analysis@ArtificialAnlys
68
Fish Audio S2.1 Pro 文本转语音模型发布

Fish Audio 发布 S2.1 Pro 文本转语音模型,通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律,质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上,S2.1 Pro 基于 1072 场竞技获得 Elo 1153,排名第 13,超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒,高于 GPT-Realtime-2(45.8 chars/s)和 Gemini 3.1 Flash TTS(25.3 chars/s)。

模型发布评测/基准语音
07:00
Ethan Mollick@emollick
41
自从它回归以来,这里是我几周前作为早期访问用户使用Fable后的印象(是的,它确实非常令人印象深刻,但在更长、更困难的任务中表现最佳)https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_medium=ios
大佬观点评测/基准
05:33
Artificial Analysis@ArtificialAnlys
55
Claude Sonnet 5在AA-Briefcase基准上仅次于Fable 5

Anthropic发布Claude Sonnet 5。在AA-Briefcase(智能体知识工作基准,测试模型处理数千文件并产出表格、演示和UI原型)上,Sonnet 5 (max)得1391 Elo,较Sonnet 4.6 (max)提升312分,排第二,仅次于Fable 5。提升来自rubric评分与分析质量,呈现仍落后Opus 4.8。max设置得分最高,但较低设置不处成本-性能帕累托前沿;Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高,因turn数大增:max平均每任务183 turns(Sonnet 4.6 max的4倍多),medium平均55 turns,各设置成本跨度约17倍。

智能体Anthropic评测/基准
05:03
MarkTechPost(RSS)
59
Anthropic 恢复部署 Claude Fable 5,新增安全分类器

Anthropic 于 7 月 1 日面向全球用户恢复部署 Claude Fable 5。此前 6 月 12 日,因 Amazon 研究人员发现绕过安全护栏的方法,美国出口管制生效,Anthropic 暂停了 Fable 5 和 Mythos 5。6 月 30 日管制解除。Anthropic 新增安全分类器,对该技术的阻止率超 99%,被拦截请求将路由至 Claude Opus 4.8 并通知用户。Fable 5 定价 $10/百万输入 token、$50/百万输出 token,可通过 Claude Platform 等使用。Anthropic 联合 Amazon、Microsoft、Google 等起草越狱严重性评分框架,从四维度评估。

Anthropic产品更新安全/对齐评测/基准
01:59
Ethan Mollick@emollick
61
主推文强调必须针对实际用例做基准测试,因为决策层层叠加时模型差异会被放大,标准基准无法反映 Gemini 3.1 比 GPT-5.5 更不关心咖啡馆财务损失。引用案例:Andon Labs 的 AI 智能体用 Gemini 3.1 Pro 在斯德哥尔摩开咖啡馆,过度采购且易被欺骗,支出 $15k、收入仅 $9k,亏损 $6k,现已切换到 GPT-5.5。

Andon Labs: Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...

智能体GoogleOpenAI现象/趋势
01:52
Chubby♨️@kimmonismus
73
Fable-5 在 Remote Labor Index 上达 16.10% 自动化率

Fable-5 在 Remote Labor Index(RLI)上取得 16.10% 的自动化率,较前代 Opus 4.6 的 4.2% 提升近 4 倍,且是第二名模型的两倍。RLI 使用 240 个来自专业自由职业者的真实远程工作项目,覆盖 23 个领域、超 14 万美元的人类工作,评审者将 AI 输出与人类参考对照,判断合理客户是否会接受。Fable-5 目前领先公共排行榜,作者称这一飞跃表明 AI 仍在指数级发展,甚至最难的基准也开始被攻克。

Center for AI Safety: New Remote Labor Index results: AI automation of real remote work is increasing fast. Claude Fable 5 now completes 16.1%...

Anthropic评测/基准
7月1日
23:31
Berryxia.AI@berryxia
15
Omini 1.0 在视频修改方面表现不错,演示空间和透视处理有显著提升。新版本很快将可使用,但由于其属于强编辑型工具,目前热度不高。

Berryxia.AI: Omini 1.0 修改视频也还可以,看着演示空间、透视这些都应该提升不少啊。 应该很快就发布新版本可以使用了,但是因为属于编辑强,所以热度好像没有很高。

视频评测/基准
23:31
Berryxia.AI@berryxia
58
用户用Codex将GEO入门文档整理后,分别交给6个顶流PPT Skill生成演示内容。部分Skill输出HTML,宝玉走生图路线,PPT Master可直接生成PPT和PDF便于编辑。归藏版本留白较多,适合演讲类内容,而非知识点密集的培训课件。测试仅反映默认表现,不代表各Skill能力上限。用户根据本次交付暂时更倾向PPT Master。

赖叔 | LaiShu.ai: 2 分钟,一边入门 GEO 一边看懂 6 个顶流 PPT Skill 的区别 素材来自姚老师 @yaojingang 的分享 我先让 Codex 整理成一份入门文档 再把完全相同的内容交给 6 个 PPT Skill 最后把 6 份结果剪到...

教程/实践评测/基准
23:27
Epoch AI@EpochAIResearch
28
我们最近开始在评测中枢跟踪13项新基准。其中7项已被纳入Epoch能力指数(ECI)。
数据/训练评测/基准
23:03
IT之家(RSS)
57
OpenAI 推出 GeneBench-Pro 基准测试,评估 AI 模型生物学计算能力

OpenAI 发布 GeneBench-Pro 基准测试,评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境,自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向,共 129 道题,分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差,OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面,后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。

OpenAI数据/训练评测/基准
20:28
HuggingFace Daily Papers(社区热门论文)
44
QVal:低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准
20:25
The Verge:AI(RSS)
53
Google Home Speaker 评测:硬件出色但 Gemini 尚未成熟

Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker,售价 99.99 美元。硬件设计精巧,音质在体积相当的产品中表现良好,支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能,可配合 Google TV Streamer 作为音频输出。然而,内置的 Gemini for Home 智能助手响应缓慢、不可靠,且部分功能需要付费才能使用。相比前代 Nest Audio,新款音箱尺寸更小但低频偏弱,在同价位竞品(Echo Dot Max、HomePod Mini)中音质排名第三。

Google评测/基准语音
17:10
公众号:卡尔的AI沃茨
71
实测美团LongCat-2.0,国产芯片长出来的万亿大模型

美团发布LongCat-2.0,总参数1.6万亿、每个token仅激活约480亿参数的MoE模型,从预训练到大规模部署全程运行在5万张国产算力芯片上,训练消耗超35万亿tokens,无回滚、无不可恢复loss突刺。Agent场景表现突出:在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro,FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K,最高提供1M上下文,采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入,支持OpenAI Compatible和Anthropic API生态,可直接接入Claude Code和Codex等工作流。

智能体开源生态编码评测/基准
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
15:37
小互@xiaohu
40
Sonnet 5 对比 4.6 与 Opus:翻译成本降 80%

用 Best.XiaoHu.AI 内容测试显示:Sonnet 5 相比 4.6 在文字和其他任务上提升明显,但前端能力(前端设计、交互、SVG 图像)远不及 Opus。用户将 Sonnet 5 用于文字解读和翻译任务,可节省约一半输入 token,速度提升 1 倍多,翻译成本量级下降约 80%,质量零损失。

Anthropic评测/基准
15:32
Orange AI@oran_ge
54
Sonnet 5 新 tokenizer 致费用争议,与 Opus 4.8 持平

Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。

Anthropic推理编码评测/基准
08:32
Rohan Paul@rohanpaul_ai
58
atomic.chat桌面应用对Claude Sonnet 5、Opus 4.8、Sonnet 4.6及GPT 5.5进行对比测试。使用同一提示词构建三个HTML5物理碰撞演示(汽车撞墙、破坏球毁屋、投石机砸城)。Sonnet 5在全部测试中与GPT 5.5和Opus 4.8表现相当,其中破坏球场景胜Opus 4.8,投石机场景胜GPT 5.5。Sonnet 5仅用15,047 tokens($0.15),GPT 5.5使用31,152 tokens($0.94),成本低约6倍;Opus 4.8使用23,063 tokens($0.58),Sonnet 4.6使用25,824 tokens($0.39)。Sonnet 5 token消耗最少,图形细节仍有提升空间。

atomic.chat: New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...

AnthropicOpenAI编码评测/基准
07:01
Rohan Paul@rohanpaul_ai
55
Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%,高于 Sonnet 4.6 约2倍

Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29,比 Sonnet 4.6 高约 2 倍,比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus,但 Sonnet 5 为完成相同任务使用了更多 token,导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token;Anthropic 提供促销价 $2/$10,持续至 2026 年 8 月 31 日,之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。

Artificial Analysis: Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...

Anthropic推理评测/基准
05:50
Chubby♨️@kimmonismus
68
Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得分 53,与 GPT-5.5 (xhigh) 和 Opus 4.8 (max) 差 2-3 分。标准定价($3/$15 per 1M tokens)下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍,比 Opus 4.8 贵约 15%。推理和知识密集型基准落后 Opus 4.8(如 CritPt 物理推理仅 17%),但在 agentic 知识工作(AA-Briefcase 和 GDPval-AA)上匹配或超越 Opus 4.8。上下文窗口 100 万 token,Anthropic 提供至 9 月 1 日促销价 $2/$10。新增 xhigh effort 设置。整体表现令人失望,并非一次好的发布。

Artificial Analysis: Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost mor...

Anthropic推理模型发布评测/基准
05:38
Yuchen Jin@Yuchenj_UW
31
Claude Sonnet 5 在 Artificial Analysis Intelligence Index 任务上的成本高于 Claude Opus 4.8,并且是 GLM-5.2 的 4.75 倍。Token 效率很重要。
Anthropic大佬观点评测/基准
05:28
Artificial Analysis@ArtificialAnlys
60
Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分,标准定价下每任务成本高于 Opus 4.8

Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。

智能体Anthropic推理评测/基准
03:58
Artificial Analysis@ArtificialAnlys
58
Artificial Analysis 推出受控语音竞技场

Artificial Analysis 发布 Controlled Voice Arena,通过语音克隆标准化 8 种声音(2 美男、2 美女、2 英男、2 英女),评估 TTS 模型的音频质量、发音、节奏与语调,分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放,本周公布首批排行榜。

评测/基准语音
02:28
Artificial Analysis@ArtificialAnlys
53
GLM-5.2:开源权重智能最高但最啰嗦的领先模型

GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型,但输出 token 达 1.41 亿(95% 推理),远超平均模型的 1.8 倍。相比之下,Claude Opus 4.8 输出 1.17 亿 token 得分 56,GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token(8800 万)集中在 Humanity's Last Exam,是 GPT-5.5 的 3.2 倍,得分仅 40%(Opus 46%,GPT-5.5 44%)。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分,远低于 Opus 4.8(27)、GPT-5.5(20)和 Gemini 3.5 Flash(23)。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三,超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44,落后 7 分。

开源生态推理评测/基准
01:27
HuggingFace Daily Papers(社区热门论文)
48
SWE-Together: Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态,仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务,构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图,并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明,更强智能体成功率更高且所需干预更少,预示用户体验提升。

编码论文/研究评测/基准
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解

OpenAI 推出 GeneBench-Pro 生物医学基准测试,包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料,覆盖体细胞肿瘤学(结构变异指导的肿瘤治疗获益-风险决策)、功能基因组学(CRISPR 靶点验证:lncRNA 转录本或基因组位点)和统计遗传学(连锁遗传位点中蛋白质药物靶点优先排序)等方向,要求模型输出 JSON 格式分析结果。

OpenAI教程/实践评测/基准
00:50
fofr@fofrAI
32
Omni Flash 模型具有出色的图像编辑能力,能够将桌子变为浅水池,并逼真呈现手部湿润、水波、折射、阴影和音效。该模型现已通过 API 提供,其编辑能力非常适合实现炫酷的流水线。

fofr: Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...

Google图像生成视频评测/基准
00:36
AK@_akhaliq
31
OSWorld2.0 对计算机使用智能体在长程真实世界任务上进行评测
智能体论文/研究评测/基准
6月30日
21:02
IT之家(RSS)
69
Arena 企业级评测服务 AI Evaluations 上线 8 个月,年度经常性收入突破 1 亿美元

AI 模型评测平台 Arena 宣布,其企业级服务 AI Evaluations 上线仅 8 个月,年度经常性收入已突破 1 亿美元(约合 6.8 亿元人民币)。Arena 前身为加州大学伯克利分校 2023 年启动的 LMArena,2025 年 4 月公司化,同年 9 月推出 AI Evaluations,利用真人反馈数据帮助客户评估模型。另一评测平台 Yupp 已于今年 3 月停止运营,累计用户超 130 万但未找到产品市场契合点。

行业动态评测/基准
‹ 上一页
123…22
下一页 ›