I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...
Databricks 在 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道排名第一,完全依靠 AI 智能体自主运行。使用的框架是 KDA、Humanize 和 Omnigent:由 Claude 编写代码,Codex 审查代码,实现了递归自我改进。该工作由 Databricks 的 leshenj15 主导,并与 NVIDIA 及 MIT HAN Lab 的 Ligeng Zhu 和 Dongyun Zou 合作完成。
在 atomic.chat(本地 LLM 桌面应用)的 HTML5 物理竞赛中,Fable 5 以 A+ 成绩完成全部三个场景(火车脱轨、汽车空中碰撞、怪物卡车碾压),消耗 62,158 token,成本 $3.12。相比之下,Opus 4.8 消耗 22,280 token/$0.56,GPT 5.5 消耗 37,753 token/$1.14(在怪物卡车场景中略胜 Fable),GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。
Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...
This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...
Fish Audio 发布 S2.1 Pro 文本转语音模型,通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律,质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上,S2.1 Pro 基于 1072 场竞技获得 Elo 1153,排名第 13,超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒,高于 GPT-Realtime-2(45.8 chars/s)和 Gemini 3.1 Flash TTS(25.3 chars/s)。
Anthropic发布Claude Sonnet 5。在AA-Briefcase(智能体知识工作基准,测试模型处理数千文件并产出表格、演示和UI原型)上,Sonnet 5 (max)得1391 Elo,较Sonnet 4.6 (max)提升312分,排第二,仅次于Fable 5。提升来自rubric评分与分析质量,呈现仍落后Opus 4.8。max设置得分最高,但较低设置不处成本-性能帕累托前沿;Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高,因turn数大增:max平均每任务183 turns(Sonnet 4.6 max的4倍多),medium平均55 turns,各设置成本跨度约17倍。
Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...
Fable-5 在 Remote Labor Index(RLI)上取得 16.10% 的自动化率,较前代 Opus 4.6 的 4.2% 提升近 4 倍,且是第二名模型的两倍。RLI 使用 240 个来自专业自由职业者的真实远程工作项目,覆盖 23 个领域、超 14 万美元的人类工作,评审者将 AI 输出与人类参考对照,判断合理客户是否会接受。Fable-5 目前领先公共排行榜,作者称这一飞跃表明 AI 仍在指数级发展,甚至最难的基准也开始被攻克。
New Remote Labor Index results: AI automation of real remote work is increasing fast. Claude Fable 5 now completes 16.1%...
Omini 1.0 修改视频也还可以,看着演示空间、透视这些都应该提升不少啊。 应该很快就发布新版本可以使用了,但是因为属于编辑强,所以热度好像没有很高。
2 分钟,一边入门 GEO 一边看懂 6 个顶流 PPT Skill 的区别 素材来自姚老师 @yaojingang 的分享 我先让 Codex 整理成一份入门文档 再把完全相同的内容交给 6 个 PPT Skill 最后把 6 份结果剪到...
用 Best.XiaoHu.AI 内容测试显示:Sonnet 5 相比 4.6 在文字和其他任务上提升明显,但前端能力(前端设计、交互、SVG 图像)远不及 Opus。用户将 Sonnet 5 用于文字解读和翻译任务,可节省约一半输入 token,速度提升 1 倍多,翻译成本量级下降约 80%,质量零损失。
Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。
New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...
Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29,比 Sonnet 4.6 高约 2 倍,比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus,但 Sonnet 5 为完成相同任务使用了更多 token,导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token;Anthropic 提供促销价 $2/$10,持续至 2026 年 8 月 31 日,之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。
Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...
Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost mor...
Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。
Artificial Analysis 发布 Controlled Voice Arena,通过语音克隆标准化 8 种声音(2 美男、2 美女、2 英男、2 英女),评估 TTS 模型的音频质量、发音、节奏与语调,分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放,本周公布首批排行榜。
GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型,但输出 token 达 1.41 亿(95% 推理),远超平均模型的 1.8 倍。相比之下,Claude Opus 4.8 输出 1.17 亿 token 得分 56,GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token(8800 万)集中在 Humanity's Last Exam,是 GPT-5.5 的 3.2 倍,得分仅 40%(Opus 46%,GPT-5.5 44%)。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分,远低于 Opus 4.8(27)、GPT-5.5(20)和 Gemini 3.5 Flash(23)。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三,超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44,落后 7 分。
Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...
Arena 的 AI 排行榜从 UC Berkeley 研究项目起步,通过让用户匿名对比两个模型答案并投票,积累了大规模人类偏好数据集。该平台随后将这一公开测试引擎包装为商业服务 AI Evaluations,为客户提供更深入的分析。模型厂商迫切需要高质量的人类偏好信号,因为微小的排名提升就能决定用户选择、企业合同和投资者关注。如今 Arena 已成为年化收入 1 亿美元的业务。
基于Artificial Analysis的AA-Briefcase评分(模拟多周复杂咨询任务),@emollick 绘制前沿曲线发现:闭源AI模型发展呈指数级增长且加速,开源模型(尤其中国)仍落后约半年。但乐观预测,年底前可能出现“神话级”开源变体。
I took the new AA-Briefcase scores from @ArtificialAnlys (basically having the AI do multi-week consulting gigs with a l...
推文对三款Flash级模型(Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash)进行横评。这些模型定位为多智能体系统和RAG系统的驱动模型。评测维度包括Agent Loop迭代能力、Agent能力、前端/后端、空间理解、美学、性价比等。Gemini-3.5-Flash更适合前端页面、建模等“漂亮活”。Step-3.7-Flash极具性价比,在Agent测试中Token效率极高(用最少Token完成最多任务),适合作为OpenClaw、Hermes等Agent框架的驱动模型。DeepSeek-V4-Flash后端能力出色,适合写脚本或驱动ClaudeCode用于AI-Ops。
I took the new AA-Briefcase scores from @ArtificialAnlys (basically having the AI do multi-week consulting gigs with a l...
一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案,忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分,在12个记忆系统、5个工作负载、11个数据集上评测。核心发现:没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实,混合系统善于过滤搜索,原始痕迹则在精确动作历史记录中表现最佳。
论文提出PlanBench-XL基准,包含327个任务和1,665个工具,测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%,最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理,而非依赖显式工具路径。论文还加入破损或误导性工具,考验智能体在路径失败时自主切换策略。
A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...