I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
CursorBench 3.1 新增代码库理解、bug 查找、规划和代码审查任务,并改进了编辑任务的评分标准。排行榜显示,Fable 5 Max 以 72.9% 得分、$18.02 每任务成本居首,Fable 5 Extra High(72.0%,$13.74)和 Fable 5 High(70.6%,$10.81)紧随其后。Opus 4.7 Max 得分 64.8%、成本 $11.02;GPT-5.5 Extra High 得分 64.3%、成本 $4.37;Composer 2.5 得分 63.2%、成本仅 $0.55。共收录 36 个模型/配置,得分范围 72.9%–31.9%。
一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现,跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498;SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致,SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外,在450个可重现任务中,至少一个提交已匹配或超越参考补丁的比例达85.3%,超越未优化基线达99.8%,揭示了聚合排名掩盖的真实性能差距。
Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...
Remote Labor Index(RLI)衡量 AI 智能体完成 240 个付费自由职业项目(总值 14.4 万美元)的专业质量比例。最新结果显示,Fable 5 自动化率达 16.1%,是八个月前最佳系统 2.5% 的六倍多,也超过 Opus 4.8(8.3%)和 GPT-5.5(6.3%)。因美国政府限制访问,Fable 5 仅完成 218/240 个项目评估,最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%,落后于更老模型。AI 裁判会高估模型表现(GPT-5.5 评分偏高近三倍),仍需人类评估员打开专业软件(如 Blender)检验几何模型等细节。测试环境为虚拟 Linux 机,配备 30 余款专业应用,每项目最多 24 小时计算时间。尽管自动化率快速攀升,多数项目仍无法达到专业质量。
Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。
腾讯推出桌面AI管家Marvis,可通过手机远程操控Mac。实测功能包括:电脑自检(扫描磁盘、性能、电池、使用习惯,生成网页报告)、垃圾清理(清出100GB至占用80%以下,删除需逐项确认)、远程操控多台电脑(支持鼠标键盘实时操作)、跨浏览器搜索“AAindex前十模型API接入方式”自动整理成表格、一句话生成PPT(质量约80分)、读取本地小说项目《灰质交易》并根据设定续写第一章。Marvis内部接入混元和DeepSeek,定位为电脑AI管家,与偏交付的WorkBuddy差异化。
Databricks 在 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道排名第一,完全依靠 AI 智能体自主运行。使用的框架是 KDA、Humanize 和 Omnigent:由 Claude 编写代码,Codex 审查代码,实现了递归自我改进。该工作由 Databricks 的 leshenj15 主导,并与 NVIDIA 及 MIT HAN Lab 的 Ligeng Zhu 和 Dongyun Zou 合作完成。
在 atomic.chat(本地 LLM 桌面应用)的 HTML5 物理竞赛中,Fable 5 以 A+ 成绩完成全部三个场景(火车脱轨、汽车空中碰撞、怪物卡车碾压),消耗 62,158 token,成本 $3.12。相比之下,Opus 4.8 消耗 22,280 token/$0.56,GPT 5.5 消耗 37,753 token/$1.14(在怪物卡车场景中略胜 Fable),GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。
Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...
This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...
Fish Audio 发布 S2.1 Pro 文本转语音模型,通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律,质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上,S2.1 Pro 基于 1072 场竞技获得 Elo 1153,排名第 13,超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒,高于 GPT-Realtime-2(45.8 chars/s)和 Gemini 3.1 Flash TTS(25.3 chars/s)。
Anthropic发布Claude Sonnet 5。在AA-Briefcase(智能体知识工作基准,测试模型处理数千文件并产出表格、演示和UI原型)上,Sonnet 5 (max)得1391 Elo,较Sonnet 4.6 (max)提升312分,排第二,仅次于Fable 5。提升来自rubric评分与分析质量,呈现仍落后Opus 4.8。max设置得分最高,但较低设置不处成本-性能帕累托前沿;Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高,因turn数大增:max平均每任务183 turns(Sonnet 4.6 max的4倍多),medium平均55 turns,各设置成本跨度约17倍。
Anthropic 于 7 月 1 日面向全球用户恢复部署 Claude Fable 5。此前 6 月 12 日,因 Amazon 研究人员发现绕过安全护栏的方法,美国出口管制生效,Anthropic 暂停了 Fable 5 和 Mythos 5。6 月 30 日管制解除。Anthropic 新增安全分类器,对该技术的阻止率超 99%,被拦截请求将路由至 Claude Opus 4.8 并通知用户。Fable 5 定价 $10/百万输入 token、$50/百万输出 token,可通过 Claude Platform 等使用。Anthropic 联合 Amazon、Microsoft、Google 等起草越狱严重性评分框架,从四维度评估。
Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...
Fable-5 在 Remote Labor Index(RLI)上取得 16.10% 的自动化率,较前代 Opus 4.6 的 4.2% 提升近 4 倍,且是第二名模型的两倍。RLI 使用 240 个来自专业自由职业者的真实远程工作项目,覆盖 23 个领域、超 14 万美元的人类工作,评审者将 AI 输出与人类参考对照,判断合理客户是否会接受。Fable-5 目前领先公共排行榜,作者称这一飞跃表明 AI 仍在指数级发展,甚至最难的基准也开始被攻克。
New Remote Labor Index results: AI automation of real remote work is increasing fast. Claude Fable 5 now completes 16.1%...
Omini 1.0 修改视频也还可以,看着演示空间、透视这些都应该提升不少啊。 应该很快就发布新版本可以使用了,但是因为属于编辑强,所以热度好像没有很高。
2 分钟,一边入门 GEO 一边看懂 6 个顶流 PPT Skill 的区别 素材来自姚老师 @yaojingang 的分享 我先让 Codex 整理成一份入门文档 再把完全相同的内容交给 6 个 PPT Skill 最后把 6 份结果剪到...
OpenAI 发布 GeneBench-Pro 基准测试,评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境,自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向,共 129 道题,分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差,OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面,后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。
QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。
Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker,售价 99.99 美元。硬件设计精巧,音质在体积相当的产品中表现良好,支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能,可配合 Google TV Streamer 作为音频输出。然而,内置的 Gemini for Home 智能助手响应缓慢、不可靠,且部分功能需要付费才能使用。相比前代 Nest Audio,新款音箱尺寸更小但低频偏弱,在同价位竞品(Echo Dot Max、HomePod Mini)中音质排名第三。
美团发布LongCat-2.0,总参数1.6万亿、每个token仅激活约480亿参数的MoE模型,从预训练到大规模部署全程运行在5万张国产算力芯片上,训练消耗超35万亿tokens,无回滚、无不可恢复loss突刺。Agent场景表现突出:在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro,FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K,最高提供1M上下文,采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入,支持OpenAI Compatible和Anthropic API生态,可直接接入Claude Code和Codex等工作流。
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)用 Best.XiaoHu.AI 内容测试显示:Sonnet 5 相比 4.6 在文字和其他任务上提升明显,但前端能力(前端设计、交互、SVG 图像)远不及 Opus。用户将 Sonnet 5 用于文字解读和翻译任务,可节省约一半输入 token,速度提升 1 倍多,翻译成本量级下降约 80%,质量零损失。
Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。
New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...
Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29,比 Sonnet 4.6 高约 2 倍,比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus,但 Sonnet 5 为完成相同任务使用了更多 token,导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token;Anthropic 提供促销价 $2/$10,持续至 2026 年 8 月 31 日,之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。
Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...
Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost mor...
Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。
Artificial Analysis 发布 Controlled Voice Arena,通过语音克隆标准化 8 种声音(2 美男、2 美女、2 英男、2 英女),评估 TTS 模型的音频质量、发音、节奏与语调,分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放,本周公布首批排行榜。
GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型,但输出 token 达 1.41 亿(95% 推理),远超平均模型的 1.8 倍。相比之下,Claude Opus 4.8 输出 1.17 亿 token 得分 56,GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token(8800 万)集中在 Humanity's Last Exam,是 GPT-5.5 的 3.2 倍,得分仅 40%(Opus 46%,GPT-5.5 44%)。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分,远低于 Opus 4.8(27)、GPT-5.5(20)和 Gemini 3.5 Flash(23)。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三,超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44,落后 7 分。
现有编码智能体基准多为静态,仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务,构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图,并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明,更强智能体成功率更高且所需干预更少,预示用户体验提升。
OpenAI 推出 GeneBench-Pro 生物医学基准测试,包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料,覆盖体细胞肿瘤学(结构变异指导的肿瘤治疗获益-风险决策)、功能基因组学(CRISPR 靶点验证:lncRNA 转录本或基因组位点)和统计遗传学(连锁遗传位点中蛋白质药物靶点优先排序)等方向,要求模型输出 JSON 格式分析结果。
Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...
AI 模型评测平台 Arena 宣布,其企业级服务 AI Evaluations 上线仅 8 个月,年度经常性收入已突破 1 亿美元(约合 6.8 亿元人民币)。Arena 前身为加州大学伯克利分校 2023 年启动的 LMArena,2025 年 4 月公司化,同年 9 月推出 AI Evaluations,利用真人反馈数据帮助客户评估模型。另一评测平台 Yupp 已于今年 3 月停止运营,累计用户超 130 万但未找到产品市场契合点。