SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...
SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
Introducing EBR-bench, our new benchmark to measure on-the-fly learning. AI repeatedly plays a challenging board game ca...
Bridgewater used their unique financial knowledge and partnered with us on @tinkerapi to fine-tune a model that helps th...
DSpark 与 JetSpec 几乎同时出现,都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发,通过轻量级马尔可夫校正头与置信度估计控制预算,在 Qwen3-8B 与 AIME25 上,预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟,将因果性直接构建进并行草稿头,预算 16 时接受长度 7.23,预算 128 时达 9.82,高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。
在 atomic.chat(本地 LLM 桌面应用)的 HTML5 物理竞赛中,Fable 5 以 A+ 成绩完成全部三个场景(火车脱轨、汽车空中碰撞、怪物卡车碾压),消耗 62,158 token,成本 $3.12。相比之下,Opus 4.8 消耗 22,280 token/$0.56,GPT 5.5 消耗 37,753 token/$1.14(在怪物卡车场景中略胜 Fable),GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。
Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...
This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...
I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...
Meta 新论文发现,后训练量化虽能缩小推理模型、降低部署成本,但会导致模型在已得出正确答案后反复自我怀疑,浪费 token。量化在不确定的词选择上引入噪声,使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型(1.5B-32B)的数学、编程和科学任务上,激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚,可剪掉 12%-23% 的推理长度,同时保持甚至提升准确率。
I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...
Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...
SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。
I'm posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - spe...
美团发布LongCat-2.0,一个1.6万亿参数的大模型,据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施,该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是,美团并未推出独立聊天机器人,而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法,正成为阿里(开放Qwen品牌智能体)、蚂蚁(以Ah Bao重构支付宝)等中国互联网平台的共同方向。
We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。
Grant Sanderson(3Blue1Brown)与Dwarkesh Patel对话指出,2024年AI在IMO已达金牌,但组合数学仍卡住。AI数学进展分两类:连接闪电(跨领域连接,如Erdős第1196号问题、单位距离猜想反例)和建造山峰(如伽罗瓦群论,需百年验证)。训练依赖RLVR,但伽罗瓦想法当时被拒,无反馈信号。可验证仅是必要条件,可磨性(并行实例)才是充分条件;电脑操作虽可验证但缺可磨性,进展慢。
3blue1brown 的 Grant Sanderson 在访谈中分享 AI 相关观点:① 知识跨领域连接在自回归框架中属于低概率事件;② AI 擅长跨领域打通已有知识,但尚无法创造全新思考框架;③ AI 最被低估的优势是并行化,而非智力;④ 数学和代码能被 AI 快速迭代,不仅因为答案可验证,更因为可以容器化、并行磨练。完整访谈见视频链接。
http://x.com/i/article/2072191016476856320
美团发布并开源LongCat-2.0,1.6万亿总参数、480亿激活参数(3%)的MoE大模型。使用35万亿token训练,在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力(LSA),包含流感知索引、跨层索引和层级化索引,解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数,在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。
中国团队发布Agents-A1,一个35B参数的agent模型,通过让模型学习更长的验证工作习惯(平均训练样本45K tokens),声称达到1T参数模型的性能。模型采用Apache-2.0许可,权重已开源至Hugging Face。训练方法:构建长动作记录数据,训练多个专家教师模型(搜索、科学、指令跟随、工具使用等),再将技能蒸馏至一个学生模型。Agents-A1在搜索、科学、编码、工具使用、指令跟随等长任务基准上表现优异。
Anthropic发布Claude Sonnet 5,定位最具agent能力的Sonnet,性能接近Opus 4.8,8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite(文生图延迟约4秒,每千张$0.034)和Gemini Omni Flash(多模态视频生成与会话式编辑,每秒$0.10,单次上限10秒)。吴恩达提出智能体开发三大核心循环:智能体编程循环、开发者反馈循环、外部反馈循环,强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。
卧槽!来咯~ 我终于特么弄懂你们天天吹的循环工程了!!!
Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29,比 Sonnet 4.6 高约 2 倍,比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus,但 Sonnet 5 为完成相同任务使用了更多 token,导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token;Anthropic 提供促销价 $2/$10,持续至 2026 年 8 月 31 日,之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。
Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...
Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...
Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost mor...
The Information 报道,OpenAI 已将某些现有模型的推理成本降低一半以上,未登录 ChatGPT 的流量仅运行在几百块 Nvidia GPU 上。可能技术手段包括量化、KV-cache 优化、批处理、投机解码和路由简单查询。若属实,这将成为核心竞争杠杆,可提升毛利率、扩大使用限制或降低 API 定价压力。背景方面,OpenAI 调整后毛利率从 2024 年的 40% 降至 2025 年的 33%,推理成本翻四倍。预计 2026 年 Q1 毛利率回升至 39%,年底目标 52%。Anthropic 毛利率约 44%,前沿实验室尚未达到成熟软件公司的经济水平。
Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。
作者认为 OpenAI 今天取得更重大突破:通过新推理优化方法将推理成本降低一半以上,并与 Broadcom 合作推出更快更高效的推理芯片,使 OpenAI 处于突出位置。相比之下,Sonnet 5 只是一次普通发布。引用推文进一步指出,Sonnet 5 优于 Sonnet 4.6 但弱于 Opus 4.8,定价不变,版本号从 4 跳到 5 不合理,可能只是为维持话题的中间发布,整体令人失望。
Here is my first assessment of Sonnet 5: Sonnet 5 is better than Sonnet 4.6. Who would have thought? But jokes aside: Un...
Introducing Cluster-Scale Memory (CSM) for low latency workloads. Today's AI chips using HBM can't achieve SRAM-level de...
Anthropic 发布 Claude Sonnet 5,拥有 1M token 上下文窗口(此前泄露),编码能力显著提升:SWE-bench Pro 得分 63.2%,高于 Sonnet 4.6 的 58.1%;知识工作略超 Opus 4.8。Anthropic 称其为“最具智能体特性的 Sonnet 模型”。定价优惠至 8 月 26 日:输入 $2/1M tokens,输出 $10/1M tokens;之后涨至 $3/15。当前智能体编码得分 63.2%,与 Opus 4.8(69.2%)仍有差距,但低价策略大幅降低 agentic AI 成本。
Leaked specifications show Anthropic's Claude Sonnet 5 launching today with a 1 million token context window
GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型,但输出 token 达 1.41 亿(95% 推理),远超平均模型的 1.8 倍。相比之下,Claude Opus 4.8 输出 1.17 亿 token 得分 56,GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token(8800 万)集中在 Humanity's Last Exam,是 GPT-5.5 的 3.2 倍,得分仅 40%(Opus 46%,GPT-5.5 44%)。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分,远低于 Opus 4.8(27)、GPT-5.5(20)和 Gemini 3.5 Flash(23)。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三,超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44,落后 7 分。
Anthropic 发布 Sonnet 5,称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8,在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型,已在 Claude Code 和 API 上线。推出促销价:输入 $2/M token、输出 $10/M(截至 8 月 31 日),标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全,幻觉率和奉承率更低,网络保护默认开启,但 Anthropic 表示 Opus 在严肃网络任务上仍更强。
Sonnet 5 released for me!!
关联讨论 13 条X:OpenRouter (@OpenRouter)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
OpenAI 据报告发现新的推理优化技术,将模型运行成本降低超过一半。据 The Information,工程师本月初称,这些技术曾仅用数百块 Nvidia GPU 就支撑了免费用户的 ChatGPT 访问。具体方法不明,可能涉及量化、KV 缓存、批处理、路由简单查询至更便宜模型等组合。商业层面:OpenAI 一季度毛利率 39%,目标年底达到 52%。更低推理成本可改善利润率、提升 ChatGPT 使用限制或缓解 API 定价压力。OpenAI 的护城河正转向推理和成本优势,尤其相对于 Anthropic。
美团发布基座推理模型LongCat-2.0(v2),采用MoE架构,总参1.6T,活跃约48B,支持1M上下文。专为智能体编程设计,引入LongCat Sparse Attention、Zero-Compute Experts及MOPD任务路由。基准测试中SWE-bench Pro达59.5(超GPT-5.5的58.6),多项Agent评测领先。模型已在OpenRouter上线,技术博客公开。美团强调全栈自研与低成本,v2基于ASIC训练。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...