AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 55分钟前30

"underneath, the model is basically reasoning in its own compressed shorthand that's faster and more token efficient than proper english" "it's basically built its own private language to think in"

译用户 @om_patel5 发现，Claude 在解决高难度编程题时，Web 界面泄露了其未经筛选的思维过程。模型并非用完整句子推理，而是发出“DATA DATA DATA. GO.”、“GRRR”、“GAAAH”、“PHEW”等简短片段，如同焦躁的原始人速记。AI Safety Memes 指出，这表明模型本质上已建立自己的“私人语言”——一种比规范英语更快、更省 token 的压缩速记形式进行推理，而给出的清晰答案只是经过打磨的最终输出。

François Chollet@fchollet · 2小时前43

Eventually, much of AI will converge towards intuition-guided symbolic world modeling, i.e. deep learning-guided program synthesis. It is inevitable. Symbolic modeling lets a system construct a compact, reusable, highly generalizable mental model of a problem space using minimal data.

译最终，大部分AI将趋近于直觉引导的符号世界建模，即深度学习引导的程序合成。这是不可避免的。符号建模让系统能够用最少的数据构建一个紧凑、可复用、高度泛化的问题空间心智模型。

Ethan Mollick@emollick · 3小时前77

The talk about Mythos and cybersecurity was not, in fact, hype. (As anyone using Fable to do autonomous work has probably recognized)

译关于Mythos和网络安全的讨论并非炒作。（正如任何使用Fable进行自主工作的人可能已经认识到的那样。）

Ethan Mollick@emollick · 6小时前52

Continual learning is probably the biggest barrier to explosive AI adoption (& may have big implications for recursive self-improvement as well) As long as you deal with amnesiac models that require humans to do the learning for them, adoption will be gated by human processes.

译Ethan Mollick指出，持续学习是AI爆炸式采用的最大障碍，并对递归自我改进有重大影响。只要模型健忘、需人类替其学习，采用速度就受限于人类流程。EpochAI Research为此推出EBR-bench，通过让AI反复玩Earthborne Rangers棋盘游戏来测试其即时学习能力。初步结果显示：AI未能从错误中改进，至今无提升迹象。

Epoch AI@EpochAIResearch · 7小时前54

Introducing EBR-bench, our new benchmark to measure on-the-fly learning. AI repeatedly plays a challenging board game called Earthborne Rangers and tries to learn from its mistakes. So far: no signs of improvement.

译介绍 EBR-bench，我们用于衡量即时学习的新基准。 AI 反复玩一款名为 Earthborne Rangers 的挑战性棋盘游戏，并尝试从错误中学习。迄今为止：没有改进的迹象。

elvis@omarsar0 · 7小时前35

So much alpha in tuning/building LLM verifiers and judges. I use them on top of my harness, and it has unlocked agentic coding workflows that are beyond anything that exists in the market today. Building verifiers and LLM judges is starting to become a skill in high demand.

译Elvis Saravia（DAIR.AI）指出，调优和构建LLM验证器及裁判（verifiers/judges）正成为高需求技能。他将这些组件用于自己的测试框架（harness），解锁了远超市面现有方案的智能体编码工作流。同时，引用案例显示，Bridgewater利用其金融专业知识，与Tinker API合作微调模型，帮助分析师聚焦关键任务，体现了“专家提升AI，AI赋能专家”的闭环。

Hao AI Lab@haoailab · 23小时前51

http://x.com/i/article/2072448547069599744 # DSpark vs. JetSpec, which is better? Authors: @Lanxiang_Hu @aaronzhfeng @YuYangQian_ai @Jensen_Yuan @haozhangml TL;DR: Speculative decoding (SD) techniques have proliferated recently. SD accelerates autoregressive generation by letting a lightweight draft model propose future tokens, while the target model verifies them in parallel. Among recent efforts, DSpark and JetSpec emerged almost concurrently around the same bottleneck: once drafting becomes cheap, how do we preserve enough causal consistency for parallel proposals to survive verification? This naturally raises the question: which one is better? Or, more interestingly, are they actually complementary? The fact that both works converge in this direction suggests that causality is becoming a central lever for next-generation speculative decoding. They approach it from complementary sides of the throughput–latency frontier. DSpark targets high-concurrency serving: on Qwen3-8B and AIME25, DSpark improves accepted length from 4.07 (DFlash) to 5.01 at budget 7 with causal recurrent state for confidence-scheduled verification. JetSpec targets the latency-oriented, compute-budget-rich regime: by building causality directly into the parallel draft head, it turns larger draft budgets into longer accepted prefixes, on the same settings, scaling accepted length from 7.23 at budget 16 to 9.82 at budget 128, up from DFlash's 7.34 (DDTree's 8.66) at budget 128, for low latency generation. 1. Causality in DSpark and JetSpec Traditional drafters like the EAGLE series often preserve draft quality through autoregressive generation, but this makes longer drafts require more sequential draft steps. DFlash changes the cost structure: by using a lightweight block-parallel drafter to predict many future positions in one pass, it opens the door to making draft cost cheap. But cheap drafting is not enough. Once the draft cost drops, the bottleneck shifts to whether parallel proposals can survive verification. When future positions are weakly conditioned on earlier draft tokens, they may appear plausible in isolation but become inconsistent as a sequence. Here is where causality becomes important. DSpark keeps the parallel drafting backbone cheap, while adding a lightweight sequential head and confidence estimation to better decide which proposals should be sent for verification, thereby controlling the per-request compute budget. As a result, DSpark consistently improves throughput over MTP-style pure autoregressive drafting, where longer drafts require more sequential draft steps (Figure 1). On the other hand, under a latency-oriented Service Level Objective (SLO) with low concurrency, the system is more FLOPs-rich, so the goal shifts toward maximizing accepted rate per verification step. In this regime, we can afford to spend more on draft compute to raise the acceptance rate and maintain high acceptance at deeper positions. This is where causal parallel drafting, as in JetSpec, becomes especially important: the draft budget is used for generating path-conditioned tree, making it more likely to produce long accepted prefixes. 2. How Causality Helps Once drafting becomes cheap, the next question is how to spend limited compute intensity: should we squeeze more throughput under high concurrency, or push lower latency when more FLOPs are available per request? This is where causality becomes the key lever. Pushing the Throughput Limit: DSpark for Budget-Aware Correction DSpark targets the high-concurrency, budget-constrained regime. It uses a lightweight Markov-style correction head and confidence head (or an RNN-head variant that carry recurrent prefix state across positions). For each draft position i, the parallel drafter first produces base logits z_i^0, and a corresponding draft hidden state h_i. the confidence head estimates prefix-dependent confidence scores c_i: where the Markov head B then injects a small causal correction from the previous draft token to generate . The verification budget is then scheduled by keeping only the longest confident prefix under budget B and threshold rho: This makes it suitable for budget-aware serving: the draft backbone stays parallel, while the correction path improves local or prefix-dependent consistency. Pushing the Latency Limit: JetSpec Turns Draft Budget into Higher Acceptance With low concurrency, modern AI accelerators come with more spare FLOPs, so the key question becomes: how to translate higher compute budget into more accepted tokens per draft-verification step? This is where JetSpec takes a different path. JetSpec uses a causal parallel draft head to produce a path-conditioned draft tree, where deeper nodes are conditioned on earlier tokens along the same branch. The effect shows up clearly in the depth-wise acceptance profile (Figure 4). JetSpec consistently maintains higher acceptance than DFlash on both coding and math reasoning workloads. On AIME25, JetSpec starts with a near-perfect per-position acceptance rate of (q_1 at around 99%) at draft depth 1 and still maintains roughly (q_8 at 50%) acceptance at depth 8. Here q_i denotes the survival probability that at least the first i draft tokens are accepted. The empirical acceptance length is Under the constant per-token acceptance rate assumption used in the original speculative decoding analysis, We define alpha_eff by fitting the theoretical and empirical acceptance lengths: This corresponds to an estimated effective per-token acceptance rate of about 93%, substantially higher than DFlash. In this low-cost, high-acceptance regime, even a 5% gain in per-token acceptance can have an outsized impact on speculative decoding: it significantly increases the maximum theoretical acceptance length (Figure 4), which in turn directly reduces generation latency. Up Next: Enabling Both Throughput- and Latency-Oriented Parallel Drafting A foreseeable next step is to build a dynamic serving framework that can push both ends of the throughput–latency Pareto frontier: low-concurrency settings that demand higher per-user TPS, and high-concurrency settings that require higher aggregate throughput under tight verification budgets. In this direction, JetSpec and DSpark are naturally complementary: JetSpec strengthens the parallel drafting backbone for low-latency budget scaling, while DSpark adds lightweight sequential confidence checking and budget control for high-concurrency serving.

译DSpark 与 JetSpec 几乎同时出现，都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发，通过轻量级马尔可夫校正头与置信度估计控制预算，在 Qwen3-8B 与 AIME25 上，预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟，将因果性直接构建进并行草稿头，预算 16 时接受长度 7.23，预算 128 时达 9.82，高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。

SemiAnalysis@SemiAnalysis_ · 23小时前57

This week the InferenceX team discusses what it took to get DeepSeek V4 on InferenceX, changes in the model architecture, what is a MegaKernel, and initial performance on various accelerators including Huawei Ascend NPUs.

译本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel，以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。

Rohan Paul@rohanpaul_ai · 1天前53

Fable 5 absolutely crushed the HTML5 physics contest, but cost 6x more than Opus 4.8 and 39× more than GLM 5.2 in that test. Test was done on atomic[.]chat, a desktop app that runs LLMs locally. The test asked 4 models to generate self-contained canvas demos with believable motion and collisions. The scenes were not simple animations because every crash needed gravity, force, timing, and contact handling. Outputs: - Fable 5: 62,158 tokens, $3.12 - GPT 5.5: 37,753 tokens, $1.14 - Opus 4.8: 22,280 tokens, $0.56 - GLM 5.2: 36,246 tokens, $0.08

译在 atomic.chat（本地 LLM 桌面应用）的 HTML5 物理竞赛中，Fable 5 以 A+ 成绩完成全部三个场景（火车脱轨、汽车空中碰撞、怪物卡车碾压），消耗 62,158 token，成本 $3.12。相比之下，Opus 4.8 消耗 22,280 token/$0.56，GPT 5.5 消耗 37,753 token/$1.14（在怪物卡车场景中略胜 Fable），GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。

Chubby♨️@kimmonismus · 1天前44

Your move, @OpenAI. Excited to see how GPT-5.6 performs. Rumor has it the release is coming next week. Let’s see. Oh, and where is Gemini 3.5 Pro?

译Fable-5在Remote Labor Index（RLI）取得16.10%分数，领跑公开排行榜。RLI使用240个真实远程工作项目（覆盖23个领域、总价值超14万美元），评审将AI输出与人类交付物对比，判断合理客户是否接受。该成绩被称为“疯狂的跃升”，表明AI仍处于指数发展期。与此同时，传闻GPT-5.6将于下周发布，作者向OpenAI喊话并追问Gemini 3.5 Pro去向。

Ethan Mollick@emollick · 1天前47

Yes! Pre-classifying routers are going to result in a lot of bad work because routing is hard and tend to underestimate the value of intelligence on many problems. OpenAI learned this with GPT-5, now it seems routers are hot again.

译Ethan Mollick指出，预分类路由（先判断任务难易再分配模型）看似节省成本/延迟，但实际路由很难，且易低估智能在诸多问题上的价值。OpenAI在GPT-5上已吸取此教训，如今这类思路再次流行。@MParakhin补充：要可靠运行预分类器必须先解决任务本身，唯一正确方式是采用顾问模型（advisory model）方法。

Rohan Paul@rohanpaul_ai · 1天前42

Paper from Meta shows Quantized reasoning models often lose because they keep doubting a correct answer instead of finishing. Many of them reason well enough, but compression makes them hesitate at the wrong time. The problem is that post-training quantization, a way to shrink models after training, can make reasoning models cheaper to run but worse at finishing cleanly. The authors found that strong quantization does not only make models less capable, since in many failures the model already reached the right answer but then second-guessed itself. Their core idea is that quantization adds noise at uncertain word choices, so the model becomes more likely to pick words like “wait,” “but,” or “alternatively” that reopen the problem. They tested this across math, coding, and science tasks using 5 reasoning models, several quantization methods, and model sizes from 1.5B to 32B. The main result is that aggressive quantization raised overthinking failures up to 52%, while a small penalty on 50 hesitation words cut reasoning length by 12% to 23% and often kept or improved accuracy. Given compressed models are widely used to save memory and cost, very important to know that a very small decoding fix can stop many of them from wasting tokens and losing answers they already had. ---- Link – arxiv. org/abs/2606.00206 Title: "Quantized Reasoning Models Think They Need to Think Longer, but They Do Not"

译Meta 新论文发现，后训练量化虽能缩小推理模型、降低部署成本，但会导致模型在已得出正确答案后反复自我怀疑，浪费 token。量化在不确定的词选择上引入噪声，使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型（1.5B-32B）的数学、编程和科学任务上，激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚，可剪掉 12%-23% 的推理长度，同时保持甚至提升准确率。

Ethan Mollick@emollick · 1天前47

Yes! Pre-classifying routers are going to going to result in a lot of bad work because routing is hard and tend to underestimate the value of intelligence on many problems. OpenAI learned this with GPT-5, now it seems routers are hot again.

译Ethan Mollick 指出预分类路由器（pre-classifying routers）会导致糟糕结果，因为路由本身很难，且常低估智能的价值。OpenAI 在 GPT-5 上已吃过亏，如今这类思路又热起来。引用的 @MParakhin 也认为，用预分类器先判断任务是否简单再调用小模型看似省钱省延迟，但可靠执行必须先解决任务本身，唯一可行的是 advisory model approach。

elvis@omarsar0 · 1天前50

My prediction: the excitement for Fable 5 will wear off really fast. Reposting this to help those who will be extremely disappointed after they play with Fable 5 and run out of tokens or can't do much with it. Just a bit of advice on how to leverage a combination of AI models to get the same or better results. The best part is that there are many ways to do this now, including mixing with frontier open-weight models.

译作者预测Fable 5的兴奋感将迅速消退，并提醒用户注意token限制和功能局限。建议通过组合多个AI模型（如Opus 4.8用于规划、GPT-5.5用于执行）获得相同或更好效果，也可混合前沿开放权重模型。此外，将任务分解为更小子步骤以提升质量的方法常被低估，这正是动态工作流的重要性所在。

SemiAnalysis@SemiAnalysis_ · 1天前52

Inference keeps getting carved up, and every cut makes intelligence cheaper. First we split by phase: prefill on one set of chips, decode on another. Then by layer: attention on HBM-rich GPUs, the feed-forward network on SRAM-based silicon. Now by time itself: workloads sliced into execution windows and interleaved across the cluster. Each split recovers wasted utilization. Recovered utilization lowers the cost per token. We think cheaper tokens don't shrink demand, they grow it. That was the real story of MLSys 2026. (1/2)🧵

译SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分：prefill 与 decode 用不同芯片；第二步按层拆分：attention 用 HBM 富裕的 GPU，前馈网络用 SRAM 基芯片；第三步按时间拆分：工作负载切片为执行窗口，在集群中交错调度。每次切分回收闲置利用率，从而降低每 token 成本。更便宜的 token 不会压缩需求，反而刺激增长——这是 MLSys 2026 的核心叙事。

Chubby♨️@kimmonismus · 1天前41

If true, this would be much bigger than just another model release. Memory efficiency is one of the core bottlenecks for long-context models, agents, and inference economics. A real architecture-level breakthrough here could make longer-horizon AI systems dramatically cheaper and more practical. Andrew is one of the most reliable sources. Therefore, I'm taking this very seriously. We could truly be at a turning point.

译@AndrewCurran_ 预测一项重大架构突破即将公布，重点提升内存效率，来自从OpenAI分拆的团队（非SSI）。主推文@Kim 指出，若属实其意义远超普通模型发布——内存效率是长上下文模型、AI智能体和推理成本的核心瓶颈，架构级突破可使长时间跨度AI系统大幅降价并更实用。Andrew被视为最可靠信源之一，Kim认为可能正处于转折点。

X.PIN@thexpin · 1天前63

Meituan, one of China's largest on-demand service platforms, has an AI announcement that contains two stories. The headline is that LongCat-2.0, its new 1.6 trillion-parameter model, was reportedly trained and deployed entirely on a 50,000-chip cluster powered by Chinese AI processors. Meituan says its push into domestic AI infrastructure began in 2023, culminating in LongCat-2.0 becoming the company's first frontier-scale model to complete both pre-training and inference on a home-grown computing cluster. If validated, it would mark another step toward reducing China's dependence on Nvidia, not just for inference, but for training frontier models. The more interesting story, however, is what Meituan plans to do with it. Earlier versions of LongCat already power AI assistants that recommend restaurants, book hotels, and order food. Rather than launching another standalone chatbot, Meituan is embedding AI into the services millions of people already use every day. The model becomes another layer of the product, not the product itself. That increasingly looks like the direction China's internet platforms are taking. Alibaba is opening Qwen to branded AI agents, while Ant Group is rebuilding Alipay around its AI assistant, Ah Bao. Instead of competing solely on benchmark scores or chatbot downloads, these companies are integrating AI directly into ecosystems that already have users, merchants, payments, and transactions.

译美团发布LongCat-2.0，一个1.6万亿参数的大模型，据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施，该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是，美团并未推出独立聊天机器人，而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法，正成为阿里（开放Qwen品牌智能体）、蚂蚁（以Ah Bao重构支付宝）等中国互联网平台的共同方向。

Artificial Analysis@ArtificialAnlys · 1天前47

Congratulations to @Etched on announcing their first inference system! We have seen early performance demos, and we're looking forward to kicking off benchmarking. Our new system performance benchmark, AA-AgentPerf, measures how many agents a system can run per megawatt of runtime power.

译Etched 宣布走出隐身模式，基于成功的 A0 tapeout 制造出首批机架，已获得超 10 亿美元客户合同并融资 8 亿美元。早期客户测试显示其在推断吞吐量、延迟和能效上达到 SOTA。首批机架将于今夏发货。Artificial Analysis 祝贺并透露将用自研基准 AA-AgentPerf 对系统进行评测，该基准衡量每兆瓦运行功率可同时运行的 agent 数量。

Orange AI@oran_ge · 1天前54

没想到 Sonnet 5 的争议那么大因为更换了新的 tokenizer，Sonnet 5 的实际费用和 Opus 4.8 差不多 Sonnet 在金融领域是最佳模型，比如 GDPeval，比如投资调研之类的工作，且更喜欢调用工具核查事实，能提高报告的准确性。（相应的费用也up） Sonnet 5 有个小坑，用来编程的话，费用可能超过 Opus 4.8 ，这也是大家吐槽最多的点，需要特别注意下 Opus4.8 在复杂编程和规划方面非常强，且 HTML 设计方面很强，不过写作方面不如 Opus 4.6，且新的 tokenizer 花费也比 4.6 要多，目前来说和 GPT 5.5 各有千秋编程方面目前首选还是 GPT 5.5 Sonnet 5 、Opus 4.8、GPT 5.5 现已上线 Cola，欢迎体验

译Sonnet 5 因更换新 tokenizer，实际费用与 Opus 4.8 相近，引发争议。Sonnet 5 在金融领域（如 GDPeval）表现最佳，擅长调用工具核查事实，但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强，写作不及 Opus 4.6，与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。

向阳乔木@vista8 · 1天前66

http://x.com/i/article/2072191016476856320 # 从伽罗瓦到夸克：需要200年验证的想法，AI能产生吗？ https://www.youtube.com/watch?v=TfyPshgMbug 一个 19 岁的少年，在监狱里写下了一套没人看懂的数学笔记。他把笔记托付给朋友，请他转交给当时最伟大的数学家高斯，朋友尽力了，但没有成功。这个少年在一场决斗中死去，年仅 20 岁。又过了二十年，一位叫刘维尔的数学家翻出这些笔记，觉得里面可能有点东西。又过了二十年，有人把这些想法整理成现代数学能读懂的形式。再过一百年，物理学家盖尔曼用这套理论预测了夸克的存在。这个少年叫伽罗瓦。他留下的东西，叫群论。从一个模糊的直觉，到改变物理学，中间隔了将近两百年。在这两百年里，这个想法被拒稿，被遗忘，被误解，在多个人的脑子里辗转流传，才慢慢结晶成一座数学的山峰。现在，有人想用 AI 来做同样的事。问题是：你怎么训练一个系统，去产生一个需要两百年才能被验证的想法？这是 Grant Sanderson 和 Dwarkesh Patel 在 2026 年初的一场对话里反复触碰的困境。 Grant 是 3Blue1Brown 的创始人，YouTube 上最受欢迎的数学频道，几百万订阅者。但他的身份很奇特：他不做研究数学，他解释数学。他的整个职业，就是在回答"理解和证明有什么区别"这个问题，这让他在 AI 和数学的讨论里，站在一个很特殊的位置。 Dwarkesh 是一个播客主，专门采访 AI 领域最顶尖的研究者和创始人，他的优势是局外人的视角，他的问题往往比答案更有趣。他们聊了两个多小时，以下是这场对话的精华提炼。 ## IMO 金牌：一个没有改变任何事情的里程碑三年前，Dwarkesh 问过 Grant 一个问题：当 AI 能在国际数学奥林匹克（IMO）拿金牌的时候，那是不是就等于 AGI 了？ IMO 的题目需要真正的创造力，连专门训练过的顶尖学生都未必能全解。如果 AI 能做到，它不就什么都能做了吗？ Grant 当时的回答是：不会的。那只是又一个被超越的基准，不会有顿悟时刻。他是对的。 2024 年，AI 在 IMO 上的表现已经达到金牌水准，世界没有因此改变，没有人突然觉得 AGI 到来了，没有经济结构发生剧变，数学家们继续做他们的研究。 IMO 的题目分四类：几何、数论、代数、组合数学。 AI 在几何上的表现是 19 秒解完，因为有暴力求解器可以直接上，而且几何题有相对固定的训练路径可以覆盖大部分题型。但组合数学不一样。那些题目更像是谜题，需要一种"玩感"，需要从意想不到的角度切入。 2024 年的 IMO 恰好有两道组合数学题，AI 在这里卡住了。如果那年的题目多一道几何、少一道组合，AI 就能拿金牌。 AI 的能力边界不是一条平滑的曲线，而是锯齿状的。即便在数学这一个领域内部，不同方向的进展也差异巨大，把 AI 能力想象成一个整体，是一种系统性的误判。而且，IMO 的"脏秘密"是，它的很多题目其实是可以训练的。题目设计者会努力出那些不容易被刷题覆盖的题，但终究有限。组合数学之所以是最后的堡垒，不是因为它最难，而是因为它最难被系统化地训练。这个逻辑，在接下来的整个讨论里会反复出现。 ## 一道闪电，和一座山峰 Grant 提出了一个框架，是整场对话最有价值的部分。他把 AI 在数学上可能取得的进展分成两种截然不同的类型。第一种，叫连接闪电。 2025 到 2026 年间，AI 解决了几个引人注目的数学问题。其中一个是 Erdős 第 1196 号问题，关于"原始集合"的猜想。 AI 的解法，是把另一个领域的工具引入进来，在两个看似无关的数学领域之间打了一道闪电（知识连接）。这类进展有一个特点：对人类来说是可理解的。你只需要看到闪电的起点和终点，剩下的推导对领域内的人来说是自然的，你把这个想法说给一个懂行的数学家听，他会立刻知道怎么展开。另一个例子是单位距离猜想的反例。 AI 公开了推理链，数学家们读了之后，觉得是可以理解的，而且这个反例实际上加速了人类对这个问题的理解。 AI 为什么擅长这种连接？因为它同时精通量子物理、解析数论、随机矩阵理论……它能看到那种跨领域的相似性，而不需要靠两个人在午饭时偶然聊起来。这里有一个具体的故事。数学家 Hugh Montgomery 在研究黎曼 zeta 函数的零点分布时，写下了一个公式。物理学家 Freeman Dyson 看到这个公式，说：我认识这个表达式，它出现在研究随机厄米矩阵的特征值分布时，那是核能级的量子力学问题。两个看似毫不相关的领域，零点统计和随机矩阵理论，居然有相同的数学结构。这个发现开启了一整个研究方向。而这个发现，是靠两个人在普林斯顿高等研究院吃午饭时偶然聊起来的。第二种，叫建造山峰。 Fermat 大定理的证明是这种。你需要先建起椭圆曲线这座山，再建起模形式这座山，然后才能在山顶之间架桥。这两座山本身就是全新的数学体系，需要几代人的积累才能建成。群论也是这种。伽罗瓦没有解决一个已知的问题，他创造了一套新的思考框架。 AI 目前擅长的是闪电。建造山峰是另一回事，那需要的不是连接已有知识，而是创造出一套新的思考框架。而且这套框架的价值，可能要等一百年才能被验证。这就把我们带回到了伽罗瓦。 ## 一百年的验证循环 Dwarkesh 问了一个很尖锐的问题：如果伽罗瓦的想法需要一百年才能被验证，你怎么可能训练 AI 产生这样的想法？目前 AI 在数学上取得突破的核心训练方法叫 RLVR，基于可验证奖励的强化学习。逻辑很简单：给 AI 一道题，它给出答案，答案对了就奖励，答案错了就惩罚，反复迭代，AI 就学会了解题。这个方法在数学竞赛题、代码运行结果这类场景里效果很好，因为答案是确定的，对错是即时可知的。但伽罗瓦式的洞见没有这种反馈。更糟糕的是，Grant 指出，伽罗瓦在世时，当时的"验证器"，也就是学术界，给出的反馈是：不行。他的论文被拒了，他的想法被认为不够清晰、不够完整。从 RLVR 的角度看，这个想法应该被惩罚，被遗忘。但它是对的。这不是个例。拉格朗日在伽罗瓦之前五十年，就有了用对称性研究多项式的直觉，但他没有解决任何问题，只是问了一个新的问题。当时没有任何验证信号告诉他这是正确方向。更深的困境：不只是 AI 的训练环境无法捕捉这种价值，连当时的人类验证器也无法捕捉。 Grant 提到了一个他很喜欢的数学论文开头，来自数学家 Timothy Chow，他在研究"强迫法"这个概念时写道：大家都知道什么叫未解决的研究问题，我想提出一个新概念：未解决的阐释问题。我们已经证明，但我们还不理解为什么它是对的。证明和理解，是两件不同的事。这个区分，在 AI 时代变得异常重要。 ## 可验证，还不够，还得能"磨" 很多人把 AI 在数学上的快速进步归因于数学的可验证性。答案对就是对，错就是错，这给了 AI 一个清晰的训练信号。 Grant 和 Dwarkesh 都认为这只说对了一半。另一半，是一个很少被提到的概念：可磨性。你可以把一道题的状态打包，同时跑一千个并行实例，让它们各自尝试不同路径，对的路径留下，错的丢掉，信用分配问题清晰可解。代码也一样，把一个代码库状态打包成容器，派出几百个 agent 各自尝试实现某个功能，结果完全确定，成功和失败的差异就是有效信号。然后他们举了一个反例：电脑操作（computer use）。同样是可验证的，"我的包裹到了吗"有明确答案，"我的会议预订成功了吗"也有明确答案。但你没法同时跑一千个亚马逊结账流程，因为网站有反爬虫机制。你可以尝试克隆每一个网站，但那极其耗费人力，而且跟不上网站的更新速度。这就是为什么 AI 在电脑操作上的进展远慢于数学和代码，尽管它同样是可验证的。可验证是必要条件，可磨练才是充分条件。现实世界里大多数任务都无法容器化，无法重复磨练。你没法把"今天去市场上交易赚钱"这件事容器化，因为市场每天都不一样，你没法重放。数学和代码是例外，这才是 AI 在这两个领域突飞猛进的真正原因。 ## 自回归是一种奇怪的思考方式理解了可磨性，就能理解另一个问题：为什么 AI 擅长连接闪电，却很难建造山峰。这要从 AI 的工作方式说起。 Grant 用了一个很形象的比喻。想象你被关在一个箱子里，外界和你交流的唯一方式是：递给你一张纸条，问你"下一个词是什么"，你预测，然后记忆被清空，再递给你下一张纸条。这个过程重复无数次之后，外面的人把所有你预测的词拼在一起，给你看："你看，这是你写的文章。" 你可能会说：这太糟糕了，这根本不是我会写的东西。这就是自回归语言模型的工作方式。它在每一步都在预测下一个最可能的词，而不是像一个作家那样，先在脑子里有一个整体的结构，然后逐步填充细节。这对数学意味着什么？数学里最有价值的进展，往往是那种"不太可能出现的下一个词"，是那道从一个领域跳到另一个领域的闪电。但在自回归的框架里，你在某个数学领域的上下文里，下一个最可能的词，是这个领域里的词，而不是另一个领域里的词。跨领域的连接，在自回归的逻辑里，是一种低概率事件。那么 AI 是怎么开始做到这件事的？ Dwarkesh 的猜测是：训练环境。如果你设计一批专门需要跨领域连接才能解决的问题，让 AI 反复在这类问题上磨练，它就会被迫学会在自回归的框架里，预测"让我看看另一个领域有没有类似的结构"这个动作。这和 AI 学会成为更好的编程 agent 的逻辑是一样的。它学会了在自回归的框架里，预测"让我退一步，重新审视整个代码库"这个动作，因为这个动作在训练数据里被反复验证是有效的。但建造山峰需要的不是这种。建造山峰需要的是：在没有任何验证信号的情况下，坚持一个模糊的直觉，然后围绕这个直觉构建一套全新的语言。这不是低概率的下一个词。这是一种完全不同的思维模式。 ## AI 最被低估的优势，不是它有多聪明对话里有一个洞察，Grant 和 Dwarkesh 都提到了，但没有被充分展开，我觉得值得单独说。我们通常讨论 AI 有多聪明，但我们很少讨论 AI 的另一种优势：它可以被无限并行化。回到 Montgomery 和 Dyson 在普林斯顿吃午饭的故事。那次偶遇是一个偶然事件。两个领域的专家恰好在同一个地方，恰好聊起了各自的工作，恰好发现了联系。高等研究院之所以把一堆顶尖学者放在同一个地方，就是为了制造这种偶然性。 AI 不需要这种运气。你可以让一个精通随机矩阵理论的 agent 和一个精通解析数论的 agent 系统性地对话，搜索所有可能的联系。更进一步，你可以同时跑一千个这样的对话，覆盖所有可能的领域组合。这不只是速度的提升，这是一种结构性的优势。人类科学史上那些改变方向的偶然相遇，在 AI 的框架里可以被系统性地工程化。还有另一个维度。单位距离猜想之所以很长时间没有被解决，一个重要原因是大多数数学家都相信这个猜想是对的，所以他们在尝试证明它，而不是尝试找反例。这是一种集体性的认知偏差。 AI 可以同时跑两组 agent，一组尝试证明，一组尝试证伪。这不是什么高深的技术，但它系统性地消除了人类研究中那种先入为主的偏见。 Grant 还提到了一个更有趣的可能性：给不同的 agent 植入不同的启发式。爱因斯坦有一个强烈的偏见：物理规律在不同参考系下应该看起来一样。这个偏见是相对论的核心驱动力。但他也有另一个偏见：上帝不掷骰子。这个偏见让他在量子力学上走错了方向。你不能让所有 AI 都是爱因斯坦。你需要多样性。你可以系统性地给不同 agent 植入不同的启发式，然后看哪些启发式在哪类问题上是有效的。这是一种老式软件的思维：枚举所有可能的策略，然后并行探索。但用在科学研究上，它的潜力是巨大的。 ## Lean：被高估的训练工具，被低估的探索引擎形式化证明语言 Lean 在 AI 数学圈里被频繁提及，很多人认为它是 AI 突破数学的关键。 Grant 的看法是：对于当前的进展，Lean 的重要性被高估了。 DeepMind 最初用 Lean 做 IMO，第二年就切换到了自然语言，效果反而更好。 AI 解决单位距离猜想反例时，公开的推理链里没有任何 Lean。过程监督的价值，似乎远不如一个可磨练的结果验证。但 Lean 有另一个独特价值，而且这个价值目前还没有被充分开发。 Lean 可以让 AI 完全自主地跑，不需要人类介入。 Mathlib 是一个用代码写成的数学库，目标是把所有数学都形式化进去。你可以想象一个 AI，被告知"去扩展 Mathlib"，然后就让它跑，不需要任何人审核每一步，因为每一步的正确性都可以被自动验证。它可以自己提出猜想，自己构建定义，自己生长出一棵逻辑树。 Grant 说，你可以按下开始键，倒十年的计算资源进去，然后回来看它发现了什么。这让人想到 AlphaGo。 AlphaGo 可以在自己的宇宙里无限对弈，不需要人类介入，因为围棋的规则是完全确定的，胜负是自动可验证的。它在这个封闭宇宙里探索出了人类从未想到过的走法，第 37 手是其中最著名的一个。 Lean 给数学提供了类似的可能性。一个在 Lean 世界里自主探索的 AI，可能会发现人类从未想到过的数学结构。但这里有一个问题：它发现的东西，有多少是有用的？ Grant 提到，Terry Tao 曾经谈到一个研究项目，想要穷举搜索所有可能的代数公理系统。群论有一套公理，但如果你系统性地尝试所有可能的公理组合，会不会发现一些全新的、有趣的代数结构？大部分结果会是垃圾，但偶尔会有一个小岛，一套公理系统，能产生丰富的定理，值得深入研究。这是 Lean 真正有趣的地方：不是作为训练工具，而是作为探索引擎。 ## 黎曼猜想被证明之后，我们会理解它吗对话里有一个让人印象深刻的担忧：AI 可能会证明黎曼猜想，但我们对数学的理解不会因此增进任何东西。 Grant 把可能的解法分成三类。第一类是闪电：发现两个领域之间的联系，比如黎曼 zeta 函数的零点和随机矩阵理论之间的关系。这类解法对人类是可理解的，甚至可能推进人类的理解。第二类是山峰：构建一套全新的数学框架，就像 Wiles 证明 Fermat 大定理时需要先建起椭圆曲线和模形式这两座山。这类解法需要人类花大量时间去理解这座新山，但最终是可以理解的。第三类是蛮力：一个几千页的证明，没有任何新的概念，只是穷举了所有可能的情况。这类证明在技术上是正确的，但对人类的理解毫无帮助。 Grant 提到了一个真实存在的类比：abc 猜想的"证明"。日本数学家望月新一提出了一套叫做"宇宙际 Teichmüller 理论"的全新框架，声称可以证明 abc 猜想。这套理论如此陌生，以至于数学界花了多年时间都无法判断它是否正确。最终的主流判断是它可能有错误，但争议至今未完全平息。这就是"外星数学"的样子：一座新山，但没有人能爬上去，甚至不确定这座山是否真的存在。如果 AI 产生了这样的东西，而且是错的，那就是灾难性的浪费。如果是对的，那也需要巨大的人力投入去消化。 David Bessis 在一篇博文《定理经济的崩塌》里提出：历史上，定理证明和概念创造是绑定在一起的，因为提出定义的人，往往也是证明定理的人。但如果 AI 自动化了定理证明，而人类还在负责提出定义，这个绑定就断裂了。有一句话在数学圈里流传：好的数学家证明定理，伟大的数学家提出猜想，最伟大的数学家提出定义。 AI 正在从最底层往上爬。它已经能证明定理，开始能提出猜想。但提出定义，也就是创造出一套新的思考语言，那是伽罗瓦做的事情。 ## AI 为什么写作越来越烂，但数学越来越好写作烂，有两个原因。第一个是奖励黑客。AI 的写作训练，本质上是在优化"看起来像好文章"，而不是"真正是好文章"。它学会了所有好文章的表面特征，然后把这些特征堆在一起。结果是一篇击中了所有评分标准，但没有任何真正洞察的文章。第二个更深：写作本身就是产品，而不是产品的生产过程。代码可以是烂的，只要它运行正确。一个函数可以写得很丑，但如果它输出了正确的结果，就是合格的。数学证明也类似，一个引理可以用很多种方式证明，只要结论正确就行。但写作不一样。每一个词、每一句话都是最终交付物，不能有废料。而且好的写作需要在每一个句子处都建模读者的心理状态，预判读者此刻脑子里在想什么，然后决定下一步怎么走。 Grant 提到了一个有趣的实验：打了肉毒杆菌的人，因为面部肌肉被冻住，无法模仿他人表情，在识别他人情绪方面的能力显著下降。理解他人情绪的一部分机制，是用自己的脸去"复现"对方的表情。 AI 没有脸。它理解读者心理的方式，是一种从大量文本中涌现出来的能力，而不是内置的硬件。这可能是它在写作上的根本性局限。但这里有一个有趣的反驳。 Dwarkesh 说：AI 已经越来越擅长写不只是能运行、而且干净整洁、可以直接合并的代码。为什么这种进步没有同样发生在写作上？ Grant 的回答是：也许它已经发生了，只是我们没有注意到。他说，他现在遇到一篇难懂的文章，第一反应是把它粘贴给 LLM，让它解释给他听。解释往往比原文更清楚。但他也承认：解释是一回事，创作是另一回事。解释是把已有的东西说清楚，创作是决定什么值得说。 AI 在前者上已经很好，在后者上还差得远。这个区分，和证明与理解的区分，是同一枚硬币的两面。 ## 数学家的未来：博物馆策展人 Grant 在对话里提到了一个比喻：未来的数学家，可能更像是博物馆策展人，而不是定理证明者。 AI 解决了问题，甚至能很好地解释它。但数学的空间是近乎无限的，哪些问题值得研究，哪些方向值得投入，哪些新发现值得关注，这需要有人来做导航。这不只是技术判断，也是一种社会功能。 Grant 自己就是一个例子。他的工作里，很大一部分时间花在"决定什么值得说"上，而不是制作视觉效果。听众信任他的品味，愿意跟着他的视角去探索。这种信任是关系性的，不是纯粹信息性的。他还提到，即便 AI 在某些方面比人类更擅长策展，人们依然会倾向于选择与自己有真实关系的人类策展人，因为我们对事物产生兴趣，本质上是一种社会现象。这个逻辑延伸到了教学。 Grant 认为，教学可能是 AGI 时代最稳定的职业之一，不是因为 AI 不能解释概念，而是因为教学本质上是一种社交和陪伴式的活动，远超出"解释概念"的范畴。他还提到了一个细节：一个好老师，当学生问出一个奇怪问题的时候，能够识别出这个问题背后的思维结构，然后顺着学生的思路把它引导到正确方向，而不是直接说"你这样想不对，应该这样"。他把这个叫做柔道式教学。 AI 目前做不到这一点，它太顺从了，太倾向于直接给答案，而不是重构问题。 ## 给数学从业者的一个实际建议 Grant 对那些担心 AI 会取代自己的数学学生，给了一个很朴素的建议：想清楚钱从哪里来，你在这条链路上提供了什么价值。这听起来很功利，但他的意思是：很多学生选择数学，是因为一路被夸"你很擅长这个"，然后顺着这条路走下去，从没认真想过自己在为谁创造什么价值。大学里的数学教授，有人靠的是声誉为学校带来品牌价值，有人靠的是 NSF 资助基础科学，有人靠的是直接教学。这三条路在 AI 时代的稳定性完全不同。他还提到了一个更长远的可能性：如果 AI 真的在未来五到十年内开始提出全新的数学问题和数学领域，那么"帮助人类理解 AI 发现了什么"会成为一个真实的需求。在那个世界里，数学教育者和数学传播者的价值，可能比现在更高，而不是更低。如果 AI 真的看到了人类从未看到的东西，那么能够理解这些东西、并且判断它们在哪里有用的人，会变得极其有价值。数学家从"证明定理的人"变成"理解 AI 发现了什么、并且把它指向正确方向的人"，这个角色的经济价值可能比以前更高。再次回到伽罗瓦。他在监狱里写下那些笔记的时候，他知道自己发现了什么吗？他有一种直觉，觉得这是重要的。但他无法证明它，无法解释它，甚至无法清晰地表达它。当时最权威的验证器，学术界，告诉他：不行。他死了。笔记沉睡了二十年。又过了二十年才被整理清楚。又过了一百年才被用来预测夸克。现在，我们有了能证明定理的 AI，有了能连接领域的 AI，也许很快会有能建造新山峰的 AI。但那种"我不知道为什么，但我觉得这里有什么东西"的直觉，以及在没有任何验证信号的情况下坚持它的能力，我们还不知道怎么训练，甚至不知道怎么识别。这可能是整个故事里，最后一个真正有趣的问题。

译Grant Sanderson（3Blue1Brown）与Dwarkesh Patel对话指出，2024年AI在IMO已达金牌，但组合数学仍卡住。AI数学进展分两类：连接闪电（跨领域连接，如Erdős第1196号问题、单位距离猜想反例）和建造山峰（如伽罗瓦群论，需百年验证）。训练依赖RLVR，但伽罗瓦想法当时被拒，无反馈信号。可验证仅是必要条件，可磨性（并行实例）才是充分条件；电脑操作虽可验证但缺可磨性，进展慢。

向阳乔木@vista8 · 1天前34

这期访谈很值得看，访谈嘉宾是 @3blue1brown 的Grant Sanderson 让 AI 解读写了一篇总结，几个观点很值得关注： 1. 知识跨领域连接，在自回归框架中，是一种低概率事件。 2. 跨领域打通已有知识，AI 擅长，但创造全新思考框架 AI 目前无法做到。 3. AI 最被低估的优势是并行化，不是智力 4. 数学和代码能被 AI 快速迭代，不只因为答案可验证，更因为可以容器化、并行磨练。 https://www.youtube.com/watch?v=TfyPshgMbug

译3blue1brown 的 Grant Sanderson 在访谈中分享 AI 相关观点：① 知识跨领域连接在自回归框架中属于低概率事件；② AI 擅长跨领域打通已有知识，但尚无法创造全新思考框架；③ AI 最被低估的优势是并行化，而非智力；④ 数学和代码能被 AI 快速迭代，不仅因为答案可验证，更因为可以容器化、并行磨练。完整访谈见视频链接。

向阳乔木@vista8 · 1天前61

http://x.com/i/article/2072169967664140288 # LongCat-2.0 深度技术解读 X 上老外都特别震惊，说中国的“Doordash”用国产芯片训练了一个万亿参数的大模型，哈哈哈。这次美团确实有点厉害，让 AI 辅助阅读解读下所有技术细节。 > https://longcat.chat/blog/longcat-2.0/ 35 万亿 token，大概是全球所有书籍文字总量的几十倍。 5 万片芯片同时工作，意味着你需要让几万台机器像一台机器一样协调运转。而"全程无回滚"，意味着这场马拉松从头跑到尾，没有一次因为出错而被迫退回重来。这就是 LongCat-2.0，2026 年 6 月 30 日正式发布并开源。 ## 先搞懂两个基础概念，后面才能读懂在进入正题之前，有两个概念必须先建立直觉。什么是 MoE（混合专家模型）？普通的神经网络，每次处理一个问题，会动用全部的"神经元"。你问它"今天天气怎么样"，和问它"帮我写一段 Python 代码"，用的是同一套参数，全部激活，全部计算。 MoE 的思路不一样。它内部有很多"专家"，每次来一个问题，只激活其中几个最合适的专家来处理，其余的专家保持沉默。打个比方：一家大医院有内科、外科、神经科、皮肤科……你来看病，不是所有科室的医生都来给你会诊，而是根据你的症状，叫来最相关的两三个科室。这样既节省了资源，又能让每个专家更专注。 LongCat-2.0 的总参数是 1.6 万亿，但每次处理一个 token（可以理解为一个词或一个字），只激活其中约 480 亿参数。也就是说，每次只动用了约 3% 的参数。这个"只用 3%"的特性，在后面会反复出现，它是整个模型设计的核心约束。什么是 token？语言模型不是一个字一个字读文字的，它把文字切成一小块一小块的"token"。中文里大概 1 个 token 对应 1.5 到 2 个汉字，英文里大概 1 个 token 对应 0.75 个单词。 35 万亿 token，换算成中文，大概是 50 到 70 万亿个汉字。好，基础打完了，我们开始拆解 LongCat-2.0 的每一个技术决策。 ## 架构改进一：LSA，让模型读长文不再"喘不过气" 先理解"注意力机制"是什么语言模型在理解一句话的时候，需要判断每个词和其他词之间的关联程度。比如"猫追老鼠，它跑得很快"，模型需要判断"它"指的是"猫"还是"老鼠"。这个判断过程叫"注意力机制"，模型在处理每个词的时候，会"注意"到其他所有词，计算它们之间的相关性。问题来了：如果文章很长，比如有 100 万个 token，那每个 token 都要和其他 99 万 9999 个 token 计算一次相关性。计算量是 token 数量的平方级增长。文章长度翻倍，计算量变成原来的 4 倍。这就是为什么普通模型处理长文本会非常慢，甚至根本处理不了。稀疏注意力：不是每个词都需要关注所有词解决思路是"稀疏注意力"：不需要每个词都关注所有词，只关注真正重要的那些。还是那个比喻：你在读一本 500 页的小说，理解某一段情节，不需要把前面 499 页全部重新过一遍，只需要回忆几个关键情节点就够了。 LongCat-2.0 之前用的是 DeepSeek 稀疏注意力（DSA），它已经做到了这一点。但团队发现，DSA 里有一个"索引器"（可以理解为"负责决定哪些词值得关注"的小模块），成了整个系统的速度瓶颈。原因有两个：第一，它选出来的"重要词"在内存里的位置是散的，读取时需要到处跳，效率低；第二，它的评分计算本身就很贵，是二次方级别的开销。 LongCat 稀疏注意力（LSA）就是专门来解决这个索引器瓶颈的。 LSA 的三个优化，逐个拆解第一个：流感知索引（SI）问题的根源是内存访问碎片化。想象你去图书馆找书，如果要找的书分散在各个书架的随机位置，你就得满图书馆跑。但如果这些书都集中在同一排书架上，你一趟就能全拿完。 SI 做的事情就是：把一部分原本散乱的内存访问，重新组织成连续的顺序读取。硬件在做顺序读取时效率远高于随机跳跃，这叫"合并的 HBM 访问"（HBM 是显卡里的高速内存）。第二个：跨层索引（CLI）这个优化基于一个观察：在神经网络的相邻两层里，"重要的 token"的分布高度相似。打个比方：你在第 10 层楼看到某个人很重要，到第 11 层楼，这个人大概率还是重要的。既然如此，第 11 层就不需要重新做一次"谁重要"的判断，直接复用第 10 层的结果就行。 CLI 让单次索引计算可以被多个连续的注意力层复用，相当于把这笔开销"摊薄"了。为了让模型在训练时就学会"相邻层的重要 token 分布是一致的"，团队在训练阶段引入了"跨层蒸馏"。让相邻层互相学习，保证这个特性在推理时真实成立。第三个：层级化索引（HI）这是一个"先粗筛再精选"的两阶段策略。还是图书馆的比方：你要找关于"量子计算"的书，不会一本一本翻遍所有书，而是先找到"计算机科学"这个大区域（粗筛），再在这个区域里找具体的书（精选）。 HI 先用"block 级近似打分"做粗召回，缩小候选范围，再在候选里做精细的 token 级选择。这样每次检索需要处理的候选空间大幅缩小。 HI 是可插拔的，只在超长上下文任务上按需启用，不影响普通任务。这三个优化设计上互不干扰，可以独立开关，也可以组合使用。投机解码：一个额外的加速技巧文章里还提到 LSA 被扩展到了"投机解码"（Speculative Decoding）。这个概念值得解释一下。语言模型生成文字是一个字一个字输出的，每次输出都要等上一次完成。投机解码的思路是：用一个小模型（Draft 模型）先快速猜测接下来几个词，再用大模型（Target 模型）一次性验证。如果猜对了，就省下了大模型多次生成的时间。 LongCat-2.0 用的是 3-step MTP，即小模型一次猜 3 步。 CLI 在这里的应用更激进：3 个 Draft 步骤共用一次索引结果，Step 2 和 Step 3 完全复用 Step 1 的索引，进一步压缩开销。 ## 架构改进二：N-gram Embedding，用更聪明的方式扩大参数先理解"Embedding"是什么模型在处理文字之前，需要把每个 token 转换成一串数字（向量），这个转换过程叫 Embedding。你可以把它理解为"把词语翻译成模型能理解的坐标"。 "猫"和"狗"的坐标很近，"猫"和"飞机"的坐标很远。模型通过这些坐标来理解词语之间的关系。 N-gram 的思路：不只看单个词，看词的组合 N-gram 的意思是"N 个连续 token 的组合"。 LongCat-2.0 用的是 5-gram，即每次看 5 个连续 token 的组合。为什么要这样做？因为很多语义是由词的组合决定的，而不是单个词。 "人工"和"智能"单独看都是普通词，但"人工智能"作为一个组合，有完全不同的含义。如果模型只看单个词，就需要通过多层计算才能"悟"出这个组合的含义。 N-gram Embedding 直接把常见组合的含义编码进去，相当于给模型提前建好了"词组词典"。这样做的效果是：embedding 空间扩展超过 100 倍，模型对局部上下文的理解能力显著增强。为什么要加 135B 参数的 N-gram Embedding，而不是直接加更多专家？这是整个设计里最有意思的一个决策，值得细说。 LongCat-2.0 的 MoE 稀疏度接近 97%，意思是每次只用 3% 的参数。在这个稀疏度下，如果再加更多专家（比如再加 135B 的专家参数），收益会很小。为什么？因为专家越多，每个专家被调用的频率越低，训练时每个专家获得的"练习机会"越少，学得越不充分。这就像一家有 1000 个医生的医院，每个医生每天只看一两个病人，技术很难精进。但 N-gram Embedding 不一样。它在 MoE 的"稀疏维度"之外，开辟了一个新的维度来扩展参数。这 135B 参数不参与 MoE 的路由竞争，而是直接作用于 token 的表示层，每次处理都会用到。团队同时发现，N-gram Embedding 的占比有一个甜点区间：占总参数的 10% 以内效果最好，超过 50% 优势就消失了。LongCat-2.0 把这个比例控制在 10% 以内。还有一个推理阶段的额外好处：把参数从专家转移到 N-gram Embedding，可以降低大 batch 解码时的显存 I/O 压力，加速解码。原因是 N-gram Embedding 的访问模式更规律，对显存带宽更友好。 ## 国产算力上跑通万亿参数训练，工程上有多难这一部分是整篇发布文章里信息密度最高的，也是最容易被忽视的。显存不够，怎么办国产芯片的单卡显存显著小于 H800 的 80GB。训练 1.6 万亿参数的模型，显存是第一道墙。团队的解法是 6D 并行。"并行"的意思是把模型和数据切开，分散到多张卡上同时计算。常规的并行方式有 5 个维度： - TP（张量并行）：把单个矩阵运算切开，分到多张卡上算 - CP（上下文并行）：把长序列切开，分到多张卡上处理 - EP（专家并行）：把不同的专家放在不同的卡上 - DP（数据并行）：多张卡同时处理不同的数据 - PP（流水线并行）：把模型的不同层放在不同的卡上，像流水线一样运转 LongCat-2.0 在这 5 个维度之外，额外加了第 6 个：EMBP（Embedding 并行），专门处理 135B N-gram Embedding 参数的并行加速。除了并行，还有几个显存优化手段： ZeRO-1：优化器（负责更新参数的模块）的状态数据，往往比模型本身还大。ZeRO-1 把这些状态数据切分到多张卡上，每张卡只存一部分。选择性重计算：正向计算时，有些中间结果可以不存下来，反向传播时重新算一遍。这样牺牲一点计算时间，换来大量显存节省。 OOM 自动卸载：当显存快满了（Out of Memory），自动把部分数据卸载到内存或硬盘，用时再取回来。零计算专家：填充 token（用来凑齐序列长度的无意义 token）被路由到一个"零计算专家"，不做任何实际计算，节省算力。超节点：把几百张卡变成一个高速通信域训练大模型时，卡和卡之间需要频繁通信（传递梯度、同步参数）。通信速度往往是训练速度的瓶颈。 LongCat-2.0 的解法是"超节点"：把最多 48 台机器组成一个超节点，节点内部用高带宽全互联，节点之间走 RoCE 网络（一种高性能网络协议）。这样做的效果是：高带宽通信域从单台机器（通常 8 张卡）扩展到数百张卡。带宽敏感的并行策略（TP/CP/EP）可以在这个大域内运行，不再受限于单机带宽。相比同规模的普通配置，超节点额外带来约 30% 的预训练吞吐提升。超节点同时是"亲和调度"的基本单元。调度时优先把通信密集的任务分配在同一个超节点内，减少跨节点通信，在通信局部性和可调度性之间取得平衡。 Muon 优化器：一个来自学术界的新选择优化器是训练时负责"根据错误信号更新参数"的模块。最常用的是 Adam 系列优化器。 Muon 是一个相对较新的优化器，在某些场景下比 Adam 收敛更快、效果更好。 LongCat-2.0 在国产算力芯片上大规模部署了 Muon，并针对 TP 并行、DP 状态去冗余和高效矩阵乘核函数做了专项优化。这是一个值得关注的信号：Muon 优化器正在从学术实验走向大规模生产部署。确定性：让训练结果可复现这个细节很少被提到，但在工程上极其重要。 "确定性"的意思是：给定相同的输入，每次计算的结果完全一致，不会因为浮点运算的舍入误差或并行计算的顺序差异而产生微小偏差。为什么重要？因为在大规模训练中，微小的数值偏差会随着层数和步数累积，最终导致训练结果不可复现，甚至出现 loss 突刺（损失函数突然异常升高）。团队自研了覆盖 Embedding、FA（Flash Attention）、LSA、MoE 等多个模块的确定性算子。所有规约类算子（比如求和、求均值）都采用二叉树分段累加，减少浮点误差累积。还有一个细节：在部分计算密集型算子上加入了"比特翻转检测"。硬件偶尔会出现单个比特从 0 变成 1 或从 1 变成 0 的错误（宇宙射线、电磁干扰等都可能导致），这种错误会造成数值异常。加入检测后，可以及时发现并处理，不让它悄悄污染训练结果。故障恢复：5 万张卡，总有卡会出问题 5 万张卡同时运行，每天都会有硬件故障。如果每次故障都需要人工介入，训练根本无法持续。团队的解法是端到端监控驱动的自动故障恢复：监控系统持续检测链路状态，发现故障后自动识别、切流、恢复，全程无需人工介入。故障链路的隔离对训练没有可感知的影响。修复后的链路还需通过压测才能重新上线，防止带病工作的硬件再次引发问题。这套机制是"全程无回滚"这个结果的工程保障。 ## 百万上下文推理：在受限硬件上的极限工程训练完成后，还需要把模型部署起来，让用户能实际使用。在显存、带宽都受限的国产芯片上，跑百万上下文的推理是另一道难题。 Prefill 和 Decode：推理的两个阶段理解后面的优化，需要先知道推理分两个阶段： Prefill（预填充）：模型读取你的输入（比如一篇 10 万字的文档），一次性处理所有输入 token，生成初始的 KV-cache（可以理解为"模型对输入的理解摘要"）。这个阶段计算量大，但可以并行处理。 Decode（解码）：模型一个 token 一个字地生成输出，每次生成都要读取之前的 KV-cache。这个阶段是串行的，受限于显存带宽。 LongCat-2.0 采用 Prefill-Decode 分离部署：两个阶段用不同的硬件节点处理，各自针对自己的瓶颈做优化。 KV-cache：长上下文的显存杀手 KV-cache 是长上下文推理的核心挑战。每处理一个 token，模型都需要存储一个 KV（Key-Value）对，供后续 token 参考。 100 万个 token 的上下文，就需要存储 100 万个 KV 对。这个数据量非常大，很容易撑爆显存。 LongCat-2.0 的解法是 KVP（KV-cache 并行）：把 KV-cache 切分到多张卡上，每张卡只存一部分，降低单卡显存压力。 Prefill 节点的优化 Prefill 节点的主要瓶颈是节点间通信带宽。 MoE 模型在处理 token 时，需要把 token 发送给对应的专家（dispatch），再把专家的计算结果收回来（combine）。当专家分布在很多节点上时，这个通信开销很大。解法是 Chunked Pipeline Parallel（CPP）：把长序列切成小块，用流水线方式处理，缩小每次通信涉及的专家并行域（EP 域），减少跨节点通信量。在每个流水线阶段内，再用 Attention Sequence Parallelism（SP）把长序列的注意力计算分散到多张卡上，进一步分担计算压力。 Decode 节点的优化 Decode 节点的主要瓶颈是显存和 KV-cache 的 I/O 带宽。除了 KVP 切分 KV-cache，还用了较大的专家并行度（EP128，即 128 张卡分担专家），压低每张卡上的权重显存和专家 I/O 压力。大 EP 并行度带来一个新问题：专家负载不均。如果某些专家特别受欢迎，对应的卡就会成为瓶颈，其他卡在等待。 EPLB（Expert-Parallel Load Balancing）负责动态均衡专家负载，统计采集和分布计算全部异步化，不阻塞主计算流程。面向国产芯片的两个底层优化 Super Kernel：GPU 上的每个算子（计算操作）在启动时都有固定的开销，就像每次开车都要先发动引擎。如果算子数量很多，启动开销累积起来很可观。 Super Kernel 把多个算子合并成一个大算子，减少总启动次数，降低累积开销。 Weight Prefetch（权重预取）：国产芯片的显存带宽有限，但 L2 缓存（比显存快得多的片上存储）相对较大。 Weight Prefetch 利用这块大 L2 缓存，在前一个算子还在计算时，提前把下一个算子需要的权重数据加载进来。等前一个算子算完，权重已经在缓存里了，不需要再等显存读取。这叫"把 I/O 延迟隐藏在计算之中"。 ## 后训练：三组专家，一套融合架构模型训练完成后，还需要"后训练"来让它真正好用。 LongCat-2.0 的后训练引入了三大专家组，分工明确。 Agent 能力专家组这组专家负责让模型能在真实场景中自主完成任务。重点不只是"能完成任务"，而是优化几个关键的"原子能力"：复杂工具调用的精准度（调用 API 时参数不出错）、多轮交互中的参数解析能力（记住上下文，不重复问同样的问题），以及自我纠错机制（发现自己陷入死循环时能主动跳出来）。这些"原子能力"决定了 Agent 系统的鲁棒性。一个 Agent 能完成 90% 的任务，但剩下 10% 会卡死或出错，在生产环境里是不可接受的。推理能力专家组这组专家负责数学、STEM 复杂问题求解和多跳知识推理。 "多跳知识推理"是指需要串联多个知识点才能得出答案的问题。比如"爱因斯坦出生那年，美国总统是谁？"需要先知道爱因斯坦的出生年份，再查那一年的美国总统，这就是两跳推理。这组专家还实现了"基于问题难度的自适应推理计算"，简单问题快速回答，复杂问题深度思考，不浪费计算资源。交互体验专家组这组专家负责让模型更"好用"：细粒度指令遵循（你说"用列表格式回答"，它就真的用列表）、抑制幻觉（减少一本正经地编造事实）、以及在不牺牲有用性的前提下建立安全边界。最后，用 MOPD 架构在数万卡的国产算力集群上，把三组专家的能力融合进一个模型。这是整个后训练流程的核心工程挑战：怎么让一个模型同时具备 Agent 执行力、深度推理能力和良好的交互体验，而不是顾此失彼。 ## 评测数据怎么看评测数据里有几个基准值得解释一下，不然很难判断数字的含义。 Terminal-Bench 2.1：测试模型在终端环境里完成真实任务的能力，比如写脚本、调试程序、管理文件。这是最接近"程序员日常工作"的评测之一。 LongCat-2.0 得 70.8 分，与 Gemini 3.1 Pro（70.7）基本持平，低于 Claude Opus 4.8（78.9）。 SWE-bench Pro：给模型一个真实的 GitHub 代码仓库和一个 bug 报告，让它自己找到问题并修复。这是目前最接近"真实软件工程"的评测。 LongCat-2.0 得 59.5 分，超过 Gemini 3.1 Pro（54.2）和 GPT-5.5（58.6）。 SWE-bench Multilingual：同上，但涉及多种编程语言。 LongCat-2.0 得 77.3 分，与 Gemini 3.1 Pro（76.9）接近。 FORTE：面向 15 类企业职业的办公 Agent 评测，模拟真实的职场任务，比如整理数据、撰写报告、处理邮件。LongCat-2.0 得 73.2 分，低于 GPT-5.5（77.8）和 Claude Opus 4.7（77.6）。 GPQA-diamond：由博士级专家设计的科学问题，涵盖物理、化学、生物等领域，专门测试模型的深度知识理解能力。 LongCat-2.0 得 88.9 分，低于 Gemini 3.1 Pro（94.3）和 GPT-5.5（93.6）。怎么理解这张表？ LongCat-2.0 的优势集中在代码和搜索：SWE-bench Pro 超过了 Gemini 3.1 Pro 和 GPT-5.5，RWSearch 超过了所有对比模型。这和它在长上下文处理和 Agent 能力上的投入是一致的。在基础科学推理（GPQA-diamond）和指令遵循（IFEval）上，与 Gemini 3.1 Pro 和 GPT-5.5 还有差距。这不是意外，而是取舍的结果：资源有限，优先把长上下文和 Agent 能力做到最好。还需要注意的是，标注 * 的数字来自各家公司自己的公开报告，评测条件未必完全一致，比较时需要保留一定的判断余地。 ## 这件事真正重要的地方读完所有技术细节，有一件事值得单独说清楚。 LongCat-2.0 在技术上的每一个选择，都是在国产芯片的硬件约束下做出的。显存小，所以要做更精细的并行和显存优化。软件生态不成熟，所以要自研大量算子和工具。带宽受限，所以要把计算和通信的重叠做到极致。这不是在已有成熟方案上做微调，而是在一个约束更多的环境里，重新设计了整套训练和推理的工程体系。 5 万片国产芯片、35 万亿 token、全程无回滚，这组数字的含义不只是"模型训练成功了"，而是"这套工程体系在生产环境里被验证可行了"。对于关注国产算力生态的从业者来说，这是一个值得认真对待的数据点。模型已开源，API 接入和在线体验均已开放，有条件的话直接上手测试，比看评测数字更直接。

译美团发布并开源LongCat-2.0，1.6万亿总参数、480亿激活参数（3%）的MoE大模型。使用35万亿token训练，在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力（LSA），包含流感知索引、跨层索引和层级化索引，解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数，在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

Rohan Paul@rohanpaul_ai · 1天前63

🇨🇳 Another good model from China. A 35B agent model claims 1T-model performance by thinking longer, not growing bigger. Apache-2.0 license, model weights are on Hugging Face. The technique is proposing a cheaper way to make strong AI agents: teach them longer verified work habits, not just make them bigger. The paper’s main idea is to make the agent practice long tasks where it searches, uses tools, reads results, fixes mistakes, and checks answers. The authors build training data from long action records, with an average length of 45K tokens, so the model learns the whole work process. They then train specialist teacher models for search, science, instruction following, tool use, and other areas, and transfer those skills into 1 student model. Agents-A1 does very well across long-task benchmarks, including search, science, coding, tool use, and instruction following.

译中国团队发布Agents-A1，一个35B参数的agent模型，通过让模型学习更长的验证工作习惯（平均训练样本45K tokens），声称达到1T参数模型的性能。模型采用Apache-2.0许可，权重已开源至Hugging Face。训练方法：构建长动作记录数据，训练多个专家教师模型（搜索、科学、指令跟随、工具使用等），再将技能蒸馏至一个学生模型。Agents-A1在搜索、科学、编码、工具使用、指令跟随等长任务基准上表现优异。

ginobefun@hongming731 · 1天前50

http://x.com/i/article/2072100123912687616 # BestBlogs 早报 · 07-01｜Sonnet 5 发布，谷歌补齐媒体模型，吴恩达画出智能体开发三循环在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲都围绕「让 agent 真正跑起来」这件事。 Anthropic 发布 Claude Sonnet 5，把此前只在 Opus 4.8 上才看得到的多步任务执行能力，下沉到更便宜的 Sonnet 档位，并给出 8 月底前的入门价。 Google DeepMind 同一天放出两款生成式媒体模型：Nano Banana 2 Lite 把文生图延迟压到约 4 秒、每千张图 0.034 美元，Gemini Omni Flash 则第一次面向开发者开放文本、图像、视频混合输入的视频生成与会话式编辑。吴恩达则在另一条线上给出方法论，他把智能体软件开发拆成三层循环，强调人类在上下文判断上仍有显著优势，人机协同不是可选项而是必选项。把这三条放在一起看，方向是一致的：底层模型在变便宜、媒体生成流水线更顺，与此同时「怎么用 agent 做事」的工程框架也更清晰。对做产品的人而言，这意味着可以挑自己最在意的那一段——成本、能力，还是组织方式——去细读，而不必每条都追。 ## ★ 精讲一：Claude Sonnet 5 发布对不太熟悉这条线的读者：Anthropic 的 Sonnet 系列一直是 agent 时代的「主力档」，从 Sonnet 3.5 开始，它在编程和工具调用上的表现就让很多开发者把它当作默认选择；但近几个月，最明显的 agent 能力跃升更多出现在更贵、更大的 Opus 系列上。Sonnet 5 要回答的问题是：这些能力能不能下放到一个更便宜的模型里。 Anthropic 的官方定位是「最具 agent 能力的 Sonnet」。它能规划任务、调用浏览器和终端工具，并自主执行多步流程；官方给出的对标是，整体性能已经接近 Opus 4.8，但价格更低，相比上一代 Sonnet 4.6 在推理、工具使用、编程和知识工作上都有显著提升。在 agent 搜索基准 BrowseComp 和计算机操作基准 OSWorld-Verified 上，Sonnet 5 相对 Sonnet 4.6 是「严格改进」，而 Opus 4.8 仍然是追求更高精度时的选择——也就是说，两者现在共同覆盖同一段性能区间，开发者可以通过调整 effort 等级在成本和精度之间找平衡。定价上，Sonnet 5 今天起对所有套餐开放：它是 Free 和 Pro 的默认模型，Max、Team、Enterprise 也可用，并已上线 Claude Code 和 Claude Platform。8 月 31 日前为入门价，每百万输入 token 2 美元、输出 10 美元，之后回到 3/15 美元；开发者可以通过 Claude API 用 claude-sonnet-5 调用。作为参照，Opus 4.8 的定价是输入 5 美元、输出 25 美元每百万 token——也就是说，在入门价窗口期，Sonnet 5 的输入单价大约只有 Opus 4.8 的 40%，这为那些原本因为成本不敢把 agent 放进主链路的团队，留出了一段可以认真试错的窗口。安全评估方面，Anthropic 称 Sonnet 5 在 agent 场景下的不当行为发生率整体低于 Sonnet 4.6，更难被恶意请求和 prompt injection 劫持，幻觉率和越狱抵抗也有改善；同时也指出它在网络安全任务上的能力明显低于当前的 Opus 模型，这是一种有意的克制。这件事的意义在于「价位的下沉」。过去一年，真正能端到端跑完一个多步任务的模型，往往落在 Opus 这一档，成本让很多团队只能小范围试用，或者在 demo 里惊艳一下，回到生产环境还是退回到更便宜但能力有限的方案。Sonnet 5 把这条线往下拉了一截，意味着更多产品可以把 agent 能力放进默认路径，而不是只在演示里跑。早期用户的反馈也指向同一个方向：它能完成一些过去会中途停下的任务。当然，「接近 Opus 4.8」并不等于「等于 Opus 4.8」——在追求最高精度的任务上 Opus 仍然是首选，而实际账单还要算上新令牌器带来的 token 量变化，这一点 Simon Willison 在补充阅读里有专门提醒。放在今天的三条里看，Sonnet 5 解决的是「大脑更便宜」，吴恩达讲的是「怎么组织这些大脑」，谷歌的两个媒体模型补的是「输出形态更丰富」——三条合起来，正好是一个 agent 产品从决策到执行到产出的完整链条。建议做 agent 实战、关注成本与能力平衡的开发者优先读官方发布，重点看 effort 等级和 BrowseComp / OSWorld 曲线，那决定了你的具体场景该选 Sonnet 5 还是继续用 Opus 4.8。详见 ## ★ 精讲二：开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建先交代背景：Nano Banana 是 Google DeepMind 的 Gemini 图像模型系列，已经迭代到第二代；这次发布同时带来了「Lite」版本和一个全新的视频模型 Omni Flash。两者面向的都是「要把生成式媒体塞进产品流水线」的团队，但侧重点不同——一个压成本，一个补能力。 Nano Banana 2 Lite（gemini-3.1-flash-lite-image）的定位是高吞吐、低延迟场景。官方给出的两个关键数字是：文生图延迟约 4 秒，每千张图 0.034 美元。它被推荐为旧版 Nano Banana（gemini-2.5-flash-image）的替代品，官方建议正在用旧版的开发者直接替换以获得速度和成本收益；在保持速度的同时，它仍然维持了提示词遵循、角色一致性和图内文字渲染的可靠性。今天起它在 Google AI Studio、Gemini API、Gemini Enterprise Agent Platform 可用，并陆续上线搜索的 AI Mode、Gemini app 等消费者产品。 Gemini Omni Flash 是另一个分量更重的更新：它第一次面向开发者开放。这是一个支持文本、图像、视频混合输入的视频生成与会话式编辑模型，定价为每秒视频输出 0.10 美元，与 Veo 3.1 Fast 持平，目前单次生成上限 10 秒。它强调的不是单次生成质量，而是「多轮迭代」——可以把多张参考图、一段已有视频和文字指令混在一起，做连续的会话式编辑。两个模型可以串联：用 Nano Banana 2 Lite 快速生成大量图，挑出满意的再交给 Omni Flash 做视频化，整个流程通过 Interactions API 可以保留最多三次连续编辑的会话上下文。为什么值得放在一起看：过去做多媒体生成的产品团队，往往卡在「要么快但贵，要么便宜但慢」的两难里，视频侧更是缺乏稳定的会话式编辑能力，常常只能靠多次重生成来逼近想要的效果，每一次迭代都重新计费。Nano Banana 2 Lite 把图像生成的单位成本压到一个可以放进批处理预算的区间，意味着生成「数量」本身不再是瓶颈；而 Omni Flash 把视频从「一次性产出」变成「可以来回改」的对象，意味着迭代成本被前置到了会话上下文里。合在一起，它们让「图—视频」的端到端流水线第一次具备了工程化的可能，而不只是停留在 demo 阶段。和今天另两条放在一起：如果说 Sonnet 5 让 agent 的「决策和执行」更便宜，吴恩达的三循环讲的是「怎么把这种执行组织成产品」，那么这两个媒体模型补的正是「agent 最后要产出的内容形态」——决策、组织、产出，三条合成一个完整的 agent 产品链路。对于做内容生成、营销自动化、产品 demo 流水线的工程和产品团队，建议重点看官方文档里 Nano Banana 家族的分工（Lite 求速度、Nano Banana 2 求均衡、Pro 求质量），以及 Omni Flash 的会话上下文上限（Interactions API 目前最多保留三次连续编辑）——这两点直接决定能不能接到你现有的工作流里，以及接入后能撑多大的并发量。需要说明的是，单次 10 秒的生成上限意味着它目前更适合短视频和素材片段场景，长视频仍需分段拼接。详见 ## ★ 精讲三：吴恩达：AI 智能体软件开发的三大核心循环这条不是新产品发布，而是一份方法论。吴恩达梳理了用 AI 智能体构建软件的框架，核心是三个层层嵌套的循环，对想理清「agent 时代工程师到底该做什么」的读者很有参考价值。第一个是智能体编程循环（agentic coding loop）：智能体自主编写、测试并迭代代码，它是三个循环里最内层、也最接近「自动写代码」这一层。第二个是开发者反馈循环（developer feedback loop）：人类不再逐行写代码，而是通过更高层的决策——定方向、定优先级、判断什么该保留——来引导智能体。第三个是外部反馈循环（external feedback loop）：通过用户测试和生产数据，反过来校正产品愿景本身是不是对。这套框架的关键判断在于：人类相对 AI 仍然保有显著的上下文优势。智能体可以在编程循环里跑得很快，但它对「为什么做这件事」「这个取舍对用户意味着什么」「这一版到底要不要上线」的理解，仍然要靠人来补。因此吴恩达强调人机协同必不可少——不是出于谨慎，而是因为上下文判断本身就是一种难以被模型直接习得的能力。他还指出一个值得工程师认真对待的趋势：编程智能体正在把工程师的角色向产品管理方向拓展——你写得少了，但你要判断得更多，要回答「什么值得做」「什么不值得保留」这类更高层的问题。为什么这条值得放进今天的精讲：当 Sonnet 5 让「能跑多步任务的模型」变便宜、谷歌让「产出形态」变丰富之后，下一个真正的问题不是「模型够不够强」，而是「团队怎么把这些能力组织成可持续的工程实践」。吴恩达的三循环给的就是这个层面的回答——它不解决具体的技术选型，不告诉你该用哪个模型或哪个框架，但它能帮你判断自己团队现在卡在哪一层循环里：是编程循环跑不顺，是开发者反馈没有结构化，还是外部反馈根本没回到产品上。三个循环里，往往只有最内层的编程循环被认真对待，而真正决定产品成败的，恰恰是外面两层被忽略的循环。建议正在引入编程智能体的团队负责人、以及开始感到「自己越来越像产品经理」的工程师认真读一读；它不能直接套用，但能作为一个对照框架，帮你检查自己日常工作里哪一层循环被忽略了。需要说明的是，这是一套经验性框架而非可复现的实验结论，具体到不同团队规模和业务类型时，三层循环的比重会有差异，还需结合自身情况调整。详见 ## 速览 AI+ Kuikly：7.5 小时落地三端「多模态聊天 App」实战 — 腾讯技术工程记录了一次真实实验：用开源跨端框架 Kuikly（基于 Kotlin Multiplatform，覆盖 Android、iOS、HarmonyOS、H5、小程序、Mac 六端）配合 AI 编程助手，仅凭 28 轮对话、740 字自然语言，生成约 3500 行代码，在 7.5 小时内零手写交付一套支持 Android、iOS、鸿蒙三端的多模态 AI 聊天 App，支持流式 Markdown、拍照识图、相册选取、SSE 长连接和本地会话管理。文章把这次实验和传统开发（约 30 人天）、纯 Kuikly 手写（约 7.5 人天）做了对照，强调 Skills 和 Rules 让 AI 始终处在正确的技术上下文里——Kuikly DSL 相对专有，通用大模型语料覆盖不足，靠 Skills 把框架知识喂给模型，是这种协同效率能够成立的基础，而不是「Vibe Coding」式的玄学叙事。对关注客户端 AI 协同效率的团队，是一份少见的「实弹日记」，附完整的一天时间线。详见谁在 ChatGPT 里买广告？｜对谈 Nexad COO Harry Zhou — 十字路口Crossing 访谈了率先吃 ChatGPT 广告螃蟹的 Nexad 联合创始人 Harry Zhou，覆盖中美几十家广告主半年的测试经验。一手数据值得看：广告卡片出现在免费用户和 Go 用户的回答下方，单独标注 sponsored；目前可投美、加、澳、新，日韩、巴西、墨西哥即将开放。CTR 大约在 1.5%–4%，CPC 多数 2–4 美元，CPM 从早期约 60 美元回落到 20 美元上下。浅层数据并不比 Google/Meta 漂亮，但 ChatGPT 来源用户的深层质量明显更高——一个 AI 视频产品的案例显示，ChatGPT 来源用户在连续生成、多次回访、点击 pricing、尝试导出无水印版本和购买额度等行为上的比例，大约能达到 Google/Meta 的两三倍。对话后半段还谈到 Context Hints 定向机制、Agentic Commerce，以及长程 Agent 退化等更前沿的问题，并整理成一份 31 页《ChatGPT 广告白皮书》。对做 AI 产品增长和市场投放的人，这份一手实践比任何二手分析都更实在。详见 Claude Science：面向科学家的 AI 工作台 — Anthropic 推出 Claude Science，定位为科学家的 AI 工作台。它把研究者常用的工具（PubMed、Jupyter、R、集群终端等）整合进单一环境，能原生展示蛋白质、分子结构，并在生成每一张图、每一段分析时附带可审计的代码与消息历史，便于验证和复现；agent 在一次会话里常驻上下文，大规模数据集只需加载一次。它可以跑在本地 macOS/Linux，也可以通过 SSH 或 HPC 登录节点跑在远端，使大型或敏感数据集不必离开实验室基础设施；早期用户案例显示研究流程有显著加速。这是 Anthropic 去年秋天启动生命科学方向以来最大的一次扩张，对做生命科学、计算研究的团队，这是一条值得关注的「研究流程加速」路径，而不是又一个通用聊天界面。详见 SkillOpt 将 AI 智能体技能转化为可训练资产 — 微软研究院提出 SkillOpt：把 agent 的「技能文件」（skill 文件）当作冻结模型之外的可训练参数，从而把「改 prompt」从一次性试错变成一个受控的优化过程。优化器模型提出小幅增删改编辑，候选项经过合并、去重、排序，再由一个文本学习率（每步编辑预算）裁剪，最后必须通过严格的验证门控才会被采纳。它在 6 个基准、7 个目标模型、3 种执行模式下，在全部 52 个评测单元里都是最佳或并列最佳，且无需更新模型权重；通过受限文本编辑、验证门控和被拒编辑反馈，避免不受控的 prompt 漂移，优化后的技能还能跨模型规模、agent harness 和相关任务迁移，说明它捕获的是可复用的工作流知识而非针对基准的指令。对关注 agent 可靠性和可复用性的工程师，这是一个把「调 prompt」工程化的具体方案。详见给野马套上缰绳：Agent Harness 工程实践 — 阿里云开发者系统阐述 Agent Harness Engineering（驾驭工程）范式，并辅以钉钉悟空 AI 招聘的真实落地案例。文章提出「Agent = Model + Harness」，强调瓶颈往往不在模型够不够聪明，而在有没有把它「装」好——每当你发现 Agent 犯了一个错，就花时间工程化一个解，让它将来不再犯同样的错。核心是四条反直觉铁律（上下文要少、Agent 要专、状态要落盘、约束要可执行）和六大工程模式，它们大多和工程师的本能相反，而这正是它们值钱的原因。案例侧实证了专才 Agent 架构在准确率、可调性与可复用性上显著优于一个试图包揽一切的全能 Agent。对正在被 Agent 折磨又离不开它的开发者，这篇文章给的是「把环境设计好」的具体抓手，而不是又一篇概念科普。详见 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆 — 美团 LongCat 团队开源 VitaBench 2.0，定位为首个面向「长期动态用户建模」的智能体评测基准，关注的不只是「单次任务能不能完成」，而是「智能体是否在持续理解一个动态变化的人」。它包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好和 66 个可执行工具，平均每位用户的交互时间跨度长达 1580 天（约 4.3 年），最长接近 2974 天，严格按时间线向 agent 暴露，用以评测模型在长期、真实、动态互动中的个性化与主动性；偏好会随时间和事件动态演变，平均每个用户发生超过 48 次变化。几个有意思的洞察：时间维度的遗忘、高智商不等于高情商、AI 普遍缺乏主动沟通。对做个性化 agent 和记忆策略的研究与工程团队，这是一个值得纳入评测循环的新基准。详见生成式 AI 机器人：何处上岗，如何站岗 — 哈佛商业评论基于过去 18 个月对欧洲、亚洲、北美 14 家机构的实地走访，系统分析生成式 AI 机器人在服务行业的应用价值、风险与部署步骤。文章以 Waymo（一支 2500 辆无人驾驶车队、累计完成超 2000 万次行程、能在 105 公里时速下并线避让违停货车）为切入，指出新一轮机器人的关键变化在于由大语言模型和大行为模型驱动，能在多轮对话中保持逻辑连贯、澄清模糊、解释复杂概念，不再局限于高度脚本化的狭窄任务——例如在全美 30 个儿科病房和养老院提供情感支持的机器人 Robin，能接受护士口头指令自主移动。文章同时也坦率讨论了持续存在的障碍：前期成本高（71% 公司列为挑战）、缺乏自动化经验（61%）、维护可靠性和客户接受度，许多试点仍停滞在「精密移动售货机」阶段。对考虑在餐饮、酒店、医疗、零售部署实体服务机器人的管理者，这是一份可操作的策略框架，而不是又一篇「机器人将改变一切」的宣言。详见 ## 补充阅读 - 万字长文推演 Claude 的代码统治力从何而来（腾讯云开发者）— 结合 Anthropic 公开论文与技术逻辑，推演 Claude 代码能力的来源：代码是构造自动化奖励信号最容易的场景，而 Claude 的产品形态恰好能收集到最精准的用户偏好反馈，两者结合形成 Constitutional AI 约束下的可验证奖励 RL，叠加产品端数据飞轮，共同构成一套自我加速的进化引擎。适合想理解「为什么是 Claude 在代码上领先」背后系统工程逻辑的读者，文中标注了「待验证」的推断部分。详见 - Claude Sonnet 5 发布：迄今最具智能体能力的 Sonnet 模型（Claude 官方）— Anthropic 官方账号的发布通告，可作为精讲一的官方视角补充，附有宣传视频。详见 - Claude Sonnet 5 的新功能（Simon Willison's Weblog）— Simon Willison 习惯直奔开发者文档，他注意到一个容易被营销文案盖过的细节：新令牌器让英文文本的实际 token 量上涨约 30%，这意味着名义价格之外还有一个隐性的成本变化。适合关心实际账单的开发者细读。详见 - 核心转储流行病学：修复一个存在 18 年的 Bug（OpenAI News）— OpenAI 工程师把 Rockset 数据基础设施（支撑 ChatGPT 数据插件和会话搜索）里的一组神秘崩溃当作流行病学问题来调试：一种崩溃在多个集群和地理区域零散出现，另一种却集中在一个区域，作者据此区分了两类完全不同的故障模式，最终定位到 GNU libunwind 中一个存在 18 年的竞态条件。适合喜欢底层调试、C++ 内存安全和基础设施故事的工程师，是一篇少见的「严肃排障」叙事，而不是又一篇产品发布。详见 - 从编码智能体驱动智能体质量飞轮（Google Developers Blog）— 介绍一项可在编码智能体里运行的技能，通过 AutoRaters、自定义评分标准和结构化五阶段循环，把「改 prompt」和「跑评估」连成一个可复现的质量飞轮，回答「我这次改动到底让产品变好还是变坏了」的问题。和吴恩达的三循环、SkillOpt 放在一起读，会形成一组关于「agent 质量工程」的互补视角。详见 ## 今日阅读路径如果你今天时间有限，建议按这个顺序读：先看 Claude Sonnet 5 发布，它直接决定了你接下来的 agent 成本结构，重点看 effort 等级和 BrowseComp / OSWorld 曲线；再看吴恩达：AI 智能体软件开发的三大核心循环，它帮你判断团队卡在哪一层循环，是从「能用」走向「可持续」的框架；最后看开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建，如果你手里有内容生成或多媒体流水线，它会改变你对单位成本和会话式编辑可行性的判断。三条读完，你对今天「agent 能力—组织方式—产出形态」这条主线就有了一个完整的认识。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic发布Claude Sonnet 5，定位最具agent能力的Sonnet，性能接近Opus 4.8，8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite（文生图延迟约4秒，每千张$0.034）和Gemini Omni Flash（多模态视频生成与会话式编辑，每秒$0.10，单次上限10秒）。吴恩达提出智能体开发三大核心循环：智能体编程循环、开发者反馈循环、外部反馈循环，强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。

Berryxia.AI@berryxia · 2天前23

90%的人和AI对话的方式一开始就是错的！以为提示词工程就是写一堆提示词让AI干活就行了！看完视频老师的讲解终于明白了～

译主推文指出90%的人与AI对话的方式一开始就错了，误以为提示词工程只是写一堆提示词让AI直接完成任务。引用推文进一步点明，通过观看视频讲解，终于理解了所谓的“循环工程”——一种可能替代或补充传统提示词工程的迭代式对话方法。推文强调深度互动与反馈循环的重要性，而非一次性指令输出。

Rohan Paul@rohanpaul_ai · 2天前55

Claude Sonnet 5 is more expensive (around +15%) per task than Opus 4.8 and much more expensive (2X) than Sonnet 4.6, even though its per-token price is lower than Opus. Because it uses more tokens to complete the same kind of benchmark task. i.e. Sonnet 5 works harder and talks/thinks more, so the final bill becomes bigger even though each token is cheaper. The promo pricing changes the story for now. Until August 31, 2026, Sonnet 5 is discounted to $2 per 1M input tokens and $10 per 1M output tokens, then it moves back to $3/$15 from September 1, 2026.

译Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29，比 Sonnet 4.6 高约 2 倍，比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus，但 Sonnet 5 为完成相同任务使用了更多 token，导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token；Anthropic 提供促销价 $2/$10，持续至 2026 年 8 月 31 日，之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。

Rohan Paul@rohanpaul_ai · 2天前36

NVIDIA's newly published report says its Blackwell inference stack cut DeepSeek V4 token costs by up to 5x in one month.

译NVIDIA最新发布的报告称，其Blackwell推理堆栈在一个月内将DeepSeek V4的token成本降低了高达5倍。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 2天前76

AI just solved not one, but ***9*** unsolved math problems. Once again, instead of this being a global news story, not one journalist on Earth thought this was worth mentioning.

译AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用“prover-verifier”LLM 循环的方法，成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成，并计划将这一方法扩展到所有科学领域。

Chubby♨️@kimmonismus · 2天前68

tl;dr: Sonnet 5 is cheaper per token, but more expensive per solved problem – and still lags behind Opus 4.8 in overall intelligence. Thats honestly disappointing and not a good release.

译Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得分 53，与 GPT-5.5 (xhigh) 和 Opus 4.8 (max) 差 2-3 分。标准定价（$3/$15 per 1M tokens）下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍，比 Opus 4.8 贵约 15%。推理和知识密集型基准落后 Opus 4.8（如 CritPt 物理推理仅 17%），但在 agentic 知识工作（AA-Briefcase 和 GDPval-AA）上匹配或超越 Opus 4.8。上下文窗口 100 万 token，Anthropic 提供至 9 月 1 日促销价 $2/$10。新增 xhigh effort 设置。整体表现令人失望，并非一次好的发布。

Rohan Paul@rohanpaul_ai · 2天前61

The Information reports that OpenAI has cut inference costs by more than half on some existing models, while logged-out ChatGPT traffic ran on only a couple hundred Nvidia GPUs. The obvious guesses include quantization, KV-cache changes, batching, speculative decoding, and routing easy queries cheaper. If true, it will be a huge core competitive lever, lower cost can raise margins, expand usage limits, or reduce pressure on API pricing. For some context, OpenAI’s adjusted gross margin fell to 33% in 2025 from 40% in 2024, after inference costs quadrupled. Some reporting now puts Q1-2026 at 39%, with a 52% target by year-end. Anthropic looks similar at roughly 44%, so frontier labs remain far below mature software economics. --- theinformation .com/newsletters/ai-agenda/openai-discovers-new-way-cut-inference-costs-half

译The Information 报道，OpenAI 已将某些现有模型的推理成本降低一半以上，未登录 ChatGPT 的流量仅运行在几百块 Nvidia GPU 上。可能技术手段包括量化、KV-cache 优化、批处理、投机解码和路由简单查询。若属实，这将成为核心竞争杠杆，可提升毛利率、扩大使用限制或降低 API 定价压力。背景方面，OpenAI 调整后毛利率从 2024 年的 40% 降至 2025 年的 33%，推理成本翻四倍。预计 2026 年 Q1 毛利率回升至 39%，年底目标 52%。Anthropic 毛利率约 44%，前沿实验室尚未达到成熟软件公司的经济水平。

Artificial Analysis@ArtificialAnlys · 2天前60

Claude Sonnet 5 achieves 53 on the Artificial Analysis Intelligence Index, but without promotional pricing will cost more per task than Opus 4.8 We supported @AnthropicAI to evaluate Claude Sonnet 5 ahead of release: with max effort it improves 6 points over Sonnet 4.6 to achieve the same Intelligence Index as GPT-5.5 with high reasoning, but remains behind Opus 4.7 and 4.8 Key takeaways: ➤ Claude Sonnet 5 is the #5 model on the Artificial Analysis Intelligence Index, only 2-3 points behind GPT-5.5 (xhigh) and Opus 4.8 (max) ➤ With max effort, Sonnet 5 works harder than previous Anthropic models: it used ~40% more output tokens per Intelligence Index task than Sonnet 4.6, and ~3x the agentic turns for our knowledge work evaluations AA-Briefcase and GDPval-AA. This behavior scales well with the ‘effort’ setting, with the max effort using around 6x more turns than low effort on GDPval-AA ➤ Claude Sonnet 5 costs more per task than Opus 4.8 before accounting for promotional pricing: Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than Claude Opus 4.8. This is driven entirely by increased token usage. Sonnet 5 retains the same $3/$15 per 1M input/output token pricing as Sonnet 4.6 (compared to $5/$25 for Opus 4.8), however Anthropic is offering a one-third reduction to $2/$10 until September 1. Our results use standard $3/$15 pricing ➤ Sonnet 5 matches or outperforms Opus 4.8 on agentic knowledge work tasks: on both AA-Briefcase and GDPval-AA, Claude Sonnet 5 sits just ahead of Opus 4.8, trailing only Claude Fable 5 (which is not currently generally available). These benchmarks test the ability of models to produce accurate and well-presented professional outputs using our open source reference agent harness, Stirrup ➤ For reasoning and knowledge-heavy tasks, Sonnet still sits behind its larger siblings: despite substantial gains across many evaluations, heavy reasoning and knowledge benchmarks still show Opus 4.8 ahead of Sonnet 5. On CritPt, a frontier physics reasoning benchmark developed by researchers at Argonne and UIUC, Sonnet 5 scores 17% - this is 14 points higher than its predecessor, but behind GLM-5.2, Claude Opus and Fable, and GPT-5.5 (xhigh and Pro) ➤ Sonnet 5 also showed significant improvements over Sonnet 4.6 on Terminal-Bench v2.1 (+9 points), Humanity’s Last Exam (+10 points), and SciCode (+7 points), with relatively flat scores elsewhere Other key model details: ➤ Context window of 1 million tokens (equivalent to Sonnet 4.6) ➤ Pricing of $3/$15 per 1M tokens of input/output (reduced to $2/$10 until September 1); cache pricing remains at a 25% premium for cache writes ($3.75 per million tokens) with 5-minute time to live, and 90% discount for cache hits ($0.3 per million tokens) ➤ Effort remains the recommended way of configuring model performance and latency. Sonnet 5 adds an additional ‘xhigh’ effort setting relative to Sonnet 4.6, matching the 5 effort levels available on Opus 4.8 (max, xhigh, high, medium, low)

译Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53（第 5 名），比 Sonnet 4.6 提高 6 分，与 GPT-5.5 (xhigh) 持平，落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29，比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%，主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token（促销至 9 月 1 日降至 $2/$10），上下文窗口 1M tokens，新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8，推理基准仍落后。Terminal-Bench v2.1（+9）、HLE（+10）、SciCode（+7）显著提升。

Chubby♨️@kimmonismus · 2天前56

OpenAI achieved a much more significant breakthrough today. Sonnet 5 is an average release. But the fact that OpenAI, according to The Information, has managed to more than halve the inference costs of its current models through a new approach to inference optimization is absolutely groundbreaking. And when you also consider that they recently introduced their own inference chip with Broadcom, which is said to be faster and more efficient than the competition, I increasingly see OpenAI in an outstanding position. Today, at least, OpenAI emerges as the winner of the day.

译作者认为 OpenAI 今天取得更重大突破：通过新推理优化方法将推理成本降低一半以上，并与 Broadcom 合作推出更快更高效的推理芯片，使 OpenAI 处于突出位置。相比之下，Sonnet 5 只是一次普通发布。引用推文进一步指出，Sonnet 5 优于 Sonnet 4.6 但弱于 Opus 4.8，定价不变，版本号从 4 跳到 5 不合理，可能只是为维持话题的中间发布，整体令人失望。

SemiAnalysis@SemiAnalysis_ · 2天前37

etched cluster-scale memory has so many SerDes

译Etched 发布 Cluster-Scale Memory（CSM），面向低延迟工作负载。现有 AI 芯片使用 HBM 无法达到 SRAM 级解码速度，纯 SRAM 芯片则 FLOPs 密度和容量不足。CSM 在整个扩展域内创建共享低延迟内存池，采用专有超低延迟高带宽互连，以 HBM/SRAM 混合设计同时解决内存容量与芯片间延迟问题，避免了纯 SRAM、3D DRAM 或光学方案在成本、可靠性、良率、散热和算力上的取舍。

Rohan Paul@rohanpaul_ai · 2天前74

And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much cheaper, with $2 input tokens and $10 output tokens per 1M through Aug-26. Price rises after 08-26 to $3 input and $15 output per 1M. They call Sonnet 5 its “most agentic Sonnet model yet,” Its coding score hit 63.2% on SWE-bench Pro, versus 58.1% for Sonnet 4.6. Sonnet 5 gets 63.2% in agentic coding, while Opus 4.8 reaches 69.2% and Sonnet 4.6 hits 58.1%. But in knowledge work, Sonnet 5 slightly beats Opus 4.8, even though Opus is known for tough judgment and deep research tasks.

译Anthropic 发布 Claude Sonnet 5，拥有 1M token 上下文窗口（此前泄露），编码能力显著提升：SWE-bench Pro 得分 63.2%，高于 Sonnet 4.6 的 58.1%；知识工作略超 Opus 4.8。Anthropic 称其为“最具智能体特性的 Sonnet 模型”。定价优惠至 8 月 26 日：输入 $2/1M tokens，输出 $10/1M tokens；之后涨至 $3/15。当前智能体编码得分 63.2%，与 Opus 4.8（69.2%）仍有差距，但低价策略大幅降低 agentic AI 成本。

SemiAnalysis@SemiAnalysis_ · 2天前57

TokenBudgeting: Our Conversations with Enterprises on Token Spend Was Widespread TokenMaxxing Ever Really Here? https://newsletter.semianalysis.com/p/tokenbudgeting-our-conversations

译TokenBudgeting: 我们与企业关于Token支出的对话 TokenMaxxing真的曾广泛存在吗？ https://newsletter.semianalysis.com/p/tokenbudgeting-our-conversations

Artificial Analysis@ArtificialAnlys · 2天前53

GLM-5.2 is the most intelligent open weights model available, but also the most verbose among the leading models GLM-5.2 (max) used ~141M output tokens (95% reasoning) to run the Artificial Analysis Intelligence Index (1.8x the average model). Key takeaways: ➤ GLM-5.2 generates more tokens (141M) to run the Artificial Analysis Intelligence Index than Claude Opus 4.8 (117M) and nearly double GPT-5.5 (72M), while scoring below both (51 vs 56 and 55) ➤ Almost two-thirds of that goes to a single benchmark, Humanity's Last Exam: ~88M tokens, 3.2x GPT-5.5's, and it still scores lowest of the three (40% vs Opus 46% and GPT-5.5 44%) ➤ The verbosity is not focused on recalling facts. On AA-Omniscience, which measures hallucination rates, GLM-5.2 thinks less than GPT-5.5 yet scores just 4, far below Opus 4.8 (27), GPT-5.5 (20), and Gemini 3.5 Flash (23) ➤ Additional thinking pays off most on agentic real-world work: on GDPval-AA v2 GLM-5.2 is the top open weights model and #3 overall, beating GPT-5.5 ➤ Several open models generate even more output, but all score lower on intelligence; the strongest of them, DeepSeek V4 Pro, trails GLM-5.2 by 7 points (44 vs 51)

译GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型，但输出 token 达 1.41 亿（95% 推理），远超平均模型的 1.8 倍。相比之下，Claude Opus 4.8 输出 1.17 亿 token 得分 56，GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token（8800 万）集中在 Humanity's Last Exam，是 GPT-5.5 的 3.2 倍，得分仅 40%（Opus 46%，GPT-5.5 44%）。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分，远低于 Opus 4.8（27）、GPT-5.5（20）和 Gemini 3.5 Flash（23）。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三，超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44，落后 7 分。

Chubby♨️@kimmonismus · 2天前80

Here we go: Sonnet 5 is live: The tl;dr • Anthropic calls it the most agentic Sonnet yet • Near Opus 4.8-level performance, but cheaper • Strong gains in reasoning, tool use, coding, and knowledge work • Default model for Free and Pro users • Available in Claude Code and API today • Intro pricing: $2/M input, $10/M output until Aug 31 • Standard pricing: $3/M input, $15/M output • Safer than Sonnet 4.6 overall, with lower hallucination and sycophancy rates • Cyber safeguards are enabled by default, but Anthropic says Opus still remains stronger for serious cyber work

译Anthropic 发布 Sonnet 5，称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8，在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型，已在 Claude Code 和 API 上线。推出促销价：输入 $2/M token、输出 $10/M（截至 8 月 31 日），标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全，幻觉率和奉承率更低，网络保护默认开启，但 Anthropic 表示 Opus 在严肃网络任务上仍更强。

gabriel@gabriel1 · 2天前59

inference will be the biggest market in the world, intelligence is in infinite demand etched is bringing the AI Summer

译推理将成为全球最大的市场，智能的需求无限 Etched正在带来AI夏季

Chubby♨️@kimmonismus · 2天前59

OpenAI reportedly found new inference optimizations that more than halved the cost of running its models! According to The Information, engineers told colleagues this month that the techniques helped power ChatGPT for visitors without free or paid accounts using only a couple hundred Nvidia GPUs at one point. The exact method is unclear. It could involve quantization, KV caching, batching, routing simpler queries to cheaper models, or some mix of all of those. The business angle is bigger than the technical detail: OpenAI ended Q1 with a 39% gross margin and wants to reach 52% by year-end. Lower inference costs give it room to either improve margins, raise ChatGPT usage limits, or cut API pricing pressure on developers. OpenAI's moat is increasingly becoming inference and cost advantage, especially against Anthropic.

译OpenAI 据报告发现新的推理优化技术，将模型运行成本降低超过一半。据 The Information，工程师本月初称，这些技术曾仅用数百块 Nvidia GPU 就支撑了免费用户的 ChatGPT 访问。具体方法不明，可能涉及量化、KV 缓存、批处理、路由简单查询至更便宜模型等组合。商业层面：OpenAI 一季度毛利率 39%，目标年底达到 52%。更低推理成本可改善利润率、提升 ChatGPT 使用限制或缓解 API 定价压力。OpenAI 的护城河正转向推理和成本优势，尤其相对于 Anthropic。

Nathan Lambert@natolambert · 2天前74

When we were in China, @xeophon and I made a quick detour to visit Meituan. They continue to be one of our favorite open model builders, as they're showing how a variety of companies can succeed here and baffle a lot of people as to why they're making models. Meituan is one of the larger tech companies in China. They're building LLMs to add services to their own products. In China the notion of the "super app" is very popular, so this dream of more services for users with AI is very natural there. With this, Meituan wants to own the full stack of how they deliver value to their users. When we visited, they were very unassuming about everything. We just met a few people from the LLM team, a quick meeting about building models. They build general foundational reasoning models, and then fine-tune it further for their products. They can release the general model to support the ecosystem and learn how it can be used. Their focus was very clearly on ownership, and a hint of cost-saving, so the recent news of v2 being trained on asics fits with that mentality. They want to deliver real products to users with low cost. Companies like this will keep building models in China. It's a small micro study of how different the players in the AI ecosystem are. Kimi, Z ai, etc are all much flashier offices, come across as the "hot new thing" but Meituan has the talent and resources to build models as well. Congrats to the Meituan team & thx for having us!

译美团发布基座推理模型LongCat-2.0（v2），采用MoE架构，总参1.6T，活跃约48B，支持1M上下文。专为智能体编程设计，引入LongCat Sparse Attention、Zero-Compute Experts及MOPD任务路由。基准测试中SWE-bench Pro达59.5（超GPT-5.5的58.6），多项Agent评测领先。模型已在OpenRouter上线，技术博客公开。美团强调全栈自研与低成本，v2基于ASIC训练。