The latest crop of models remains below 1% on ARC-AGI-3 -- for now. Where will the scores be by the end of the year?

译最新一批模型在ARC-AGI-3上的得分目前仍低于1%。到今年年底，得分会达到多少呢？

Grok #1 in law

译Grok在法律领域排名第一 [引用 @ArthurMacwaters]：Grok 4.3发布 > 判例法领域第一 > 公司金融领域第一 > 考虑到每百万tokens成本显著更低（比opus 4.7和openai 5.5低5-10倍），表现令人印象深刻看到在高度注重细节的应用领域性能大幅提升，非常令人兴奋

elvis@omarsar0 · 5月2日29

You don't have to choose between either. It's best to use a combination of them. My advice is to learn how to use a few of these models in different harnesses. Learn to combine their strengths. Open-weight models are just as good these days. Give yourself the flexibility.

译你不必在两者之间做选择。最好结合使用它们。我的建议是学习如何在不同的场景中使用其中几种模型。学会结合它们的优势。如今开源模型同样出色。给自己灵活运用的空间。

François Chollet@fchollet · 5月2日70

RL is a bit of a double edged sword: in known territory performance increases, but in unknown territory the model tends to hallucinate that it is performing a completely different task it was trained on

译强化学习在已知领域能提升模型性能，但在未知领域可能导致模型产生幻觉，误以为在执行其他训练过的任务。这一现象在GPT-5.5等大模型的ARC AGI 3基准测试中有所体现，其得分仅为0.43%，与Claude 4.6、Gemini 3.1等模型表现相近。分析指出GPT-5.5的主要失败原因包括：局部效应正确但世界模型错误、从训练数据中提取的抽象层级不当，以及虽解决问题却未强化奖励机制。深入分析此类失败案例，有助于全面理解大模型在特定模态上的能力局限与改进方向。

elvis@omarsar0 · 5月2日57

// Recursive Multi-Agent Systems // Great read for the weekend. (bookmark it) Multi-agent systems often pass full text messages between agents at every step. This leads to token bloat, latency, and context dilution which all grow with the number of agents. RecursiveMAS asks a different question: what if agents collaborated through recursive computation in a shared latent space, instead of through text? A multi-agent system can be treated as a recursive computation, where each agent acts like an RLM layer, iteratively passing latent representations to the next and forming a looped interaction process. They introduce a RecursiveLink module that generates latent thoughts and transfers state directly between heterogeneous agents, plus an inner-outer loop learning algorithm with shared gradient-based credit assignment across the team. Think of it as agents passing notes in their own internal language instead of rewriting everything in English each turn. Less talking, more thinking. The numbers are strong. Across 9 benchmarks spanning math, science, medicine, search, and code generation: 8.3% average accuracy gain over baselines, 1.2×–2.4× end-to-end inference speedup, and 34.6%–75.6% reduction in token usage. Why does it matter? If agent-to-agent communication is the next real bottleneck (and it is), latent-space recursion is one of the cleaner ways to scale collaboration without paying a token tax for every coordination step. Paper: https://arxiv.org/abs/2604.25917 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译传统多智能体系统依赖文本消息传递，导致令牌膨胀、延迟和上下文稀释。RecursiveMAS提出新范式：将多智能体系统视为递归计算，智能体在共享潜在空间中通过递归传递潜在表征进行协作，而非传递完整文本。其核心是RecursiveLink模块，能在异构智能体间直接生成和传递潜在状态，并采用内外环学习与基于梯度的团队信用分配机制。这如同智能体用内部语言传递笔记，实现“少交谈，多思考”。在数学、科学、医学等9个基准测试中，该方法平均准确率提升8.3%，推理速度加快1.2-2.4倍，令牌使用减少34.6%-75.6%，为突破智能体间通信瓶颈提供了高效可扩展的路径。

Orange AI@oran_ge · 5月1日39

读完本书最大的收获：人类进步的唯一引擎是创造"好的解释"。什么是好的解释？难以随意改变的那种。你没法换个说法让它也成立，每一个细节都必须在那里。知识怎么来的？不是归纳积累，是猜想与反驳。大胆猜，拼命证伪，扛住了就暂时是对的。错误是燃料，不是耻辱。这个 loop 没有终点。所以乐观主义是物理定律级别的推论：所有问题的本质都是知识不够。只要还在创造知识，就没有解决不了的问题。还有几个让我印象深刻的点： AI 具备真正的创造力只是时间问题。花的美是客观存在的。 "可持续发展"反而是陷阱，真正的可持续是持续创新。我们以为人类快到极限了。这本书说：不，我们还在起点。

译该书核心观点认为，人类进步的唯一引擎是创造“难以随意改变”的“好的解释”。知识并非来自归纳积累，而是通过“猜想与反驳”的循环产生，错误是进步的燃料而非耻辱。由此推导出物理定律级别的乐观主义：所有问题本质是知识不足，只要持续创造知识，问题终可解决。书中还指出，AI具备真正创造力是时间问题，并批判“可持续发展”是陷阱，强调“持续创新”才是真正的可持续。最终结论是，人类远未到达极限，仍处于进步的起点。

Orange AI@oran_ge · 5月1日55

http://x.com/i/article/2050167748169461761 # 《无穷的开始》：人类最伟大的Loop，世界进步的本源《无穷的开始：世界进步的本源》这本书里提到了两个认知，在这个世界上： 1）问题是一定存在的； 2）问题是可以被解决的。这是一个很可怕又威力无穷的观点。人一旦相信，内心所认同的方向是可以找到答案的，就会义无反顾地一头扎进去，寻找答案。迷茫的时候，就去定义问题，找到了问题，就去求解。朋友 Barret李靖在即刻上用上面的话，推荐了这本书，我看完之后大受震撼，对整个人类世界的世界观都发生了改变。以下是《无穷的开始》的读书笔记，原书作者戴维·多伊奇（David Deutsch） ## 创造力是解决问题的引擎多伊奇说了一件听起来很简单但细想很反直觉的事：人类文明进步的核心动力，不是资源，不是制度，不是运气，是创造力。创造力做的事情只有一件：产生好的解释。什么是好的解释？多伊奇给了一个极简标准：难以随意改变（hard to vary）。如果一个解释可以轻松换个说法来适配不同的情况，那它就不是好解释。好的解释是紧绷的，每一个细节都在那里是因为它必须在那里。举个例子。古人解释四季更替："神生气了所以冬天来了。"这是一个坏解释，因为你可以把"神生气"替换成任何东西——"神睡着了""神去旅行了"——都能说通。但"地球公转导致太阳直射角变化"是一个好解释，你没办法随意修改其中任何一个环节。好的解释一旦出现，就能解决问题。而解决了一个问题必然会引出新的问题。所以创造力是一台永动机——只要你在持续创造好的解释，进步就不会停。 ## 知识通过猜想与反驳产生这是多伊奇从卡尔·波普尔那里继承来的核心观点，他把它推到了极限。大部分人以为知识是这样积累的：观察足够多的现象，归纳出规律。太阳每天升起，所以太阳明天也会升起。这叫归纳法。多伊奇说这是错的。归纳法无法产生新知识。你观察了一万只白天鹅，也推不出"所有天鹅是白的"。更关键的是，你观察的范围永远是有限的，但好的解释需要覆盖无限的可能性。那知识怎么来的？猜。先大胆猜测一个解释，然后拼命试图证伪它。如果它扛住了所有试图击倒它的攻击，它就暂时是一个好解释。直到有一天被更好的解释取代。这意味着什么？意味着错误是进步的燃料。没有错误就没有反驳，没有反驳就没有新知识。那些害怕犯错的文化、组织、个人，本质上是在切断自己的进步通道。 ## AI 也可以具备真正的创造力多伊奇写这本书的时候是 2011 年，那时候深度学习还没有爆发。但他已经明确说了：没有任何物理定律阻止机器具备创造力。他的论证很干脆。创造力的本质是什么？是产生好的解释。这个过程是：猜测（产生新假设）→ 批判（试图证伪）→ 保留扛住攻击的。这个过程没有任何神秘的成分。它不依赖"灵魂"或"意识"。它依赖的是：能产生新猜测的机制，和能评估猜测好坏的机制。如果一台机器能做到这两件事，它就具备创造力。这跟今天大模型做的事情有微妙的区别。大模型目前更像是一个超级强的"模式匹配器"，它在已有数据的河床里流动。但如果给它一个机制，让它能产生真正新的猜测——以前从没在数据里出现过的——然后自己评估这些猜测的质量，那它就跨过了那条线。多伊奇会说：这只是时间问题。 ## 乐观主义和批判性思维这是橘子说不太理解的地方。乐观主义跟批判性思维有什么关系？多伊奇的逻辑链是这样的：第一步：所有问题的根源是知识不足。自然灾害之所以致命，是因为我们还不够了解它。疾病之所以杀人，是因为我们还没找到治疗方法。第二步：知识可以无限增长。因为猜想与反驳这个过程没有终点。第三步：因此，所有不违反物理定律的问题，原则上都可以被解决。这就是乐观主义。但注意，这个乐观主义有一个前提：你必须持续产生新知识。而产生新知识的唯一方式是批判性思维——不断反驳现有的解释，不断寻找更好的。所以批判性思维是乐观主义的引擎。你停止批判的那一刻，知识停止增长，问题开始堆积，乐观主义的基础就塌了。反过来说：悲观主义的底层逻辑是什么？是"有些问题无法解决"。多伊奇说这等于在说"有些知识永远不可能被创造"。而这句话本身就无法被证明——你怎么证明一个东西永远不会被发现？所以悲观主义在逻辑上就是站不住的。 ## 自由意志如何在物理规律框架下存在这一章叽觉得是全书最精彩的之一。物理世界是决定论的（至少在经典力学层面）。如果所有粒子的运动都被物理定律决定了，那人类的"选择"从何而来？多伊奇的回答：自由意志存在于一个更高的抽象层级。打个比方。一台计算机的所有电子运动都被物理定律严格决定。但这不妨碍你说"这台计算机正在运行一个程序"。程序是一个更高层级的解释，它有自己的因果关系——"因为输入了 X，所以输出了 Y"。这个因果关系是真实的，即使底层每一个电子的运动也是被物理决定的。同理，人类的决策是一个更高层级的现象。"我选择做这件事因为我爱它"——这是一个有效的解释，有真实的因果力量，即使你的每一个神经元的发射都被物理定律决定了。自由意志不需要违反物理定律。它只需要在一个足够高的抽象层级上，作为一个好的解释存在。这跟海德格尔的"决断"有一个微妙的呼应。海德格尔也不是说决断违反了因果律。他说的是：当你"看见"了自己的处境，并且说出"我要这个"的时候，一个新的因果链开始了。这个因果链在物理层面可能是被决定的，但在意义层面，它是新的。 ## 花儿为什么美丽这一章问了一个很奇怪的问题：花的美是客观的还是主观的？多伊奇的答案让人意外：花的美是客观的。他的论证是：花为什么进化出美丽的形状和颜色？为了吸引传粉者。传粉者——蜜蜂、蝴蝶——有自己的审美偏好（他们更容易被某些形状和颜色吸引）。花在几百万年的自然选择中，逼近了一种"吸引力的最优解"。人类也觉得花美。为什么？因为人类的视觉系统和昆虫的视觉系统在某些层面上有相同的结构性偏好——对称、比例、色彩对比。这些偏好有物理和数学基础。所以美不是"每个人觉得什么好看"那么简单。存在某种客观的数学结构，能够被不同的认知系统（人类、昆虫、甚至 AI）识别为"美"。这意味着审美判断是可以进步的。就像科学理论可以变得更好，审美判断也可以——通过猜想与反驳，通过创造与批判。 ## 文化的进化多伊奇把文化分成两类：静态文化：崇尚传统，禁止改变。核心机制是模仿——前人怎么做，我就怎么做。任何偏离都被视为威胁。大部分人类文明在大部分时间里都是这种状态。动态文化：鼓励批判，允许改变。核心机制是创造——前人的做法只是起点，不是终点。启蒙运动之后的西方文明是第一个真正持续动态的文化。静态文化不是"落后"。它非常成功——它能延续几千年。它的成功之处在于：非常有效地复制自身，压制任何变异。但它的代价是无法解决新问题。当环境变化超出了传统能应对的范围，静态文化就崩溃了。动态文化很脆弱。它随时可能退回静态。因为维持批判性思维很累，维持创新很不舒服。最小阻力之路总是通向"别折腾了按老规矩来"。多伊奇最担心的事情：人类唯一的动态文化窗口，有可能被关上。如果我们停止了批判，停止了创造好的解释，我们就会回到静态。而一旦回去，可能再也出不来了。 ## 为什么"可持续发展"不对这是全书最反直觉的一章。 "可持续发展"的逻辑是：地球资源有限，所以我们要节制消耗，维持平衡。多伊奇说这个逻辑有一个隐含假设：问题是不可解决的。"资源有限"假设我们永远只能用现有方式使用资源。"维持平衡"假设现在的状态是值得维持的。但历史一再证明：旧资源被新技术替代。煤替代了木材，石油替代了煤，核能和太阳能正在替代石油。每一次"资源枯竭"的预言都没有成真，因为人类在枯竭之前就创造了新的解决方案。多伊奇说，真正的"可持续"不是维持现状，是持续创新。你维持现状的每一天，都是在积累未解决的问题。问题堆积到一定程度，系统就崩了。唯一能让文明永续的是：不断创造新知识，不断解决新问题。这才是真正的"可持续"。这跟 Fritz 说的话惊人地一致：解决问题的思维是陷阱，创造的思维才是出路。多伊奇是从物理学和认识论出发，Fritz 是从个人心理结构出发，到了同一个地方。 ## 我们才刚刚开始这是全书最后一章的标题。也是书名的含义。大多数人以为人类文明已经走了很远。多伊奇说：我们还在起点。他的意思是：相比于物理定律允许我们做到的事情，我们目前做到的连零头都不算。我们还没有理解大脑的工作原理。我们还没有造出真正的通用人工智能。我们还没有殖民其他星球。我们还没有解决衰老和死亡。这些全部在物理定律允许的范围内。我们不知道未来会是什么样。但我们知道一件事：只要保持创造，只要保持批判，只要不停止猜想与反驳，进步就不会停。无穷的开始。不是终点。是起点。我们刚上路。

译戴维·多伊奇在《无穷的开始》中指出，人类文明进步的核心动力是创造力，即产生“难以随意改变”的好解释。知识通过“猜想与反驳”产生，错误是进步的燃料。他将文化分为压制变革的静态文化与鼓励批判的动态文化，并批判“可持续发展”观念，认为真正的可持续在于持续创新以解决新问题。只要保持创造与批判，在物理定律允许的范围内，进步将永无止境。

Chubby♨️@kimmonismus · 5月1日55

I think many people still don't grasp what this means. Chris Miller analyzed in his book "Chip War" that China is about 10 years behind in lithography machine production. Meanwhile, Huawei chips are achieving roughly 80% of the performance of the NVIDIA H100. China is probably more like 2 years behind the US, and the gap is narrowing. I will be writing a detailed analysis on this soon because it's far more significant than the models themselves.

译作者认为中国芯片技术进展被低估。Chris Miller在《Chip War》中指出中国光刻机生产落后约10年，但华为芯片性能已达NVIDIA H100的约80%，整体差距可能仅2年且持续缩小。引用推文显示，华为AI芯片销售激增，而Nvidia在中国市场停滞，印证了这一趋势。作者强调此进展比AI模型本身更重大，并将进行详细分析。

TestingCatalog News 🗞@testingcatalog · 5月1日55

Grok 4.3 got to the 7th spot on the Artificial Analysis Index, surpassing Muse Spark from Meta.

译Grok 4.3 在 Artificial Analysis Index 中升至第 7 位，超越了 Meta 的 Muse Spark。

Chubby♨️@kimmonismus · 5月1日57

Grok 4.3 is a very good model especially when you think its only 500m parameters! xAI's Grok 4.3 scores 53 on the Artificial Analysis Intelligence Index with ~40% lower input and ~60% lower output pricing vs Grok 4.20, making it one of the most cost-efficient models at its intelligence tier. Biggest gain: a 321-point Elo jump on real-world agentic tasks (GDPval-AA), though it still trails GPT-5.5 by a wide margin.

译xAI发布的Grok 4.3模型在Artificial Analysis Intelligence Index上获得53分，相比Grok 4.20输入成本降低约40%，输出成本降低约60%，性价比突出。其最大亮点是在真实世界代理任务（GDPval-AA）上的ELO评分跃升321点至1500，超越了Gemini 3.1 Pro Preview和Muse Spark等模型，但仍大幅落后于GPT-5.5。该模型在指令遵循和客服任务上表现强劲，同时在Omniscience基准上准确率提升但幻觉率增加。总体而言，Grok 4.3以更低成本实现了更高的智能指数得分，成为同智能层级中成本效益较高的模型之一。

Artificial Analysis@ArtificialAnlys · 5月1日57

All three leading open weights models were released last week. Progress continues for open weights models alongside proprietary ones, with the gap to GPT-5.5, the leading proprietary model, sitting at 6 points on the Artificial Analysis Intelligence Index @Kimi_Moonshot’s Kimi K2.6 (Reasoning) and @Xiaomi's MiMo V2.5 Pro (Reasoning) tie as the leading open weights models on the Artificial Analysis Intelligence Index at 54, with @deepseek_ai's DeepSeek V4 Pro (Reasoning, Max Effort) at 52. This places the best open weights models within 3-6 points of the leading proprietary models: @OpenAI's GPT-5.5 (xhigh) at 60, and @Google's Gemini 3.1 Pro Preview and @AnthropicAI's Claude Opus 4.7 (Adaptive Reasoning, Max Effort) at 57. For context: just one year ago the highest-scoring open weights model was DeepSeek V3 0324 which achieved 22 on the Intelligence Index, and was ~13 points below the highest-scoring proprietary model, Claude 3.7 Sonnet (Reasoning) at 35. Key takeaways: ➤ The top three most intelligent open weights models are trillion-plus-parameter MoE architectures with permissive licenses. Kimi K2.6 (Reasoning) has 1T total / 32B active parameters with 256K context window, MiMo V2.5 Pro (Reasoning) has 1T total / 42B active with 1M context window, and DeepSeek V4 Pro (Reasoning, Max Effort) has 1.6T total / 49B active with 1M context window. ➤ The gap to proprietary remains wide on the hardest reasoning and agentic coding evaluations. On HLE (Humanity's Last Exam) the three top open weights models score 34-36%, vs 44% for GPT-5.5 (xhigh) and 45% for Gemini 3.1 Pro Preview. On CritPt (Research-level Physics) they score 4-12%, vs 27% for GPT-5.5 (xhigh). On TerminalBench Hard (Agentic Coding & Terminal Use) they score 43-46%, vs 61% for GPT-5.5 (xhigh) and 54% for Gemini 3.1 Pro Preview. ➤ Omniscience (knowledge + hallucination) shows a large gap to proprietary models, with DeepSeek V4 Pro (Reasoning, Max Effort) hallucinating significantly more than its open weights peers. DeepSeek V4 Pro (Reasoning, Max Effort) scores -10, MiMo V2.5 Pro (Reasoning) +4, and Kimi K2.6 (Reasoning) +6. By comparison, GPT-5.5 (xhigh) scores +20, Claude Opus 4.7 (Adaptive Reasoning, Max Effort) +26, and Gemini 3.1 Pro Preview +33.

译上周，Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布，在Artificial Analysis Intelligence Index上得分达52-54分，与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内，相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而，在复杂推理、智能体编码及知识准确性方面，开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后；在Omniscience评估中，DeepSeek V4 Pro的幻觉问题尤为突出。

Alibaba Cloud@alibaba_cloud · 5月1日58

📢 Official Announcement: Qwen Partners with Fireworks AI to Accelerate Access to Qwen Family Models We are pleased to announce a strategic partnership between Qwen and Fireworks AI to deliver optimized, production-ready deployment of Qwen's closed weights models via the Fireworks Platform. This collaboration empowers developers and enterprises to: ✅ Deploy Qwen models with lower latency and reduced fine tuning and inference costs ✅ Leverage enterprise-grade reliability, security, and scalability ✅ Integrate seamlessly into modern AI workflows 🔹 Get started with Qwen on Fireworks: https://app.fireworks.ai/models/fireworks/qwen3p6-plus #Qwen #FireworksAI #OpenSourceAI #LLM #AIInfrastructure #ResponsibleAI #DeveloperCommunity

译Qwen宣布与Fireworks AI建立战略合作伙伴关系，旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪型部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型，同时利用企业级的可靠性、安全性和可扩展性，并将其无缝集成到现代AI工作流程中。

小互@xiaohu · 5月1日65

好的兄弟哈哈哈哈

译一位开发了DeepSeek-TUI终端工具的美国开发者，希望与国内开发者社群建立联系，共同探讨DeepSeek、开源及智能体开发。他因无法自行解决网络问题以使用微信，特请求社区帮助：一是转发推广其开源项目，二是协助验证微信号以便建群交流。作为回报，他承诺工具将通过cargo install方式安装。

Emad@EMostaque · 5月1日36

It seems @OpenAI has cracked recursive self-improvement for Codex

译似乎 @OpenAI 已经破解了 Codex 的递归自我改进

SemiAnalysis@SemiAnalysis_ · 5月1日58

AI Value Capture - The Shift To Model Labs Vera Rubin VR NVL72: V for Value - Rubin delivers a step jump in performance per TCO. ROI accruing to users, Neoclouds, Hyperscalers, AI Labs, Memory Vendors or GPU Manufacturers? READ NOW: https://newsletter.semianalysis.com/p/ai-value-capture-the-shift-to-model

译AI价值捕获——向模型实验室的转变 Vera Rubin VR NVL72：V代表价值—— Rubin在每单位总拥有成本性能上实现了阶跃式提升。投资回报将累积给用户、Neoclouds、超大规模云商、 AI实验室、内存供应商还是GPU制造商？立即阅读：https://newsletter.semianalysis.com/p/ai-value-capture-the-shift-to-model

Elon Musk@elonmusk · 5月1日61

Grok

译Grok Grok-4.3 的发布价格低于 Grok-4.2，同时智能体性能大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 分至 1500，尽管价格更低，却超越了其他顶级模型。

宝玉@dotey · 5月1日63

http://x.com/i/article/2050005869304102912 # Demis Hassabis：AGI 还缺什么，智能体到底行不行，下一个科学突破长什么样 Demis Hassabis 是 Google DeepMind 的 CEO，也是 Isomorphic Labs 的 CEO。他在棋手神童和游戏开发者的身份之外，拿了认知神经科学的博士学位，研究海马体和记忆的工作方式。2024 年，他因为 AlphaFold 的工作获得诺贝尔化学奖。这次他做客 Y Combinator 的 How to Build the Future 直播，和 YC CEO Garry Tan 聊了四十分钟。几个核心话题：当前 AI 范式距离 AGI 还差什么、智能体的真实水平、AI 在科学领域的突破模式，以及给深科技创业者的建议。原始视频：https://www.youtube.com/watch?v=JNyuX1zoOgU 原始标题：Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough ## 要点速览 - Hassabis 认为当前范式（预训练+RLHF+ 思维链）会是 AGI 架构的一部分，但有 50% 的概率还需要一两个尚未发现的关键突破，持续学习、长程推理和记忆是三个未解问题 - 百万 token 上下文窗口听起来很大，但处理实时视频时只够录 20 分钟，当前把所有东西塞进上下文窗口的做法是“用胶带糊住的临时方案” - AlphaGo 和 AlphaZero 时代的技术（蒙特卡洛树搜索等）正在被重新引入当代基础模型，Hassabis 认为未来几年的进步将大量来自这些旧想法的规模化应用 - 他用下棋来测试 Gemini 的推理能力，发现模型会识别出一步是错棋，找不到更好选择后又回去走那步错棋，这种“缺乏自省”是当前推理系统的核心缺陷 - 创造力的真正测试是能否从一段高层描述中发明围棋这个游戏本身，AlphaGo 下出 Move 37 级别的创造力还远远不够 - 完整虚拟细胞大约还需要 10 年，关键瓶颈是无法在不杀死细胞的情况下对活细胞进行纳米级分辨率成像 - 他给创业者的建议：如果你的 AGI 时间线是 2030 年，深科技创业通常需要 10 年，那 AGI 会在你旅程的中途出现，你的商业计划必须把这个因素算进去 ## 【1】AGI 还缺一两块拼图，概率 50/50 Garry Tan 开场问：当前的 AI 范式，大规模预训练、RLHF、思维链，这些东西里已经包含了多少 AGI 的最终架构？还有什么根本性的缺失？ Hassabis 的回答比较谨慎。他说当前这些组件“几乎可以确定”会是 AGI 最终架构的一部分，走到今天这一步已经证明了太多东西，不可能突然发现这是一条死路。但在已有的东西之上，可能还需要一两个大想法。他列出了三个未解问题：持续学习（continual learning，即模型在部署后持续从新经验中学习的能力）、长程推理、以及记忆的某些方面。这些问题也许能靠现有技术的渐进式创新解决，也许需要全新的方法。他给出了一个有意思的概率判断：50/50。一半概率是现有技术足够，另一半概率是还缺一两个关键突破。Google DeepMind 两边都在押注。 ## 【2】记忆：百万 token 上下文其实不够用话题自然转到了记忆和上下文窗口。Garry Tan 提到现在的系统每次处理都是无状态的，持续学习缺失的情况下，大家都在用“梦境循环”（定期批量更新）这类临时方案。 Hassabis 对这个话题有独特的发言权。他的博士研究就是海马体如何将新知识优雅地整合进已有的知识库。大脑在睡眠（特别是 REM 快速眼动期）中回放重要的经历片段来巩固学习，DeepMind 最早的 Atari 游戏 AI 程序 DQN 就借鉴了这个机制，用“经验回放”（experience replay）反复重放成功的游戏轨迹来加速学习。 > 我们现在的做法有点像用胶带糊住，就是把所有东西都塞进上下文窗口。（“We're kind of using duct tape right now—shove it all in the context window.”）他接着解释为什么这个方案不够好。百万 token 上下文窗口听起来很大，人类的工作记忆平均只有 7 个数字左右，而 AI 有百万甚至千万级别的上下文。但问题是，我们把所有东西都扔进去了，不管重要不重要、对不对。更关键的是，如果你要处理实时视频流，天真地录入所有 token 的话，百万 token 其实只够 20 分钟。如果你想让系统理解你一两个月的生活，远远不够。即使存储空间无限，找到当下决策真正需要的那条信息，这个检索成本也是不可忽视的。Hassabis 认为记忆领域还有很大的创新空间。 ## 【3】AlphaGo 的技术遗产正在复活 Garry Tan 追问 DeepMind 在强化学习方面的历史积累，AlphaGo、AlphaZero、MuZero 这些系统背后的哲学在今天构建 Gemini 时发挥了多大作用。 Hassabis 说强化学习的重要性“在起伏中轮回”。DeepMind 从创立第一天起就在做智能体，Atari 游戏 AI 和 AlphaGo 说到底都是智能体系统，能自主设定目标、做决策、制定计划。当时选择游戏领域是为了让问题可控，然后逐步挑战更复杂的游戏，比如 AlphaGo 之后又做了星际争霸（AlphaStar）。过去几年的核心问题是：能否把这些模型从游戏推广到语言和世界模型？而今天所有前沿模型的思维模式和思维链推理，其实都可以追溯到 AlphaGo 时代开拓的路径。他透露了一个值得关注的信息：Google DeepMind 正在重新审视当年的一些旧想法，包括蒙特卡洛树搜索（Monte Carlo tree search）等方法，在当今基础模型的规模上重新应用。他认为未来几年 AI 的很多进步将来自于 AlphaGo 和 AlphaZero 时代的想法与现代基础模型的结合。 ## 【4】小模型在快速变聪明 Garry Tan 观察到蒸馏技术让小模型越来越接近前沿模型的能力，Flash 模型大约能达到前沿模型 95% 的水平，成本只有十分之一。他问蒸馏有没有极限。 Hassabis 说这是 Google DeepMind 的核心优势之一。他们当然要建最大的模型来推动能力边界，但快速把这些能力压缩到更小模型中是他们的强项。Google 有十几个十亿用户级的产品，搜索的 AI 概览和 AI 模式、Gemini 应用、YouTube、Maps，每一个都需要 AI 服务。几十亿用户需要极快、极高效、低延迟的服务，这种商业压力反过来成了技术进步的发动机。关于蒸馏的理论极限，他说目前没有看到任何信息密度的硬性天花板。他们的工作假设是：前沿模型发布半年到一年后，同等能力就会出现在边缘级小模型上。他还提到了一个架构设想：未来可能是高效的本地模型处理日常任务（比如音频和视频流），只在特定情况下才调用云端的前沿模型。这种“本地 + 云端”的分层架构对隐私和安全特别有意义，尤其是考虑到家用机器人等场景。 ## 【5】Gemini 下棋暴露的推理缺陷 Garry Tan 接着问推理能力：模型能做出很厉害的思维链推理，但在聪明本科生不会犯的错误上翻车。 Hassabis 认为当前的思维范式还很粗糙，有很大的创新空间。比如可以监控思维链的进展、在推理过程中途介入纠正。他经常觉得这些系统在“过度思考”，陷入某种循环。他举了一个具体的例子。他有时会用 Gemini 下棋，所有前沿基础模型在游戏上都表现很差，但这恰好提供了一个有趣的观察窗口。因为棋局的规则是确定的，他能很快判断模型的思维链是否在走弯路。他观察到的现象是：模型考虑某一步，意识到这步是臭棋，但找不到更好的，于是绕了一圈又回到那步棋，然后走了出去。 > 在一个真正精确的推理系统里，你不应该看到这种情况。（“You just shouldn't be seeing that happening in a very precise reasoning system.”）这就是他所说的“锯齿状智能”（jagged intelligence）：一方面能解国际数学奥林匹克（IMO）金牌级别的问题，另一方面换个提问方式就会犯基本的算术错误。在他看来，这种不一致说明系统缺少某种对自身思维过程的“自省”能力。但他也补充说，修复这种缺陷可能只需要一两个关键调整。 ## 【6】智能体：实验阶段，投入产出比还没对上 Garry Tan 问智能体是炒作还是刚刚开始。Hassabis 的回答是：刚刚开始，但还在实验阶段。他的论点是：要达到 AGI，你必须有一个能主动解决问题的系统，智能体就是通向 AGI 的路径。但目前，智能体在“完整任务”上还不够好，主要是因为它们不能在具体使用环境中持续学习和适应。缺乏持续学习是智能体无法做到“交付后不管”（fire and forget）的根本原因。他还提到了一个耐人寻味的观察： > 我看到很多人启动几十个智能体跑 40 个小时，但我不确定产出能匹配这种级别的投入。（“I see a lot of people working on setting off dozens of agents for like 40 hours, but I'm not sure I've seen the output that yet quite justify that level of input going in.”）最近两三个月，人们才开始找到智能体真正有价值的使用场景，不再是“玩具展示”而是真正增加效率的工具。 ## 【7】半小时做出 Theme Park，但爆款在哪？谈到创造力和凭感觉编程（vibe coding），Hassabis 给出了一个令人印象深刻的对比。 > 我现在半小时就能做出 Theme Park 的原型，而我 17 岁的时候花了 6 个月。（“I can do a prototype of Theme Park in half an hour now, which took me 6 months back when I was 17.”）【注：Theme Park 是 Hassabis 在 1994 年参与开发的模拟经营游戏，全球销量超过 1500 万份。】但他马上接了一个更有意思的观察：如果工具已经这么强了，为什么还没有一个凭感觉编程做出来的爆款游戏卖出 1000 万份？他觉得缺的东西可能跟“craft 和 soul”有关，某种人类的品味和执着。工具降低了执行门槛，但创造力本身还没有被替代。他预计 6 到 12 个月内，应该会看到有人用这些工具做出真正有影响力的作品，最先出现的不会是完全自主的 AI 创作，而是这个房间里的某个人用 AI 工具实现了 1000 倍的生产力。然后他把话题推到了一个更深的层面。AlphaGo 第二局的第 37 手（Move 37）是一个让人类棋手震惊的创造性落子，Hassabis 当时看到这步棋后确信可以启动科学项目，从首尔回来的第二天就启动了 AlphaFold 项目。但他说，Move 37 级别的创造力还不够。 > 下出 Move 37 还不够。关键是能不能发明围棋。（“It's not enough to come up with Move 37. Can it invent Go?”）他设想给系统一段高层描述：“一个 5 分钟能学会规则、但需要穷尽一生去精通的游戏，美学上很优雅，一局可以在一个下午完成”，然后看系统能不能返回一个像围棋这样的东西。今天的系统做不到这一点。 ## 【8】Gemma 开源背后的战略计算切换到开源话题。Hassabis 说 Google DeepMind 一直是开放科学的倡导者，AlphaFold 完全免费开放就是例子。Gemma 系列的目标是在同等参数规模下做到世界领先。他提到了一个有意思的地缘考量： > 也很重要的一点是，开源里要有西方栈。中国模型很多都很出色，目前在开源里领先。（“It's important for there to be Western stacks on open source. A lot of the Chinese models are excellent, and they're currently leading in open source.”）开放边缘模型还有一个务实的理由。Google 需要在 Android、眼镜、机器人等设备上运行模型，一旦部署到设备端，权重本来就暴露了。既然如此，不如直接完全开放。他们已经决定在“Nano 级别”统一采用开源策略。 ## 【9】多模态的长期赌注 Garry Tan 在采访前向 Hassabis 演示了他自己用 Gemini 搭建的语音助手（类似电影《Her》中的 Samantha），他评价 Gemini 在语音直接对接模型方面的深度和工具调用能力是目前所有模型中最好的。 Hassabis 说这是 Gemini 一个“还没被充分认识到”的优势。Gemini 从一开始就按多模态方式训练，初期这比只专注文本要困难得多，但长期收益正在显现。比如 Genie（Google DeepMind 的世界模型生成器）就建立在 Gemini 的多模态能力之上，对机器人领域很关键。Waymo 已经在使用 Gemini 相关技术。未来的数字助手，无论是在手机、眼镜还是其他设备上，都需要理解周围的物理世界和直觉物理。这正是 Gemini 系列模型的强项。 ## 【10】推理永远不会免费 Garry Tan 问：当推理成本趋近于零时，会发生什么？ Hassabis 的回答是：推理可能永远不会真正免费。他引用了杰文斯悖论（Jevons' paradox）：当某种资源的使用效率提高时，需求反而会增加，最终消耗掉所有效率收益。【注：杰文斯悖论最早由经济学家 William Stanley Jevons 在 1865 年提出，原始语境是煤炭。蒸汽机效率提高后，煤炭消费量不降反升。】他设想了几种“吃掉”所有推理算力的方式：百万级智能体集群协同工作、单个智能体在多个方向上并行思考然后综合结果。即使通过可控核聚变或超导等材料科学突破将能源成本降到接近零，芯片的物理制造仍然是瓶颈。至少在未来几十年内，推理端仍然会有配额限制。 ## 【11】虚拟细胞：10 年后的目标 Garry Tan 问：AlphaFold 3 已经超越了蛋白质，扩展到更广泛的生物分子。距离模拟完整的细胞系统还有多远？ Hassabis 先说了 Isomorphic Labs 的进展。这家从 DeepMind 剥离出来的公司正在把 AlphaFold 之外的相邻生物化学和化学领域也做起来，设计具有正确性质的化合物。他说“很快会有重大公告”。他认为完整的虚拟细胞大约需要 10 年时间。目前 DeepMind 的科学团队从虚拟细胞核开始做起，因为细胞核相对自包含。这类问题的关键是：能否从复杂性中切出一个足够自包含的片段，近似处理其输入输出，然后专注于这个子系统。最大的挑战是数据不足。如果能在不杀死细胞的情况下对活细胞进行纳米级分辨率成像，问题就变成了一个视觉问题，“我们知道怎么解决视觉问题”。但目前他不知道有任何成像技术能同时做到纳米分辨率和对活细胞无损。静态图像的分辨率已经很高了，但缺少动态信息。所以有两条路：一条是硬件驱动、数据驱动，等待成像技术突破；另一条是建模方式，构建更好的动态系统学习模拟器。 ## 【12】AI 是科学的终极工具 Garry Tan 问他在所有科学领域中最看好哪个。Hassabis 没有直接排名，而是说这一直是他做 AI 的核心动力。 > DeepMind 的使命分两步：第一步解决智能，也就是建造 AGI；第二步用它解决其他所有问题。（“Step one was solve intelligence, i.e., build AGI, and then step two was use it to solve everything else.”）他说这个“解决其他所有问题”后来要改措辞，因为人们会问“你真的是说'所有问题'吗？”。确实是的。他提到了一个概念：“根节点问题”（root node problems），指那些一旦解决就能打开全新研究分支的科学难题。AlphaFold 就是典型例子。目前全球超过 300 万研究人员在使用 AlphaFold，他从制药界的高管朋友那里听到，“从现在起几乎每一种新药的发现过程都会用到 AlphaFold”。他觉得其他领域，材料科学、气候建模、数学，目前大约处于“AlphaFold 1 的阶段”，结果很有前景但还没有真正解决该领域的大挑战。未来几年会有很多进展。 ## 【13】AlphaFold 式突破的三个条件 Garry Tan 问：什么样的科学问题适合 AlphaFold 式的突破？有没有一个模式？ Hassabis 说他应该把这个写下来。从 AlphaGo 和 AlphaFold 的经验中，他总结出三个条件： 1. 第一，巨大的组合搜索空间，越大越好，大到暴力搜索或特殊算法都无法解决。围棋的合法走法和蛋白质的可能构型都远超宇宙中原子的数量。 1. 第二，清晰的目标函数。蛋白质折叠可以看作最小化自由能，围棋就是赢。你需要能定义“什么是好的”，这样才能爬坡。 1. 第三，足够的数据，或者一个能生成大量同分布合成数据的模拟器。如果这三个条件成立，现有的方法就能在“大海捞针”式的搜索中走很远。药物发现也是一样的框架：总有一个化合物能治这种病，没有副作用，只要物理定律允许它存在，剩下的问题就是如何高效地找到它。 ## 【14】“爱因斯坦测试”：AI 能做真正的科学发现吗？ Garry Tan 把话题推到了更高的抽象层面：AI 能做真正的科学推理，还是只是在做模式匹配？ Hassabis 说他觉得很接近了。Google DeepMind 有 Co-Scientist 这样的通用科学推理系统，也有 AlphaEvolve 这类在基础 Gemini 之上增加能力的算法。但坦白说，他还没有看到任何一个真正的“重大发现”。他认为这与之前讨论的创造力问题相关。真正的发现超越了模式匹配（因为没有现成的模式可以匹配），也超越了简单的外推。他把它称为“类比推理”（analogical reasoning），认为当前系统还不具备这种能力，或者至少没有以正确的方式使用。他用了一个递进的方式来说明这个挑战。首先，能否解决已有的数学难题？比如千禧年难题（Millennium Prize Problems，数学界悬赏每题 100 万美元的七大未解问题）。他觉得可能只需要几年。他个人最想看到的是 P=NP 问题的解决。但比解决千禧年难题更难的是：能否提出一组新的千禧年级别的问题，让顶级数学家认为它们同样深刻、值得一生去研究？然后他提出了他的“爱因斯坦测试”。 > 用 1901 年的物理学知识训练一个系统，然后看它能不能做出爱因斯坦 1905 年做的事情，包括狭义相对论。（“Can you train a system with the knowledge of physics of 1901, and then will it come up with what Einstein did in 1905, including special relativity?”）【注：1905 年被称为爱因斯坦的“奇迹年”（annus mirabilis），他在这一年发表了四篇划时代论文，涵盖光电效应、布朗运动、狭义相对论和质能等价（E=mc²）。】一旦通过这个测试，就意味着系统具备了发明真正新事物的能力。他认为应该反复跑这个测试，看系统什么时候能做到。 ## 【15】给创业者的建议：把 AGI 算进你的商业计划最后一个话题是给创业者的建议。Hassabis 先回应了 Garry Tan 之前的提问：“如果你坐在 YC 创业者的位置上，你会怎么做？” 他的核心建议是找到 AI 与另一个深科技领域的交叉点。材料科学、医学、或者任何涉及物理世界原子的硬科学问题。这类跨学科团队，特别是涉及物质世界的，在可预见的未来不会被基础模型的下一次更新轻易取代，是最具防御性的创业方向。然后他提出了一个更具体的时间规划问题。如果你的 AGI 时间线是 2030 年，而真正的深科技创业通常需要 10 年，那 AGI 会在你旅程的中途出现。这件事不一定是坏事，但你必须把它考虑进去。你的系统能利用 AGI 吗？AGI 出现后你的产品会怎样？他给出了一个有价值的架构判断：未来不会是一个包含所有能力的巨大通用模型。更可能的架构是通用模型（Gemini、Claude 等）调用 AlphaFold 这样的专用系统作为工具。如果把蛋白质折叠的知识直接塞进 Gemini，“那肯定会影响它的语言能力”。这种“通用编排器 + 专用工具”的架构意味着，做好一个垂直领域的专用系统在 AGI 时代依然有巨大价值。 > 追求困难的问题和追求简单的问题，难度其实差不多。只是难的地方不一样。（“Going after hard problems is no more difficult than going after a shallower, simpler problem. They're just differently difficult.”）他用自己的经历收尾。2010 年创办 DeepMind 时，投资人告诉他“AI 我们试过了，不行”。学术界也认为 AI 是 90 年代就被证伪的边缘学科。但他从很年轻的时候就决定了要做 AI，因为这既是他能想到的最重要的事，也是最有趣的事。即使今天 AI 还没成功，他也会在某个车库里继续做下去。 Hassabis 同时在做两件事：建前沿模型（Gemini），用 AI 做科学（AlphaFold、Isomorphic Labs）。这让他的判断比纯模型派或纯应用派更有参考价值。他对 AGI 路径的判断，“可能还缺一两个大想法”，比大多数行业声音更克制。他对智能体投入产出比的质疑也值得注意，尤其是在 Google 自己也在大力推广智能体产品的情况下。接下来值得关注的几个具体节点：第一，智能体是否能在长周期任务中稳定学习和适应，而不是靠更长上下文硬撑；第二，AI for Science 是否出现新的 AlphaFold 式“根节点问题”突破；第三，AI 是否开始提出高质量的新问题，而不仅仅是更快解决旧题。Hassabis 所说的 AGI 中途到来，对深科技创始人不是一句时间表判断，而是一道架构题：你今天建的系统，到那时是被替换，还是成为 AGI 会主动调用的工具。 ## Q&A 速览问：当前 AI 范式距离 AGI 还有多远？答：现有组件（预训练+RLHF+ 思维链）会是最终架构的一部分，但有 50% 概率还需要一两个关键突破。持续学习、长程推理和记忆是三个主要未解问题。Hassabis 的个人 AGI 时间线是 2030 年左右。问：小模型会越来越聪明吗？答：是的。Google 的工作假设是前沿模型能力在半年到一年后可以下放到边缘级小模型。蒸馏目前没有遇到信息密度的理论极限。问：AI 能做真正的科学发现吗？答：还没有。Hassabis 认为当前系统缺乏“类比推理”能力。他提出了“爱因斯坦测试”作为检验标准：用 1901 年的物理学知识训练系统，看能否产出狭义相对论级别的发现。问：深科技创业者该怎么规划？答：找到 AI 和另一个硬科学领域的交叉点。把 AGI 可能在旅程中途出现这个因素纳入商业计划。专用的 AI 系统（如 AlphaFold）在 AGI 时代仍然有价值，因为它们会作为工具被通用模型调用。问：为什么还没有凭感觉编程做出的爆款？答：工具降低了执行门槛，但创造力本身，也就是 craft 和 soul，还没有被替代。Hassabis 预计 6 到 12 个月内会出现用 AI 工具做出的有影响力的作品。

译Demis Hassabis认为当前AI范式（预训练+RLHF+思维链）可能是AGI架构的一部分，但仍有50%概率需要一两个关键突破，未解决持续学习、长程推理和记忆等问题。他指出，百万token上下文窗口处理实时视频仅够20分钟，现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段，投入产出比不匹配。完整虚拟细胞等科学突破还需约10年，关键瓶颈是活细胞成像技术。

elvis@omarsar0 · 5月1日58

I have been testing DeepSeek-V4-Pro with the Pi coding agent. I am mindblown by how well it works out of the box. A few notes: I spent a few hours building an LLM wiki with an agent powered entirely by DeepSeek-V4-Pro on @FireworksAI_HQ inference. This is the first time I feel like there is an open-weight model that can reason at the level of Claude and Codex. And it does this in a cost-effective way with support for 1M context length. To be clear, I am using DeepSeek-V4-Pro inside of Pi without any special configuration. It works out of the box. It's exciting that there is a model that can just be plugged into a basic harness like Pi, and it just works. I've never seen that before. Most models require lots of configuration and setup. @deepseek_ai's DeepSeek-V4-Pro is clearly good at agentic coding (probably the best from the open-weight models), but the model is also great on knowledge-intensive tasks where reasoning matters. The agent pulled agentic engineering best practices from different company docs (Anthropic, OpenAI, Google, Stripe, Meta, Modal, DeepSeek, Mistral, Cohere), searched and digested Reddit and HN threads, summarized arxiv papers, and surfaced trending GitHub repos. Then it distilled everything into actionable tips across categories. I love the Wiki it built. The quality is really good. Here is a snapshot of what the wiki looks like: https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wiki DeepSeek-V4-Pro handled the task without breaking stride. Multi-step research queries, code generation for scaffolding, context-heavy reasoning across disparate sources. For coding specifically, this is the first open-weight model that genuinely feels like a Codex or Claude Code experience. It compares in capability and actual multi-turn agentic work. What made the loop feel so responsive was Fireworks' inference speed (the fastest in the market) and the fact that they actually validate models at the systems level before shipping. No corrupted reasoning traces. Just fast, reliable iteration. The hybrid CSA and HCA attention design cuts KV cache to just 10% and inference FLOPs by nearly 4x at 1M-token context. This is what makes the agent loop actually fast and cheap enough to run in practice. For devs who've been watching open-weight models close the gap but haven't found one that actually delivers in practice, this is the closest I've seen. Try it here: https://app.fireworks.ai/models/fireworks/deepseek-v4-pro

译测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

Artificial Analysis@ArtificialAnlys · 5月1日66

xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance, ~40% lower input price, and ~60% lower output price than Grok 4.20 The release of Grok 4.3 places @xAI just above Muse Spark and Claude Sonnet 4.6 on the Intelligence Index, and a 4 points ahead of the latest version of Grok 4.20. Grok 4.3 improves its Artificial Analysis Intelligence Index score while reducing cost to run the benchmark suite. Key Takeaways: ➤ Grok 4.3 improves on cost-per-intelligence relative to Grok 4.20 0309 v2: it scores higher on the Intelligence Index while costing less to run the full benchmark suite. Grok 4.3 costs $395 to run the Artificial Analysis Intelligence Index, around 20% lower than Grok 4.20 0309 v2, despite using more output tokens. This makes it one of the lower-cost models at its intelligence level ➤ Large increase in real world agentic task performance: The largest single benchmark improvement is on GDPval-AA, where Grok 4.3 scores an ELO of 1500, up 321 points from Grok 4.20 0309 v2’s score of 1179 Grok 4.3, surpassing Gemini 3.1 Pro Preview, Muse Spark, Gpt-5.4 mini (xhigh), and Kimi K2.5. Grok 4.3 narrows the gap to the leading model on GDPval-AA, but still trails GPT-5.5 (xhigh) by 276 Elo points, with an expected win rate of ~17% against GPT-5.5 (xhigh) under the standard Elo formula ➤ Grok 4.3’s performs strongly on instruction following and agentic customer support tasks. It gains 5 points on 𝜏²-Bench Telecom to reach 98%, in line with GLM-5.1. Grok 4.3 maintains an 81% IFBench score from Grok 4.20 0309 v2 ➤ Gains 8 points on AA-Omniscience Accuracy, but at the cost of lower AA-Omniscience Non-Hallucination Rate of 8 points, so Grok 4.20 0309 v2 still leads AA-Omniscience Non-Hallucination Rate, followed by MiMo-V2.5-Pro, in line with Grok 4.3 Congratulations to @xAI and @elonmusk on the impressive release!

译xAI推出Grok 4.3模型，其在Artificial Analysis智能指数得分达53，超越Muse Spark等模型，较前代提升4分。模型在显著降低成本的同时保持智能水平，输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出，GDPval-AA基准得分大幅提升至1500 ELO，超越Gemini 3.1 Pro Preview等多款模型，但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲，但AA-Omniscience非幻觉率略有下降。

elvis@omarsar0 · 5月1日57

// When to Retrieve During Reasoning // Pay attention to this one, AI devs. (bookmark it) Most RAG systems retrieve once, before the model starts reasoning. Large reasoning models like o1 and R1 don't work that way. They generate 12k-25k token chains of thought and hit knowledge gaps mid-inference, long after the retrieval window closed. ReaLM-Retrieve is a reasoning-aware retrieval framework that injects evidence during multi-step inference. It detects uncertainty at reasoning-step granularity (not token or sentence level), learns a policy for when external evidence actually helps, and cuts per-retrieval overhead by 3.2x. This approach achieves +10.1% absolute F1 over standard RAG across MuSiQue, HotpotQA, and 2WikiMultiHopQA, with 47% fewer retrieval calls than fixed-interval IRCoT. On 2-4 hop MuSiQue it hits 71.2% F1 with only 1.8 retrieval calls per question. If you're shipping reasoning-model RAG, your retrieval needs to know when to fire, not just what to fetch. Paper: https://arxiv.org/abs/2604.26649 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译传统RAG系统在推理前单次检索，无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架，能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性，学习判断何时引入外部证据有效，并将单次检索开销降低3.2倍。在多个QA数据集上，该框架比标准RAG的F1绝对值提升10.1%，且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中，仅用平均1.8次检索即可达到71.2%的F1值，表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

SemiAnalysis@SemiAnalysis_ · 5月1日41

AWS is making serious moves in custom AI silicon with Trainium and Inferentia chips. Rachel Zheng and Karthik Venna from the @awscloud team break down how they're scaling these processors across the world's largest cloud infrastructure. @makora_ai https://youtu.be/mgrQWLERync

译AWS正通过Trainium和Inferentia芯片在定制AI芯片领域做出重大举措。来自@awscloud团队的Rachel Zheng和Karthik Venna详细介绍了他们如何在全球最大的云基础设施上扩展这些处理器。@makora_ai https://youtu.be/mgrQWLERync

Chubby♨️@kimmonismus · 5月1日60

/1 Gemma 4 31B just crushed Qwen 3.6 27B in a local LLM gamedev contest inside @atomic_chat_hq (prompt is below) Device: MacBook Pro M5 Max, 64GB RAM Results: Qwen 3.6 27B: 32 tokens/sec · 18m 04s · 33,946 tokens Gemma 4 31B: 27 tokens/sec · 3m 51s · 6,209 tokens So what is more important: tokens per second, or the quality of the final answer? Qwen made a very long response and showed more creativity and visual style. But Gemma gave a shorter, clearer, and more logical answer in much less time. In this one-shot Pac-Man gamedev contest, Gemma 4 31B was the clear winner. Its game logic was stronger: click reactions were smoother, and it handled interactions with elements like walls, ghosts, and particle effects better. But this was only one test. Maybe Qwen 3.6 27B can show better results with better settings. Open the comments, try our prompt, and share your result below.

译在@atomic_chat_hq平台的本地LLM游戏开发竞赛中，Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快（32 tokens/秒）且回答更具创意，但Gemma仅用3分51秒和6209个token，输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上，Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试，Qwen或可通过调整设置提升表现，并邀请社区验证。

karminski-牙医@karminski3 · 5月1日72

给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错: HTTP 400 {"error":{"message":"The `reasoning_content` in the thinking mode must be passed back to the API.","type":"invalid_request_error","param":null,"code":"invalid_request_error"}} 这个报错的意思是, 请求 DeepSeek API 必须在 tool_call 的时候回传 reasoning_content 这个字段. 听上去没问题, 开了思考模式那肯定要把 reasoning_content 作为上下文回传. 但是来了, 如果任务的这一步制定的 tool_call 过于显而易见, deepseek 返回的 reasoning_content 其实是空字符串. 这就导致了有些写代码的 IDE 直接过滤掉了这个字段, 不回传, 导致 DeepSeek API 报错, 编码任务或者 Agent 就直接挂了. DeepSeek-V4 API会不会真的有的时候 reasoning_content 空字符串? 答案是会的, 我专门构建了个 POV 场景, 复现概率高达 59%. 那么出现 reasoning_content 为空字符串的时候该怎么办? 经过验证, 答案是必须原样传回去. 即也在 context 中保留这个值为空字符串的字段. 不能是空对象, 也不能丢掉. 那就原样传回去呗? 废什么话呀? 关键是, 现有的各种 terminal coding agent 或者 AI IDE 这并不是默认行为, 它们大部分的默认行为是直接把字段丢掉了, 导致 DeepSeek-V4 API 报错. 所以现在的解决方法是, 要么等 IDE 的官方修复, 要么你用的 IDE 或者 coding agent 是开源的, 自己 fork 一个版本魔改. 另外, 如果你的 Agent 项目要使用 DeepSeek-V4 也要注意这个坑. 避免运行到一半直接报错退出. 以及, 报错重试不太行的, 因为 DeepSeek-V4 在我 POV 这个场景, 59% 的概率都会为空. 如果重试次数为 3, 那偶尔都不够用. 所以还是老实的把问题解决为好. #deepseek #deepseekv4

译用户在使用DeepSeek-V4 API或集成该模型的终端编码代理（如Claude Code、Kimi CLI）和AI IDE（如Cursor）时，频繁遇到HTTP 400报错。错误信息指出，在思考模式下必须将`reasoning_content`字段回传给API。核心问题在于，当任务步骤的`tool_call`过于简单直接时，DeepSeek-V4返回的`reasoning_content`可能为空字符串。许多开发工具默认会过滤掉空值字段，导致该字段未被回传，从而触发API报错，致使编码任务或代理中断。经测试，在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传，不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具，使用DeepSeek-V4的代理项目也需注意此问题。

Artificial Analysis@ArtificialAnlys · 5月1日46

GPT-5.5 Pro achieves a small bump on GPT-5.4 Pro with 60% lower cost and token use in our frontier science eval, CritPt CritPt tests models on graduate-level physics research problems contributed by 60+ researchers from 30+ institutions globally. When CritPt was released in November 2025, the highest score was 9% (Gemini 3 Pro Preview). ~4 months later, GPT-5.4 Pro (xhigh) tripled this score with 30%. Now, GPT-5.5 Pro (xhigh) has surpassed this result by half a percentage point at 60% lower cost. The model is priced identically per token, but used fewer tokens to complete the evaluation. According to OpenAI, GPT-5.5 Pro “uses more compute to think harder and provide consistently better answers” than GPT-5.5. Congratulations @OpenAI and @sama on this result

译在名为CritPt的尖端科学评估中，GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量，实现了0.5个百分点的性能提升，将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来，最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出，GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考，以提供更稳定的优质答案”。该模型每令牌定价相同，但通过使用更少的令牌完成了评估。

阿绎 AYi@AYi_AInotes · 5月1日68

GPT-5.5 和 Claude Opus 4.7 同一天发了官方提示工程指南。两家的建议完全相反， 1️⃣OpenAI 说：少给流程，说清楚你要什么结果，让模型自己选路径。 2️⃣Anthropic 说：别指望它猜你意思，意图、格式、成功标准，一个都不能含糊。一个嫌你管太多，一个嫌你说不清楚。 Claude 首席工程师 Boris Cherny 说，他自己都需要几天适应🤣 → Anthropic Claude Opus 4.7 迁移指南： https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/overview → OpenAI GPT-5.5 提示工程指南： https://developers.openai.com/api/docs/guides/prompt-guidance → OpenAI《使用 GPT-5.5》官方文档： https://developers.openai.com/api/docs/guides/latest-model → Boris Cherny（Claude Code 首席工程师） → http://FindSkill.ai 对数百个社区帖子的深度分析（提示具体性与输出质量高度正相关）

译OpenAI与Anthropic同天发布官方提示指南，核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤，让其自主选择路径；Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效：模糊指令使Claude输出变窄，而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”，真正的瓶颈可能在于人的思考清晰度，而非模型能力。

向阳乔木@vista8 · 5月1日61

http://x.com/i/article/2049885174113185792 # DeepSeek新论文解读：让AI像人一样“用手指着图片思考” DeepSeek 又在节前发论文了，真的顶不住。过去几年，多模态领域，大家卷的方向一直是"看得更清"：更高分辨率、更多视觉Token、动态裁剪。但 DeepSeek 这篇论文角度完全不一样，觉得看清后的信息利用效率远远不够，能推理清楚才更重要，真正的瓶颈不在感知。他们数据清洗做的很细致认真，比如把近 10 万数据用各种条件过滤到 3 万。还有数据合成也特别有意思，比如大量迷宫题的设计，哈哈哈哈。 DeepSeek 视觉 Token 用量只有其他前沿模型的十分之一，但效果基本持平，甚至不少维度有超越，牛逼！ > Github: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives ## 一句话总结 DeepSeek团队提出了一种全新的多模态推理框架。核心思路是：让模型在推理过程中，像人类一样用"手指"指着图片上的具体位置来思考，用点和框这些视觉标记作为思维的最小单位。模型规模284B总参数（13B激活），视觉Token用量只有其他前沿模型的十分之一，却在空间推理、计数、拓扑推理等任务上达到甚至超越GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash。 ## 这篇论文到底在解决什么问题？当前的多模态大模型，虽然已经很强了，但有一个根本性的瓶颈：语言天生就不擅长精确描述空间位置。举个生活中的例子。你让朋友帮你从一堆杂物里找东西，光靠嘴说"就在那个红色的旁边，偏左一点，上面那个"，说半天对方可能还是找不到。但你手一指，"就这个"，瞬间解决。模型也面临同样的困境。论文把这个问题定义为 "Reference Gap"（指代鸿沟）。之前业界的主要努力集中在另一个问题上，叫"Perception Gap"（感知鸿沟），就是让模型"看得更清楚"。比如用更高分辨率的图片、动态裁剪、多尺度patch等等。但论文指出，看清楚了不等于能推理清楚。即使模型把图片每个像素都看到了，当它需要在密集场景里数东西、做多步空间推理的时候，纯靠语言描述来追踪"我在说哪个物体"，很容易就乱套了。比如数一群人，模型用语言说"左边第三个穿蓝衣服的"，说着说着就搞混了，到底数到哪了？哪些数过了？这种混乱会像多米诺骨牌一样传导下去，论文称之为"级联幻觉"。之前也有一些工作尝试在思维链里加入边界框，但论文认为它们有三个局限： 1. 只是事后验证，把框当作辅助证据，没有真正融入思维过程本身 1. 主要解决的还是"看不清"的问题，集中在高分辨率场景 1. 依赖大量人工标注，扩展性差 1. 无法处理拓扑推理这类需要视觉标记作为思维媒介（而非仅仅作为证据）的复杂任务 ## 核心方案：用"视觉原语"来思考论文的解法非常直觉：既然语言不擅长指代空间位置，那就在思维链里直接嵌入坐标信息。具体来说，模型在推理的时候，可以随时输出两种"视觉原语"（Visual Primitives，可以理解为视觉世界里最基本的标记单元）： - Bounding Box（边界框）：用来框住某个物体，标记它的位置和大小 - Point（点）：用来标记一个抽象的位置，比如路径上的某个节点、运动轨迹上的一个点这些坐标信息直接穿插在模型的思维过程中。模型一边用语言推理，一边用坐标"指"着图片上的具体位置。论文把这叫做 "point-to-reason"（指着推理），灵感来自人类认知中的"指示性指代"（deictic pointers）。走迷宫的时候用手指沿着路径划，数密密麻麻的东西时用手指点着数，这些都是人类降低认知负荷、保持逻辑一致性的本能策略。看一个实际的例子就很好理解了。比如数一张图里有多少只熊在地面上： > 模型先扫描整张图，发现一只熊 [[452,23,804,411]] 抱在树上，排除掉。再看到一只熊 [[50,447,647,771]] 走在岩石上，算一个。又找到一只 [[380,645,868,961]] 在碎木头和泥土中间，也在地面上，再算一个。最终答案：2只。每一步推理都有明确的坐标锚定，不会出现"我刚才说的是哪只熊来着"这种混乱。 ## 模型架构：极致的视觉Token压缩整体结构模型采用类似LLaVA的标准架构：图片经过视觉编码器（ViT）提取特征，然后和文本指令拼接在一起，送入大语言模型生成回答。 - 语言骨干：DeepSeek-V4-Flash，一个MoE（Mixture-of-Experts，混合专家）架构的模型，总参数284B，推理时激活13B - 视觉编码器：DeepSeek-ViT，自研的视觉Transformer，支持任意分辨率输入压缩流水线这里是整个架构最值得关注的地方。模型对视觉信息做了三级压缩：第一级：ViT用14×14的patch（小方块）切图，生成patch token 第二级：ViT输出时做3×3空间压缩，把相邻的9个token沿通道维度合并成1个第三级：进入LLM后，利用CSA（Compressed Sparse Attention，压缩稀疏注意力，DeepSeek-V4-Flash自带的机制）把KV Cache（模型推理时存储的中间状态）再压缩4倍拿一张756×756的图片举例： - 原始像素：571,536个 - ViT patch token：2,916个 - 3×3压缩后送入LLM：324个 - CSA压缩后KV Cache条目：81个从原始像素到最终KV Cache，整体压缩比达到7,056倍。为了平衡性能和计算成本，ViT输出的视觉token数量被限制在81到384之间。超出这个范围的图片会在保持宽高比的前提下缩放。对比一下各模型处理800×800图片需要的Token/KV条目数。用最少的视觉Token，达到了前沿性能。这个效率差距相当惊人。 ## 预训练：大规模数据构建的工程细节为什么优先大规模扩展Box数据？论文给了三个很实在的理由：一、标注确定性高边界框紧紧包住物体，标注结果相对唯一。但点标注就很模糊了，物体上任何一个位置都可以是合法的点。极端情况下，如果物体被遮挡，你想标的背景物体上的点可能落在了前景遮挡物上，歧义非常大。二、任务泛化性好会输出框的模型可以轻松泛化到点格式，因为一个框本质上就是两个点（左上角和右下角）定义的。三、信息量更丰富点只提供位置，框还包含宽高等几何信息，能支持更复杂的下游推理。数据采集与清洗团队从互联网上大规模爬取目标检测相关数据。以Huggingface为例，用官方API筛选标记为"Object Detection"或"Grounding"的数据集，按热度排序做初筛，严格排除所有验证集和测试集防止数据泄露。还用LLM Agent自动解析各数据集的README文件，把五花八门的数据格式统一转换成预定义格式。爬取去重后，得到97,984个与框标注相关的数据源。人工抽检发现类别非常丰富，从常见目标（人、脸）到专业领域（CT扫描中的病灶区域、特定动漫角色）都有。但原始标注质量参差不齐，需要进一步过滤。两步过滤流水线第一步：语义审查。用MLLM自动检查标签的语义质量，过滤三类致命缺陷： 1、无意义的机器编码很多数据集保留了内部开发代码，比如标签就是"0"或"1"。强迫模型学这种映射会严重损害语言生成能力。 2、不可泛化的私人实体比如"MyRoommate（我的室友）"或"ID_Card_1"。模型没法从几个样本里学会某个非公众人物的视觉特征。公众人物则保留。 3、模糊缩写和主观评价比如工业检测里的"OK"或"NG"（Not Good）。一个"OK"标签，对应"完好的苹果"和"完好的电路板"，视觉上毫无关联。具体做法是：每个数据集抽3张图，让模型打0到10的质量分，输出"KEEP"或"DISCARD"决定，并附上理由。这一步从97,984个数据源筛到43,141个。第二步：几何质量审查。检查框标注的物理精度： 1、严重漏标（低召回率）图里明明有很多同类物体，只标了几个。抽样时漏标率超过50%的直接丢弃。 2、严重截断和偏移框没有合理包住目标。稍微松一点（包含少量背景噪声）可以接受，但严重截断关键视觉特征（比如切掉头或车轮）绝对不行。 3、巨型框问题框覆盖了图片90%以上面积，通常是图像分类数据被强行转成检测数据。偶尔出现算噪声，如果三张抽样图都这样，直接丢弃。这一步从43,141个筛到31,701个。类别均衡采样为了防止某些类别过度主导，团队设计了按类别采样的策略：每个数据集的每个类别最多随机抽1,000张图，不足1,000张的全保留。由于一张图可能属于多个类别，采样后做全局去重。最终得到超过4,000万高质量样本。统一的数据格式框标注和点标注都有统一的格式规范。框标注的提示模板类似："Locate TARGET in this image and report its bounding box coordinates." （请在该图像中定位目标，并报告其边界框坐标）回复格式用特殊token包裹：<|ref|>TARGET<|/ref|><|box|>[[x1,y1,x2,y2],...]<|/box|>。坐标归一化为0到999的离散整数，多个实例按从左到右排序。点标注的提示模板类似："Help me find TARGET. Give me the center point for each instance." （帮我找到目标。请给出每个实例的中心点）回复格式：<|point|>[[x1,y1],[x2,y2]...]<|/point|>。注意点格式的回复不需要输出物体名称，这是刻意设计的，目的是让点标记能扩展到更抽象的概念，比如用一串点表示一条轨迹。整个预训练阶段消耗了数万亿（trillions）多模态token。 ## 后训练：四类核心任务的冷启动数据预训练让模型具备了输出视觉原语的基础能力，但后训练需要一小批高精度的冷启动数据来引导模型学会"在推理过程中使用视觉原语"。冷启动数据有两个关键要求：（1）有明确的监督目标（来自标注或程序生成）。（2）尽可能配备自动验证器（比如规则检查器）来减少标签噪声。团队选了四类最能体现视觉原语价值的任务。 1. 计数（约10,000个冷启动样本）为什么计数特别需要视觉原语？人类数东西的时候会用"扫描并累加"的策略，一个一个点着数。但语言模型在物体数量多的时候，很难建立精确的一一对应关系。用框来锚定每个被数的物体，就像给每个物体贴了个编号。粗粒度计数比如"数图里有多少只狗"。从多个密集检测数据集聚合数据，经过三重过滤（避免物体过于密集、确保框足够大能看清、确保标注召回率高）。然后让MLLM按三步协议生成思维内容：（1）意图分析，识别目标类别（2）批量定位，一次性用视觉原语标记所有候选物体（团队发现批量定位比逐个枚举更高效，因为它能利用模型本身的定位能力，避免重复列举）（3）统计求和。还有一个严格的验证机制：确保思维内容中所有框坐标与元数据严格对齐、符合预定义语法、且与最终数字一致。细粒度计数比如"数图里有多少只在地面上的熊"。公开数据集太少，团队自建了一套数据构建流水线。先利用GQA数据集的图片和场景图（scene graph，记录了图中物体及其属性、关系的结构化数据），让MLLM生成细粒度计数问题，记录正确物体ID、排除的负样本ID和构题理由。然后以这些信息为输入，引导MLLM合成带视觉原语的推理链。跟粗粒度计数不同的关键点在于：细粒度计数要求模型做逐个扫描，系统性地检查场景中每个可能的物体是否满足指定的细粒度约束条件。团队还专门构建了答案为零的负样本，增强模型对幻觉的抵抗力。 2. 空间推理与通用视觉问答（约9,000个冷启动样本）论文把空间推理和通用VQA（视觉问答）合并为一个类别。核心假设是：在空间推理任务中培养出的"用视觉原语思考"能力，会自然泛化到更广泛的VQA场景。 1、自然场景数据同样基于GQA的图片和场景图，让MLLM设计以空间关系和物体交互为核心的问题，配合意图分析、物体定位、关系推理的结构化思维内容。在拥挤场景中，模型被指示选择有区分度的物体，并结合多种属性约束（比如同时用动作和属性）来唯一指定目标。但GQA的关系结构相对简单，很难大规模生成复杂的多跳推理样本。 2、合成场景数据为了突破这个限制，团队用CLEVR工具链生成多跳推理数据。 CLEVR支持可控的场景生成（不同物体密度）、问题生成、以及可编程的执行轨迹（每个推理步骤都映射到具体的物体ID）。团队把3D物体坐标投影为2D边界框作为监督信号，然后让MLLM合成包含意图分析、任务分解、多跳定位推理的思维链。 3、负样本增强专门构建查询物体或关系不存在的训练样本。在这种情况下，模型被训练为基于视觉证据给出"忠实拒绝"（faithful refusal），而非编造回答。 3. 迷宫导航（约460,000个冷启动样本）这是最有意思的任务，也是数据量最大的一个。为什么迷宫导航特别适合视觉原语？纯语言的思维链根本没法准确描述不规则形状的路径走向。但用点坐标就很自然，模型可以一步步标记"我现在在哪，我要往哪走"。迷宫生成方法：用三种经典算法（DFS深度优先搜索、Prim、Kruskal）生成可解且有难度的迷宫。这三种算法的共同特点是：任意两个格子之间只有少数路径，确保解不能被轻易猜到。三种拓扑结构：矩形网格、由同心环和角扇区组成的圆形迷宫、六边形（蜂巢）网格。不可解迷宫的精心设计：先生成一个可解迷宫，获取解路径，然后在路径中段（避开起点和终点附近）故意放几面墙，打断连通性。这样迷宫乍一看像是能走通的，但实际上需要完整搜索才能确认无解。这个设计非常巧妙，逼模型真正去搜索而不是凭直觉猜。视觉风格多样化：渐变色和加粗墙壁、多种背景图案、多种标记类型、随机小角度旋转，防止模型对特定视觉模式过拟合。图片分辨率随机化，宽高比连续采样，网格尺寸按比例调整。难度控制：通过改变网格大小来控制。网格越大，模型需要解析更多格子、在更长距离上追踪连通性、处理更多需要回溯的死胡同。简单迷宫只需要几步局部连通性检查，噩梦级迷宫需要持续链接数百个视觉原语操作，同时不丢失对已探索区域的记忆。每个难度级别都有最低分辨率阈值，确保视觉原语在最难的配置下仍然可感知，让任务难度来自推理复杂度而非视觉模糊性。思维内容合成：设计多种自然语言模板来描述基于DFS的探索过程，包括前进探索和回溯。每一步探索都通过点坐标锚定到图片上，把视觉原语操作（检查某个格子的墙壁连通性、前进到相邻格子、从死胡同退回）显式转化为语言化的推理链。最终输出迷宫是否可解，如果可解则提供验证过的解路径。 4. 路径追踪（约125,000个冷启动样本）任务是：给一堆缠绕在一起的曲线，指定一条线的起点，问它连接到哪个终点。数据生成：用多条贝塞尔曲线（Bézier curves，一种用控制点定义的平滑曲线）生成图片，每条线连接一个有标签的起点和终点。核心挑战在于交叉点消歧：两条线交叉的地方，模型必须判断哪条分支是目标曲线的延续。为了确保这个能力被真正测试，团队做了两个关键约束：（1）任何终点都不能与无关线条重叠或交叉，违反的配置直接丢弃重新生成（2）专门设计了统一风格模式，所有线条颜色和粗细完全相同，剥夺颜色捷径，强迫模型只能依靠曲率连续性来判断，直接测试路径追踪能力是否被真正内化。难度控制：随线条数量和曲率幅度自然增长。简单实例是几条平缓曲线、稀疏交叉。困难实例是大量紧密缠绕的曲线，交叉点密集。图片分辨率、宽高比、视觉风格（调色板、线条样式、端点标记、背景）全部随机化。思维内容合成：把路径追踪过程表示为沿目标曲线采样的坐标序列。从定位起点开始，经过一系列中间路径点，最终识别到达的终点。关键细节是：路径点的密度会自适应曲线的局部几何形状。直线段用较少的点，高度弯曲或交叉密集的区域用更密集的坐标，模拟人类"在视觉复杂区域放慢速度仔细看"的行为。 ## 后训练流水线：专家分治再合并整个后训练采用"先训专家，再合并"的策略，分四个阶段。阶段一：Specialized SFT（专项监督微调）训练数据由70%通用多模态和纯文本数据 + 30%专项"用视觉原语思考"数据组成。关键设计：分别用box数据和point数据训练两个独立模型，得到FTwG（Thinking with Grounding，用框思考）和FTwP（Thinking with Pointing，用点思考）。分开训练是为了防止模式冲突，当专项数据量相对较小时，两种模式混在一起会互相干扰。阶段二：Specialized RL（专项强化学习）对FTwG和FTwP分别做强化学习，使用GRPO（Group Relative Policy Optimization，组相对策略优化）算法。一个重要的设计决策：RL阶段不显式监督思维过程中的视觉原语。因为冷启动数据中的视觉原语已经经过严格验证，模型在SFT阶段已经学会了基本的使用方式。 RL阶段只需要图片、问题和最终答案，这大大拓宽了可用数据的范围，增强了RL训练的可扩展性。三层奖励模型每个任务从三个维度同时提供监督： Format RM（格式奖励）：基于规则，输出0到1的分数。检查视觉原语的表示格式是否正确。对于框模式，还额外检查输出冗余，比如生成重复的边界框，有效缓解SFT模型陷入无限循环生成框的问题。 Quality RM（质量奖励）：基于LLM的生成式奖励模型（GRM），评估五个方面： - 回复是否冗余 - 思维内容与最终回复是否一致 - "用视觉原语思考"过程中是否自相矛盾 - 输出框时指代的物体是否是有意义的实体 - 模型是否存在"奖励黑客"行为，比如在回复中强行编造一个与自己预测一致的假标准答案来欺骗奖励模型输出三档分数（0.0、0.5、1.0），并附上评分理由。 Accuracy RM（准确性奖励）：针对每个任务单独设计。计数任务的准确性奖励：用平滑指数衰减代替简单的对错判断。预测值和真实值的相对误差越小，奖励越高；差得越多，奖励衰减越快。分母加了真实值，使得在物体数量多的场景下，差一两个的容忍度更高。实践中衰减参数经验性地选择，确保学习信号稳定平滑。空间推理和通用VQA的准确性奖励：用LLM-based GRM，把模型的思维内容、最终回复、用户问题和标准答案一起输入，分别对思维过程和回复打分，取平均。迷宫导航的准确性奖励：拆成五个维度的加权组合，这是所有任务中设计最精细的： - 因果探索进度：按顺序处理模型的探索步骤，遇到第一次穿墙违规就截断后续所有探索（因为后续推理因果上已经无效了），然后计算已探索区域到终点的最短距离占最优路径长度的比例。只用于可解迷宫。 - 探索完整性：对于不可解迷宫，模型必须穷举探索所有可达区域才能证明无解。计算已探索区域占所有可达区域的比例。只用于不可解迷宫。 - 穿墙惩罚：独立于因果截断，扫描整个探索轨迹，统计每一次穿墙违规。确保穿墙行为永远有代价，即使发生在探索后期。 - 最终路径有效性：当模型声称迷宫可解时，验证给出的解路径中相邻格子是否合法连通、路径是否从起点到终点连续。可解迷宫的二元分数，不可解迷宫保持为1。 - 答案正确性：模型的可解性判断是否与真实答案一致的二元分数。这种分解确保奖励信号是密集且有信息量的：模型在每个正确应用视觉原语的步骤都能获得奖励，而非只看最终的二元答案。路径追踪的准确性奖励：也是多维度加权组合： - 轨迹准确性（双向评估）：正向，对每个预测点计算它到真实曲线任意线段的最小距离，取平均，惩罚偏离真实路径的点；反向，对每个真实路径点计算它到预测折线任意线段的最小距离，惩罚不完整覆盖（模型跳过了曲线的某些部分）。最终取两个方向的平均。单看正向会允许模型只在起点附近输出几个安全的点，单看反向不会惩罚虚构的绕路。两个方向结合才能逼模型完整且准确地追踪整条曲线。 - 端点准确性：分别验证模型是否正确识别了起点和终点位置。计算预测坐标与真实边界框中心的距离，超过容忍阈值分数降为零。 - 轨迹连续性惩罚：如果模型轨迹的最后一个点和它声称的终点之间距离超过阈值，施加固定惩罚。防止模型输出一段不完整的轨迹然后"跳"到一个猜测的终点。 - 答案正确性：模型最终回答中的终点标签是否与真实答案匹配。 RL数据的难度分级 RL训练前，用SFT冷启动模型对数据池做N次rollout（让模型对同一个问题生成N个回答），根据奖励模型打分，把数据分成三个难度级别： - Easy：N次全对 - Normal：1到N-1次正确 - Hard：N次全错只选Normal级别的数据做RL训练，确保模型能从中获得有价值的学习信号。全对的太简单学不到东西，全错的太难也学不到。这个策略在GRPO训练中非常关键。经过Specialized RL（专业强化学习），得到两个专家模型：ETwG（框专家）和ETwP（点专家）。阶段三：Unified RFT（统一拒绝微调）前面两个阶段分别训练出了"框专家"和"点专家"，各自在自己的领域很强，但它们是两个独立的模型。这个阶段的目标是：把两种能力合并到同一个模型里。怎么合并？核心思路是"让专家出题，让新模型学"：第一步：用专家模型生产高质量训练数据。让框专家和点专家分别对大量问题生成多个回答，然后用奖励模型打分，按之前的难度分级策略筛选——保留所有 Normal 级别数据（模型有时对有时错，最有学习价值），再加入 5% 的 Easy 级别数据（模型全对的简单题，掺进去是为了防止模型在简单场景上"退化"）。第二步：从头训练一个新模型。这里有一个反直觉的设计。不是在框专家或点专家的基础上继续训练，而是回到最初的预训练基座模型，用第一步筛选出的这批更大、更多样的数据重新做一遍SFT。 > SFT解释：预训练阶段的模型只是学会了"语言的规律"，像一个读了很多书但没上过课的学生。SFT 就是拿一批"标准问答对"来教它怎么正确回答问题为什么要"回到原点"重新来？因为专家模型已经在各自的专项数据上训练过，参数里带有偏向性。如果在它们的基础上继续训练，一种能力的参数可能会覆盖另一种。从干净的基座重新出发，用同时包含框数据和点数据的混合数据集训练，模型能更均衡地学会两种能力。训练的超参数和流程与最初的 SFT 冷启动阶段完全一致，唯一的区别就是训练数据更好了。因为这些数据是由已经很强的专家模型生产并经过严格筛选的。 > 超参数（Hyperparameters）是训练开始之前由人为设定的配置项，它们控制着"模型怎么学习"。打个比方：如果把训练模型比作做菜，那超参数就是火候、时间、翻炒频率这些你在开始做菜前就要决定好的东西，而不是食材本身。这一步得到的统一模型称为模型 F。阶段四：On-Policy Distillation（在策略蒸馏）虽然统一模型F比冷启动模型有了大幅提升，但跟各自领域的专家模型相比仍有差距。为了弥合这个差距，采用OPD（On-Policy Distillation）。核心思路是：让学生模型基于自己生成的轨迹来学习教师模型的输出分布。用反向KL散度作为损失函数，对两个教师模型（ETwG和ETwP）的输出分布做加权蒸馏。 > 反向KL散度让近似分布宁可只抓住真实分布的一个峰也不乱猜，追求"说得少但说得准"，而不是"面面俱到但不精确"。采用全词表logit蒸馏，也就是在整个词表上对齐概率分布，而非只看top-k。 ## 训练的工程细节 "用什么工具、怎么省算力"来完成这么大规模的训练？训练框架：使用 HAI-LLM，这是一个基于 PyTorch 的分布式训练框架，可以把训练任务拆分到大量 GPU 上并行执行。序列长度（模型一次能"看"多长的内容）： - 预训练阶段：64K token——相当于一次能读大约5万字 - 后训练阶段：扩展到 256K token——因为"用视觉原语思考"的推理链很长，模型需要在一次推理中输出大量坐标，所以必须把"视野"拉长4倍数值精度（用多少位数字来表示模型参数）：这是省算力的关键手段。正常的浮点数用32位（FP32）表示，精度最高但最耗资源。训练大模型时，业界会主动降低精度来换取速度和显存：越到后面的训练阶段，用的数字越"粗糙"，但因为任务性质允许，所以效果不受影响，算力成本却大幅降低。这是工程上非常务实的取舍。 ## 评估体系公开基准 - 计数：CountQA、Pixmo-Count（使用官方测试集） - 空间推理与通用VQA：SpatialMQA、CV-Bench、EmbSpatial、OmniSpatial、MIHBench 自建基准公开基准的评估维度往往有限，无法充分捕捉"用视觉原语思考"的能力。团队自建了三个维度的测试集： DS_Finegrained_Counting（600个测试样例）：现有细粒度计数基准（如TallyQA）存在标注错误和歧义。团队让MLLM生成受特定属性或空间位置约束的计数问题，刻意确保存在强干扰负样本（与目标同类别但不同属性的物体），经过严格人工验证。 DS_Spatial_Reasoning（2,000个测试样例）：从CLEVR验证集采样1,000个判断题和1,000个开放题，用MLLM为开放题生成干扰选项，转换为选择题格式，便于标准化自动评估。 DS_Maze_Navigation（2,000个测试样例）和DS_Path_Tracing（2,000个测试样例）：按照前述方法论构建。 ## 实验结果主要对比所有模型通过各自API用完全相同的提示词评估。对于支持可配置思考预算的模型（如GPT和Gemini-3-Flash），统一设置思考预算为low，确保公平。计数任务： Pixmo-Count上全场最高，细粒度计数也是最高。 CountQA上非常接近Gemini-3-Flash。空间推理与通用VQA： 6个基准中4个最高，1个并列最高，1个极度接近最高。拓扑推理：这是差距最大的地方。迷宫导航上，其他所有模型都在49到51之间徘徊（基本等于随机猜），只有本文模型达到66.9。路径追踪上更夸张，第二名GPT-5.4只有46.5，本文模型56.7。这说明当前主流模型在需要精确空间追踪的拓扑推理任务上存在系统性缺陷，视觉原语是目前最有效的解法。论文特别声明：报告的分数只覆盖与本文研究重点直接相关的评估维度子集，不代表各模型的整体能力。 ## 定性展示：模型实际表现框作为视觉原语跨领域知识融合：给一张金门大桥的照片，用中文问"这附近有NBA球队吗？"模型先用框标记金门大桥 [[0,134,882,795]]，识别出这是旧金山，然后关联到金州勇士队，回答球馆大通中心就在旧金山。反常识视觉推理：天平两端分别放着金属储物柜和彩虹小熊，模型通过框标记两个物体和两个托盘，观察天平倾斜方向，判断小熊更重。虽然违反日常直觉，但模型忠实于视觉证据。实用场景指导：看到一台咖啡机，用中文问"如何制作拿铁"。模型逐一用框标记咖啡机 [[111,107,721,970]]、蒸汽棒 [[164,405,236,693]]、不锈钢奶壶 [[670,638,853,905]]、咖啡豆 [[810,438,995,885]]、拿铁按钮 [[408,219,444,261]]、咖啡杯 [[535,779,770,988]]，然后给出具体操作步骤，每一步都有空间坐标对应。密集场景计数：数一张29人合影里有多少人，模型一次性输出29个框，按前排坐地上的、中排蹲着的、后排站着的、两侧教练分组统计。幽默理解：左边一块水果有天然的黑斑看起来像眼睛和鼻子，右边是一只表情忧伤的猫。模型用框分别标记水果上的"眼睛"和"鼻子"斑点，以及猫的真实眼睛和鼻子，解释幽默来自两者惊人的相似性。密室逃脱推理：看到一个房间里有高处的钥匙、锁着的门和一把椅子，模型用框标记三个关键物体，推理出"把椅子搬到钥匙下面，踩上去拿钥匙，再去开门"。宝可梦识别与计数：一堆混杂的玩偶里数宝可梦，模型用框标记6个宝可梦（皮卡丘、可达鸭、小火龙、妙蛙种子、胖丁、杰尼龟），同时明确排除了哆啦A梦、路飞、索隆、蜡笔小新等其他动漫角色多语言能力：虽然视觉原语相关的后训练数据里没有任何中文语料，但模型可以用中文思考和回答，得益于底座模型的多语言能力自然继承。识别云南古镇照片时，模型用框标记木门框、方形灯笼、泥土墙壁、鹅卵石步道等细节，最终判断是丽江或沙溪古镇。点作为视觉原语迷宫导航：圆形迷宫，从绿色菱形到红色标签。模型先标记起点和终点坐标，然后用类似DFS的策略逐步探索。遇到死胡同就回溯到上一个分叉点，尝试另一个方向。整个探索过程有18步，最终找到一条15个节点的有效路径。路径追踪：一堆缠绕的彩色线条中，追踪从皇冠图标出发的品红色线。模型输出了80多个坐标点，密密麻麻地沿着曲线走，最终确认连接到章鱼图标。 ## 局限性论文坦诚地指出了三个不足： 1、受输入分辨率限制在极细粒度场景下视觉原语的精度还不够理想。可能的解决方向是把本文框架与现有针对"感知鸿沟"的方法（高分辨率裁剪等）结合，取长补短。 2、需要显式触发词这样才能激活"用视觉原语思考"的能力，还不能自主判断什么时候该用。未来目标是让模型根据具体上下文自动决定是否调用这个机制。 3、拓扑推理的跨场景泛化能力有限。用点作为视觉原语解决复杂拓扑推理仍然是一个艰巨挑战，当前模型在训练过的迷宫和路径追踪上表现好，但更广泛的场景还需要探索。 ## 这篇论文为什么重要？回到最开始的问题。当前多模态AI的推理过程，本质上还是在纯语言空间里进行的。输入是多模态的（图片+文字），输出也可以是多模态的，但中间的思考过程完全是语言。这就像一个人看着一张复杂的地图，闭上眼睛纯靠脑子里的语言描述来规划路线。能做到，但效率低、容易出错。这篇论文的核心贡献是：让推理过程本身也变成多模态的。模型的思维链不再只有文字，还穿插着精确的空间坐标。这就像睁着眼睛看地图，手指沿着路线划，嘴里同时说着"这里左转，那里右转"。眼、手、口协同工作，效率和准确性都大幅提升。从技术路线的角度看，业界过去几年在多模态推理上的主要投入方向是"看得更清"（更高分辨率、更多视觉Token），这篇论文提出了一个互补的方向："指得更准"。而且实验证明，在视觉Token用量只有其他前沿模型十分之一的情况下，光靠"指得更准"就能达到甚至超越"看得更多"的效果。这暗示着视觉信息的利用效率还有巨大的提升空间，关键可能不在于往模型里塞多少像素，而在于怎么用好已有的信息。从更长远的视角看，这篇论文指向了System 2多模态智能的一个重要方向。丹尼尔卡尼曼把人类思维分为System 1（快速直觉）和System 2（慢速深思）。当前的多模态模型在System 1层面已经很强了（看一眼图就能大致描述），但在System 2层面（需要多步推理、精确追踪、逻辑链条不断裂）还有明显短板。论文最后一句话说得很好：通往System 2多模态智能的道路，不仅仅在于"看更多像素"，更在于构建一座精确、无歧义的桥梁，连接语言与视觉世界。

译DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”，核心是让模型在推理过程中像人类一样，使用“点”和“边界框”这类视觉原语来指代图像中的具体位置，以此作为思维的最小单位，旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干，并设计了极致的视觉Token压缩流水线，将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩，模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

Noam Brown@polynoamial · 5月1日46

After 100 million tokens, performance was still going up. What we're seeing here is not the capability ceiling. From the report: "Performance on TLO continues to scale with the amount of inference compute spent, and we have not yet observed a plateau with the best models."

译在1亿个标记之后，性能仍在持续提升。我们在这里看到的并非能力上限。报告指出："TLO上的性能随着推理计算量的增加而持续扩展，我们尚未在最佳模型中观察到性能平台期。" [引用 @AISecurityInst]：OpenAI的GPT-5.5是第二个端到端完成我们多步骤网络攻击模拟的模型🧵

Artificial Analysis@ArtificialAnlys · 5月1日64

Alibaba's Qwen3.6 27B is the new open weights leader under 150B parameters scoring 46 on the Artificial Analysis Intelligence Index, but uses ~3.7x the output tokens and costs ~21x more than Gemma 4 31B (39) to run the full Intelligence Index @Alibaba_Qwen has released two open weights models in the Qwen3.6 family: Qwen3.6 27B (Dense, 46 on the Intelligence Index) and Qwen3.6 35B A3B (MoE, 43). The MoE variant has 36B total parameters but only activates 3B per forward pass. Both are Apache 2.0 licensed, support 262K context, include native multimodal input, and use the unified thinking/non-thinking hybrid architecture. Unlike Qwen3.5, Alibaba has not released larger Qwen3.6 models as open weights - Qwen3.6 Plus and Qwen3.6 Max Preview remain proprietary, so the Qwen3.6 open weights family is currently all under 50B models. All scores below are for reasoning mode. The Intelligence Index is our synthesis metric incorporating 10 evaluations covering agentic tasks, coding, and scientific reasoning. Key takeaways: ➤ Qwen3.6 27B is the most intelligent open weights model under 150B parameters. At 46 on the Intelligence Index, Qwen3.6 27B is ahead of Qwen3.6 35B A3B (43), Qwen3.5 27B (42), and Gemma 4 31B (39). It is also ahead of larger open weights models including NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 36), Qwen3.5 122B A10B (42) and gpt-oss-120b (high, 33). In native BF16 precision, the 27B takes ~56GB to store the weights, fitting on a single H100, and in 4-bit quantization the weights fit on consumer hardware with 16GB+ of RAM ➤ Qwen3.6 35B A3B is the most intelligent open weights model with ~3B active parameters, 6 points ahead of Qwen3.5 35B A3B (37) and 13 points ahead of GLM-4.7-Flash (30). Other ~3B active peers include Gemma 4 26B A4B (31), Qwen3 Coder Next (80B total, 28), and NVIDIA Nemotron Cascade 2 30B A3B (28) ➤ AA-Omniscience improvement is driven entirely by abstention rather than accuracy. Qwen3.6 27B's hallucination rate falls from 80% to 48% versus Qwen3.5 27B, while accuracy is roughly flat - consistent with our finding that AA-Omniscience accuracy typically correlates with total parameter count and Qwen3.6 27B retains the same 27B parameter count as its predecessor. The 35B A3B shows the same pattern whereby hallucination drops from 84% to 50% while accuracy remains equivalent ➤ Token usage is up across both models versus Qwen3.5 and significantly higher than Gemma 4 31B. Qwen3.6 27B used ~144M output tokens to run the Intelligence Index (~1.5x Qwen3.5 27B at 98M, ~3.7x Gemma 4 31B at 39M). Qwen3.6 35B A3B used ~143M (~1.4x Qwen3.5 35B A3B at 100M, ~3.7x Gemma 4 31B) ➤ The 27B got materially more expensive while the 35B A3B is roughly flat versus predecessor. Per-token pricing on Alibaba Cloud moved differently, with the 27B going from $0.30/$2.40 to $0.60/$3.60 while the 35B A3B (Reasoning) remains nearly flat at $0.248/$1.485 (vs $0.25/$2.00 for Qwen3.5 35B A3B). Qwen3.6 27B costs ~$659 to run the Intelligence Index, ~2.2x Qwen3.5 27B (~$299) and ~21x Gemma 4 31B (~$31 at median third-party pricing of $0.14/$0.40 per 1M input/output tokens). Qwen3.6 35B A3B costs ~$280, roughly tied with Qwen3.5 35B A3B (~$302) and ~9x Gemma 4 31B ➤ Qwen3.6 27B is competitive with leading models on agentic real-world work tasks despite its size. At 1414 Elo on GDPval-AA, Qwen3.6 27B is ahead of recent open weights peers Qwen3.6 35B A3B (1297), Qwen3.5 27B (1157) and Gemma 4 31B (1115), but trails larger open weights leaders including DeepSeek V4 Pro (Reasoning, Max Effort, 1554) and GLM-5.1 (Reasoning, 1535). It matches DeepSeek V4 Flash (Reasoning, High Effort, 1414) at 284B total parameters, and sits roughly in line with GPT-5.4 mini (xhigh, 1436) and Muse Spark (1421). ➤ Non-reasoning variants remain equivalent versus Qwen3.5. Qwen3.6 27B (Non-reasoning, 37) is effectively tied with Qwen3.5 27B (Non-reasoning, 37); Qwen3.6 35B A3B (Non-reasoning, 32) is equivalent to Qwen3.5 35B A3B (Non-reasoning, 31). The Qwen3.6 generation gains are concentrated in reasoning mode Other information: ➤ Context window: 262K tokens (equivalent to Qwen3.5) ➤ License: Apache 2.0 ➤ Multimodality: Native vision input (text and image), text output ➤ API pricing (Alibaba Cloud): Qwen3.6 27B: $0.60/$3.60, Qwen3.6 35B A3B (Reasoning): $0.248/$1.485 ➤ Availability: Available on Alibaba Cloud first-party API. Qwen3.6 35B A3B is available on several third-party APIs such as @DeepInfra, @parasail_io, @clarifai and @novita_labs

译阿里巴巴开源了Qwen3.6系列两款模型：27B密集模型和35B A3B混合专家模型。其中，Qwen3.6 27B在Artificial Analysis智能指数上得分46，成为150B参数以下最智能的开源模型，领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍，成本高出约21倍。两款模型均采用Apache 2.0许可，支持262K上下文，具备多模态能力。值得注意的是，其幻觉率较前代大幅下降，但准确率基本持平。更大的Plus和Max Preview版本未开源。

Chubby♨️@kimmonismus · 4月30日47

Demis Hassabis: We're on the right track to AGI; we probably have all the components. We're just missing a few things like continual learning and solving the memory problem.

译Demis Hassabis: 我们正走在通往AGI的正确道路上；我们可能已经具备了所有组件。我们只是缺少一些东西，比如持续学习和解决记忆问题。

Artificial Analysis@ArtificialAnlys · 4月30日56

Tencent has released Hy3-preview, an open weights reasoning model scoring 42 on the Artificial Analysis Intelligence Index, trailing recent open weights peers Hy3-preview is the latest model from @TencentHunyuan. It is a 295B total / 21B active parameter Mixture-of-Experts model, smaller than its December 2025 predecessor Tencent HY 2.0 (406B total / 32B active). Recent leading open weights reasoning models include Qwen3.6 27B (Reasoning, 46), DeepSeek V4 Flash (Reasoning, Max Effort, 47, 284B / 13B) and GLM-5.1 (Reasoning, 51, 744B / 40B). The Intelligence Index is the Artificial Analysis synthesis metric incorporating 10 evaluations covering agentic tasks, coding and scientific reasoning. Key takeaways: ➤ Hy3-preview trails recent open weights peers on GDPval-AA. Hy3-preview scores an Elo of 1235 on GDPval-AA, our agentic real-world work tasks benchmark, behind Qwen3.6 27B (Reasoning, 1414), DeepSeek V4 Flash (Reasoning, Max Effort, 1388) and GLM-5.1 (Reasoning, 1535). GDPval-AA tests models on real-world tasks across 44 occupations and 9 major industries. ➤ Hy3-preview ties GLM-5.1 (Reasoning) on CritPt despite scoring nearly 10 Intelligence Index points lower. Hy3-preview scores 4.6% on CritPt (research-level physics), matching GLM-5.1 (Reasoning, 51 on the Intelligence Index) and ahead of Qwen3.6 27B (Reasoning, 1.1%) but behind DeepSeek V4 Flash (Reasoning, Max Effort, 7.1%). It trails the open weights leaders, including DeepSeek V4 Pro (Reasoning, Max Effort, 12.9%) and Kimi K2.6 (8.0%). ➤ Hy3-preview used ~125M output tokens to run the Intelligence Index. This is ~12% more than GLM-5.1 (Reasoning, 112M) and less than Qwen3.6 27B (Reasoning, 144M) and DeepSeek V4 Flash (Reasoning, Max Effort, 241M). ➤ AA-Omniscience is a relative weakness compared to peers. Hy3-preview scores -35 on the Artificial Analysis Omniscience Index with 28% accuracy and an 87% hallucination rate. This trails DeepSeek V4 Flash (Reasoning, Max Effort, -23), Qwen3.6 27B (Reasoning, -20) and GLM-5.1 (Reasoning, 2). Other information: ➤ Size: 295B total parameters, 21B active parameters ➤ Context window: 256K tokens ➤ License: Tencent HY Community License Agreement, with restricted commercial use ➤ Availability: Weights are available on @huggingface Face and the model is also available on @SiliconFlowAI at $0/$0 per 1M input/output tokens

译腾讯发布开源混合专家模型Hy3-preview，总参数量2950亿，激活参数量210亿。其在Artificial Analysis综合智能指数上得分42，落后于近期开源的GLM-5.1、DeepSeek V4 Flash及Qwen3.6 27B等推理模型。具体评测表现不均衡：在真实世界任务基准GDPval-AA上落后于主要竞品，但在研究级物理评测CritPt上与高分模型GLM-5.1持平；其相对弱项在于AA-Omniscience指数，幻觉率较高。模型采用Tencent HY社区许可协议，商业使用受限，已在Hugging Face和SiliconFlowAI平台提供。

Berryxia.AI@berryxia · 4月30日55

今天看到一条容易被刷掉的消息，但越想越觉得有意思。 LMArena 文本榜最新更新，文心 5.1 Preview 拿下 1476 分，国内第一，全球前十五唯一国产模型，排在 GPT-5.5 和 DeepSeek-V4-Pro 前面。这事本身已经够新闻了。但真正让我多看一眼的，是另一个被忽略的细节。 DeepSeek V4 发了，文心 5.1 Preview 也发了。两家最受瞩目的国产旗舰，主战场都还是文本模型。这一年 AI 圈的声量几乎全在 Agent、多模态、视频生成、推理链。文本？文本好像已经是上个时代的故事。但为什么最强的旗舰，发出来还是文本？因为文本能力是大模型的地基。代码、推理、多模态，全都从文本「长出来」的啊。代码是受限语法的文本，推理是语言层面的符号演算，多模态对齐相当大一部分工作是把信号映射回语言空间。地基差一节，上面所有能力都跟着差一节。这不是行业落伍，是在告诉你一件事，文本依旧是模型拉开差距的分水岭。

译文心5.1 Preview在LMArena文本榜以1476分位列国内第一，是全球前十五名中唯一的国产模型，排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态，但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基，代码、推理等多维度能力均由此衍生，地基差异直接影响上层性能，因此文本仍是模型拉开差距的关键分水岭。引用推文显示，文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

SemiAnalysis@SemiAnalysis_ · 4月30日53

GB300 NVL72 Rack Scale Dynamo SGLang disaggregation has up to 6.5x better performance than B200 on DeepSeekv4 Pro 1.6T 🚀 The high throughput configuration uses @deepseek_ai 's MegaMoe kernels which fully fuses & overlaps EP dispatch & EP combine & the GEMMs into an single kernel. This performance is achieved from the 10x engineers @BanghuaZ, Tom & the rest of the team at @radixark, @lmsysorg & @NVIDIAAI for rapidly enabling this performance! Big Shoutout to @CoreWeave to contributing temporary GB300 NVL72 racks towards the open source performance optimization for all to benefit!

译在 DeepSeek-V4 Pro 1.6T 模型上，采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核，该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源，使整个社区受益。

Baidu Inc.@Baidu_Inc · 4月30日65

ERNIE 5.1 Preview just went live 🚀 With a lighter, more efficient architecture, it delivers strong performance at its scale. And this is just the start — more ERNIE model updates to come at Baidu Create 2026.

译百度ERNIE 5.1 Preview模型正式上线。该模型采用更轻量高效的架构，在总参数量压缩至前代约1/3、激活参数量约1/2的同时，仅消耗可比模型约6%的预训练成本，实现了在其规模下的领先基础性能。根据@arena的Text Arena榜单，ERNIE 5.1 Preview在全球总排名第13位，并位列中国实验室第一。其在多个细分领域进入全球前十，特别是在法律与政府领域排名第一。百度预告将在2026年的Baidu Create大会上发布更多ERNIE模型更新。

ginobefun@hongming731 · 4月30日47

AGI 的到来并不遥远，Demis Hassabis 在最新访谈中预计其时间节点大概在 2030 年左右。科技创业者必须提前将其诞生纳入长远战略规划，确保研发的产品在未来依然具备核心竞争力。目前的底层架构虽然奠定了良好基础，但通往终极形态还需重点攻克持续学习与长期推理这两大难题。当下的系统主要依赖扩大上下文窗口来堆积海量信息，这种做法相对粗暴且低效。理想的持续学习应当像人类大脑海马体那样，将新知识优雅且高效地融入现有的认知体系中。另外，由于缺乏对自身思维过程的内省与监控能力，模型在进行长逻辑链推理时极易陷入死循环。具备自主规划和行动能力的智能体被视为通向通用人工智能的必经之路。业界正在加速发掘智能体的真实商业潜能，使其从早期的概念演示转变为真正提升生产效率的实用工具。不过，由于依然欠缺持续学习能力，目前的智能体难以完美适应复杂多变的特定应用环境，这也制约了它们独立完成大型复杂任务的可能。在模型生态的演进路径上，大小模型协同运作已成为核心趋势。蒸馏技术让轻量级模型能够以极低的算力成本达到前沿大模型绝大部分的性能指标。这种高效的端侧模型不仅大幅降低了服务响应成本并保障了用户隐私安全，还将成为未来家庭机器人的标配设施。本地轻量级模型与云端超大模型的协同编排，结合原生多模态能力的加持，将共同构建出全面理解并重构物理世界的基础设施。

译Demis Hassabis预测AGI将在2030年左右到来，科技创业者必须提前将其纳入长远战略规划。当前底层架构需攻克持续学习与长期推理两大难题，智能体被视为通向AGI的必经之路，但受限于持续学习能力难以适应复杂环境。模型生态上，大小模型协同运作成为趋势，蒸馏技术使轻量级模型以低成本达到高性能，端侧模型降低成本并保障隐私，未来与云端超大模型协同构建理解物理世界的基础设施。

meng shao@shao__meng · 4月30日63

GPT-5.5 提示词指南 https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5 GPT-5.5 模型推理更高效，能自主选择路径，因此提示词应当变得更短，从"指挥流程"转向"定义结果、给出预算、设定停止"——把判断空间还给模型，把约束、证据规则与终止条件写清楚。和 GPT-5.4 相比的关键变化 · 少即是多：以"结果导向"的简短提示通常优于堆叠流程的长提示 · 重新评估推理强度：low 和 medium 已经够用，不要默认升级到 high · 保留的能力：preamble、phase 字段、assistant item 回放，仍是工具密集型 Responses 工作流的关键 · 新增重点：显式的人格设定、检索预算、校验循环 Tips：不要把 GPT-5.4 等旧模型的提示词直接迁移过来。旧提示往往过度规定流程——这在 GPT-5.5 上反而会引入噪声、收窄搜索空间、让回答变得机械。人格与协作风格 GPT-5.5 默认风格是高效、直接、任务导向。对面向用户的产品（客服、辅导、陪伴等），需要显式定义两个维度： · 人格：语气、温度、正式程度、幽默、共情——决定"听起来怎样" · 协作风格：何时提问、何时假设、主动性高低、如何处理不确定性——决定"做事怎样" 用 Preamble 改善首字延迟长任务或需调用工具时，让模型在动作前先输出一句可见的简短确认（"我先做 X"）。这不改变任务本身，却能显著改善流式应用的感知响应速度。结果优先的提示与停止条件推荐写法——描述目的地，不规定每一步，比如： Resolve the customer's issue end to end. Success means: - 决策基于现有政策与账户数据 - 允许范围内的动作在回复前已完成 - 最终输出包含 completed_actions, customer_message, blockers - 缺证据时，只追问最小必要字段避免这样列流程：先 A、再 B、再比较、再思考、再调工具…… 关于 ALWAYS / NEVER / must 等绝对词：只用于真正不可违反的规则（安全、必填字段）。判断类问题（是否要搜索、是否要追问）应改为决策规则。显式停止条件，比如： "在最少有用的工具循环内解决问题，但不要让'减少循环'压过正确性、证据可得性、计算与必要的引用。每一步后自问：现在是否已足够回答用户核心诉求？是则停下。" 输出格式 · 通过 text.verbosity 控制详略，默认 medium，简洁场景用 low · 默认用纯段落，标题、加粗、列表只在能提升可比较性或可扫读性时使用 · 给定受众与字数（如"面向高管，<400 字，结论先行"） · 编辑/改写类任务，先告诉模型要保留什么（结构、长度、体裁），再要求改进——避免悄悄扩写或加营销腔检索预算把"何时停止搜索"写进提示。原则：先一次广搜，命中即答；只有在以下情形才再搜： · 顶部结果未回答核心问题 · 缺关键事实/参数/负责人/日期/ID/来源 · 用户要求穷尽列举或对比 · 必须读到指定文档/邮件/会议/代码 · 否则会留下重要的未支持事实声明不要为了润色措辞、补充无关细节、让语句更具体而再次检索。创意写作的护栏写 slide、launch copy、leadership blurb、talk track 等"半事实半创意"内容时，明确分层： · 产品/客户/指标/路线图/能力等具体声明必须来自检索到的事实，并标引用。 · 不要为了让稿子更有力而虚构名字、第一方数据、客户成果或产品能力。 · 缺证据时，写通用稿+占位符或显式假设，而不是编造具体细节。让模型自检为模型提供可执行的校验工具，并要求它使用： · 代码任务：跑相关单测、类型检查、lint、build、最小冒烟测试。 · 可视化产物：渲染后再检查布局、裁剪、间距、缺失内容。 · 工程规划：方案要可追溯——需求映射、涉及资源、状态/数据流、校验命令、失败行为、隐私安全、未决问题。 Phase 参数（工具密集工作流）用 previous_response_id 时，API 自动保留 assistant 状态。手动回放 assistant items 时，必须原样保留 phase 值： · phase: "commentary" 用于中间可见更新 · phase: "final_answer" 用于最终答案 · 不要给 user 消息加 phase 推荐的提示词结构模板 Role: [1–2 句定义功能、上下文、职责] # Personality 语气与协作风格 # Goal 用户可见的结果 # Success criteria 最终答案前必须满足的条件 # Constraints 政策、安全、业务、证据、副作用限制 # Output 分节、长度、风格 # Stop rules 何时重试、回退、放弃、追问、停止

译GPT-5.5因推理能力增强，提示词应转向精确定义结果、约束与停止条件，而非详细规定流程。相比前代，需采用更简短的结果导向提示，并重新评估推理强度需求。关键新增点包括显式人格设定与检索预算。指南强调不应直接迁移旧提示，避免限制模型搜索空间。此外，还涉及利用Preamble改善响应感知、设定停止条件、控制输出格式等实用技巧。

向阳乔木@vista8 · 4月30日67

又快又便宜，海外的赞誉越来越多，不要只看Benchmark，看疗效。比如很多朋友都建议把沉浸式翻译的自定义模型换成V4 Flash，跟不要钱一样。

译DeepSeek V4 Flash模型因响应速度快、成本低，获海外用户好评。用户强调应重实际效果而非基准测试，例如建议沉浸式翻译改用该模型。有用户称其速度优势显著，已将非复杂推理API调用切换至V4 Flash，体验无感秒处理，成本比Claude Haiku省90%且质量更优。

Rohan Paul@rohanpaul_ai · 4月30日43

Researchers found that when language models face harder questions, their internal brain activity literally shrinks into fewer paths. Language models actually compress their internal thinking when they get confused, and we can use that to help them. Standard AI models usually spread their thinking across many artificial neurons when they confidently recognize familiar information. The team discovered that if you confuse a model with tricky math or conflicting facts, this broad activation collapses into a highly concentrated signal in its final processing layer. This shrinking happens because the system drops its robust distributed memory and forces the computation into a tiny specialized space to survive the unfamiliar challenge. The big deal is that we usually have no idea when a language model is actually struggling with a weird prompt until it gives a wrong answer. This paper proves that the model actually broadcasts its confusion internally by abandoning its wide neural networks and falling back on a very tiny cluster of active neurons. Because we can measure this exact shrinking effect as a raw number, we do not have to guess if a question is too hard for the AI. We can just read that internal signal and automatically provide the system with the perfectly scaled stepping stones it needs to solve the problem. ---- Paper Link – arxiv. org/abs/2603.03415 Paper Title: "Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs"

译研究发现，当语言模型面对困难问题时，其内部“脑活动”会收缩到更少的路径中。模型在感到困惑时会压缩内部思考，表现为从广泛分散的神经元激活，坍缩为最终处理层中高度集中的信号。这是因为系统放弃了稳健的分布式记忆，将计算强制压缩到狭小的专门空间以应对陌生挑战。关键在于，这种收缩效应可被量化为一个原始数值，从而无需猜测问题对AI是否过难。通过读取此内部信号，便能自动为系统提供恰如其分的“垫脚石”以辅助其解决问题。

宝玉@dotey · 4月30日69

OpenAI 上周发布 GPT-5.5 后，紧接着放出了一份官方提示词指南。这份指南传递的核心信息只有一个：别再写长提示词了。 GPT-5.5 距离上一代 GPT-5.4 只隔了六周，API 定价每百万输入 Token 5 美元、输出 30 美元，上下文窗口 100 万 Token，目前已面向 Plus、Pro、Business 和 Enterprise 用户开放。模型本身的变化各家媒体已经报道过，这份提示词指南更值得关注的是它暗示的使用方式转变。【1】越短越好，告诉它“要什么”而不是“怎么做” 过去用 AI 模型，很多人习惯写一长串步骤，手把手教模型该先查什么、再比什么、最后怎么输出。OpenAI 在指南里直接说：这套玩法过时了。GPT-5.5 的推理能力够强，你只需要描述清楚想要的结果、成功的标准和限制条件，剩下的让它自己规划路径。指南原话的意思是：以前的模型比较笨，需要你教它每一步怎么走，但对 GPT-5.5 来说，这些啰嗦的指令反而成了干扰，会缩小它的搜索空间，让输出变得死板。对开发者来说，这意味着需要重新审视手头积攒的提示词模板。以前管用的“保姆式”写法，现在可能适得其反。【2】给 AI 装上“性格”和“刹车” 指南花了不少篇幅讲两件事：一是怎么给模型设定性格（语气、态度、合作方式），二是怎么让它知道什么时候该停。性格设定分两层。一层是“听起来像什么人”，比如热情还是干练、直接还是委婉。另一层是“怎么干活”，比如什么时候该主动提问、什么时候可以自己做主。OpenAI 建议两层都写短，几句话就够。停止条件可能更实用。指南建议给搜索行为设定“检索预算”，明确告诉模型：搜到什么程度就收手。比如第一次搜索如果已经能回答问题，就别再搜了。只有在核心问题没被回答、缺少关键事实、或用户要求穷尽所有情况时，才允许发起下一次搜索。这对做客服、做知识问答产品的团队很有参考价值。搜索次数直接关联 Token 消耗和成本，设好预算能省不少钱。【3】一个有意思的细节：开场白 GPT-5.5 在开始输出文字之前，可能会在后台默默花时间推理和规划。用户盯着空白屏幕等待的体验很差。指南建议让模型在正式干活之前，先输出一两句话，告诉用户“收到了，我先做这个”。这不会让任务真的变快，但能让用户觉得响应快了。做过产品的人都知道，感知速度有时候比实际速度更重要。【4】创意写作要区分事实和发挥指南里有一段专门讲给 AI 写幻灯片、宣传文案、演讲稿时的注意事项：产品数据、客户信息、路线图这些必须用有出处的事实，不能让模型编造。如果手头没有数据，宁可用占位符标出来，也别让 AI 自由发挥出一个看起来很真但完全瞎编的数字。这条建议对应的是 AI 最大的实用风险之一：模型编故事的能力太强，强到你可能分不清哪些是真的。尤其是在做对外材料的时候，一个编造的客户案例或数据点，后果可能比不写还糟。 OpenAI 推荐的提示词模板最终浓缩成六个模块：角色、性格、目标、成功标准、限制条件、停止规则。每个模块都强调“尽量简短，只在需要改变模型行为的地方加细节”。从 GPT-4 时代的“提示词工程”到现在 GPT-5.5 的“少说多做”，提示词的写法以前是人适应模型的局限，现在是模型开始适应人的模糊表达。对于还在用两年前的提示词模板的团队，可能要考虑重写你的提示词了。更详细的文档：https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5

译OpenAI在发布GPT-5.5后推出官方提示词指南，核心主张是摒弃冗长指令。指南指出，新模型具备更强推理能力，用户只需清晰描述期望结果、成功标准和限制条件，过细的步骤规划反而会限制模型搜索空间，导致输出僵化。关键建议包括采用简短的角色、目标等模块化提示；为搜索设定“检索预算”以控制成本；在创意写作中严格区分事实与虚构。这标志着提示词范式从“详细过程控制”转向“结果导向”。

Anthropic@AnthropicAI · 4月30日51

New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those—and most of the rest.

译科学博客上新：我们给Claude出了99个分析真实生物学数据的难题，并将其表现与专家小组进行了比较。在23个问题上，专家们被难住了。我们最新的模型解决了其中大约30%——以及其余的大部分问题。

Rohan Paul@rohanpaul_ai · 4月30日51

Beautiful new paper from Harvard, Stanford, UC Berkeley and other top labs. Shows that DeepLearning is finally becoming the kind of thing science can explain, not just optimize. Because we still do not have a compact, predictive theory that tells us ahead of time how a neural network will learn, scale, and respond to training choices without mostly testing it first. Not that we will soon explain every weight, but that we may learn the coarse laws governing training, representation, and performance. That shift matters because neural nets are not hidden systems. We know the architecture, the data, the objective, and the update rule. The obstacle is not secrecy. It is the complexity of many simple parts interacting at once. So the authors propose “learning mechanics,” a physics-like program that studies the motion of learning itself. “Learning mechanics” is their name for a hoped-for set of broad laws, similar to how physics explains gases without tracking every molecule, that explains the overall behavior of neural nets instead of just describing one model at a time. Physics became useful by ignoring microscopic detail when the right aggregate variables were enough, and this paper says deep learning theory is maturing in exactly that direction through solvable toy models, infinite limits, scaling laws, hyperparameter theories, and universal behaviors. The claim is that training a neural net may be less like recipe tweaking and more like physics, where you stop tracking every tiny part and instead predict the large patterns that keep showing up. That means studying how gradients move parameters, how representations form, and why behavior changes in regular ways as model size, data, and compute grow. The paper says this theory is taking shape through 5 routes: solvable toy models, simplifying limits like infinite width, simple laws like scaling laws, theories of hyperparameters, and behaviors that look universal across many systems. The central bet is that useful laws can exist even when full microscopic detail is hopeless, just like thermodynamics explains gases without tracking every molecule. This also fits neatly beside mechanistic interpretability, because one tries to find local circuits while the other tries to find global laws of learning. ---- Paper Link – arxiv. org/abs/2604.21691 Paper Title: "There Will Be a Scientific Theory of Deep Learning"

译哈佛、斯坦福、UC伯克利等顶尖实验室联合提出，深度学习正从经验优化转向可解释的科学理论。尽管神经网络架构、数据等完全公开，但其复杂互动使得预测训练过程仍依赖大量实验。作者倡导建立“学习力学”，类似物理学关注宏观规律，通过可解玩具模型、无限宽度极限、缩放定律等五种路径，揭示训练动态与性能演化的整体性法则。这一理论与专注于局部电路的机制可解释性研究形成互补，共同探索学习的全局定律。