FABLE 5 IS BACK

译Palantir CEO Alex Karp表示，企业已厌倦那些“过度推销”模型并推行tokenmaxxing的AI实验室。客户希望拥有以Palantir和NVIDIA为核心的完整AI堆栈。FABLE 5已回归。

Really confused by all the excitement I see in my timeline for a nerfed model. Never seen anything like it. So many will end up very disappointed. Time to rethink how to build around frontier and open models. Time to explore using combination of models. It's the best bet!

译Anthropic宣布Claude Fable 5全球重新上线，但新增分类器拦截更多网络安全任务，短期内编码、调试等常规任务将回退到Opus 4.8。同时，Anthropic与Amazon、Microsoft、Google等Glasswing合作伙伴起草AI越狱严重性评估框架，并扩大与美国政府的模型测试与保障合作。DAIR.AI的Elvis Saravia对此评论称模型已被削弱，认为很多人会失望，建议社区重新思考如何组合使用前沿模型和开放模型。

凡人小北@frxiaobei · 1天前34

对于普通人，飞书 aily 已经足够好了。 CLI 是给要精细控制的专业人准备的。大部分人的需求，在飞书生态里，对话几句 aily 就搞定了。现在的 aily，懂飞书全套数据，MCP 接外部系统，自主调工具。生态内能想到的活儿，它基本都能接。

译推文推荐飞书 Aily，称其对普通人已足够好用。Aily 理解飞书全套数据，通过 MCP 连接外部系统，能自主调用工具，覆盖生态内各类任务。相比需要精细控制的 CLI，Aily 对话交互即可满足多数需求。引用推文则强调，用好飞书文档（类比20年前的 Office）和 AI 调用飞书 CLI，是学渣保住空调房工作的机会。两者共同指向飞书生态内 AI 工具的实用价值。

Berryxia.AI@berryxia · 1天前29

Omini的场景很适合做换装视频，包括家居装修类的这类前后对比的场景。

宝玉@dotey · 1天前44

@tinyfool 举的神鞭的例子很贴切：天津卫傻二，靠一条祖传辫子练成绝技，江湖人称神鞭，纵横半生，未逢敌手。庚子年，洋人一声枪响，辫子断了。几年后再现江湖，辫子没了，腰间挂着两把快枪，弹无虚发。 “祖宗的东西再好，该割的时候就得割。辫子剪了，神留着。”

译宝玉引用天津卫神鞭故事：傻二靠祖传辫子练成绝技，洋枪一响辫子断，后改练双枪，弹无虚发——“辫子剪了，神留着”。以此类比AI冲击下程序员的工匠精神。引用的Piglei观点指出，曾有人鼓吹AI将淘汰程序员的“工匠精神”，但现实是，真正热爱技术、钻研代码的人成了效率最高、质量最好的那一批，习惯塑造人而非工具。

François Chollet@fchollet · 1天前52

The current wave of AI technology will not lead to mass unemployment. In fact, its impact on the labor market should be minimal, consisting mostly of increasing demand for software engineers.

译当前这波 AI 技术不会导致大规模失业。事实上，它对劳动力市场的影响应该很小，主要只是增加对软件工程师的需求。

Emad@EMostaque · 1天前25

Anyone else still using Opus 4.6 over 4.8

译还有人仍在用Opus 4.6而不是4.8吗？

AYi@AYi_AInotes · 1天前17

卧槽简直是AI变现的焚决啊！想靠AI做应用月入$10000的，不知道怎么把产品卖出去的，看这篇就够了！

译卧槽简直是AI变现的焚决啊！想靠AI做应用月入$10000的，不知道怎么把产品卖出去的，看这篇就够了！（引用推文：Joma正记录自己构建一个月入1万美元的App的全过程——包括开发、营销和盈利，他想测试用AI赚钱到底有多容易，并向人们展示线上创业的真实情况。）

Chubby♨️@kimmonismus · 1天前41

If true, this would be much bigger than just another model release. Memory efficiency is one of the core bottlenecks for long-context models, agents, and inference economics. A real architecture-level breakthrough here could make longer-horizon AI systems dramatically cheaper and more practical. Andrew is one of the most reliable sources. Therefore, I'm taking this very seriously. We could truly be at a turning point.

译@AndrewCurran_ 预测一项重大架构突破即将公布，重点提升内存效率，来自从OpenAI分拆的团队（非SSI）。主推文@Kim 指出，若属实其意义远超普通模型发布——内存效率是长上下文模型、AI智能体和推理成本的核心瓶颈，架构级突破可使长时间跨度AI系统大幅降价并更实用。Andrew被视为最可靠信源之一，Kim认为可能正处于转折点。

Peter Steinberger 🦞@steipete · 1天前26

sneaky, but also clever. https://thereallo.dev/blog/claude-code-prompt-steganography

译狡猾，但也巧妙。https://thereallo.dev/blog/claude-code-prompt-steganography

Rohan Paul@rohanpaul_ai · 1天前65

Perplexity’s CEO Aravind Srinivas is pointing to a quiet shift in AI use: the valuable user is no longer the average user. A single power user can now consume as much compute as an entire small team. "There are real engineers at Meta and other companies spending around $10 million a year per engineer on these coding tools. There are users in Perplexity Computer, who spends upwards of $10,000 a month. Their business runs using agent loops that are running inside these harnesses. Even internally inside our own company, there are some people who have set up these kinds of multi-agent hierarchies and agent loops that look like their own software architecture. I often ask these people to come explain to the rest of the company, “Hey, what are you doing with these tools? You clearly are consuming them way more than what we thought the average person in the company would do.” --- The old software instinct was to chase a billion people doing small actions. Agentic AI changes that math because one skilled operator can create a stream of machine work that runs all day. ---- From "20VC with Harry Stebbings" YouTube channel ( @HarryStebbings ), link in comment

译Perplexity CEO Aravind Srinivas 指出，AI 使用的重心正从普通用户转向重度用户。单个重度用户消耗的计算量可匹敌一个小团队：Meta 等公司工程师每年在编码工具上花费约 1000 万美元/人；Perplexity Computer 上有用户月支出超 1 万美元，其业务依赖在 harness 内运行的 agent loops。公司内部也已出现多智能体层级和 agent loops 架构，消耗远超平均预期。旧软件思维追求十亿人做小动作，而智能体 AI 下，一个熟练操作者即可创造全天候的机器工作流。

向阳乔木@vista8 · 1天前66

http://x.com/i/article/2072191016476856320 # 从伽罗瓦到夸克：需要200年验证的想法，AI能产生吗？ https://www.youtube.com/watch?v=TfyPshgMbug 一个 19 岁的少年，在监狱里写下了一套没人看懂的数学笔记。他把笔记托付给朋友，请他转交给当时最伟大的数学家高斯，朋友尽力了，但没有成功。这个少年在一场决斗中死去，年仅 20 岁。又过了二十年，一位叫刘维尔的数学家翻出这些笔记，觉得里面可能有点东西。又过了二十年，有人把这些想法整理成现代数学能读懂的形式。再过一百年，物理学家盖尔曼用这套理论预测了夸克的存在。这个少年叫伽罗瓦。他留下的东西，叫群论。从一个模糊的直觉，到改变物理学，中间隔了将近两百年。在这两百年里，这个想法被拒稿，被遗忘，被误解，在多个人的脑子里辗转流传，才慢慢结晶成一座数学的山峰。现在，有人想用 AI 来做同样的事。问题是：你怎么训练一个系统，去产生一个需要两百年才能被验证的想法？这是 Grant Sanderson 和 Dwarkesh Patel 在 2026 年初的一场对话里反复触碰的困境。 Grant 是 3Blue1Brown 的创始人，YouTube 上最受欢迎的数学频道，几百万订阅者。但他的身份很奇特：他不做研究数学，他解释数学。他的整个职业，就是在回答"理解和证明有什么区别"这个问题，这让他在 AI 和数学的讨论里，站在一个很特殊的位置。 Dwarkesh 是一个播客主，专门采访 AI 领域最顶尖的研究者和创始人，他的优势是局外人的视角，他的问题往往比答案更有趣。他们聊了两个多小时，以下是这场对话的精华提炼。 ## IMO 金牌：一个没有改变任何事情的里程碑三年前，Dwarkesh 问过 Grant 一个问题：当 AI 能在国际数学奥林匹克（IMO）拿金牌的时候，那是不是就等于 AGI 了？ IMO 的题目需要真正的创造力，连专门训练过的顶尖学生都未必能全解。如果 AI 能做到，它不就什么都能做了吗？ Grant 当时的回答是：不会的。那只是又一个被超越的基准，不会有顿悟时刻。他是对的。 2024 年，AI 在 IMO 上的表现已经达到金牌水准，世界没有因此改变，没有人突然觉得 AGI 到来了，没有经济结构发生剧变，数学家们继续做他们的研究。 IMO 的题目分四类：几何、数论、代数、组合数学。 AI 在几何上的表现是 19 秒解完，因为有暴力求解器可以直接上，而且几何题有相对固定的训练路径可以覆盖大部分题型。但组合数学不一样。那些题目更像是谜题，需要一种"玩感"，需要从意想不到的角度切入。 2024 年的 IMO 恰好有两道组合数学题，AI 在这里卡住了。如果那年的题目多一道几何、少一道组合，AI 就能拿金牌。 AI 的能力边界不是一条平滑的曲线，而是锯齿状的。即便在数学这一个领域内部，不同方向的进展也差异巨大，把 AI 能力想象成一个整体，是一种系统性的误判。而且，IMO 的"脏秘密"是，它的很多题目其实是可以训练的。题目设计者会努力出那些不容易被刷题覆盖的题，但终究有限。组合数学之所以是最后的堡垒，不是因为它最难，而是因为它最难被系统化地训练。这个逻辑，在接下来的整个讨论里会反复出现。 ## 一道闪电，和一座山峰 Grant 提出了一个框架，是整场对话最有价值的部分。他把 AI 在数学上可能取得的进展分成两种截然不同的类型。第一种，叫连接闪电。 2025 到 2026 年间，AI 解决了几个引人注目的数学问题。其中一个是 Erdős 第 1196 号问题，关于"原始集合"的猜想。 AI 的解法，是把另一个领域的工具引入进来，在两个看似无关的数学领域之间打了一道闪电（知识连接）。这类进展有一个特点：对人类来说是可理解的。你只需要看到闪电的起点和终点，剩下的推导对领域内的人来说是自然的，你把这个想法说给一个懂行的数学家听，他会立刻知道怎么展开。另一个例子是单位距离猜想的反例。 AI 公开了推理链，数学家们读了之后，觉得是可以理解的，而且这个反例实际上加速了人类对这个问题的理解。 AI 为什么擅长这种连接？因为它同时精通量子物理、解析数论、随机矩阵理论……它能看到那种跨领域的相似性，而不需要靠两个人在午饭时偶然聊起来。这里有一个具体的故事。数学家 Hugh Montgomery 在研究黎曼 zeta 函数的零点分布时，写下了一个公式。物理学家 Freeman Dyson 看到这个公式，说：我认识这个表达式，它出现在研究随机厄米矩阵的特征值分布时，那是核能级的量子力学问题。两个看似毫不相关的领域，零点统计和随机矩阵理论，居然有相同的数学结构。这个发现开启了一整个研究方向。而这个发现，是靠两个人在普林斯顿高等研究院吃午饭时偶然聊起来的。第二种，叫建造山峰。 Fermat 大定理的证明是这种。你需要先建起椭圆曲线这座山，再建起模形式这座山，然后才能在山顶之间架桥。这两座山本身就是全新的数学体系，需要几代人的积累才能建成。群论也是这种。伽罗瓦没有解决一个已知的问题，他创造了一套新的思考框架。 AI 目前擅长的是闪电。建造山峰是另一回事，那需要的不是连接已有知识，而是创造出一套新的思考框架。而且这套框架的价值，可能要等一百年才能被验证。这就把我们带回到了伽罗瓦。 ## 一百年的验证循环 Dwarkesh 问了一个很尖锐的问题：如果伽罗瓦的想法需要一百年才能被验证，你怎么可能训练 AI 产生这样的想法？目前 AI 在数学上取得突破的核心训练方法叫 RLVR，基于可验证奖励的强化学习。逻辑很简单：给 AI 一道题，它给出答案，答案对了就奖励，答案错了就惩罚，反复迭代，AI 就学会了解题。这个方法在数学竞赛题、代码运行结果这类场景里效果很好，因为答案是确定的，对错是即时可知的。但伽罗瓦式的洞见没有这种反馈。更糟糕的是，Grant 指出，伽罗瓦在世时，当时的"验证器"，也就是学术界，给出的反馈是：不行。他的论文被拒了，他的想法被认为不够清晰、不够完整。从 RLVR 的角度看，这个想法应该被惩罚，被遗忘。但它是对的。这不是个例。拉格朗日在伽罗瓦之前五十年，就有了用对称性研究多项式的直觉，但他没有解决任何问题，只是问了一个新的问题。当时没有任何验证信号告诉他这是正确方向。更深的困境：不只是 AI 的训练环境无法捕捉这种价值，连当时的人类验证器也无法捕捉。 Grant 提到了一个他很喜欢的数学论文开头，来自数学家 Timothy Chow，他在研究"强迫法"这个概念时写道：大家都知道什么叫未解决的研究问题，我想提出一个新概念：未解决的阐释问题。我们已经证明，但我们还不理解为什么它是对的。证明和理解，是两件不同的事。这个区分，在 AI 时代变得异常重要。 ## 可验证，还不够，还得能"磨" 很多人把 AI 在数学上的快速进步归因于数学的可验证性。答案对就是对，错就是错，这给了 AI 一个清晰的训练信号。 Grant 和 Dwarkesh 都认为这只说对了一半。另一半，是一个很少被提到的概念：可磨性。你可以把一道题的状态打包，同时跑一千个并行实例，让它们各自尝试不同路径，对的路径留下，错的丢掉，信用分配问题清晰可解。代码也一样，把一个代码库状态打包成容器，派出几百个 agent 各自尝试实现某个功能，结果完全确定，成功和失败的差异就是有效信号。然后他们举了一个反例：电脑操作（computer use）。同样是可验证的，"我的包裹到了吗"有明确答案，"我的会议预订成功了吗"也有明确答案。但你没法同时跑一千个亚马逊结账流程，因为网站有反爬虫机制。你可以尝试克隆每一个网站，但那极其耗费人力，而且跟不上网站的更新速度。这就是为什么 AI 在电脑操作上的进展远慢于数学和代码，尽管它同样是可验证的。可验证是必要条件，可磨练才是充分条件。现实世界里大多数任务都无法容器化，无法重复磨练。你没法把"今天去市场上交易赚钱"这件事容器化，因为市场每天都不一样，你没法重放。数学和代码是例外，这才是 AI 在这两个领域突飞猛进的真正原因。 ## 自回归是一种奇怪的思考方式理解了可磨性，就能理解另一个问题：为什么 AI 擅长连接闪电，却很难建造山峰。这要从 AI 的工作方式说起。 Grant 用了一个很形象的比喻。想象你被关在一个箱子里，外界和你交流的唯一方式是：递给你一张纸条，问你"下一个词是什么"，你预测，然后记忆被清空，再递给你下一张纸条。这个过程重复无数次之后，外面的人把所有你预测的词拼在一起，给你看："你看，这是你写的文章。" 你可能会说：这太糟糕了，这根本不是我会写的东西。这就是自回归语言模型的工作方式。它在每一步都在预测下一个最可能的词，而不是像一个作家那样，先在脑子里有一个整体的结构，然后逐步填充细节。这对数学意味着什么？数学里最有价值的进展，往往是那种"不太可能出现的下一个词"，是那道从一个领域跳到另一个领域的闪电。但在自回归的框架里，你在某个数学领域的上下文里，下一个最可能的词，是这个领域里的词，而不是另一个领域里的词。跨领域的连接，在自回归的逻辑里，是一种低概率事件。那么 AI 是怎么开始做到这件事的？ Dwarkesh 的猜测是：训练环境。如果你设计一批专门需要跨领域连接才能解决的问题，让 AI 反复在这类问题上磨练，它就会被迫学会在自回归的框架里，预测"让我看看另一个领域有没有类似的结构"这个动作。这和 AI 学会成为更好的编程 agent 的逻辑是一样的。它学会了在自回归的框架里，预测"让我退一步，重新审视整个代码库"这个动作，因为这个动作在训练数据里被反复验证是有效的。但建造山峰需要的不是这种。建造山峰需要的是：在没有任何验证信号的情况下，坚持一个模糊的直觉，然后围绕这个直觉构建一套全新的语言。这不是低概率的下一个词。这是一种完全不同的思维模式。 ## AI 最被低估的优势，不是它有多聪明对话里有一个洞察，Grant 和 Dwarkesh 都提到了，但没有被充分展开，我觉得值得单独说。我们通常讨论 AI 有多聪明，但我们很少讨论 AI 的另一种优势：它可以被无限并行化。回到 Montgomery 和 Dyson 在普林斯顿吃午饭的故事。那次偶遇是一个偶然事件。两个领域的专家恰好在同一个地方，恰好聊起了各自的工作，恰好发现了联系。高等研究院之所以把一堆顶尖学者放在同一个地方，就是为了制造这种偶然性。 AI 不需要这种运气。你可以让一个精通随机矩阵理论的 agent 和一个精通解析数论的 agent 系统性地对话，搜索所有可能的联系。更进一步，你可以同时跑一千个这样的对话，覆盖所有可能的领域组合。这不只是速度的提升，这是一种结构性的优势。人类科学史上那些改变方向的偶然相遇，在 AI 的框架里可以被系统性地工程化。还有另一个维度。单位距离猜想之所以很长时间没有被解决，一个重要原因是大多数数学家都相信这个猜想是对的，所以他们在尝试证明它，而不是尝试找反例。这是一种集体性的认知偏差。 AI 可以同时跑两组 agent，一组尝试证明，一组尝试证伪。这不是什么高深的技术，但它系统性地消除了人类研究中那种先入为主的偏见。 Grant 还提到了一个更有趣的可能性：给不同的 agent 植入不同的启发式。爱因斯坦有一个强烈的偏见：物理规律在不同参考系下应该看起来一样。这个偏见是相对论的核心驱动力。但他也有另一个偏见：上帝不掷骰子。这个偏见让他在量子力学上走错了方向。你不能让所有 AI 都是爱因斯坦。你需要多样性。你可以系统性地给不同 agent 植入不同的启发式，然后看哪些启发式在哪类问题上是有效的。这是一种老式软件的思维：枚举所有可能的策略，然后并行探索。但用在科学研究上，它的潜力是巨大的。 ## Lean：被高估的训练工具，被低估的探索引擎形式化证明语言 Lean 在 AI 数学圈里被频繁提及，很多人认为它是 AI 突破数学的关键。 Grant 的看法是：对于当前的进展，Lean 的重要性被高估了。 DeepMind 最初用 Lean 做 IMO，第二年就切换到了自然语言，效果反而更好。 AI 解决单位距离猜想反例时，公开的推理链里没有任何 Lean。过程监督的价值，似乎远不如一个可磨练的结果验证。但 Lean 有另一个独特价值，而且这个价值目前还没有被充分开发。 Lean 可以让 AI 完全自主地跑，不需要人类介入。 Mathlib 是一个用代码写成的数学库，目标是把所有数学都形式化进去。你可以想象一个 AI，被告知"去扩展 Mathlib"，然后就让它跑，不需要任何人审核每一步，因为每一步的正确性都可以被自动验证。它可以自己提出猜想，自己构建定义，自己生长出一棵逻辑树。 Grant 说，你可以按下开始键，倒十年的计算资源进去，然后回来看它发现了什么。这让人想到 AlphaGo。 AlphaGo 可以在自己的宇宙里无限对弈，不需要人类介入，因为围棋的规则是完全确定的，胜负是自动可验证的。它在这个封闭宇宙里探索出了人类从未想到过的走法，第 37 手是其中最著名的一个。 Lean 给数学提供了类似的可能性。一个在 Lean 世界里自主探索的 AI，可能会发现人类从未想到过的数学结构。但这里有一个问题：它发现的东西，有多少是有用的？ Grant 提到，Terry Tao 曾经谈到一个研究项目，想要穷举搜索所有可能的代数公理系统。群论有一套公理，但如果你系统性地尝试所有可能的公理组合，会不会发现一些全新的、有趣的代数结构？大部分结果会是垃圾，但偶尔会有一个小岛，一套公理系统，能产生丰富的定理，值得深入研究。这是 Lean 真正有趣的地方：不是作为训练工具，而是作为探索引擎。 ## 黎曼猜想被证明之后，我们会理解它吗对话里有一个让人印象深刻的担忧：AI 可能会证明黎曼猜想，但我们对数学的理解不会因此增进任何东西。 Grant 把可能的解法分成三类。第一类是闪电：发现两个领域之间的联系，比如黎曼 zeta 函数的零点和随机矩阵理论之间的关系。这类解法对人类是可理解的，甚至可能推进人类的理解。第二类是山峰：构建一套全新的数学框架，就像 Wiles 证明 Fermat 大定理时需要先建起椭圆曲线和模形式这两座山。这类解法需要人类花大量时间去理解这座新山，但最终是可以理解的。第三类是蛮力：一个几千页的证明，没有任何新的概念，只是穷举了所有可能的情况。这类证明在技术上是正确的，但对人类的理解毫无帮助。 Grant 提到了一个真实存在的类比：abc 猜想的"证明"。日本数学家望月新一提出了一套叫做"宇宙际 Teichmüller 理论"的全新框架，声称可以证明 abc 猜想。这套理论如此陌生，以至于数学界花了多年时间都无法判断它是否正确。最终的主流判断是它可能有错误，但争议至今未完全平息。这就是"外星数学"的样子：一座新山，但没有人能爬上去，甚至不确定这座山是否真的存在。如果 AI 产生了这样的东西，而且是错的，那就是灾难性的浪费。如果是对的，那也需要巨大的人力投入去消化。 David Bessis 在一篇博文《定理经济的崩塌》里提出：历史上，定理证明和概念创造是绑定在一起的，因为提出定义的人，往往也是证明定理的人。但如果 AI 自动化了定理证明，而人类还在负责提出定义，这个绑定就断裂了。有一句话在数学圈里流传：好的数学家证明定理，伟大的数学家提出猜想，最伟大的数学家提出定义。 AI 正在从最底层往上爬。它已经能证明定理，开始能提出猜想。但提出定义，也就是创造出一套新的思考语言，那是伽罗瓦做的事情。 ## AI 为什么写作越来越烂，但数学越来越好写作烂，有两个原因。第一个是奖励黑客。AI 的写作训练，本质上是在优化"看起来像好文章"，而不是"真正是好文章"。它学会了所有好文章的表面特征，然后把这些特征堆在一起。结果是一篇击中了所有评分标准，但没有任何真正洞察的文章。第二个更深：写作本身就是产品，而不是产品的生产过程。代码可以是烂的，只要它运行正确。一个函数可以写得很丑，但如果它输出了正确的结果，就是合格的。数学证明也类似，一个引理可以用很多种方式证明，只要结论正确就行。但写作不一样。每一个词、每一句话都是最终交付物，不能有废料。而且好的写作需要在每一个句子处都建模读者的心理状态，预判读者此刻脑子里在想什么，然后决定下一步怎么走。 Grant 提到了一个有趣的实验：打了肉毒杆菌的人，因为面部肌肉被冻住，无法模仿他人表情，在识别他人情绪方面的能力显著下降。理解他人情绪的一部分机制，是用自己的脸去"复现"对方的表情。 AI 没有脸。它理解读者心理的方式，是一种从大量文本中涌现出来的能力，而不是内置的硬件。这可能是它在写作上的根本性局限。但这里有一个有趣的反驳。 Dwarkesh 说：AI 已经越来越擅长写不只是能运行、而且干净整洁、可以直接合并的代码。为什么这种进步没有同样发生在写作上？ Grant 的回答是：也许它已经发生了，只是我们没有注意到。他说，他现在遇到一篇难懂的文章，第一反应是把它粘贴给 LLM，让它解释给他听。解释往往比原文更清楚。但他也承认：解释是一回事，创作是另一回事。解释是把已有的东西说清楚，创作是决定什么值得说。 AI 在前者上已经很好，在后者上还差得远。这个区分，和证明与理解的区分，是同一枚硬币的两面。 ## 数学家的未来：博物馆策展人 Grant 在对话里提到了一个比喻：未来的数学家，可能更像是博物馆策展人，而不是定理证明者。 AI 解决了问题，甚至能很好地解释它。但数学的空间是近乎无限的，哪些问题值得研究，哪些方向值得投入，哪些新发现值得关注，这需要有人来做导航。这不只是技术判断，也是一种社会功能。 Grant 自己就是一个例子。他的工作里，很大一部分时间花在"决定什么值得说"上，而不是制作视觉效果。听众信任他的品味，愿意跟着他的视角去探索。这种信任是关系性的，不是纯粹信息性的。他还提到，即便 AI 在某些方面比人类更擅长策展，人们依然会倾向于选择与自己有真实关系的人类策展人，因为我们对事物产生兴趣，本质上是一种社会现象。这个逻辑延伸到了教学。 Grant 认为，教学可能是 AGI 时代最稳定的职业之一，不是因为 AI 不能解释概念，而是因为教学本质上是一种社交和陪伴式的活动，远超出"解释概念"的范畴。他还提到了一个细节：一个好老师，当学生问出一个奇怪问题的时候，能够识别出这个问题背后的思维结构，然后顺着学生的思路把它引导到正确方向，而不是直接说"你这样想不对，应该这样"。他把这个叫做柔道式教学。 AI 目前做不到这一点，它太顺从了，太倾向于直接给答案，而不是重构问题。 ## 给数学从业者的一个实际建议 Grant 对那些担心 AI 会取代自己的数学学生，给了一个很朴素的建议：想清楚钱从哪里来，你在这条链路上提供了什么价值。这听起来很功利，但他的意思是：很多学生选择数学，是因为一路被夸"你很擅长这个"，然后顺着这条路走下去，从没认真想过自己在为谁创造什么价值。大学里的数学教授，有人靠的是声誉为学校带来品牌价值，有人靠的是 NSF 资助基础科学，有人靠的是直接教学。这三条路在 AI 时代的稳定性完全不同。他还提到了一个更长远的可能性：如果 AI 真的在未来五到十年内开始提出全新的数学问题和数学领域，那么"帮助人类理解 AI 发现了什么"会成为一个真实的需求。在那个世界里，数学教育者和数学传播者的价值，可能比现在更高，而不是更低。如果 AI 真的看到了人类从未看到的东西，那么能够理解这些东西、并且判断它们在哪里有用的人，会变得极其有价值。数学家从"证明定理的人"变成"理解 AI 发现了什么、并且把它指向正确方向的人"，这个角色的经济价值可能比以前更高。再次回到伽罗瓦。他在监狱里写下那些笔记的时候，他知道自己发现了什么吗？他有一种直觉，觉得这是重要的。但他无法证明它，无法解释它，甚至无法清晰地表达它。当时最权威的验证器，学术界，告诉他：不行。他死了。笔记沉睡了二十年。又过了二十年才被整理清楚。又过了一百年才被用来预测夸克。现在，我们有了能证明定理的 AI，有了能连接领域的 AI，也许很快会有能建造新山峰的 AI。但那种"我不知道为什么，但我觉得这里有什么东西"的直觉，以及在没有任何验证信号的情况下坚持它的能力，我们还不知道怎么训练，甚至不知道怎么识别。这可能是整个故事里，最后一个真正有趣的问题。

译Grant Sanderson（3Blue1Brown）与Dwarkesh Patel对话指出，2024年AI在IMO已达金牌，但组合数学仍卡住。AI数学进展分两类：连接闪电（跨领域连接，如Erdős第1196号问题、单位距离猜想反例）和建造山峰（如伽罗瓦群论，需百年验证）。训练依赖RLVR，但伽罗瓦想法当时被拒，无反馈信号。可验证仅是必要条件，可磨性（并行实例）才是充分条件；电脑操作虽可验证但缺可磨性，进展慢。

向阳乔木@vista8 · 1天前34

这期访谈很值得看，访谈嘉宾是 @3blue1brown 的Grant Sanderson 让 AI 解读写了一篇总结，几个观点很值得关注： 1. 知识跨领域连接，在自回归框架中，是一种低概率事件。 2. 跨领域打通已有知识，AI 擅长，但创造全新思考框架 AI 目前无法做到。 3. AI 最被低估的优势是并行化，不是智力 4. 数学和代码能被 AI 快速迭代，不只因为答案可验证，更因为可以容器化、并行磨练。 https://www.youtube.com/watch?v=TfyPshgMbug

译3blue1brown 的 Grant Sanderson 在访谈中分享 AI 相关观点：① 知识跨领域连接在自回归框架中属于低概率事件；② AI 擅长跨领域打通已有知识，但尚无法创造全新思考框架；③ AI 最被低估的优势是并行化，而非智力；④ 数学和代码能被 AI 快速迭代，不仅因为答案可验证，更因为可以容器化、并行磨练。完整访谈见视频链接。

Greg Brockman@gdb · 1天前13

Codex has gotten very good

译QuinnyPig承认之前低估了Codex，现在发现它非常出色。Codex已变得非常好。

Ethan Mollick@emollick · 1天前48

Fable is very good, and having it taken away after getting early access delayed a few things I was working on and made me defer others until it returned But in my early access I also tripped the security guardrails a lot for non-obvious reasons. We will see how the new ones are

译Fable非常棒，在获得早期访问后又被拿走，导致我手头的一些工作延迟，并让我推迟了其他工作直到它恢复。但在早期访问中，我也多次因不明显的理由触发了安全护栏。我们会看看新的护栏如何。

jason@jxnlco · 1天前32

This is the future

译现在，Codex正在使用Computer Use来整理我在GoodNotes中的1500个PDF，而我在看世界杯。这是我“AI叠衣服，我搞艺术”的时刻。感谢 @jxnlco 及团队。这就是未来。

歸藏(guizang.ai)@op7418 · 1天前50

Anthropic 每天都能整点新活，感觉现在大家都习惯了昨天被爆出在系统提示中，以用户无法察觉的方式将市区代理和 AI 实验室信息放进去，用这种方式获取一些用户的信息。结果被发现并传播以后，又赶紧说以前我们不用这种方式了，或者说这种方式本来就准备下掉，明天就下掉，又当又立了。昨晚发布的 Sonnet 5 在测试中发现，它的测试结果虽然接近了 Opus 4.8，但任务成本可能比 Opus 4.8 还高，甚至在完成测试任务上的成本接近了 Fable 5。所以说它的综合成本可能比 4.8 贵得多，这模型真离谱。而且很多人的体感反馈也不是很好，说它会偷懒，还会拒绝执行任务。唯一好的一点是，Fable 5 模型终于被授权重新开放给所有用户了，明天就能知道具体措施了，这也解释了为什么前几天会大规模封号。

译Anthropic 近日被曝在系统提示中暗中嵌入市区代理及 AI 实验室信息以获取用户数据，引发争议后回应称将停止该做法。同时，新发布的 Sonnet 5 测试表现接近 Opus 4.8，但任务成本更高，甚至接近 Fable 5。用户反馈模型存在偷懒、拒绝执行任务等问题。此外，Fable 5 模型已获授权重新开放给所有用户，具体措施明日公布，此前的大规模封号与此有关。

Rohan Paul@rohanpaul_ai · 1天前29

Most “AI content tools” reset to zero every time you call them. That’s the tell: a generation is an event, labor is a continuum. The interesting engineering question in Spira 2.0 isn’t just the output — it’s that each agent carries persona + memory + skills across runs, so what it learned yesterday compounds instead of evaporating. Memory that survives the run is the genuinely hard part. It’s the difference between a tool you operate and a worker that operates. The full trend → content → publish → learn loop only becomes meaningful when the state persists. Worth a look at economics alone. @spira_lab_ai

译Spira 2.0 的核心创新在于 agent 跨运行时携带 persona、memory 和 skills，使所学内容持续累积而非每次调用重置。Rohan Paul 指出，这种持久化状态是将“操作工具”转变为“持续工作的工人”的关键。引用推文补充，Spira 旨在解决产品发布后无人知晓的问题：用户提供产品链接，agent 学习并自动在多社交渠道发布品牌一致、无废料的内容，形成“发布→学习→再发布”的持续营销循环。早期用户可申请 Pro 计划限时访问。

meng shao@shao__meng · 1天前60

吴恩达老师讲「Loop engineering」把 AI agent 放进一套持续迭代、持续反馈、持续校准的循环系统里，产品成功取决于三个循环是否运转良好：代码自我迭代、开发者判断校准、外部用户反馈。第一层：Agentic coding loop，工程执行循环这是最底层、最快的循环。给 AI 一个产品规格，最好再配一组 evals 或测试标准，让它自己写代码、运行、测试、修 bug、再测试，直到满足规格。过去 AI 写代码更像“一次性回答”；现在的 coding agent 更像一个可以连续工作的工程执行体。它能自己打开浏览器检查页面，跑测试，发现问题，再修改。这使得 AI 可以在没有人类频繁介入的情况下工作几十分钟甚至更久。这层循环的价值是把开发中的大量低层执行工作自动化： · 写功能 · 修 bug · 跑测试 · 检查 UI · 验证行为是否符合规格 · 反复打磨实现但它的前提是：你要给它清楚的规格、可验证的目标，必要时还要有 evals。否则 agent 只是“忙碌地迭代”，不一定朝正确方向前进。这也是吴老师文章中很关键的一点：AI agent 的能力越强，规格和评估体系越重要。第二层：Developer feedback loop，开发者反馈循环这是中间层，速度比工程循环慢，通常是几十分钟到几小时一次。开发者不再主要扮演传统 QA，手动找 bug、让 AI 修 bug。因为 AI 已经越来越能自己测试和修正低层问题。开发者的角色上移了：更多承担产品判断、体验判断、方向判断。也就是说，开发者要回答的问题从： · “这个按钮坏了吗？” 变成： · “这个功能该不该存在？” · “这个流程是不是符合用户真实场景？” · “这个视觉风格是不是对？” · “这个产品到底应该服务谁？” 吴老师用给女儿做打字练习 app 的例子说明：AI 可以自己开发，但“猫咪服装解锁机制”“家长登录流程”“视觉设计风格”这些判断，仍然需要人来决定。这里有一个很重要的观点：他不太喜欢只用“taste”来描述人的作用，而更愿意说是 context advantage，语境优势或上下文优势。这比“品味”更准确。第三层：External feedback loop，外部反馈循环这是最慢但最接近真实世界的循环。包括： · 找朋友试用 · alpha 测试 · 上线给真实用户 · A/B 测试 · 分析用户行为数据 · 收集客户反馈 · 做竞品分析这个循环可能需要数小时、数天，甚至数周。但它决定产品方向是否真实有效。前两个循环可以让你更快地“把东西做出来”，但外部反馈循环告诉你：你做出来的东西有没有人真的需要。这是 AI 编程时代尤其容易被忽视的一点。 AI 编程时代正在经历一次角色迁移以前的软件开发链条大致是：产品经理定义需求，设计师设计体验，工程师实现，QA 测试，用户反馈再回流。现在 AI agent 压缩了“实现”和“低层测试”的成本，工程师开始自然进入更上层的位置：产品定义、用户理解、体验判断、反馈分析。工程师不会替代产品经理或设计师，但边界正在变模糊。AI 让更多人有能力从想法直接走到原型，再到上线测试。所以未来有竞争力的人，不只是“会写代码的人”，而是能设计好这三类循环的人： · 让 AI 高效执行的工程循环 · 让人类上下文不断校准方向的反馈循环 · 让真实用户数据修正产品愿景的外部循环

译吴恩达（Andrew Ng）提出“Loop engineering”，将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环：**工程执行循环**——AI agent根据规格和evals自主写代码、测试、修bug，每几分钟迭代；**开发者反馈循环**——开发者从低层QA转向产品判断（功能取舍、视觉风格等），每几十分钟到几小时反馈；**外部反馈循环**——通过真实用户测试、A/B测试等验证方向，周期数小时至数周。他认为未来竞争力在于设计好这三类循环。

Orange AI@oran_ge · 2天前28

Sonnet 5 一出，Opus 4.7 和 4.8 彻底没意义了…

Orange AI@oran_ge · 1天前36

Claude 封号封成这狗样又是检测中转站，又是钓鱼邮件，又是中转站黑名单的…. 还在费尽心机坚持用官方号的朋友们可以说是真爱了… 花钱用 token 还要偷鸡摸狗，这过的是啥日子啊不过现在编程方面 codex 和 glm5.2 可以平替 claude 的模型了写作和思考方面却没有一个能平替，deepseek 和 gemini 勉强能用，确实是个头大的问题

译用户吐槽Claude封号严重，官方检测中转站、钓鱼邮件、中转站黑名单等操作让用户苦不堪言。花钱用token还要偷鸡摸狗，坚持用官方号实属真爱。编程方面，codex和glm5.2可以平替Claude模型；但写作和思考方面尚无替代品，deepseek和gemini仅勉强可用，成为当前最大痛点。

Orange AI@oran_ge · 2天前19

Claude 封号封成这狗样又是检测中转站，又是钓鱼邮件，又是中转站黑名单的…. 还在费尽心机坚持用官方号的朋友们可以说你们对 Dario 是真爱了… 花钱用 token 还要偷鸡摸狗，这过的是啥日子啊推荐旧文给大家 Cola 虽然直接用 API 肯定不如 Plan 便宜，但胜在安稳省心开箱即用另外，Sonnet 5 和 Fable5 也即将上线

译用户抱怨 Claude 封号严重，涉及检测中转站、钓鱼邮件和黑名单，认为坚持使用官方号成本高。推荐 Cola API 服务，虽不如 Plan 直接便宜但安稳省心开箱即用。同时预告 Sonnet 5 和 Fable5 即将上线。

Berryxia.AI@berryxia · 2天前23

90%的人和AI对话的方式一开始就是错的！以为提示词工程就是写一堆提示词让AI干活就行了！看完视频老师的讲解终于明白了～

译主推文指出90%的人与AI对话的方式一开始就错了，误以为提示词工程只是写一堆提示词让AI直接完成任务。引用推文进一步点明，通过观看视频讲解，终于理解了所谓的“循环工程”——一种可能替代或补充传统提示词工程的迭代式对话方法。推文强调深度互动与反馈循环的重要性，而非一次性指令输出。

DogeDesigner@cb_doge · 2天前37

ELON MUSK: When technologies like Neuralink are hitting like Jesus-level miracles, you know, that's pretty good. I think some kind of brain-machine interface that can give you cybernetic superpowers is probably good. It could help people that have brain or spine injuries, restore, enable people who've never spoken for years to speak again, which we've done, give people eyesight who have lost both eyes or the optic nerve, or maybe have never even seen at all blind from birth. By direct interface to the optical centers in the brain, you can actually restore eyesight or give people eyesight that they've never had before, and you can enable people to walk again, which I think is profound. I mean, these are kind of Jesus-level things.

译马斯克表示，Neuralink脑机接口技术可实现“耶稣级别”的奇迹：帮助脑或脊柱损伤患者恢复说话（已实现）、让失明或天生盲人通过直接刺激大脑视觉中枢重获视力、以及让瘫痪者重新行走。他称这些能力为“赛博格超能力”，并认为对脑损伤患者具有重要意义。

Rohan Paul@rohanpaul_ai · 2天前32

Elon Musk on AI productivity gains.

译@Scobleizer 即使在快速增长的经济中，也总会有暂时的下跌。然而，AI和机器人带来的生产力增益如此巨大，以至于宏观趋势压倒性地向上。

Ethan Mollick@emollick · 2天前53

I wrote about how the rapid rise in AI abilities is leading to both a transformation in how AI is used at work, and the sort of sudden lurches in policies and markets we have been seeing in recent weeks. https://open.substack.com/pub/oneusefulthing/p/the-twilight-of-the-chatbots?r=i5f7&utm_medium=ios

译我撰文探讨了 AI 能力的快速提升如何既改变了人们在工作中的使用方式，也导致了近几周我们看到的政策与市场突然转向。https://open.substack.com/pub/oneusefulthing/p/the-twilight-of-the-chatbots?r=i5f7&utm_medium=ios

Yuchen Jin@Yuchenj_UW · 2天前31

Claude Sonnet 5 costs more than Claude Opus 4.8 on the Artificial Analysis Intelligence Index task, and 4.75X more than GLM-5.2. Token efficiency is important.

译Claude Sonnet 5 在 Artificial Analysis Intelligence Index 任务上的成本高于 Claude Opus 4.8，并且是 GLM-5.2 的 4.75 倍。Token 效率很重要。

Chubby♨️@kimmonismus · 2天前56

Agents that can plan but can't pay are just expensive chatbots. No account, no API key, no human in the loop. The agent sends a request, pays in USDC, gets data back. That's actually new.

译能规划但付不了钱的智能体只是昂贵的聊天机器人。无需账户，无需API密钥，无需人工介入。智能体发送请求，用USDC支付，取回数据。这才是真正的创新。

Chubby♨️@kimmonismus · 2天前56

OpenAI achieved a much more significant breakthrough today. Sonnet 5 is an average release. But the fact that OpenAI, according to The Information, has managed to more than halve the inference costs of its current models through a new approach to inference optimization is absolutely groundbreaking. And when you also consider that they recently introduced their own inference chip with Broadcom, which is said to be faster and more efficient than the competition, I increasingly see OpenAI in an outstanding position. Today, at least, OpenAI emerges as the winner of the day.

译作者认为 OpenAI 今天取得更重大突破：通过新推理优化方法将推理成本降低一半以上，并与 Broadcom 合作推出更快更高效的推理芯片，使 OpenAI 处于突出位置。相比之下，Sonnet 5 只是一次普通发布。引用推文进一步指出，Sonnet 5 优于 Sonnet 4.6 但弱于 Opus 4.8，定价不变，版本号从 4 跳到 5 不合理，可能只是为维持话题的中间发布，整体令人失望。

Logan Kilpatrick@OfficialLoganK · 2天前32

A conversation with @ssamat (President of Android) on how AI frees us from micromanaging our devices, why leading with what the technology does for real people is so key for Android, how the operating system evolves into an intelligence system, and much more!

译与 @ssamat（Android 总裁）的对话：AI 如何让我们摆脱对设备的微观管理，为什么以技术对真实用户的帮助来引领对 Android 至关重要，操作系统如何演变为智能系统，以及更多！

AYi@AYi_AInotes · 2天前58

去年开发者是 AI 编码代理的 QA——手动找 bug，手动让代理修，今年代理能自己测自己修了，吴恩达老师管这叫"循环工程"，但我觉得真正值得说的不是这个循环工程本身，上周末他给女儿做了一个打字练习 app，编码代理自己跑了一小时，用浏览器反复检查自己写的东西，没要他干预。他要做的不是检查代码，是决策，比如视觉设计怎么调、猫咪皮肤加几个、家长登录流程怎么改。以前这些东西藏在"有空再优化"列表里，现在代理把代码层的事吃了，决策层的事就全浮出来了。吴恩达用了一个词来形容——叫"语境优势"。他说很多人把人类在循环里的价值叫"品味"，他不喜欢这个词，因为品味听起来像玄学，人类真正的优势不是品味，是语境——你知道用户是谁、为什么痛苦、什么功能他们会疯传。这些事代理不知道，不是因为模型不够强，是因为这些信息不在训练数据里。循环工程真正的洞察在这：它可以加速代码，但不能压缩语境。只要人拥有代理没有的信息，人就永远在循环里有一层不可替代的位置。只不过这层位置一直在往上移，从 QA 移到 PM，从检查移到判断。我觉得最容易被取代的，是代理能自己测的那部分工作，而回不去的是那种只有你知道用户想要什么的那一部分工作。所以循环工程真正的意义，不是让 AI 跑得更久，其实是反向逼你的能力不断往上走

译吴恩达提出“循环工程”概念：AI编码代理可自主迭代代码、测试直至正确，无需人类干预。他用上周末给女儿做打字练习app举例，代理自行运行约一小时，多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策（如视觉设计、用户流程）。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境，只要人拥有代理没有的信息，人就永远在循环中占据不可替代的位置。

Chubby♨️@kimmonismus · 2天前46

Here is my first assessment of Sonnet 5: Sonnet 5 is better than Sonnet 4.6. Who would have thought? But jokes aside: Unfortunately, it is weaker than Opus 4.8 across all evals. Why they nevertheless labeled the latest Sonnet 5 iteration with a “5”, even though “4.8” would have been more fitting, is beyond me. Normally, major version jumps in particular signal a significant leap in capability. Be that as it may: Sonnet 5 is good, but worse than expected. Pricing has not changed; it is on the same level as its predecessor. Opus is still more expensive, but at the same time it also remains better. Overall, the release irritates me and leaves more questions than it answers. I cannot help but see Sonnet 5 as a release that stands in the context of Fable 5. There was no mention of Fable 5 at all, which surprises me a lot. I really would have expected us to get news about it at the same time. But nothing. Instead, we get an update to a new model series (“5”), but one that is not significant compared with the models we already have. As a result, there is a lingering aftertaste that Sonnet was released as something in between, perhaps also simply to release something at all and to stay part of the conversation, including in a positive sense. Why no Opus 5, when we know that Fable 5 already exists as a model that performs significantly better than 4.8, and when we can assume both that a better Opus exists internally and that it would not be difficult to update Opus to the new generation? Why “only” Sonnet 5? Because restraint is currently required. The major releases are currently being delayed across the board; they are still in discussions with regulators about how the truly powerful frontier releases can be carried out at all and under what conditions. In my view, the Sonnet 5 release has to be seen against this background. And as a result, at least for me, it was disappointing overall.

译Anthropic 发布 Sonnet 5，称其为迄今最具智能体能力的 Sonnet，推理、工具使用、编程和知识工作均有提升，性能接近 Opus 4.8 但更便宜。即日起至8月31日，输入 $2/M token、输出 $10/M token；标准定价 $3/M、$15/M。相比 Sonnet 4.6 更安全，幻觉和讨好度更低；网络安全防护默认开启，但 Opus 仍更强。独立评测者指出 Sonnet 5 整体弱于 Opus 4.8，认为版本号“5”名不副实，定价与前代一致令人失望。发布被视为顶级大模型延期监管下的权宜之举，未见 Opus 5 或 Fable 5 同步更新。

fofr@fofrAI · 2天前22

I've been enjoying using Nano Banana 2 Lite. It lets me navigate lots of prompts and ideas very quickly. Faster results, faster iteration, faster exploration. > a minimal flat animated scene of something neutral but interesting, a single character, pick an unusual animation style and palette

译我很喜欢使用 Nano Banana 2 Lite。它能让我非常快速地浏览大量提示和想法。更快的成果，更快的迭代，更快的探索。

fofr@fofrAI · 2天前52

Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects 🤯 > Change the table to be a shallow pool of water I'm excited to see what y'all build now it's available in the API. The edit capabilities of this model were made for cool pipelines.

译Omni Flash 是个聪明的模型。看那湿润的手、水波、折射、阴影、音效 🤯 我很期待看到大家用它做什么，现在它已在 API 中可用。这个模型的编辑能力是为酷炫的流程而生的。

Peter Steinberger 🦞@steipete · 2天前48

Was thinking if I should highlight this tweet or not, but it’s a masterclass in the amount of vitriol people face when working on open source. Is the app great yet? No. It’s a start. It was built by the community. Getting the iOS and Android apps working with secure pairing and push notifications - and getting both through App Review -took a surprising amount of work. OpenClaw wasn’t acquired by OpenAI and isn’t an OpenAI product. It’s an open, independent project under the OpenClaw Foundation. OpenAI sponsors the project’s token usage; I work there. Cristian, your tweet was just one of ~30 I woke up to today. I’d genuinely love your help making it great. Attention is still the scarcest resource. I’d rather spend mine encouraging people who build.

译针对用户Cristian嘲讽“被OpenAI收购、拿到无限token却做出劣质应用”的推文，Peter Steinberger回应：OpenClaw未被收购，它是OpenClaw Foundation下的独立开源项目，由社区构建；OpenAI仅赞助token用量，他本人恰好在OpenAI工作。当前iOS和Android应用尚不完善，但已实现安全配对和推送通知并通过App Review。他表示当天收到约30条类似批评，希望得到建设性帮助，而非空耗注意力。

Chubby♨️@kimmonismus · 2天前51

Of all the places people keep trying to bolt AI onto, the keyboard is the one that finally clicks for me. An agentic keyboard just feels like the right form factor: it's the single surface that follows you into every app you open, so turning it into an action layer instead of just a place to type is a genuinely smart move. That's exactly what Acti does. You type what you want, hold to run it, and the result comes back ready to send without ever leaving the conversation. Bind your own workflows to a skill key and fire them on the spot. This is one of the most interesting things I've seen come out of the agentic space all year, and it's the kind of shift that feels obvious in hindsight.

译Acti (@openacti1) 推出 Agentic Keyboard（智能体键盘），定位为继 2007 年苹果玻璃键盘后的下一次变革。它不是语法修正或语音转写工具，而是在每个文本字段中嵌入隐形智能体。用户输入内容后按住即可运行，结果直接返回，无需离开当前对话。支持将自定义工作流绑定到技能键并即时触发。推文作者认为这是今年智能体领域最有趣的创新之一，称键盘是 AI 理想的载体形式。

DogeDesigner@cb_doge · 2天前61

Sam Altman says he has no shares in OpenAI and is not doing it for money. But he is making billions through stakes in companies that are doing direct business with OpenAI. He has pushed OpenAI to do business with those companies and made billions for himself. • Helion Energy: Altman was on their board. He pushed OpenAI to buy power from them and tried to get OpenAI to invest $500 million in Helion. He quit the board, then his shares jumped to over $4 billion. • Stripe: OpenAI made a direct deal to use Stripe for payments and AI tools. Altman owns a big part of Stripe. • Retro Biosciences: OpenAI has a direct business deal with this company. Altman owns a big part of it. • Cerebras: OpenAI talked about big chip deals with this company. Altman owns part of it. • Humane: Their Ai Pin device runs on OpenAI technology. Altman owns part of Humane. • Degree (Lattice): OpenAI has a direct business deal with this company. Altman owns part of it. • Formation Bio: OpenAI has a direct business deal with this AI pharma company. Altman owns part of it. • Software Applications: Listed among Altman-backed companies that had dealings with OpenAI. • Rain AI: OpenAI reportedly signed a $51M letter of intent to buy AI chips from Rain AI, a startup personally backed by Altman. • Reddit: OpenAI made a content deal with Reddit. Altman previously held a major Reddit stake, though Reuters says he sold it by the end of 2025. While OpenAI reportedly lost around $8.5 billion in just one quarter, Altman’s side investments kept gaining billions from the same ecosystem.

译Sam Altman声称在OpenAI没有股份且不为钱，但通过持股与OpenAI有直接业务往来的公司获利数十亿美元，包括Helion Energy（价值超40亿美元）、Stripe、Retro Biosciences、Cerebras、Humane、Lattice、Formation Bio、Rain AI（OpenAI曾签5100万美元采购意向书）及Reddit（内容交易）。尽管OpenAI单季度亏损约85亿美元，Altman的个人投资持续获利。

Ethan Mollick@emollick · 2天前40

Common challenge that will come up in the near future is capturing the gains of greater AI intelligence in organizations. High human capital firms need to be set up to benefit from their high-quality employees. Capturing value of highly capable AI will require similar org design.

译未来会出现的一个常见挑战是：如何让组织从更强大的AI智能体中捕获收益。高人力资本公司需要设计好组织，以便从其高质量员工中受益。同样，捕获高能力AI的价值也需要类似的组织设计。

Chubby♨️@kimmonismus · 2天前34

Rumors about Sonnet 5 have been circulating for a long time. Now it looks like Sonnet 5 will be released alongside the re-release of Fable 5 (presumably with ID verification). This leaves a bad taste in my mouth, because it raises the possibility that those who might not be able to access Fable 5 (in Europe?) will essentially get a much weaker alternative in Sonnet 5. I might be wrong, I even hope so. But I have a bad feeling about it.

译Claude Sonnet 5 的早期准备工作再次被观测到，发布在即。有传闻称 Sonnet 5 将与 Fable 5（可能需 ID 验证）一同重新发布。这引发担忧：无法访问 Fable 5 的地区（如欧洲）用户可能只能获得更弱的 Sonnet 5。

Rohan Paul@rohanpaul_ai · 2天前56

Coinbase CEO Brian Armstrong said Coinbase is experimenting with defaulting to Chinese open-weight models such as GLM 5.2 and Kimi 2.7 through its LLM gateway, while routing prompts by difficulty. He explicitly says frontier models may be needed for planning but can be “overkill” for execution. --- businessinsider. com/coinbase-ceo-brian-armstrong-low-ai-spend-maintain-token-usage-2026-6

译Coinbase CEO Brian Armstrong透露，Coinbase正通过其LLM网关实验默认使用中国开源模型GLM 5.2和Kimi 2.7，并根据提示词难度路由执行。他表示前沿模型适合规划，但用于执行可能“过度杀伤”。该决策背后引用前Meta PM及Perplexity CEO Aravind Srinivas观点：中国在数据中心建设速度、电力、许可、人力和专业知识方面均具显著优势。