I've had access to Fable for a bit. A genuine jump in capability, I could feed it a 15 page design document for a project and it would work for 9+ hours and deliver terrific results. But working with it is weird & weirder is coming Lots of examples: https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

译我曾短暂使用过 Fable。能力确实跃升，我可以给它一份 15 页的项目设计文档，它能连续工作 9 个多小时并输出极好的结果。但使用它的感觉很奇怪，而且更奇怪的东西即将到来。大量示例：https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

Ethan Mollick@emollick · 6月10日19

This is worth reading.

译这值得一读。

Rohan Paul@rohanpaul_ai · 6月9日8

This is basically Claude for marketing..

译Crowdreply 推出 Searchmaxxing，一种让品牌在所有 AI 搜索平台都可见的新策略。Rohan Paul 称这基本上是营销领域的 Claude。

Noam Brown@polynoamial · 6月9日68

We've known about LLM test-time compute scaling since @OpenAI o1. Yet 2 years later labs still report scalar evals for models; safety orgs are still surprised when a scaffold does better via 100x inference; and RSPs still ignore inference budget when deciding critical thresholds.

译自 @OpenAI o1 以来，我们就知道 LLM 测试时计算缩放。然而两年后，实验室仍在报告模型的标量评测；安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶；而 RSP 在决定关键阈值时仍忽略推理预算。

Ethan Mollick@emollick · 6月9日73

The New York Times published a roundtable discussion between @DAcemogluMIT, @deanwball, @clarashih & myself about the future of AI & who wins at work. I think it is a really nice overview of the core debates on the topic, and has some fun examples. https://www.nytimes.com/2026/06/09/magazine/ai-jobs-workforce-labor.html

译纽约时报发布了一场圆桌讨论，参与者包括@DAcemogluMIT、@deanwball、@clarashih和我本人，讨论AI的未来以及谁会在工作中胜出。我认为这是对该话题核心辩论的一个很好的概述，并且包含一些有趣的例子。https://www.nytimes.com/2026/06/09/magazine/ai-jobs-workforce-labor.html

DogeDesigner@cb_doge · 6月9日18

Sam Altman wants to be Elon Musk so badly.

译Sam Altman 非常想成为 Elon Musk。

Berryxia.AI@berryxia · 6月9日37

设计一个真正的系统其实里面的工程太多了，每一环不可或缺，比如提示词工程、上下文工程，记忆模块、包括后面的skills 等等其实都无一例无的都成一个系统，都是环环相扣的。这个Loop Engineering 讲的很清晰了！

译设计真正的AI系统涉及大量工程细节，提示词工程、上下文工程、记忆模块、skills等环节缺一不可，彼此环环相扣形成了一个完整系统。Berry Xia引用了一篇关于Loop Engineering的清晰阐述，强调这些组件的系统性整合才是关键。

数字生命卡兹克@Khazix0918 · 6月9日70

http://x.com/i/article/2064208729172746240 # 帮大家总结了一下凌晨的苹果WWDC26。就在凌晨，苹果的WWDC 2026结束了。这是Tim Cook作为CEO最后一次站在WWDC的舞台上了，9月1号，他就会把位置交给硬件工程高级副总裁John Ternus，所以今年这场，多少带了点告别的意思。但发布会本身，坦率的讲，还是那个苹果。不惊不喜，稳稳当当。整场下来最大的主题就一个，还是AI，比如跟Gemini的合作终于落地了，比如Siri终于有了个AI的后缀，比如各种IOS的APP，也都往AI化的方向一步步集成。不过苹果还是那个苹果，动作慢的可怜，并且最难崩的依然是国区几乎都不支持。原话是：不过，这些功能的更新还是值得一看的，以及国内到底苹果会跟谁合作，还是一个意思的话题。我也通宵给大家蹲完，然后整理完了。希望对大家有用。一. Apple Intelligence新架构先说底层，因为后面所有AI相关的东西都建立在这套新架构上。 1. 跟Google Gemini的深度合作这次苹果也终于官宣了。 Apple Foundation Models的新一代是跟Google合作，基于Gemini家族一起来做的，搞了5个模型，然后苹果把这些模型适配到了端侧运行和Private Cloud Compute服务器上运行。 Private Cloud Compute就是苹果专门为AI搭建的一套云计算基础设施，跑在苹果自研芯片上，用的是一个从iOS裁剪出来的专用操作系统。核心承诺是，你的数据端到端加密，只用于处理你的请求，处理完立刻删除，不存储、不留痕，连苹果自己的工程师也看不到你的数据。再细节的参数啥的就没说了，反正就是苹果承认了自己在大模型基础能力上追不上第一梯队，选择花钱买他们认为对普通消费者来说最好的底座，然后在上面做自己擅长的系统集成和体验设计。策略上说得通，面子上。。。面子有啥用你说对吧。 2. 双端侧模型苹果今年的端侧模型分了两档。所有支持Apple Intelligence的设备都有一个基础版端侧模型。但在能力强一点的的Apple设备上，比如iPhone 17 Pro、iPhone 17 Pro Max、iPhone Air、M4 及以上且至少 12GB 统一内存的 iPad、M3 及以上且至少 12GB 统一内存的 Mac，苹果额外部署了一个更强的第二版。这两个端侧模型分别是： AFM 3 Core，一个3B的小模型。AFM 3 Core Advanced，20B的MoE模型。这个更强的模型多出来的核心能力是语音和更高精度的听写等功能，它能听懂语音也能生成语音。所以像Siri更有表现力的新声音、更精准的全系统听写这些功能，都只有跑得动第二版模型的设备才能用。 3. 系统架构有了模型之后，对模型的调度还是需要一些设计的。苹果做了一个叫系统编排器（System Orchestrator）的东西，它是整个Apple Intelligence的调度中心，负责协调四大系统级能。上下文理解。你设备上所有的内容，照片、邮件、备忘录、消息，都通过Spotlight的语义索引被组织起来了。广泛世界知识。比如你问世界杯赛程是什么，系统编排器会让Apple Intelligence联网去搜索，然后通过Private Cloud Compute来生成回答。 App Actions。这是让Siri能动手做事的关键。系统编排器知道你手机上每个App能做什么（通过App Intents框架），当你说发消息给某某的时候，它会调用Messages来执行。理论上，任何适配了App Intents的第三方App都能被Siri调用。屏幕感知。系统编排器能看到你当前屏幕上显示的内容。比如你正在Safari里看一篇文章，这时候问Siri一个问题，它能结合你正在看的内容来给出更相关的回答。这四个能力组合在一起，就是苹果所说的以你为中心的AI，也是硬件跟AI结合的一个比较完整的方案。 4. 隐私他们的原话是： We believe privacy in AI is non-negotiable. 我们认为，AI中的隐私是不可谈判的。苹果的态度是，很多AI厂商在嘴上说隐私，但默认情况下都在保留你的个人交互数据，把保护隐私的责任推给用户。苹果的方案就是前面说的端侧处理+Private Cloud Compute，数据不存储、不可访问，只用于执行请求，外部专家可以随时审计。二. Siri AI 今天真正的重头戏，也是苹果最大的发布了。给新版Siri正式命名为Siri AI。 1. 核心能力升级 Siri AI基于整套新的Apple Intelligence架构，集成了上面提到的很多的新能力。苹果的说法是，Siri现在是一个“有了质的飞跃”的助手。然后基于这次的新Siri AI，他们做了一些演示。演示一，问答+提醒+音乐。问“旧金山的某位歌手演唱会什么时候”→ Siri给出答案（7月26号）→ 追问怎么买票 → Siri说要抽签 → “抽签开始的时候提醒我”→ 设好提醒 → “放一首她的新单曲” 演示二，屏幕感知+个人上下文+路线规划看到一张照片问“这是哪”→ Siri识别出圣克鲁兹海岸的天然桥州立海滩 → “我朋友Jeff最近搬到附近了，他新家在哪”→ Siri从消息记录里找到Jeff发过的地址 → “给我导航到那个拱门，中间停一下Jeff家”→ Siri规划路线演示三，照片筛选+共享 “给我看上周在沙斯塔山的照片”→ Siri搜索照片 → “只把有Bryce、Madison和Quinn的照片加到家庭共享相册”→ 完成演示四，对话式体验查世界杯开幕周末赛程 → “我想为巴西vs摩洛哥那场办个观赛派对，给我两个国家的经典菜”→ Siri给出菜品（还带图片）→ “Maria最近提到的那个甜点是什么”→ Siri搜索消息找到椰子饼干→ “把这些整合成一个菜单”→ Siri生成创意菜单 → “发消息给Gold Chasers群组问他们要不要来，附上菜单”→ 发送演示五，Mac上的对话式Siri Siri也集成进了Spotlight。在Spotlight里输入问题就能启动跟Siri的对话，窗口可以拖拽和调整大小。演示了让Siri分析多个不同格式的文件比较三个棚子的报价，然后结合儿子之前发的消息里提到的电路问题来做推荐，最后让Siri直接起草一封邮件给选中的供应商。大概就是这样。我的感受是，怎么说呢。 2026年了，Siri AI的演示核心还是问答、搜索个人信息、发消息、设提醒这些事。对话式体验确实比以前强了不少，能连续聊、能带上下文了，但说实话，这些demo跟现在的ChatGPT、Claude比，谈不上什么惊喜。最关键的是，没有看到真正的Agent能力。也没有看到Siri自主规划、自主执行多步任务、自主调用多个App完成一个复杂目标的场景。苹果说了App Actions，但演示里最复杂的也就是搜索照片→筛选→加到共享相册这种程度。这块确实是有一点失望。 2. 新语音体验在支持第二个强端侧模型的设备上，Siri有了全新的语音。更有表现力，语调变化更自然。苹果还让你可以自定义Siri的语音风格，调表现力和语速，更亲切更好玩一点。 3. 全系统听写升级同样需要第二档端侧模型，新的听写引擎在拼写、标点和大小写上都更精准了。因为它是内建在系统键盘里的，所以不管你在哪个App里，只要调出键盘就能用。发布会上提到的场景是“在地铁上用语音发消息”和“边想边说地用日记App记录”，都是日常会用到的，这个我觉得还是比较刚需的，好评。 4. 视觉智能 iPhone上，Visual Intelligence（视觉智能）集成进了相机App，新增了一个Siri模式。按快门键让Siri看到你看到的东西，然后给你有用的回应，可以下拉查看详细信息、问后续问题。 5. 写作工具 + Siri集成写作工具现在更深度地跟Siri结合了，你可以在任何能打字的地方用自然语言描述让Siri从头生成文本。在邮件和信息里，Siri还能根据你跟特定联系人的沟通风格来调整语气。另外，Apple Intelligence现在全系统自动校对了，你在任何App里打字，它都会自动检查拼写和语法，不用你手动触发，大多数第三方App也支持。 6. Siri独立App + 跨平台苹果给Siri做了一个独立的App，这是第一次。现在有了独立App之后，你所有跟Siri的对话都会被保存在这里，可以随时回看。最重要的是跨平台同步，你在iPhone上跟Siri聊了一个话题，打开iPad上的Siri App可以看到这段对话，继续往下聊，在Mac上也一样。对话历史通过iCloud加密同步，苹果看不到你的对话内容。 Siri AI还扩展到了watchOS（手腕上直接问）和visionOS（3D可视化的Siri，放在你空间里的任何位置，看着它说话就行，不用说「hey Siri」）。然后新版的Siri，目前只支持英语，后续会扩展其他的语言，欧盟和中国都目前不可用，可用时间未知。三. APP智能化反而是我今天觉得比较惊喜的部分。让AI渗透进所有人的生活中，确实还是得从老的APP改造入口，是最能进日常场景的。 1. Safari 三个新功能。智能标签页整理，Safari用Apple Intelligence分析你打开的每个页面，自动按主题分组。你浏览的时候，相关新标签页会自动归到对应主题下，可以一键关掉整个主题或者存为标签页组。 Notify Me，你可以用自然语言告诉Safari你在等什么变化（比如某个商品补货、某个报名开放），然后关掉那个标签页，Safari会自动监控，变化发生时推送通知。这个功能太实用了，不知道执行效果怎么样，但思路是对的。 Describe an Extension，用自然语言描述你想要什么，Safari帮你生成一个自定义扩展来调整网页内容，比如在工具栏加一个按钮来保存和评分你试过的食谱。还有一条，Safari所有智能功能都不追踪你的浏览数据，不跟任何人分享，包括苹果自己，然后稍微内涵了一下友商。。。 “不像某些浏览器”。 2. 密码App 密码App现在已经能提醒你弱密码和泄露密码了。新功能是，它现在能自动帮你更新密码，背后是Apple Intelligence和Safari配合，自动导航到对应网站、登录、改密码。一个“agentic”的动作，难得见到苹果用这个词。。。 3. 短信 Messages现在能理解对话上下文，提供一键建议。比如有人提到某个事，Messages会建议你创建提醒或备忘录，有人问你要照片，Messages帮你根据关键词、地点和人名搜索最合适的照片。 4. 邮件邮件也有了更智能的上下文建议，让你快速用喜欢的App（包括第三方App）采取行动。 5. 日历可以用自然语言添加事件了。你打字的时候，日历会自动识别联系人、地点，填上标题。编辑也更智能，比如把“每周”改成“每两周”，日历自动调频率。 6. 电话苹果把这个电话的功能叫Call Context。这个是我的刚需。打电话给商家的时候，电话App可以主动从你其他App里找相关信息。比如你打电话给航空公司改机票，它能自动从邮件里找到你的确认码。而且全部端侧运行，看的是你打给谁。但是咱就是说，新AI上国内的时候，咱能不能把那些恶心的营销电话也都用AI处理一下。。。 7. Home 家庭App可以支持用Apple Intelligence理解摄像头通知，把相关的通知合并成一个持续更新的活动通知。还能分析录像片段，生成描述，支持用自然语言搜索录像内容（比如搜快递），支持4K分辨率回放。 8. 快捷指令这个更新也挺好的，类似飞书的AI生成工作流。快捷指令现在支持用自然语言描述你想要的自动化，Apple Intelligence帮你组装所有步骤。演示里的例子是，“当我离开公司时，发消息告诉佩德罗我在路上，附上到家的预计时间”→ 快捷指令自动创建了一个自动化，检测离开公司地址 → 用地图计算到家时间 → 用信息App发送。还能追加描述来调整，比如自动播放最爱的播客。四. 创意与影像这块苹果也用AI雕了一些有意思的花。 1. Image Playground大升级 Image Playground这次大幅升级了一下。核心变化，支持写实风格了，之前只能生成那种卡通/插画风格，现在用Private Cloud Compute上的跟Gemini搞的新生成模型，可以做高质量的各种风格图片。毕竟你都用Gemini了，生图再不迭代一下，那就真说不过去了。你可以用照片库里的人来生成图片，用自然语言描述修改，用触摸手势圈选对象来移动/缩放/修改。还能选择不同的画幅，生成联系人海报和锁屏壁纸。同时，给开发者也开放了Image Playground API。 2. Photos AI编辑三件套 Cleanup升级，去除干扰物的效果更好了，复杂场景下的填充更真实。 Extend，扩展图片边界，给主体更多空间，或者调整画幅时不用裁掉重要内容。 Spatial Reframing（空间重构），这个是今年Photos里最酷的新功能。你可以在拍完之后重新调整照片的构图，就像你在拍照那个瞬间移动了相机一样。它用的是端侧的空间模型做实时预览，然后用Private Cloud Compute上的生成模型来填充透视变化产生的新区域。只生成空白区域的内容，原始照片的部分保持不变。演示效果确实不错，而且这个功能基于Apple Vision Pro积累的空间理解技术，对老照片和其他相机拍的照片也能用。五. 开发者工具 1. Xcode 苹果说Xcode是做agentic coding最好的地方。。。我一直不知道该从哪开始吐槽起。。。反正这次也做了一些更新，也基本围绕的着AI。比如它现在能一键把你的整个App本地化成其他语言，能跟模拟器里的虚拟设备直接交互（以前只能看代码），还支持自定义skills来扩展助手的能力。然后呢Xcode的代码助手现在可以选择不同的AI模型了，包括Google的Gemini。。。你还可以把它跟Figma和GitHub这样的外部工具连起来，让代码助手能够参考设计稿和代码仓库。测试方面，苹果推出了全新的Device Hub，把所有模拟设备和真实设备统一到一个界面里。你可以在里面模拟多点触控操作，一键切换App的深色/浅色模式，还能动态调整App的窗口大小来测试不同屏幕尺寸下的表现。 2. Foundation Models Framework 开发者可以在App里用Apple的端侧模型，今年新增了图像输入（之前只有文本），支持自定义Skills扩展模型能力，还能用同一套Swift API调用服务器端的模型。 3. Core AI Framework 全新框架，可以在所有苹果平台上用Apple Silicon的全部算力来本地运行其他模型。这个对开发者来说可能是最实际的，意味着你可以把自己的模型或者第三方模型直接跑在设备上。六. 体验升级就是一些偏系统偏设计的了，跟AI关系不大了。 1. Liquid Glass优化去年WWDC最爆的就是Liquid Glass这套全新设计语言。好看是真好看，但争议也不小。苹果今年也说去年太激进了，所以在IOS27上，底层优化了Liquid Glass的模糊算法，对复杂背景的弥散效果好多了。也加了一个透明度滑块，现在，你可以自己调Liquid Glass的透明度。 macOS上还做了几个调整，工具栏更统一了，侧边栏延伸到窗口边缘，侧边栏图标恢复了彩色，所有窗口统一了更紧凑的圆角，App图标也迭代了一版，在图标内部加了多层Liquid Glass折射效果。 2. 性能提升常规操作，比如iPhone和iPad上App启动速度快了30%，新拍的照片在图库里出现的速度快了70%，隔空投送传文件速度快了80%，iPad接外部硬盘浏览和传输文件速度快了5倍。 3. 搜索基础设施重建苹果重建了聚焦搜索、照片和邮件背后的搜索索引，让它更稳定、更全面。新内容几乎实时入索引，邮件搜索还加了全新的排名系统，置顶结果更准了。 4. 其他小更新照片，iCloud共享相册终于支持Android和Windows用户加入了，还支持全分辨率共享。 AirPods，支持自定义EQ了。 Apple Vision Pro，全景照片可以变成有深度的空间场景。地图，Flyover大幅升级，航拍影像+视觉智能模型，建筑细节和树木形态都清晰得多。网络切换，iPhone更智能地判断什么时候该从Wi-Fi切回蜂窝（终于不用手动去控制中心关Wi-Fi了）。信息App，低带宽环境下发大文件不会卡住对话了，会显示发送进度。无障碍，苹果官网上列了不少Apple Intelligence在无障碍方面的集成。 VoiceOver现在能更丰富地描述周围环境和屏幕内容，Magnifier可以放大后直接问Siri，Voice Control更灵活了，可以用自然语言跟App交互。这块发布会上没提，但确实是AI落地到实际场景里的好例子。写在最后今天WWDC算是平稳结束了。这也是Cook最后主持的一届WWDC了。苹果，这个伟大的企业，终于要交接到了下一棒人手中去。最后，我想用我特别特别喜欢的乔布斯的一段词结尾： "向那些疯狂的家伙们致敬。他们特立独行。他们桀骜不驯。他们惹事生非。他们格格不入。他们用与众不同的眼光看待事物。他们不喜欢墨守成规。他们也不安于现状。你可以认同他们，反对他们，颂扬或是诋毁他们。但唯独不能漠视他们。因为他们改变了寻常事物。他们推动人类向前迈进。或许他们是别人眼里的疯子，但他们却是我们眼中的天才。因为只有那些疯狂到以为自己能够改变世界的人，才能真正改变世界。

译苹果WWDC 2026落幕，核心仍是AI。Apple Intelligence新架构：与Google Gemini合作开发5个模型；端侧分AFM 3 Core（3B）和AFM 3 Core Advanced（20B MoE）。新Siri正式命名Siri AI，基于系统编排器融合上下文理解、App Actions、屏幕感知等能力，支持连续对话、跨平台同步及独立App，但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语，国区不可用，可用时间未知。

Noam Brown@polynoamial · 6月9日74

http://x.com/i/article/2057694226981257216 # Implications of Large-Scale Test-Time Compute tl;dr: As LLMs become more capable, benchmark performance is increasingly a function of test-time compute. In fact, we likely don't know what the capability ceiling is for modern LLMs because it's too expensive to measure. We should change LLM evaluations to account for that by measuring performance vs tokens, cost, or time. The day GPT-5.5 was released, the initial reaction was skepticism. The benchmark numbers were better, but not by much: However, within hours, once people had time to play around with the model, it became clear that it was a step-change compared to GPT-5.4. The classic "benchmark grid" clearly wasn't telling the full story. Why is that? The reason becomes clearer when we compare GPT-5.5 to 5.4 with tokens on the x-axis: GPT-5.5 wasn't being evaluated at the same token budget (or dollar budget) as 5.4. Once we control for test-time compute, 5.5 looks substantially stronger than 5.4. Frequently when I discuss this, people ask why we don't just evaluate with a harness that pushes test-time compute until performance plateaus. The problem is that, empirically, the plateau is very far out. Sometimes we may not observe a plateau at all within practical budgets. Here's @karpathy's autoresearch experiment, where the performance continues to improve even after hundreds of experiments: And here is the @AISecurityInst's cyber eval, where performance for Mythos and GPT-5.5 continue to improve rapidly even after 100M tokens: Notice that for the stronger models the performance improvement over time is stronger. It seems likely that as models become stronger they become more effective at operating over longer horizons. The point of plateau is pushed out, and may even disappear. For this reason, I believe the proper way to evaluate models is with a performance vs test-time compute plot, with either tokens, cost, or wall-clock time on the x-axis. A few benchmarks have already moved in this direction. For example, ARC-AGI measures score vs cost. Another reasonable option is to set an explicit token/time/cost budget and communicate it to the model. That mirrors how humans are evaluated in settings like the SAT or the International Mathematical Olympiad. Each x-axis has tradeoffs. Tokens are not directly comparable across models because tokenizers, speeds, and per-token costs differ. Dollars depend on implementation details such as batching and hardware utilization, so cost and latency can trade off. Finally, wall-clock time is an imperfect measurement because multi-agent techniques like best-of-N can scale test-time compute without significantly increasing latency. Still, any of these curves is more informative than a single scalar. ## Implications for AI Preparedness Before a frontier model is released, labs typically evaluate cyber, bio, and other misuse risks. If a model crosses a capability threshold, then release may be delayed until mitigations are in place. But if capability is a function of inference compute, then at what inference budget should safety evaluations be run? In practice, most safety evaluations for model releases do not consider the amount of inference that went into the model. The release of Gemini 3 Deep Think, and the resulting outcry, is a useful example. When Gemini 3 Deep Think was released, its benchmark scores were much higher than previous models. However, no model card evaluating its risks was released alongside it. This led to outrage from some in the AI safety community. In my opinion, the criticism of DeepMind's release missed the deeper issue: that AI labs and safety orgs don't consistently account for test-time compute when evaluating models for release. Deep Think appears likely to be a scaffold of other models that do have system cards. Anyone externally could likely reproduce such a scaffold. In other words, it seems likely that the capabilities of Deep Think were available anyway to anyone willing to pay for Deep Think amounts of inference, by scaffolding a bunch of model queries together. Deep Think just makes that more convenient for the casual user. In my opinion, the real outrage should have been that when Gemini 3 and other models were released, their system cards did not measure benchmark performance as a function of test-time compute. In my ideal world, model evaluations would look something like this: A dedicated state actor could apply more than $10 million of inference to a single task. But evaluating a model typically involves thousands if not millions of rollouts, so evaluating at such high compute budgets for every rollout would be impractical. Fortunately, performance seems to scale somewhat predictably with the amount of inference compute applied. For this reason, we could evaluate at relatively low inference budgets and then project (with uncertainty) what capabilities might be at much higher budgets. Long-horizon evaluations can introduce complexities that may not always be addressed with extrapolation from smaller budgets. For example, it may turn out that the only way to confidently evaluate misalignment in an AI agent at a 1-year horizon is to actually run the agent for a year. AI labs may soon find themselves in a strange position where the operating horizon of their agents exceeds the development cycle of new models. At that point, it may be impossible to finish evaluations of a model over its maximum operating lifetime ahead of release without delaying the release of the model. ## Specific Recommendations Concretely, I recommend the following to the AI community: 1. AI labs should publish benchmark performance of newly released models with tokens, cost, or time on an x-axis. At a minimum, labs should report the inference budget used to achieve a scalar benchmark result. 1. Benchmarks should track inference usage on leaderboards, or have an explicit token/cost/time budget. Many benchmarks have already shifted in this direction, but it is not yet standard practice. 1. Preparedness Frameworks and Responsible Scaling Policies should explicitly account for inference compute when determining whether a model crosses a safety threshold. Additionally, evaluations should estimate capabilities at multiple inference budgets, including projections from smaller-budget runs with stated uncertainty. If you've followed me for a while, this whole article might seem like nothing new. We've known since the o1 announcement in September 2024 that the performance of reasoning models scales with more inference compute. And yet, nearly two years later, frontier AI labs still commonly report single-number benchmark results for their new model releases; AI safety orgs are still surprised when a scaffold achieves better performance by using 100x the inference budget; and Preparedness Frameworks and RSPs still often ignore inference compute usage when determining whether a model reaches a critical capability level. The most recent models are able to leverage test-time compute better than ever, pushing the performance plateau even farther out. If this trend continues, which I fully expect, benchmark scores that don’t account for inference compute usage will become less informative each model release cycle. For this reason, it is time to treat inference budget as a first-class part of both capability measurement and safety policy.

译Noam Brown指出，LLM基准性能日益依赖测试时计算，当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例：控制测试时计算后，5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示，即使消耗超1亿token，强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估，安全评估也应计入推理预算，如Gemini 3 Deep Think发布时未配套风险说明，关键在于业界未统一考虑测试时计算。

小互@xiaohu · 6月9日47

马斯克新的大饼来了这个饼，格外的大😂 涉及到行星移民、太空算力中心、AI卫星、太空能源... 让人类文明往上跳一个能量等级用Starlink 现成的太阳能阵列造 AI 卫星，150千瓦峰值功率 / 120千瓦持续算力，完全展开时翼展70米🥲 在月球本地造光伏和散热板，用电磁炮把 AI 卫星直接打进深空🤪 Terafab 太空算力工厂将占地约 1 亿平方英尺，是特斯拉 Giga Texas 工厂的 10 倍大小。 • Terafab 算力供应大约为：1TW/年 • 而当前美国年消耗量：0.5TW 首颗AI卫星： • 150千瓦峰值功率 / 120千瓦持续计算功率 • 采用SpaceX自主研发的太阳能技术 • 专为高性能AI工作负载设计的集中式AI计算载荷 • 完全展开时翼展70米 • 110平方米可展开液体散热器，用于在太空中移除废热 • 配备冗余冷却回路，集成微流星体防护 • 设计用于星舰发射，实现大规模太空计算所需的大量轨道运载能力 • 使用激光链路，同时避免了Starlink卫星所需的大多数复杂通信系统视频完整文字内容：开场：又是典型的一年大家好，欢迎。今天把埃隆和伊恩，还有我们 Starlink 团队的人请来聊聊近况。对 SpaceX 来说，这又是典型的一年：发射了一台全新的飞行器，收购了 xAI（现在归到 SpaceX 搞 AI），还宣布要建一座太瓦级芯片厂（terafab）。所以是啊，从来没有一刻闲着——典型的一年。今天想把这些点串起来，看看它们怎么一起推动「让生命成为跨行星物种」，怎么开始往卡尔达肖夫等级上爬，顺便秀一点很酷的 AI 卫星。卡尔达肖夫等级是什么你怎么判断一个文明发展到了什么程度？这是最客观的衡量标准——任何外星物种来拜访我们，都会用它来给我们这个文明打分。而最客观的方式之一，就是看这个文明能驾驭多少能量。有位俄国物理学家叫卡尔达肖夫，就想过这件事，我觉得他这个刻画方式很好：一型文明：你能驾驭一颗行星上可用的能量。二型文明：你能驾驭一颗恒星的能量。三型文明：你能驾驭整个星系的能量。这些都是非常客观、可测量的数字。而现在，我们在卡尔达肖夫一型这个尺度上都低得可怜。如果问「我们驾驭了地球能量的多大比例」，那是个极其极其小的数字。至于恒星的能量，我们几乎一点都没碰到。太阳到底有多大太阳真的是个庞然大物，大到很难用语言形容。给你一个尺度感：太阳占了整个太阳系全部质量的约 99.86%。它几乎就是一切。剩下的 0.14% 里，大部分还是木星一颗行星。我们这些还是轻量级——整个地球的质量都落在那个「其它杂项」的小类别里。跟太阳比，地球就是一粒微尘。从一型跳到二型，是一个巨大的难度台阶。三型我们甚至还不知道怎么搞——不过会到那一步的，AI 会搞定。那太阳的能量有多少？落在地球横截面上的太阳能，大约只是太阳总输出功率的二十亿分之一。而这里面绝大部分我们还用不上——因为地球 70% 是水。严格说，我们这颗星球该叫「水球」才对。外星文明来了大概会纳闷：明明大部分是水，他们为啥管它叫「地球」？我们就是太阳系里那个名不副实、其实并不绿的「格陵兰」。剩下 30% 是陆地，可里面一大堆是南极、西伯利亚、加拿大极北那种地方，人本来就不爱住，而且两极拿不到多少太阳能。所以真正能用来发电的陆地面积相当小。想往上爬，就必须去太空要想沿着卡尔达肖夫等级往上爬，或者说要驾驭太阳能量里任何有意义的比例，你就必须去太空。打个比方：哪怕只想拿到太阳输出功率的百万分之一，你也得把人类驾驭的能量提高远不止一百万倍——因为我们现在用的能量，还不到太阳输出的一万亿分之一（一万亿 = 一百万乘一百万）。所以在卡尔达肖夫二型尺度上，我们基本上等于不存在，根本「上不了榜」。我们在拿「百万分之一太阳功率」开玩笑——管它叫「一个 Microsoft」。能达到「一个 Microsoft」，相对我们现在的位置都是史诗级的成就，是个值得追求的目标。有意思的是，这个目标同时是「相对现状极其大胆」和「作为太阳能量的占比又一点都不大胆」——百万分之一而已。要是哪个文明真能拿到太阳能量的 1%，那已经是个牛逼到家的文明了，会比我们强大得多。但真要往那走，我们也不会傻乎乎地往太空扔一堆太阳能板去硬接阳光。得有真实需求，你上去是要干点有意义的事。在人类历史上到现在，其实一直没有这个需求——那是什么变了，让我们觉得现在是时候去争取那一两个百分点了？为什么是现在：把数据中心送上天要在卡尔达肖夫等级上有所进展，我们需要发射卫星绕地球运行、捕获太阳能。这样就不用在地面建巨型电厂、还要处理散热——而散热这件事，在太空里其实比在地球上容易得多，你直接往真空辐射就行。我们想做的，是把卡尔达肖夫等级爬到一个「拿得出手的文明」的水平。这样万一哪天外星人终于愿意跟我们说话，我们好歹用上了「还算体面」的一部分太阳能量，而不是现在这种「彻底寒酸」的样子。要把数据中心送上太空，有几个传统上几乎让这件事不可能的限制因素。要规模化，你需要三样东西：巨大的入轨运力——这正是 Starship 能给我们的。最终你得往轨道乃至更远处运送数百万吨。与之匹配的能量——如果你想往太空送 100 吉瓦乃至最终一太瓦，你迟早需要一太瓦的太阳能，外加配套散热。海量芯片——最终需要一太瓦的 AI 芯片。所以三样东西：入轨运力、大量太阳能（当然还有散热板），以及大量芯片。下面一项一项过。 Starship 与「可复用」这个根本突破入轨运力靠 Starship。我们刚完成 V3 的首飞，太震撼了——这一刻等了很久。 Starship 会真正给航天带来革命。它是第一款能做到「完全且快速可复用」的火箭设计。可复用性，是让生命成为跨行星物种、以及攀登卡尔达肖夫等级所必需的根本突破。没有可复用的飞行器，你根本爬不上卡尔达肖夫等级，也没法把生命延伸到月球、火星和太阳系其余地方——成本会高到无法承受。除非能反复飞，否则你造不出足够多的火箭。就像其它任何交通方式一样：要是每次坐完飞机就得把飞机扔掉，飞行会贵到没人坐，大家只能改开车。汽车、飞机、轮船、自行车，显然都是可复用的，否则根本撑不起一套交通系统。火箭要做到可复用难得多，因为地球有很深的重力井和厚厚的大气层，这让火箭复用「勉强才有可能」。此前有过很多次造完全可复用火箭的尝试，大多半途而废，因为他们觉得自己成不了。要做到完全复用，每个环节都得做到极致：发动机、结构、航电、推进剂的选择。你得为减重走极端——所以我们让发射塔去「夹住」火箭，而不是装又重又笨的着陆腿，火箭直接被塔接住。我们还没实现完全复用，但预计能做到，希望今年晚些时候在 Starship 上实现。再往前一步，是做到「快速复用」：火箭落下、被塔接住、放回发射台，不用任何翻修或繁琐检查就能再飞一次，像飞机一样。这极其困难，而这是史上头一回有一款火箭能做到这件事——这正是 Starship 之所以意义深远的地方。它同时还是有史以来最大的飞行物、最重的飞行物、任何种类里最强劲的移动物体。Starship V3 的推力是土星五号登月火箭的两倍多；到 V4，差不多会是土星五号的三倍。而且我们预计，将来 Starship 能做到一小时飞不止一次。顺便说个有意思的事：第 12 次飞行，是 SpaceX 迄今运过的最重载荷——而这还只是 V3 能力的一小部分。入轨运力会变成什么量级一旦我们能又快又多地飞，量级会比今天大好几个数量级。就算只算 Falcon 9 和 Falcon Heavy，SpaceX 现在就已经承担了全地球送入轨道质量的将近 90%——大概在 85% 到 90% 之间。剩下的大部分由中国发射，世界其它地方（包括美国其余部分）加起来大概只有 5% 到 7%。有了 Starship，我们要把入轨量从现在每年约 2500 吨，提到每年数百万吨，而且要在相当短的时间内做到。我们觉得大概三年左右就能做到每年一百万吨入轨。Starship 会把「入轨运力」这个限制因素解决掉。 AI 卫星：其实比 Starlink 卫星更简单接下来是发电和「太空里的数据中心」。很多人一听「太空数据中心」会卡壳——我们当然不是给一栋楼装上发动机飞上天，它长得其实很不一样。很多人根本不知道数据中心里面长什么样，以为是个「互联网在云里」的神秘地方。有人想象成一堆电线，有人想象成一堆盒子，但说到底就是一组芯片。真正要送上太空的东西，看下来其实相当小。更有挑战的是：怎么给它供电？这正是我们能把 Starlink 现成的太阳能阵列技术用上的地方——用这份经验造一颗卫星，把数据中心的关键部件本身送进太空。我们喜欢把它还原成「真正的工程问题是什么」：本质上就是把电送进去、再把废热和能量抽出来，扔进太空的真空里。其实 AI 卫星比 Starlink 卫星简单得多。Starlink 卫星有巨大的相控阵天线、抛物面天线、一大堆激光链路，复杂得多。AI 卫星本质上就是一大片太阳能电池、一块散热板，再加一些激光链路，但没有 Starlink 上那些超复杂的天线。两者比起来，AI 卫星反而更好设计——就是个头大一点。这颗卫星长什么样这是我们的 AI 卫星一号（AI one）的草稿版本。第一步得先做出一个有说服力的东西。我们觉得合适的起点是在 150 千瓦峰值功率这个量级。结合我们在 xAI 上跑负载的经验，我们看到它还能支撑约 120 千瓦的平均算力——峰值和平均是有区别的。所以这是 SpaceX AI 卫星的第一版：150 千瓦峰值功率、120 千瓦持续功率。给你点尺度感：太阳能阵列按每平方米 250 瓦算，散热板按每平方米约 1400 瓦算。散热板是双面的，两面都在散热，刀刃边朝向太阳。1400 瓦每平方米是个很容易达到的目标，随时间推移，我们觉得太阳能板和散热板大概都能分别做到 250 瓦和 1400 瓦每平方米以上。这基本就是这颗卫星的样子：一大片太阳能板、散热板，其余一切相比之下都很小。而且这些都是我们已经在 Starlink 星座里实际发射过的东西的演进版。对我来说最酷的一点是：我们用的太阳能技术，本来就要用在 V3 的 Starlink 飞行器上，所以我特别兴奋——直接拿过来，把它做大就行。我们想传达的一点是：AI 卫星并不需要什么「目前还不存在的魔法」。正如伊恩说的，这里很多技术我们为 Starlink V3 卫星就已经做出来了。跟我们已经在做的事比，这并不是个超难的问题。卫星上还会有大约一太比特（terabit）量级的激光链路连接能力。150 千瓦峰值功率，大致相当于一台英伟达 GB300 机架的水平：一台 GB300 带 72 颗 GPU，峰值功率大概 140 千瓦，但几乎不可能让它一直跑在峰值；更现实的工作区间是 120 千瓦左右的平均功率，峰值能冲到 150。所以你可以把它想成「太空里的一个算力机架」。然后你可以把这些算力机架通过激光链路彼此相连，或者直接连到 Starlink 星座。接上 Starlink 之后，Starlink 就能用飞行器上现成的 Ka、Ku 频段天线把数据发回地面，它本身也有连到地面的激光链路。这个延迟其实并不高。卫星大概在地面以上 600 到 800 公里，而光每毫秒走 300 公里，所以差不多就三毫秒的距离，并不远。别太担心延迟——总有人觉得会有很高的延迟，我说不会，光跑得挺快的。还有个挺酷的点：散热板本身的尺寸，和 V3 飞行器现成的太阳能阵列差不多大，大概 70 米翼展，相当大了。我们要造很多颗、放上天。你常说「名字里就带着 space（太空）」——上面空间多的是，哪怕你说的是几千颗甚至上百万颗卫星，上面也有大把地方可以挪。太空真的很大，不存在「太空会变拥挤」这回事。卫星相对地球极其微小，凑近看它显得大，可一放到跟地球比的尺度上，卫星小到根本看不见。我们现在在轨大约有一万颗 Starlink，已经很懂怎么安全地运营这么大规模的星座了——我们是唯一一家有这种量级经验的运营方。正因为有这个底子，我们知道卫星可以排得多密、还能安全地飞，而安全是我们看待整个星座时的头号目标。在 Bastrop 建厂我们会造很多卫星，就在德州的巴斯特罗普（Bastrop）这儿造。我们现在就坐在那栋楼里。这栋楼已经很大了——你绕过转角，透过树丛看见它，会「哇」一声。但我们正要让这栋楼相形见绌。事实上，太阳能制造厂已经在建了。接下来很快会建 AI 卫星生产楼。我们预计到明年底，AI 卫星生产、太阳能生产这些都能以一个合理的产量运转起来。所以谁想做 AI 卫星，这里基本会成为它的中心。就在我们背后，机器正在轰鸣——我们仍在这里制造 Starlink 的所有用户终端，这条线不会挪走。事实上我们还在为新型号开新的生产线。这些就是新的 Starlink 终端，产量比现在的终端高得多。我们觉得最终全世界大概会有几亿个 Starlink 终端。再加上 Starlink 直连手机（direct-to-cell）星座，会直接连到人们的手机上，让你的手机和太空之间实现高带宽通信。第三样：芯片，以及为什么需要 terafab 三个限制因素已经搞定两个：入轨运力、太阳能；第三个是芯片。至少一开始，我们当然可以直接把已经在量产的芯片发上去。我们目前的参考设计用的是英伟达 Rubin 芯片，也可以是 GB300 或 Rubin；我们还会有一套基于 TPU 的参考设计——本质上你可以把任何现成芯片送上轨道。但当前整个行业，看起来大概会做到每年 100 吉瓦量级的 AI 算力。这并没有回答「你怎么走到一太瓦」这个问题。这就是为什么你需要 terafab。要迈上下一个数量级，你需要一座巨大的芯片厂。给你个尺度感：我们预计 terafab 大约会有一亿平方英尺，是特斯拉得州超级工厂的十倍。除了大，它还有什么独特、跟地球上任何其它芯片制造不一样的地方？随时间推移，terafab 上会有很多技术演进，但归根结底是「规模」。哪怕没有任何根本性的技术突破，你只要把现有的芯片制造技术——非常吃力地——放大到每年一太瓦的芯片产出。从逻辑裸片（logic die）的角度看，这相当于每年十亿颗、每颗一千瓦（按整光罩当量算）的芯片：十亿颗整光罩当量芯片、每颗一千瓦，然后你还需要配上海量的内存。时间线：别想小了今天很多人还觉得轨道数据中心是「十年以后的事」。我们想给大家一个时间框架的概念——至少是我们瞄准的时间框架。大家可以对此打点折扣，因为这只是我们的最佳猜测，不是承诺，是我们打算去试、并且觉得大概能做到的事：明年底：把空间 AI 算力做到「年化一吉瓦/年」的速率。然后争取每年提升一个数量级：约两年半时摸到年化 10 吉瓦/年，三年半时也许 100 吉瓦。再往后，看全球芯片制造和 terafab 的进展，进一步放大到每年一太瓦——也就是一千吉瓦。一太瓦是美国当前用电量的两倍。我觉得会有这个需求，但走着瞧。那是非常多的卫星。下一步：月球质量驱动器走完地球上所有限制因素、把地球能做的都顶到天花板之后，下一步是什么，才能真正往「成为卡尔达肖夫二型文明」再争取几个百分点？为什么要停在这？为什么要想得那么小？因为一太瓦其实非常小。要再上三个数量级、从「每年一太瓦」再乘一千，我们目前能看到的唯一办法，是在月球上用「质量驱动器」（mass driver）。具体说，就是在月球上本地生产光伏板和散热板，芯片也许从地球带去，也可以设想直接在月球上造。但大部分质量必须在月球本地制造，这样你就不用从地球往月球运。然后，因为月球没有大气、引力只有地球的六分之一，你可以不用火箭就把 AI 卫星加速送进深空——基本上就是用一台电磁炮，类似电磁轨道炮，把它们「打」进太空。可以把它理解成一台直线电机。我想我们可以放个视频…… 谢谢大家。

译马斯克近日宣布SpaceX/xAI太空计算蓝图：首颗AI卫星采用Starlink太阳能技术，峰值功率150千瓦、持续算力120千瓦，翼展70米，配110平方米液体散热器，通过星舰发射，使用激光链路通信。计划建设Terafab太空算力工厂，占地约1亿平方英尺（特斯拉Giga Texas的10倍），算力供应达1TW/年，相当于当前美国年消耗量（0.5TW）的两倍。目标将数据中心送入太空捕获太阳能，实现卡尔达肖夫等级跃迁。该项目依赖星舰完全可复用技术，预计三年内将年入轨量从约2500吨提升至百万吨级。

Berryxia.AI@berryxia · 6月9日69

Apple的AI领先水平远远超乎人们的想象啊！不信你看这个图就知道了！

译Tim Cook最后一次主持WWDC，9月1日交棒John Ternus，AI为核心。端侧3B模型AFM 3 Core，进阶层20B MoE仅限iPhone 17 Pro/M4设备，数据端到端加密。四大能力：个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别，上线独立App，仅英语且中国欧盟暂不可用。Image Playground支持写实生成；Xcode可选多模型；照片处理速度提升70%，AirDrop提速80%，应用启动加速30%。Agent多步任务自动化仍薄弱。

Chubby♨️@kimmonismus · 6月9日35

Even though I want to test Apple's Intelligence myself: it looks very promising and could finally provide real access to AI for the millions of Apple users.

译尽管我想亲自测试Apple Intelligence：它看起来很有前景，可能最终为数百万苹果用户提供真正的AI访问。

Ethan Mollick@emollick · 6月9日58

Both Anthropic and OpenAI mention the possibilities of slowing AI development in their latest "what comes next" in AI posts, but say they need to be an action coordinated across the entire world using as-yet-unidentified methods.

译Anthropic和OpenAI都在它们最新的“接下来是什么”AI展望中提到了减缓AI发展的可能性，但表示这需要全球协调行动，并使用尚未确定的方法。

meng shao@shao__meng · 6月9日68

Claude Code 上线一周年：演进与方法论回顾来自 Claude Code 负责人 Boris Cherny 与产品负责人 Cat Wu，从一年前首次内部 demo 只有两个 Slack 点赞，到现在绝对主流 Coding Agent，这一年 Claude Code 到底做对了什么？ https://www.youtube.com/watch?v=Hth_tLaC2j8 # 两条底层方法论 1. 错误即资产：写入规则，而非口头纠正 Boris 的核心习惯：每次 Claude 犯错，不直接说「下次别这样」，而是写入 CLAUDE.md、Skill 或类似持久化机制。逻辑是：口头纠正只影响当前会话；规则沉淀后，agent 可长期、反复、自主执行。这是「让 agent 几乎无限运行」的前提。 2. Verification（验证）≠ 单元测试多数人把 verification 理解成 lint、类型检查、单元测试——这些早已自动化，不是 agent 时代的重点。真正的 verification 是：agent 能否亲自「跑起来」验证结果。 · 早期案例：让 Opus 4 写完功能后，在 bash 里启动另一个 Claude CLI 自测。 · 现在：iOS/Android 模拟器、桌面应用的 computer use 点击测试已成常态。 · Cat 的实践：桌面开发 Skill 教 Claude 启动本地 app、点 UI、测边界；若 staging 异常，先读 Slack 判断是否环境问题；修完后更新 Skill，形成闭环。要点：验证能力往往需要针对具体产品定制，无法一键通用。 # Loops/Routines：从「人用工具」到「系统替人值守」 Routines 被定位为 Agent SDK 之后第一个「显而易见」的规模化应用。典型案例： · 某工程师为 Voice Mode 设 routine：监听所有相关 GitHub issue/bug → 自动提 PR → 通知本人。 · 另一 routine：5 小时未响应的 bug 自动修复，易验证的直接 merge。 · Cat 遇到自己功能的 edge case bug，还没动手，Claude 提示「另一个 Claude 已修好」。组织影响： · 代码评审、CI 修复、rebase 等琐事，团队成员已很久没亲手做。 · 多个人的 Claude 并行工作，形成「隐形协作网」。重点：把工程运维流程产品化、自动化。 # Auto Mode：取代 Plan Mode 的默认选择 Boris 明确表示：Plan Mode 已基本不用，全面切到 Auto Mode。原因： · Opus 4 ~ 4.5 仍需显式规划；从 4.6、尤其 4.7 起，模型已能自主规划。 · Auto Mode 的价值是：启动 agent 后即可转向下一个任务，无需盯屏点确认。安全设计的反直觉结论：人工逐条审批 99% 都会点「是」的权限提示，反而更危险；Auto Mode 用独立分类模型筛风险，人只关注被拦截的少数异常，整体更安全。上线前流程： · 收集数千条 agent 轨迹 + 权限请求，训练分类器； · 红队 prompt injection、渗透测试； · 建 eval，确保已知攻击全部被拒； · 内部团队继续攻击、迭代。 Boris 认为：「把 prompt 路由给另一个模型做安全检查」——他最初认为行不通，实测却效果很好。这反映基于大模型构建产品时，许多旧工程直觉需要重写。 # 组织变革：AI 必须成为流程中心 Boris 引用 90 年代 HBR 案例：PC 普及初期生产力未显现，因为企业只是把电脑「放在旁边」，流程仍是纸笔+文件柜。真正释放价值，需要把电脑置于业务流程中心，淘汰旧媒介。类比到 AI： · Anthropic onboarding 不问人，问 Claude； · 提问、写代码、CR、安全审查、填表，均经 Claude/Co-Work； · 领先企业正在把 AI 放到同样位置。与 PC 转型需 10–15 年不同，AI 转型更快，因为： · 工作已高度数字化； · Claude 能操作电脑、写代码、跑代码。角色融合： · 产品、设计、DevRel 都在写代码、提 PR； · 工程师端到端负责：构思 → 实现 → 对接法务/市场/安全 → 发布； · 设计、PM、财务、数据科学等「邻接角色」广泛采用 Claude Code。 · 未来不是「人人 PM」或「人人工程师」，而是两者合一——好奇心、产品品味、端到端 ownership 成为关键能力。 # 多 Agent 时代的工具形态从「6 个终端 tab + 6 份 git checkout」→ 单 tab + Agent View + Desktop App（自动 worktree）。意外变化：Boris 约一半工程工作已在手机上完成——Remote Control、Voice Mode，边走边看 agent，现场聊出新想法即开 agent 实现，无需回电脑。这说明：工程师的主战场正从 IDE 转向 agent 编排界面。 # Context Minimalism（上下文极简主义）技术话语的演进轨迹： · Sonnet 3.5 时代 → Prompt Engineering · Opus 4 时代 → Context Engineering · 当前模型 → Context Minimalism 原则： · 最小 system prompt、最少工具集； · 只给模型「拉取上下文的能力」，不塞满上下文； · 过多上下文 ≈ 微观管理，限制模型找更优路径； · Harness 本身也在变瘦，把 token 空间留给用户意图。这与一年前「精心构造 mega prompt」的做法形成鲜明对比。 # 对未来的判断团队预判： · Agent 运行更久、更自主； · 很少只跑 1 个 agent，常见是数十、数百、数千； · 一年后的产品形态很可能与今天完全不同； · 创新将更多来自用户社区，而非官方闭门设计。值得肯定的洞见： · Verification 定义准确，切中 agent 工程要害； · 「错误写入规则」是可复制的工程纪律； · Auto Mode 安全思路有实证支撑，不是空喊； · 组织变革类比有历史参照，不过于浪漫化。需保持审慎之处： · 发言者身处 Anthropic 内部，描述的是理想态实践，外部企业落地节奏未必相同； · 「财务用 Claude Code 做预测」等案例缺少可验证细节； · Routines 全自动 merge 依赖「易验证」边界，复杂系统风险需自行评估； · 「角色融合」「手机写代码」更像前沿团队样本，非行业普遍现状。

译Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论：每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正；Verification指agent亲自跑起来验证（如启动模拟器、computer use测试）。Auto Mode取代Plan Mode，用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维（如监听GitHub bug自动提PR）。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行，产品形态将巨变。

AYi@AYi_AInotes · 6月9日65

Google DeepMind 的联合创始人兼 CEO Demis Hassabis说，我们正站在奇点的山脚， AGI大概在2030年，我们没有多少时间准备了。以前看别人聊AGI，我都当热闹看，直到看到Demis说这句话，我突然有点慌了， Demis一直偏保守，以前不这么说话的，作为目前全球 AI 领域最具科学背景和公信力的领军人物之一，Google DeepMind 的联合创始人兼 CEO，同时也是 Isomorphic Labs（专注于 AI 药物研发）的创始人兼 CEO，并担任英国政府 AI 顾问，以及拿过 AlphaFold 这种硬成果的科学家，他不是那种靠喊口号吃饭的人，然后在 Google I/O 和斯坦福对谈里，他说了这么一段—— 我们回头看，会意识到当时正站在奇点的山脚，AGI 大概在 2030 年左右，那将是新人类时代，社会需要听到这个信号，因为我们没有多少时间准备了。为什么他这次改口，比一般 CEO 喊 AGI 更值得听，详细拆解如下👇

译Google DeepMind CEO Demis Hassabis在Google I/O和斯坦福对谈中称，我们正站在奇点山脚，AGI约2030年出现，将进入新人类时代，社会需重视并做准备。这位一向保守的科学家此次改口引发广泛关注。

Nathan Lambert@natolambert · 6月9日52

I feel like the obsession with continual learning / sample efficiency leads the field in the wrong direction. It's the bad career strategy of focusing on addressing your weaknesses instead of maximizing your strengths. Yes, there is an existence proof in the human brain, but it doesn't by any means guarantee that that'll be the most interesting AI. It may require $100T of R&D on chips and AI methods to get that unlock. On the other side of things, it's obvious that the coming models are extremely transformative and built on technologies that we already have. There's great reason to focus on just maximizing this. In reality, this is what the frontier labs are doing. They're going as fast as possible down the current development tree. This is good for progress and mixed for safety/geopolitics. Things like "automate white color work" and "replace the AI researcher job" are the guesses of labs because it's super hard to imagine futures for what these dramatic technologies will be. Don't take the labs too seriously about this being the exact goal. The exact goal is to push the frontier and monetize later. Solving continual learning, sample efficiency, etc would be great, but its trying to predict when a scientific breakthrough will come instead of trying to grapple with how the 100% sure thing coming technological revolution will change our lives. This isn't to say the Dwarkesh post is bad, it addresses some reasonable critiques, but it is the least bitter lesson pilled thing to be obsessed with human intelligence and how that can inform AI. We are in the AGI era of research. This is about embracing the unknown, scaling resources, and seeing what is enabled by making a series of magical tweaks to complex recipes that build frontier models. Lean into the alchemy. (it should be pretty clear that I personally, investing in open research agree we need fundamental science -- just not agreeing that this is what the "cutting edge of the frontier" is governed by)

译Nathan Lambert 批评 AI 领域过度关注持续学习与样本效率，认为这如同专注于弥补弱点而非最大化优势。人类大脑虽是存在性证明，但未必是 AI 最佳路径。前沿实验室实际加速推进现有开发树，对进步有利，但对安全与地缘政治影响复杂。他引用 @dwarkesh_sp 的观点：数据是进步主要驱动力，开源与后来者可通过从公开 API 蒸馏数据快速追赶前沿，而超参数、训练技巧等难以复制。他认为未来已来，AGI 研究应拥抱未知、规模化资源，而非等待不确定的科学突破。

DogeDesigner@cb_doge · 6月9日54

ELON MUSK: The only way to reach 1,000 terawatts of AI power is a mass driver on the Moon. "In order to get to 1,000x from a terawatt per year. The only way that we can really achieve that is on the moon with a mass driver, essentially where you do local production of photovoltaics and radiators on the moon, maybe you bring the chips from Earth, or you could conceivably make the chips on the moon, and but you need most of the mass to be made on the moon, so you don't have to transport it to the moon from Earth, and then because the moon has no atmosphere and only 1/6 Earth's gravity, you can accelerate the AI satellites into deep space without a rocket, so you can basically shoot them into space using an electromagnetic gun, like a, like a rail gun type. I mean, just, it's basically a linear electric motor, as a way to think about it."

译马斯克称，要达到1000太瓦（TW）的AI电力，即从当前1太瓦/年增长1000倍，唯一途径是在月球建造质量驱动器。方案是在月球本地生产光伏板和散热器，芯片可从地球运来或在月球制造。由于月球无大气且重力仅地球1/6，可用电磁轨道炮（线性电动机）将AI卫星射入深空，无需火箭。

DogeDesigner@cb_doge · 6月9日31

ELON MUSK: To scale AI, we need a mass driver on the Moon. "In order to get to 1,000x from a terawatt per year. The only way that we can really achieve that is on the moon with a mass driver, essentially where you do local production of photovoltaics and radiators on the moon, maybe you bring the chips from Earth, or you could conceivably make the chips on the moon, and but you need most of the mass to be made on the moon, so you don't have to transport it to the moon from Earth, and then because the moon has no atmosphere and only 1/6 Earth's gravity, you can accelerate the AI satellites into deep space without a rocket, so you can basically shoot them into space using an electromagnetic gun, like a, like a rail gun type. I mean, just, it's basically a linear electric motor, as a way to think about it."

译Elon Musk 提出，要将 AI 计算从每年 1 太瓦扩展到 1000 倍，唯一可行方案是在月球上建造质量驱动器（mass driver）。他设想在月球本地生产光伏板和散热器，芯片可能从地球运抵或直接在月球制造。利用月球无大气、仅 1/6 地球重力的条件，通过电磁加速器（线性电动机）将 AI 卫星射入深空，无需火箭运载。

Orange AI@oran_ge · 6月9日60

看完了苹果发布会，这新 Siri 的智能程度... 依然是个接了很多很多 API 的 chatbot 苹果自己的 Agent 估计要到明年了（不如收购 Cola 啊不是

Rohan Paul@rohanpaul_ai · 6月9日72

Elon Musk on the economics of space data centers. In space, it's "always sunny", satellites get constant, high-intensity solar power with no night, clouds, or atmospheric loss, so solar arrays deliver near-continuous energy at virtually zero marginal cost. Cooling is trivial: waste heat is simply radiated away into the vacuum of space (no fans, water, or energy needed, unlike power-hungry Earth data centers). Combined with Starship’s cheap mass-to-orbit launches, this avoids building massive terrestrial power plants or fighting grid/land/cooling constraints. Elon estimates that within 2–3 years, the lowest-cost way to generate AI compute will be in space. Result: orbital racks of chips can scale to terawatts far more economically than on Earth. Full video from @SpaceX "Getting to 1% of the sun’s energy… that civilization is going to be vastly more powerful than us, to say the least.”

译Elon Musk 在 SpaceX 技术更新中指出，太空“永远晴天”，太阳能持续高功率且近乎零边际成本；真空环境仅靠辐射散热，无需风扇或水。结合 Starship 低成本入轨发射，可避免建造地面电站或受制于电网、土地、冷却限制。他估计 2–3 年内，太空将成为产生 AI 算力成本最低的方式，能经济扩展至太瓦级芯片集群。SpaceX 已具备大规模制造、发射、运营 AI 卫星的能力。

Ethan Mollick@emollick · 6月9日63

The Matrix idea of keeping humans as batteries is obviously weird... we would be more useful as dice. LLMs default to very similar kinds of arguments & structure, and even different LLMs seem to collapse to similar concepts. Humans provide a lot more variation in their own work.

译Ethan Mollick 引用 @YekyungKim 的研究指出，AI 正日益塑造从报纸评论到 NeurIPS 立场论文的长篇公共话语，但看似流畅的论点背后存在“论点坍缩”：不同大语言模型会收敛到相同的主要论点、支撑论点和结构。Mollick 调侃《黑客帝国》把人当电池的想法很怪，认为人类作为“骰子”更有用，意在强调多样性在思考中的价值。

DogeDesigner@cb_doge · 6月9日36

Elon Musk just explained the 3 things humanity needs to become a Kardashev-scale civilization: 01. Mass to orbit 02. Power generation 03. AI chips Humanity is still barely registering on the Kardashev Scale. We currently use only a tiny fraction of the energy available from the Sun. To become a truly advanced civilization, three major bottlenecks must be solved: 01. Mass to orbit We need the ability to move millions of tons of infrastructure into space. Solar arrays, radiators, factories, and data centers cannot scale without dramatically reducing launch costs. Musk says Starship is the breakthrough that makes this possible. 02. Power generation A civilization powered by terawatts of energy will eventually need massive solar power systems in space. The goal is to harness a meaningful share of the Sun’s energy rather than relying solely on Earth’s limited resources. 03. AI chips Terawatt-scale power requires terawatt-scale computing. Future AI systems will need enormous amounts of compute, making advanced chips one of the key ingredients of a spacefaring civilization. If humanity wants to become a multi-planetary, Kardashev-scale civilization, we must massively increase our ability to launch payloads, generate energy, and deploy AI compute. That’s why Starship matters.

译Elon Musk 指出人类要成为卡尔达舍夫文明需突破三大瓶颈：一、质量到轨道——借助 Starship 实现将数百万吨基础设施（太阳能阵列、散热器、工厂、数据中心）送入太空，大幅降低发射成本；二、发电——在太空部署太瓦级太阳能系统，获取太阳能量的可观份额，而非仅依赖地球资源；三、AI 芯片——太瓦级能源需要太瓦级计算力，先进芯片是星际文明的关键要素。当前人类在卡尔达舍夫尺度上还几乎未入级。

Orange AI@oran_ge · 6月9日57

嗯前几天收到了他们的 sunset 邮件，我还给他们回复了一封感慨的邮件他们的品味确实不错，但一直没有网络效应和商业模式，而且那个费token的方式也不可能有 ROI ListenHub 差不多跟他们同期开发和发布的，但很快就转向了创作者，现在自负盈亏，有机生长，不出问题可以至少活十年。

译NotebookLM 前核心成员创立的 Huxe 已下架。该产品将邮件、RSS 一键转为可语音交互的播客，但缺乏网络效应和商业模式，按 token 收费无法产生 ROI。作者同期开发 ListenHub，后转向创作者模式，现自负盈亏，预计可再活十年。

DogeDesigner@cb_doge · 6月9日40

Elon Musk explains the Kardashev Scale: "That's the most objective metric that any alien species, say, visiting us would calibrate how much progress we've made as a civilization, and one of the most objective ways to do that is the amount of power that any given civilization has been able to harness, and there was a Russian physicist, actually, who thought about this, and it's, I think, it's a good way to characterize it, which is you can have, you can assess how well a civilization is harnessing the power available on the planet, that's type I. And then type II would be how much of the star's power are you harnessing, and then type III would be how much of the galaxy's power are you harnessing. These are very objective and measurable numbers, so right now we're very low on the Kardashev I scale, like, what proportion of our planet's power are we harnessing, it's a very, very tiny number, and basically we're harnessing almost nothing of our stars' power, so the sun is truly an immense state. We don't even know how to do level III, really. AI will figure it out. One way to appreciate the size of the sun is to think about how heavy is the sun compared to all the rest of the mass in the solar system. So, the sun is about 99.86% of all mass in the solar system. It's everything, and then all the remaining 1.14% most of that is Jupiter, one planet."

译马斯克阐述卡尔达肖夫指数：I型文明能利用行星全部能量，II型能利用恒星全部能量，III型能利用星系全部能量。目前人类处于I型极低水平，仅利用地球能源的极小部分，几乎未利用太阳能源。太阳占太阳系总质量的99.86%。马斯克认为AI将帮助实现III型文明。

Rohan Paul@rohanpaul_ai · 6月9日79

Sam Altman's new blog about OpenAI's future path says by March-2028 a significant fraction of its own research will be done by AI. The path has 3 goals mainly: build an automated AI researcher, use that to speed up science and productivity, then give every person a personal AGI that can help with work, learning, coding, business, health paperwork, and decisions.

译Sam Altman关于OpenAI未来路径的新博客称，到2028年3月，其大量研究将由AI完成。该路径主要有3个目标：构建自动AI研究员，利用它加速科学和生产，然后给每个人一个个人AGI，帮助处理工作、学习、编程、商业、健康文书和决策。

Greg Brockman@gdb · 6月9日62

The goals we're working towards at OpenAI, to achieve the OpenAI mission and expand human agency as AI progresses: https://openai.com/index/built-to-benefit-everyone-our-plan/

译我们正在 OpenAI 努力实现的目标，以达成 OpenAI 的使命，并在 AI 进步的同时扩展人类能动性：https://openai.com/index/built-to-benefit-everyone-our-plan/

宝玉@dotey · 6月9日54

帮转，豆包手机团队招设计工程师

译字节跳动豆包手机团队招聘设计工程师，需具备 Android 平台经验。团队调研总结了五种设计工程师画像：AI Design Engineer（转译 AI 能力为交互产品体验，处理 agent workflow、tool call、状态反馈等）、Product UI Craft Engineer（打磨高质量前端原型和交互细节）、Design Systems Engineer（建立设计系统与前端基础设施，连接 Figma 变量和代码组件）、Creative Technologist / Motion & Graphics Engineer（负责动效、实时图形、3D/空间交互）、AI Design Workflow Architect（搭建 AI 辅助设计工作流，使用 Claude Code、Cursor、v0 等工具）。多数设计工程师技能交叉，欢迎感兴趣者联系。

Ethan Mollick@emollick · 6月9日54

Last time around Apple released a lot of information about how their AI version of Siri worked between local and cloud models, not so much this time It is nice to have a Gemma-like model on device, but it is extremely limited unless it can call a smarter cloud model when needed.

译上次苹果发布了很多关于其AI版Siri在本地和云端模型之间如何工作的信息，这次则没有那么多。在设备上拥有一个类似Gemma的模型很好，但除非它能根据需要调用更智能的云端模型，否则其能力极其有限。

Chubby♨️@kimmonismus · 6月9日39

- System wide awareness - Visual Intelligence in Camera App

译- 系统级感知 - 相机应用中的视觉智能

Chubby♨️@kimmonismus · 6月9日32

Interesting: New Apple Intelligence Siri only available on iPhone 17 Pro. Of course not be available in the EU (god damn)

译有趣：新的 Apple Intelligence Siri 仅限 iPhone 17 Pro 使用。当然在欧盟不可用（该死）

Rohan Paul@rohanpaul_ai · 6月9日58

The prompt era is ending. That's too linear, too bottlenecked by humans. We are entering the loop machine of AI agents. The value is in moving judgment upstream, so the human designs the process and the model handles the recurring friction.

译提示词时代正在终结。那太线性了，太受人类瓶颈限制了。我们正在进入AI智能体的循环机器。价值在于将判断上移，让人类设计流程，模型处理重复出现的摩擦。

jason@jxnlco · 6月9日18

codex and computer use is so powerful

译Codex和Computer Use非常强大

Boris Cherny@bcherny · 6月9日65

When we first demoed Claude Code internally, it got two reactions on Slack. A year after GA, @_catwu and I sat down to talk about what's changed: why I use auto mode instead of plan mode, how routines fix bugs before I see them, why I do most of my coding from my phone now, and where the product is going

译Claude Code GA一周年之际，Anthropic工程师Boris Cherny与@_catwu回顾产品演进。此前内部首次演示时在Slack上引发两种截然不同的反应。Cherny分享了他为何偏好auto mode而非plan mode，routines如何在bug出现前自动修复，以及他如今大部分编码都在手机上完成。视频访谈还探讨了Claude Code的未来方向。

Chubby♨️@kimmonismus · 6月9日38

Apple Intelligence: -Personal Understand in apps. - Browse tools for web - on screen Awareness - in App usage

译Apple Intelligence: - 在应用中的个人理解。 - 网页浏览工具 - 屏幕感知 - 应用内使用

Yuchen Jin@Yuchenj_UW · 6月9日57

On the whole: “You shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.” Loops are the temporary workaround: today’s LLMs have poor judgment. They struggle to know when to keep going, when to stop, or when to call a tool. Loops force agents to work longer. Loops are incredibly powerful for verifiable goals for now, as AutoResearch shows.

译总体来说： “你不应该再提示编码智能体了。你应该设计循环来提示你的智能体。” 循环是临时解决方案：如今的大语言模型判断力很差。它们难以判断何时继续、何时停止或何时调用工具。循环强制智能体更长时间地工作。对于目前可验证的目标，循环非常强大，正如AutoResearch所示。

Chubby♨️@kimmonismus · 6月9日33

Apple Intelligence last. Let the fun begin!

译蒂姆·库克仍在主持WWDC开幕。Apple Intelligence最后登场，好戏开始了！

Yuchen Jin@Yuchenj_UW · 6月9日57

“You should design loops that prompt your agents.” Loops are the temporary workaround: today’s LLMs have poor judgment. They struggle to know when to keep going, when to stop, or when to call a tool. For verifiable goals, loops are incredibly powerful, as AutoResearch shows.

译“你应该设计循环来提示你的智能体。” 循环是临时方案：今天的LLM判断力很差。它们很难知道何时继续、何时停止、何时调用工具。对于可验证的目标，循环非常强大，正如AutoResearch所示。

宝玉@dotey · 6月9日61

微信格局还是不够，总是想着大家都去他们家一亩三分地耕耘，还幻想着未来微信会继续是超级入口，人人都在用微信，所以只需要让 AI 去操作小程序。但现实是，未来微信的入口属性会越来越少，以后的年轻人，不会再去打开微信，只会问自己的 Agent：去帮我总结一下我昨天的群聊，去给我妈发条消息说晚上不回家吃饭了。而这个承担超级入口职责的 Agent，大概率不是微信 AI。

译微信发布《开发者接入微信 AI 生态的指引》，引导小程序开发者接入微信 AI，让 AI 控制小程序。宝玉对此评论称，微信试图通过让 AI 操作小程序来维持自身超级入口地位，但未来年轻人不会主动打开微信，而是直接向自己的 Agent（如"帮我总结群聊"或"给妈妈发消息"）发出指令。承担超级入口职责的很可能不是微信 AI。

gabriel@gabriel1 · 6月9日48

people thought agi is a blank textbox where we enter our intentions and get what we want but ask your smartest friend to "clean up my inbox", you'll realize that for him to do it perfectly you'd need to write down 5 pages of instructions, and these instructions changes daily

译人们以为 AGI 是一个空白文本框，输入意图就能得到想要的东西。但让你最聪明的朋友去“清理我的收件箱”，你会发现为了让他完美完成，你需要写下 5 页的指令，而且这些指令每天都在变化。

Chubby♨️@kimmonismus · 6月8日54

WWDC 2026 - Apple rents Google's brain to fix Siri. What we can expect: Apple's keynote today is a software reset built around one admission: it couldn't build frontier AI alone. What to expect: - Gemini-powered Siri, a rebuilt assistant on a custom 1.2T-parameter Google model, ~$1B/year (Gurman). Runs via Private Cloud Compute, no Google training on your queries. - Siri as an app, standalone, iMessage-style chat with synced history, a "Search or Ask" Dynamic Island pop-up, and an Extensions system. Drafts emails, pulls from mail, calendar, contacts and the web. - Six OS betas - iOS 27, iPadOS 27, macOS 27 ("Big Bear"), watchOS 27, tvOS 27, visionOS 27. iOS 27 is a "Snow Leopard" cleanup release. iPhone 11 and SE2 lose support. - Liquid Glass 2.0 - system-wide opacity slider, fixes for the shadow and transparency complaints. - AI health coach - the watered-down "Health+", now fitness and wellness instead of an AI doctor (pretty cool!) - Model choice (rumored), users may pick the engine behind Apple Intelligence, with Gemini and Claude floated. - Hardware mostly later - M5 Macs, new iMac, foldable iPhone (~$2.5K, Sept), OLED touchscreen MacBook Pro, smart-home hub. Sources: TechInsider, Bloomberg, Gamebezz

译苹果在WWDC 2026承认无法独自构建前沿AI，与Google合作，基于1.2T参数的Gemini模型重建Siri，年费约10亿美元。新版Siri通过Private Cloud Compute运行，谷歌不训练用户数据；Siri成为独立应用，支持聊天、同步历史、Dynamic Island弹出和扩展系统，可起草邮件并获取信息。六个OS beta发布，iOS 27为Snow Leopard清理版，iPhone 11/SE2失去支持；Liquid Glass 2.0透明度滑块；Health+改为健身聚焦；用户或可选AI引擎（Gemini或Claude）。硬件稍后推出。