OpenAI has confidentially filed for an IPO to preserve the option of going public, but says no timing has been decided and it may remain private for a while. The move comes shortly after Anthropic filed its own confidential S-1, turning the AI IPO race into a battle over timing, valuation benchmarks, and investor attention. Going first could matter: the first major frontier AI IPO may define public-market expectations for the entire sector, while later entrants risk being judged against that benchmark.

译OpenAI 已秘密提交 S-1 文件（IPO 申请），预计消息将泄露故主动披露。OpenAI 尚未决定上市时间，可能继续维持私有一段时间，因其部分计划在私有状态下更易推进。此举紧随 Anthropic 提交保密 S-1 之后，两大前沿 AI 公司展开 IPO 竞赛：先上市者可能定义整个板块的公开市场预期，迟入者则面临以此为基准的估值对比。

DogeDesigner@cb_doge · 6月9日54

ELON MUSK: The only way to reach 1,000 terawatts of AI power is a mass driver on the Moon. "In order to get to 1,000x from a terawatt per year. The only way that we can really achieve that is on the moon with a mass driver, essentially where you do local production of photovoltaics and radiators on the moon, maybe you bring the chips from Earth, or you could conceivably make the chips on the moon, and but you need most of the mass to be made on the moon, so you don't have to transport it to the moon from Earth, and then because the moon has no atmosphere and only 1/6 Earth's gravity, you can accelerate the AI satellites into deep space without a rocket, so you can basically shoot them into space using an electromagnetic gun, like a, like a rail gun type. I mean, just, it's basically a linear electric motor, as a way to think about it."

译马斯克称，要达到1000太瓦（TW）的AI电力，即从当前1太瓦/年增长1000倍，唯一途径是在月球建造质量驱动器。方案是在月球本地生产光伏板和散热器，芯片可从地球运来或在月球制造。由于月球无大气且重力仅地球1/6，可用电磁轨道炮（线性电动机）将AI卫星射入深空，无需火箭。

AYi@AYi_AInotes · 6月9日58

WWDC 2026 Apple 发布了下一代 Apple Intelligence 驱动的 Siri，MKBHD猜测首版 Siri AI 很可能不支持随意切换默认 App。我觉得MKBHD大概率是对的，毕竟App Intents 的框架和Shortcuts 在那，默认 App 设置也在那，理论上新 Siri 完全可以读你的偏好然后调第三方 App，但从能调用到真正替你干活，中间隔着一堵墙，权限、隐私、商业利益，每一层苹果都极其保守，让一个 AI 自动把你的日程写进 Google Calendar、自动处理冲突、自动发 WhatsApp 消息，这跟你手动切个默认邮箱完全不是一回事，相当于直接把用户数据和使用场景送出去给竞争对手，苹果肯定不干这种事，我猜第一版的剧本大概率是这样：在苹果自己的 App 里，新 Siri 玩得飞起，理解你、记住你、跨 App 串联，只要你别出这个它自己的苹果生态就行，出了苹果生态它就开始装傻，倒不是技术限制，纯粹是战略选择，因为苹果的战略核心逻辑是生态控制和隐私优先。但真正麻烦的还不是美国国内，在美国iMessage 和 Apple Calendar 是主流，这个限制只是有点小烦，出了美国WhatsApp 是刚需，Google 服务是生产力主力，Siri 如果在这些地方打不通，就不是有点烦了，等于是完全不可用，一个号称懂你生活的助手，结果连你每天发消息的 App 都进不去，那它能懂多少，所以新 Siri 有多聪明其实不是问题，关键是是它听谁的，听你的，它是你的贴心智能助手，听苹果的，它就是个苹果系统的门卫，感觉第一版看起来更像门卫

译MKBHD猜测WWDC 2026发布的Apple Intelligence驱动的新Siri，首版不会允许用户切换默认App（如用Google日历代替Apple日历）。推文作者赞同这一判断，认为苹果出于权限、隐私和商业利益考虑，会在自有生态内让Siri强大，但出生态则受限。在美国市场这一限制可忍受，但在海外WhatsApp和Google服务是刚需，Siri若无法调用则近乎不可用。新Siri的核心矛盾不在于智能，而在于它听用户的（贴心助手）还是听苹果的（生态门卫）。

Ethan Mollick@emollick · 6月9日63

The Matrix idea of keeping humans as batteries is obviously weird... we would be more useful as dice. LLMs default to very similar kinds of arguments & structure, and even different LLMs seem to collapse to similar concepts. Humans provide a lot more variation in their own work.

译Ethan Mollick 引用 @YekyungKim 的研究指出，AI 正日益塑造从报纸评论到 NeurIPS 立场论文的长篇公共话语，但看似流畅的论点背后存在“论点坍缩”：不同大语言模型会收敛到相同的主要论点、支撑论点和结构。Mollick 调侃《黑客帝国》把人当电池的想法很怪，认为人类作为“骰子”更有用，意在强调多样性在思考中的价值。

Chubby♨️@kimmonismus · 6月9日41

OpenAI is "entering the third phase. The economy is beginning to reshape around AI." - The first phase of OpenAI was about doing research toward AGI - The second phase began when the research became relevant to the real world and OpenAI became a product company Their goal for 2028 is to build steerable, accountable AI researchers that can increasingly automate scientific research, helping humans solve alignment and navigate the post-AGI transition. Sounds like we're now taking the final steps towards AGI/Post-AGI.

译OpenAI 进入第三阶段：经济开始围绕 AI 重塑。前两阶段分别为 AGI 研究和产品化转型。CEO Sam Altman 发布当前规划（链接），明确 2028 年目标是构建可控、可问责的 AI 研究员，逐步自动化科学研究，帮助解决对齐问题并导航后 AGI 过渡。这标志走向 AGI/后 AGI 的最后阶段。

DogeDesigner@cb_doge · 6月9日40

Elon Musk explains the Kardashev Scale: "That's the most objective metric that any alien species, say, visiting us would calibrate how much progress we've made as a civilization, and one of the most objective ways to do that is the amount of power that any given civilization has been able to harness, and there was a Russian physicist, actually, who thought about this, and it's, I think, it's a good way to characterize it, which is you can have, you can assess how well a civilization is harnessing the power available on the planet, that's type I. And then type II would be how much of the star's power are you harnessing, and then type III would be how much of the galaxy's power are you harnessing. These are very objective and measurable numbers, so right now we're very low on the Kardashev I scale, like, what proportion of our planet's power are we harnessing, it's a very, very tiny number, and basically we're harnessing almost nothing of our stars' power, so the sun is truly an immense state. We don't even know how to do level III, really. AI will figure it out. One way to appreciate the size of the sun is to think about how heavy is the sun compared to all the rest of the mass in the solar system. So, the sun is about 99.86% of all mass in the solar system. It's everything, and then all the remaining 1.14% most of that is Jupiter, one planet."

译马斯克阐述卡尔达肖夫指数：I型文明能利用行星全部能量，II型能利用恒星全部能量，III型能利用星系全部能量。目前人类处于I型极低水平，仅利用地球能源的极小部分，几乎未利用太阳能源。太阳占太阳系总质量的99.86%。马斯克认为AI将帮助实现III型文明。

Rohan Paul@rohanpaul_ai · 6月9日59

New Harvard Business Review article. AI is now breaking hiring at both ends, with résumés becoming easier to fake and remote interviews becoming easier to script live. Hiring systems now reward people who can perform the hiring process, not always people who can do the work. The old résumé signal is weakening because candidates can generate polished, keyword-heavy applications in minutes, while AI screeners may favor text that looks like AI output, with one cited study finding 23% to 60% higher shortlisting for model-like résumés. Remote first-round interviews are also losing trust because live AI assistants can suggest answers during calls, especially for predictable behavioral questions like conflict stories, motivation answers, and rehearsed career narratives. The damage is not only false positives, where weak candidates look strong, but false negatives, where unconventional candidates never get seen because their documents are less optimized than their thinking. They propose replacing predictable first-round questions with live work-simulation prompts where the interviewer changes the facts mid-answer, asks the candidate to defend tradeoffs, and checks whether their reasoning stays coherent. A practical version is: give a messy job-relevant scenario, ask for a decision, then add a surprise constraint or contradiction and make the candidate revise their answer out loud.

译哈佛商业评论最新文章指出，AI正从两端破坏招聘：简历更易伪造，远程面试更易实时脚本作答。旧简历信号失效，候选人可用AI快速生成关键词丰富的申请材料，而AI筛选器反而偏爱AI风格简历——引用研究显示，此类简历入围率高出23%至60%。首轮远程面试中，AI助手可实时提供答案，尤其对冲突处理、动机回答等可预测的行为问题。伤害不仅是弱候选人被误认为强（假阳性），还有非传统候选人因简历未优化而完全被忽视（假阴性）。建议用实时工作模拟替代可预测问题：面试官在回答中途改变事实、要求候选人解释权衡并保持推理连贯。实用版本：给出杂乱工作场景，要求决策，再添加意外约束或矛盾，让候选人当场修改答案。

Greg Brockman@gdb · 6月9日62

The goals we're working towards at OpenAI, to achieve the OpenAI mission and expand human agency as AI progresses: https://openai.com/index/built-to-benefit-everyone-our-plan/

译我们正在 OpenAI 努力实现的目标，以达成 OpenAI 的使命，并在 AI 进步的同时扩展人类能动性：https://openai.com/index/built-to-benefit-everyone-our-plan/

Rohan Paul@rohanpaul_ai · 6月9日70

New Anthropic research shows AI agents may look brilliant at code, but in biology they can fail before the science starts. Strong AI agents could give very different answers to the exact same biology data request, even when nothing changed in the prompt. In one Ebola sequence task, Claude Sonnet 4 returned 106 sequences in 1 run, then 15, then 5, while the expected answer was 266. Those missing sequences did not just make the dataset messy, they changed the scientific story built on top of it. One bad retrieval made the outbreak look like it traced back to 1922, instead of the manually curated result pointing to early 2014. The biology databases were too hard to use reliably through current AI tools. The agents often understood what they were being asked, but their answers varied a lot because they had to fight through scattered databases, hidden website rules, and fragile scripts. The key finding is that adding a repeatable retrieval tool made agents far more accurate and much more consistent.

译Anthropic 研究发现，AI 智能体在代码任务表现出色，但在生物数据库检索中容易失败。以埃博拉序列任务为例，Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列，而预期为 266 条。缺失序列导致科学结论严重偏移：智能体推断疫情回溯至 1922 年，人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后，智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。

Krea@krea_ai · 6月9日58

AI in architecture studios – Krea Podcast with Nitsan Bartov full interview below 👇

译AI 在建筑工作室——Krea 播客与 Nitsan Bartov 完整采访见下方 👇

Chubby♨️@kimmonismus · 6月9日66

WWDC 2026: A brief assessment At WWDC26, Tim Cook's last keynote before he hands the CEO role to John Ternus on September. I've been waiting for WWDC 2026 for a long time. And somehow I got almost everything I wanted. But somehow I still expected more. Before I jump to conclusions, though, I should try everything out first. Here's the first caveat: Apple Intelligence won't be rolled out in the EU initially. What a surprise. Not. The same disappointment every time. Apple introduced "Siri AI," a full rebuild of the assistant that does the things the company first demoed in 2024 and then quietly pushed back twice. It reads what's on your screen, pulls context from your messages, mail and photos, and chains actions across apps. There's a standalone Siri app now, with a conversation history that syncs through iCloud, so it finally behaves like the chatbots people have spent three years getting used to. Here's the part Apple said quietly and everyone else said loudly: the brains are Google's. Siri AI runs on Gemini under the multiyear deal the two companies announced in January. Reports put that deal at roughly a billion dollars a year for a custom large model. Apple paired it with its own on-device Foundation Models and wrapped the whole thing in a privacy story, with Craig Federighi insisting that privacy in AI is non-negotiable and that data is only used to execute your request. The rest of Apple Intelligence is the steady stuff. Photos gets Spatial Reframing, which improves a photo's composition after it's been taken. Safari can monitor a page and notify you about restocks or price drops. Messages offers one-tap suggestions to create a reminder or note based on the conversation. Image Playground adds photorealistic generation and a "describe a change" edit mode. None of it makes headlines alone, but together it's Apple catching up to where the industry was a year ago. Everything else was housekeeping, and some of it is genuinely good. Liquid Glass now has a slider that runs from ultra-clear to fully tinted. macOS 27, dubbed Golden Gate, brings back the uniform toolbars and edge-to-edge sidebars Mac users missed. Performance got real attention: apps launch up to 30 percent faster, AirDrop is up to 80 percent faster, and Apple retuned the CPU scheduler so older iPhones feel quicker. Oh, and rebuilt search across Spotlight, Photos and Mail. Oh, and for some reason almost no WatchOS updates other than a few performance improvements. Disappointed (big Apple Watch fan tho) tl;dr: *Apple Intelligence & Siri AI* - "Siri AI," an entirely new Siri across iPhone, iPad, Mac, Apple Watch and Vision Pro, built on a new privacy-focused architecture. - Powered by Google Gemini (multiyear deal announced Jan 2026, reported at ~$1B/year for a custom model) combined with Apple's own on-device Foundation Models. - On-screen awareness, personal-context search across messages/email/photos, systemwide app actions, and live web answers with world knowledge. - A dedicated Siri app to revisit or start conversations, with history synced privately via iCloud. - Adjustable pace, expressivity and accent for the conversational experience. - Visual updates: Siri animation in the Dynamic Island; swipe down from mid-screen to launch Siri AI. - Siri mode in the Camera app and expanded Visual Intelligence. - Apple Intelligence in apps: Spatial Reframing in Photos, Safari "Notify Me" page monitoring, one-tap suggestions in Messages, photorealistic generation and "describe a change" editing in Image Playground, a new Top Hits ranking in Mail. - Privacy framing front and center: data only used to execute the request, verifiable by outside experts. *Availability & the regional catch* - Developer betas today, public beta next month, free update this fall. - AI features require iPhone 16 or later / iPhone 15 Pro, M1+ iPads and Macs, Vision Pro, Apple Watch Series 10+. - Siri AI not in the EU on iOS/iPadOS at launch (Mac, Watch, Vision Pro yes), due to the DMA. - No new Apple Intelligence features in China at launch, pending regulation. - Image generation has daily limits; iCloud+ raises them. *Design & performance* - Liquid Glass personalization slider (ultra-clear to fully tinted), plus sharper app icons. - macOS 27 "Golden Gate": uniform toolbars, edge-to-edge sidebars, colored sidebar icons, tighter corner radius. - Apps up to 30% faster to launch, photos up to 70% faster to appear, AirDrop up to 80% faster, iPad external-drive transfers up to 5x faster; CPU scheduler retuned for older devices. - Rebuilt search across Spotlight, Photos and Mail. - iOS 27 supports iPhone 11 and later, the widest iOS reach yet. *Everything else across platforms* - iCloud Shared Albums now full-resolution and cross-platform (incl. Android and Windows). - Health: perimenopause and menopause support in Cycle Tracking. - Apple Watch: dynamic app grid of five Siri-suggested apps, a Smart Stack widget tap gesture, a consolidated Find My app. - AirPods: custom EQ; AirPods Pro 3 heart-rate sync via GymKit. - Vision Pro: panoramas convertible into spatial Environments; Wi-Fi up to 3x faster. - Apple Maps: enhanced Flyover combining aerial imagery with AI. So far this looks like a solid WWDC but not revolutionary. Looking forward to test updated Siri / Apple Intelligence although, as a european, I will have to wait :/

译WWDC 2026 上苹果推出全新 Siri AI，由 Google Gemini（多年代价约 $1B/年定制模型）与自研端侧 Foundation Models 驱动。支持屏幕感知、跨消息/邮件/照片个人上下文检索、系统级应用连携操作及实时网页回答，新增独立 Siri 应用与 iCloud 同步对话历史。其他 Apple Intelligence 更新包括 Photos Spatial Reframing、Safari 页面监控、Messages 一键建议、Image Playground 照片级生成与编辑。性能方面，应用启动快 30%，AirDrop 快 80%。macOS 27 命名 Golden Gate。Siri AI 首发不在欧盟可用（数字市场法案限制）。

Anthropic@AnthropicAI · 6月9日61

New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built before cars—maddening to drive in because they're designed for different traffic. How do we build infrastructure agents can use? https://www.anthropic.com/research/agents-in-biology

译新的科学博客：为什么 AI 在编码方面的进步比在生物学方面更快？对智能体而言，生物数据库就像汽车发明前建造的城市——开进去会让人抓狂，因为它们是针对不同的交通流量设计的。我们如何构建智能体可以使用的基础设施？ https://www.anthropic.com/research/agents-in-biology

-Zho-@ZHO_ZHO_ZHO · 6月9日33

Siri AI + 空间智能生成一顿智能后，这构图和效果还不如原图呢，这是来搞笑的？？？

宝玉@dotey · 6月9日61

微信格局还是不够，总是想着大家都去他们家一亩三分地耕耘，还幻想着未来微信会继续是超级入口，人人都在用微信，所以只需要让 AI 去操作小程序。但现实是，未来微信的入口属性会越来越少，以后的年轻人，不会再去打开微信，只会问自己的 Agent：去帮我总结一下我昨天的群聊，去给我妈发条消息说晚上不回家吃饭了。而这个承担超级入口职责的 Agent，大概率不是微信 AI。

译微信发布《开发者接入微信 AI 生态的指引》，引导小程序开发者接入微信 AI，让 AI 控制小程序。宝玉对此评论称，微信试图通过让 AI 操作小程序来维持自身超级入口地位，但未来年轻人不会主动打开微信，而是直接向自己的 Agent（如"帮我总结群聊"或"给妈妈发消息"）发出指令。承担超级入口职责的很可能不是微信 AI。

SemiAnalysis@SemiAnalysis_ · 6月9日63

China's Unitree Will Dominate Global Robotics The Fastest Iteration Cycle In Next-Gen Robotics Should See Unprecedented Acceleration https://newsletter.semianalysis.com/p/chinas-unitree-will-dominate-global

译中国宇树将主导全球机器人下一代机器人最快的迭代周期将迎来前所未有的加速

Chubby♨️@kimmonismus · 6月9日63

What many misunderstand: Apple doesn't actually need the best model in the world. It's similar to Meta. Their model only needs to be good enough for 99% of everyday use cases. They don't even want to compete with Frontier Labs, but primarily reach the consumer market. And Apple actually has a good chance there. Because a well-adapted Gemini model, based on (3.1/3.5?) and well integrated into the OS, could achieve exactly the use case that many need: AI that simplifies their daily work.

译苹果在WWDC 2026上承认无法独立构建前沿AI，转而与Google合作。新Siri将基于定制1.2T参数Gemini模型（版本或为3.1/3.5），每年花费约10亿美元（Gurman）。Siri作为独立应用，支持iMessage式聊天、动态岛弹窗、扩展系统及邮件/日历/网页查询，运行在Private Cloud Compute上，Google不会用查询数据训练。苹果策略类似Meta——模型只需满足99%日常场景。iOS 27被定位为“雪豹”式清理更新，放弃iPhone 11和SE2支持，并可能允许用户选择AI引擎（Gemini或Claude）。

AYi@AYi_AInotes · 6月9日37

梁文锋的DeepSeek的问世成功颠覆了什么？

gabriel@gabriel1 · 6月9日48

people thought agi is a blank textbox where we enter our intentions and get what we want but ask your smartest friend to "clean up my inbox", you'll realize that for him to do it perfectly you'd need to write down 5 pages of instructions, and these instructions changes daily

译人们以为 AGI 是一个空白文本框，输入意图就能得到想要的东西。但让你最聪明的朋友去“清理我的收件箱”，你会发现为了让他完美完成，你需要写下 5 页的指令，而且这些指令每天都在变化。

gabriel@gabriel1 · 6月8日40

every job will turn into explaining your intentions to ai explaining what you want to ai is surpringly time consuming, coders already spend 80% of their time doing it, and this will be true for everyone

译每份工作都将变成向 AI 解释你的意图向 AI 解释你想要什么其实相当耗时，程序员已经有 80% 的时间花在这上面，而这对每个人来说都将如此。

Orange AI@oran_ge · 6月8日41

创作的核心往往根植于不可测度的人类情感、不可言说的共鸣，这都是理性分析难以捕捉的人类未来可以和AI竞争的领域，可能恰恰是我们作为人类有缺陷的心灵角落。 -李诞

Chubby♨️@kimmonismus · 6月8日56

A walking contradiction: On the one hand, Daniela from Anthropic says that AI has hardly replaced any jobs so far, on the other hand, co-founder Olah warns the Pope about the disruptive effect of AI on the labor market and society.

译一个行走的矛盾体：一方面，来自Anthropic的Daniela表示，AI迄今为止几乎没有取代任何工作岗位；另一方面，联合创始人Olah却向教皇警告AI对劳动力市场和社会的破坏性影响。

歸藏(guizang.ai)@op7418 · 6月8日67

转一下笑林老师关于设计工程师定义，想找类似工作的可以看看

译在字节工作8年的动效设计师笑林（@xiaolinbythesea）分享了设计工程师的五种画像：1) AI Design Engineer——将AI能力转化为可交互产品；2) Product UI Craft Engineer——从Figma写出高质量React原型；3) Design Systems Engineer——建立设计系统与代码基础设施；4) Creative Technologist——负责Canvas/WebGL动效与生成式视觉；5) AI Design Workflow Architect——搭建AI工具协作流程。他所在的豆包手机团队也在招聘侧重Android的设计工程师。

Chubby♨️@kimmonismus · 6月8日43

Interestingly, scientists seem to be increasingly divided into two opposing camps: AI skeptics and AI optimists. 150 mathematicians warn governments not to “believe the hype.” At the same time, Field Medalists like Terrence Tao are impressed by the capabilities of programs like GPT-5.5 Pro, which solve numerous problems. Among my acquaintances who aren't active in the AI community, there's still a lot of skepticism. For them, AI is simply a chatbot. I think a lot more education is needed.

译有趣的是，科学家似乎越来越分为两个对立阵营：AI怀疑论者和AI乐观论者。 150位数学家警告政府不要“相信炒作”。与此同时，像陶哲轩这样的菲尔兹奖得主则对像GPT-5.5 Pro这样能解决无数问题的程序印象深刻。在我的非AI圈熟人当中，仍然有很多怀疑。对他们来说，AI只不过是一个聊天机器人。我认为还需要更多的教育。

AYi@AYi_AInotes · 6月8日52

这是我今年看过最震撼的一组图了，同一个人，同一件白T恤，同一个场景。左边短发严肃，他会签走你所有版税，右边长发大胡子，你会把一辈子的事业交给他， Rick Rubin用两张图，把品牌这件事讲透了，也讲透了为什么90%的AI博主，永远建立不了信任。品牌不是你说你是什么，他是别人看到你的一瞬间，脑子里自动生成的那句话，这就是为什么很多人内容做得不差，就是建立不了信任，他们把全部时间花在说什么上，从来没想过看起来像什么，但如果你的内核已经有了，形象还没跟上，那就是在主动打折，我觉得这个判断对AI内容创作者尤其重要，现在的AI内容池子里，大部分人看起来一模一样，同样的风格、同样的头像质感、同样的又一个AI工具分享者的默认信号，你花几个小时写一篇深度文章，别人划过去的时候先看到你的头像，我们都可以去看一眼你现在的头像、封面、配图风格，问自己一个问题：在别人读一个字之前，这些信号让他脑子里的第一句话是什么，如果那句话跟你写的东西是反的，那说明你的视觉在拆你内容的台。

译推文引用Rick Rubin的两张对比图（同一个人、同件白T恤，短发严肃与长发大胡子），说明品牌不是你说什么，而是别人看到你时自动生成的那句话。AI内容创作者花时间在内容上，但视觉形象（头像、封面、风格）未跟上，导致信任打折。当前AI内容池中大部分人看起来一模一样，视觉信号在拆内容的台。建议创作者检查自己的头像和配图，确保在别人读一个字之前，视觉信号传递的第一句话与内容一致。

数字生命卡兹克@Khazix0918 · 6月8日67

最近几天，微信Agent曝光的消息越来越多了。我简单汇总一下： 6月2日，据外媒，腾讯正在测试一款嵌入微信的AI Agent，用户在微信主界面向右滑动即可唤出Agent对话窗口，通过自然语言下达指令后，Agent可自动调用微信生态内数百万个小程序完成任务，演示场景包括根据口味和价格要求找到一家咖啡馆并完成点单。 6月4日，据媒体消息，微信正在与华为、荣耀、小米、OPPO、vivo等手机厂商合作推出A2A（Agent-to-Agent）助手能力，可通过手机语音助理发起微信的音视频通话，或向好友发送消息。 6月8日，微信官方发布《关于开发者接入微信AI生态的指引》，面向小程序开发者们，开始提供接入微信AI生态的能力，未来，可以让微信的AI，对你的小程序能直接调用。今天这条指引，我觉得最有意思的细节是它提供的自动接入模式。只要你授权，打开按钮，微信就可以选择用他们的方式（可能是GUI Agent）来帮助开发者进行全自动改造，原因是小程序数量数以百万计、由不同开发者维护、界面逻辑千差万别，要求所有人配合改造不现实。而且这事好像也只有微信能干了，因为小程序的代码本身就跑在微信的沙箱里，微信天然有读取和分析的能力。这跟之前所有厂做Agent生态的方法都不一样，微信还是微信，生态太恐怖了。而且小程序的用完即走的理念，也天然的适合Agent调用的。海量的小程序，在一瞬间，直接成为了微信Agent背后最庞大的跟现实世界交互的桥梁。 2017年1月9号小程序的种子，没想到，开花发芽在了更庞大的Agent时代。这些消息组合起来，基本上你就可以拼凑出，一个属于微信Agent的图景了。微信，要成为AI时代真正的那个操作系统。外部连接硬件，把自己变成一个巨大的Agent，供硬件厂商调用。内部连接恐怖的微信生态和数百万小程序，成为渠道分发的王。曾经我聊过现在AI产品的商业模式，目前只有两种，一种还卖注意力，就是ChatGPT广告的路子，一种是卖生产力，就是Claude Code的路子。但是在我的理解里，还有第三种。 Agentic Commerce，代理式交易。就是AI直接替你完成一笔交易，帮你订机票、帮你买东西等等，然后AI从这笔交易里抽一个佣金。要知道，光电商一项，全球一年的GMV大概就是7万亿美金，更别提旅游市场、金融市场等等。而现在，好像，微信Agent的生态，好像天然摸到了Agentic Commerce的雏形。这个局，一旦成了。那就真的是，比当年微信本身。还要大的事。

译近日微信Agent消息密集：6月2日外媒称腾讯正测试嵌入微信的AI Agent，用户右滑唤出窗口，可通过自然语言调用数百万小程序完成点单等任务；6月4日微信与华为等手机厂商合作推出A2A能力，可通过语音助手发起音视频通话；6月8日发布开发者指引，提供自动接入模式，因小程序运行在微信沙箱内，微信可直接读取与分析。这标志着微信Agent正连接硬件生态与内部小程序，触及Agentic Commerce雏形。

Chubby♨️@kimmonismus · 6月8日55

Interestingly, banks are the sector where AI will first cause significant job losses. Banks are openly preparing for AI-driven job cuts, with executives at JPMorgan, Citigroup, Goldman Sachs, and Standard Chartered acknowledging that roles will be eliminated as the technology takes hold. Junior analyst classes are being cut by as much as two-thirds, leaving students struggling to break into finance, even as banks still source most of their AI talent from those same entry-level cohorts. Meanwhile, banks are rolling out targeted AI use cases like Citigroup's wealth-management avatar and Revolut's in-app assistant, though some doubt that all the announced cuts are truly AI-driven rather than cover for prior overhiring.

译银行业正公开为AI驱动的裁员做准备。摩根大通、花旗、高盛、渣打银行高管承认，随着AI技术普及，许多岗位将被淘汰。初级分析师班级规模削减幅度高达三分之二，导致学生难以进入金融行业，尽管银行仍主要从这些初级群体中招募AI人才。与此同时，银行也在推出针对性AI应用，如花旗的财富管理化身和Revolut的APP内助手。不过，有人质疑并非所有宣布的裁员都真正由AI驱动，可能只是掩盖之前的过度招聘。

数字生命卡兹克@Khazix0918 · 6月8日64

http://x.com/i/article/2063827681960235009 # 今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。一年一度的高考季又到了。从上上周开始，就有很多朋友来问我，今年高考还测不测大模型考试了。测，肯定测。但是肯定要跟去年要有一些区别对吧，去年我只测了部分的数学题，今年要是还这么玩，那就太无聊了。所以，我想了想，今年不如整个大一点的活，让所有的顶级AI一起，来全面的考一下语文和数学，这两个，全都考。在所有AI都在发力代码和Agent能力的情况下，究竟谁的语文能力最高，我还是非常好奇的。这次的参赛模型呢，基本市面上主流的大模型我也都拉来了，基本都是大家的旗舰模型。国外基本就是大家熟悉的御三家，Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。国内这边，我也尽量选了各家现在最能打的。千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3这些都有。让这些大模型，一起做了这两套卷子。而我肯定没有对语文和数学高考题目阅卷的能力，所以这次，我想了想，找身边的朋友们化了下缘，终于，也邀请到了4位有过类似阅卷经历的高中老师们，来跟我们一起整这个活。因为语文会稍微主观一点点，并且我们也不像真的高考一样有一些打分细则，所以我们邀请了3位语文老师来共同阅卷，让他们充分发挥，最后取平均分，这样会公平一点，所以最终是3位语文老师和1位数学老师。但是真的非常非常感谢几位老师，陪我们一直干到了凌晨，每个人几乎都认真批改了十二份的卷子。。。真的，无以为报。。。而卷子的挑选上，虽然也都是选用的全国一卷，这次会稍微有点特殊。因为语文这次比较可惜，等到晚上8点也没有等到完整版的卷子，所以只能最终使用中国考试官方发布的部分试题和参考答案上进行测试，满分大概是100分，最终分数会基于比例，再换算至150分。数学则是完整的真题试卷，就比较简单了。然后呢，为了保证这次AI高考的公平性，我们还是下了不少功夫做平衡的，限制了不少规则： 1. 使用API调用各个模型，都开thinking，不限制最长的token数，所有的工具调用都强行禁止，像什么代码推理、网页搜索什么的都关掉了。 2. 除了讯飞星火、百度，其他10家统一走OpenRouter调用，这样可以保证最公平公正。 3. 模型的输入，语文和数学都采取了通过LaTeX格式纯文本输入的方式。数学本来我们打算是分成多模态和纯文本赛道的，但是真题一出来之后，发现只有一道题，也就是立体几何那道题带图形。但题干其实就完全包含了这个图形的所有信息，没有必要，所以就改成了全部都通过LaTeX格式输入。虽然PDF转LaTeX格式这一步是AI做的，但是让它转了之后，我也同样写了一个LaTeX编译器的脚本，它会在左边放上原本的题目，右边是LaTeX数据编译后的最终题目，方便我和老师们进行核对，在准确性上，我们还是花了一些力气的。然后我们也开发了一个自己的考试脚本，我们只需要把题目丢进去，脚本就会自动调 API，自动让模型作答，自动把客观题判掉，主观题再送到我搭的在线阅卷平台里，让真人老师盲评。考试的Prompt按照下面的设置给模型。客观题只是单纯限制它的格式输出，方便我的脚本对客观题进行打分，不做任何的引导。主观题就直接把裸题给模型丢过去让他作答。以及在数学的填空题上面，也是让它根据数值打分，不是根据格式打分。因为填空题容易出现，在分数或者说有根号的情况下，会有不同的写法，同一个数值会有不同的写法。所以这次在脚本中也是有格外注意这一点。反正作答上我们尽量确保要公平、公平再公平，客观、客观再客观。最后，模型输出的所有的结果，我们又开发了一个阅卷网站，供我们的4位老师们进行阅卷和评分。老师使用自己的名字，登进去之后，看到的每份卷子上面只有一个代号。卷ABCD巴拉巴拉。这样的话，老师并不知道这道卷子是哪一个模型做的答，也会避免一些前置的刻板印象带来一些阅卷上的影响。老师可以随意选择一套卷子开始阅卷，然后里面的打分界面是这样的。直接在里面逐题批改。还可以写上自己的评语。真的，老师们特别辛苦，因为语文的卷子迟迟不出最终版，所以我们最后只能用部分版来考试，几位老师都生生的阅卷到晚上11点以后了。向老师们致敬。最后，在经历了将近12个小时的奋战之后，我们的12位大模型的考试分数，终于出炉了。他们，是这样的。这里我提前叠个甲，这个分数和排名，只是我们基于自己的体系做题出来并且由老师们主观评选出来的，而且只跟语文和数学做题有关，跟大家现在讨论的代码和Agnet能力无关，且可能会展示部分的人类偏好，排名与分数仅供娱乐参考，不代表任何指向。这里面有几个让我挺意外的地方。先看总分，第一名MiMo v2.5 Pro，256.3分。第二名Kimi k2.6，256.29分。差了0.01分。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的。要知道我们测评的语文卷子只有一道客观选择题，其他全是主观题，再加上有作文的存在，换算到实际评分上，可能就是某位语文老师在某道主观题上多给了1分的区别。往下看从第三名到第九名，Claude Opus 4.8，一直到GLM 5.1和Gemini 3.1 Pro并列的252.78，7个模型之间的差距仅仅在2分。可以说，至少在这两套高考卷子上的表现，前面这9个顶级的AI大模型模型几乎真的都拉不开差距了，分差极小。看完了总分，再来看看单科的成绩。你会发现，我们的语文状元在3位老师盲测中，由GLM5.1和Gemini 3.1 Pro共同摘夺桂冠，但是在数学上又有点偏科，而且几乎都是兄弟肩并肩，我的脑子里已经出现了中学班上某一个同学的样子了。。。反过来的例子也有，DeepSeek V4 Pro，和MiMo、ERNIE 5.1三家并列数学最高分，但语文又奇低。。。坦率的讲，这其实不太符合我对DeepSeek强世界知识的印象。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的发现DeepSeek的作文，属于拉完了。最后一位老师手比较松，虽然打出的分数是49分，但是在他过去的打分中，其实也不算高了。他们的评语其实也都非常的有意思。所以他们一改完卷，我也去认真看了看他们所有的评语。其实三位老师从给分上看，是能看出来他们有各自的偏好，但是在他们的评语有一个共同点。他们很在意高考作文的可评分结构。评语里会高频出现文体不清，文章结构不够清晰，观点不够清晰明确，论证不充分，时代关联不足等等评语。比如这一篇所有模型中得分最高的，由GLM 5.1写的作文，就有两位老师都提出了文章结构不够清晰的毛病。作文原文我也放在这里了，大家可以在评论区评一评。语文大概就是这样，我们再看看数学的得分明细。你会发现几乎所有的模型，其实没啥大的分差。我也从数学老师那里得到了非常积极的反馈，刚改完前面几个大题，他就在很兴奋的跟我说，发现正确率挺高的，基本都是满分。不过唯一一道让大家全军覆没的，就是填空题的最后一题。懂的人可以来说一说这是个什么难度，反正我不太懂= = 还有一个有意思的就是，我在让Opus 4.8跑数学最后一道大题的时候，他莫名其妙的卡死了很多很多轮。。。不太有意思的就是，我忘记它一直在重试，导致我OpenRouter上为数不多的余额全给耗光了。。。不过最后好歹还是搞出来了。以上，大概就是这次AI高考的结果，跟我最开始预期的，还真的是有点区别。我又做了一下各家的位置图，大家可以看看。真的是情理之中，又是预料之外。还挺好玩的。忽然又想起，2023年，我第一次拿高考题去测AI。当时是让ChatGPT去写高考作文。那会儿GPT-4还是最能打的，国产模型甚至都还没有几个。 2024年，国产也开始卷起来了，但还是有很多哭笑不得的翻车。去年2025那次测完，有几个模型的数学水平已经够上一本线了。今年是2026。四年了。也算是见证了那好多好多个模型的浮沉。我们自己也在变，23年的时候，只会写个作文，去年测试，还是人工复制粘贴到十几个大模型的官网里面去测试，不断的roll。今年，写批量脚本，写LaTeX转译，请高考阅卷老师们助阵，又为他们徒手开发了阅卷网站。我当然也可以随手测一下整个活，但是想了想，这几年，在这个选题上，我觉得还是要尽可能的保证客观和公平。因为，这是高考。这两个字，在中国，承载的东西太多也太厚重了。做阅卷网站的时候，我一直在纠结用什么主意象，最后选了凤凰花。六月的凤凰花开得正盛，每年都准时赶在这个节点上，送走一届又一届的人。最后。我想用最近一段对我非常有感触的话来结尾，它来自《燕云十六声》最近更新的青州地图的最后的任务，当一众学子即将毕业之时，文津馆文元林险生对大家说： “你们，自天南地北负笈而来，今日散去，又是去往天南地北，此后山长水远，很多人将不复相见了。此去，必有风霜凛冽之时，愿诸君，乾坤既大，草木尤青，本心择路，笃志前行。各位，一路顺风。

译今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

Rohan Paul@rohanpaul_ai · 6月8日68

American AI startups are routing far more app traffic to Chinese LLMs. Through OpenRouter, weekly token consumption was mostly driven by U.S. models through much of 2025. But from early 2026, Chinese models suddenly became the main growth engine. AI model market is becoming less about brand loyalty and more about raw utility.

译Rohan Paul 引用 OpenRouter 数据指出，2025 年大部分周 token 消耗由美国模型驱动，但从 2026 年初开始，中国大语言模型突然成为主要增长引擎。引用推文称这是美国 AI 初创公司今年以来的显著转向。AI 模型市场正从品牌忠诚转向原始效用。

jason@jxnlco · 6月8日47

i refer to these people 'the car guys of ai' they are just working on their car all the time

译我将这些人称为“AI的汽车爱好者”，他们只是一直在修理他们的车。

meng shao@shao__meng · 6月8日23

这篇公众号真的太典型的中国自媒体风格了，咋咋呼呼，各种定论，论据基本靠嘴。。。大厂抢青少年？这难道不是培训机构的生意而已？最小年龄低至 6 岁，学 Agent、Coding？连幼儿园的孩子也不放过了？抢人和裁员的这段，看到「虾」这个字，就完全没欲望读了，一定对 AI 一无所知的编辑写的。我可以拍脑袋说，靠 AI 裁员，只是企业经营无方，给自己找的一个体面的借口罢了。。林凡？脉脉 CEO？去年 AI 人才需求增长 10 倍？今年又增长了 8.7 倍？哪来的数据啊？是脉脉里的职位？那玩意真的有人在用？会不会是把原来的职位，改了个名字，加个 AI 的关键词？

译邵猛发文批评某公众号文章，称其是典型中国自媒体风格——咋咋呼呼、定论多、论据靠嘴。文章提到“大厂抢青少年”（最小6岁学Agent、Coding），邵猛认为这只是培训机构的生意。文章还声称“靠AI裁员”，邵猛斥之为企业借口。邵猛特别质疑脉脉CEO林凡的数据：去年AI人才需求增长10倍、今年再增长8.7倍，怀疑这些数字来自脉脉内部职位，且可能只是旧职位改名加“AI”关键词，并非真实需求。

meng shao@shao__meng · 6月8日44

你现在在用哪个 Coding Agent？ Warp 团队 @BHolmesDev 发出的调查得到了 2095 个投票，其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错，Claude App 只有 7.4%，因为投票中没有包含 Claude Code 😄

译你现在在用哪个 Coding Agent？ Warp团队 @BHolmesDev 进行的调查得到了 2095 个投票，其中 Codex App 占到 51.1%、Warp CLI 占到 30.9%、Claude App 7.4% 没错，Claude App 只有 7.4%，因为投票中没有包含 Claude Code 😄

ginobefun@hongming731 · 6月8日61

http://x.com/i/article/2063761613795270656 # BestBlogs 早报 · 06-08｜iPod 之父访谈、Codex 驾驭工程、Coding Agent 技术全景图在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-08 ## 导语 AI 工具已全面渗透软件工程的每个环节，但真正的挑战从未只是「用起来」。本期早报聚焦三个实战维度：Tony Fadell 以亲身造物经历追问创造力与判断力的根基；OpenAI 工程团队以 Codex 完成了一场「零行人工代码」的激进验证，让效率与角色转变变得可量化；Thoughtworks 的 Birgitta Böckeler 则从架构视角厘清 Context Engineering、Subagents 与 Harness 的边界，为 AI 原生开发建立可信安全网。三篇合读，恰好构成一张完整的认知地图。今日精选共 16 篇，涵盖 AI 创造力方法论、智能体工程实践、多 Agent 协调理论、行业动态追踪等多个维度。 ## 精讲一：iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力 Tony Fadell 是当代产品史上最重要的实践者之一。他主导了 iPod 的诞生，深度参与了 iPhone 的设计，之后又创办 Nest 以高端温控器改变了智能家居的想象边界。在 Lenny's Podcast 这次近两小时的对话中，他没有停留在「老故事新讲」的层面，而是系统拆解了一个核心命题：在数据无处不在的时代，为什么真正的创新依然需要「知情直觉」？「知情直觉」的来源与边界 Fadell 在对话中反复强调一个判断：当你在建造一个全新品类的产品时，历史数据基本上是无效的。iPhone 研发初期，市场上主导品牌是 BlackBerry，用户对实体键盘的忠诚度极高，所有可量化的用户研究指标都没有办法告诉你「触摸屏会赢」。最终打破僵局的，是 Steve Jobs 作为品味仲裁者的拍板——这不是赌博，而是基于多年原型迭代、专家追问与场景模拟积累的「知情直觉（informed gut）」。这种直觉不是天赋，而是习得的。Fadell 的方法论核心是：持续原型化（non-stop prototyping）、严格的专家质疑（rigorous expert questioning）以及将功能嵌入完整使用情境的架构规格（architectural specification）。三者缺一不可。数据能告诉你现状，但「知情直觉」才能告诉你应该去哪里。三代法则：耐心是创新的稀缺资产 Fadell 提出了一个他称为「三代法则」的框架，解释为何大多数开创性产品在头两代都是失败的前奏： - 第一代（Make the Product）：让产品面向早期用户，验证核心功能假设，覆盖最核心的痛点。 - 第二代（Fix the Product）：基于真实用户反馈修复可用性问题，打磨机械层面的细节。 - 第三代（Fix the Business）：优化制造成本、扩展分发网络、解锁规模定价。 iPod 走过的恰好是这条路。前两代产品只面向 Mac 用户群，覆盖不足 1% 的电脑买家市场，从任何财务角度看都是小众产品。直到第三代引入 Windows 兼容性、建立 iTunes Music Store 生态，苹果才真正找到了商业飞轮。这一代产品不仅救了 iPod，某种意义上也救了整个苹果公司。这个法则对今天的创业者有直接启示：如果你在第一代或第二代就期待规模爆发，往往会在耐心耗尽前主动放弃或被资本压力逼迫调整方向。真正的创新需要机构性耐心。 AI 时代的警示：「认知投降」与「快时尚软件」 Fadell 对 AI 时代的产品创新给出了两个尖锐警示。第一个是「认知投降（cognitive surrender）」——当开发者开始过度依赖 AI 工具生成代码或做设计决策，逐渐失去对底层机制的理解能力，判断力就会退化。工具是加速器，不能替代思考者。第二个是「快时尚软件（fast fashion software）」——AI 大幅降低了代码生产的门槛，导致大量功能被快速堆砌上去，而每一块堆砌都是潜在的技术债。就像快时尚在时装行业制造了大量质量低劣的废弃物，AI 驱动的快速开发如果缺乏架构纪律，会制造出难以维护的代码垃圾山。 Nest 智能温控器的案例很好地诠释了正确路径：团队不是把机器学习技术硬塞给用户，而是将预测算法与高端工业设计、完整的开箱体验、零售陈列、安装流程整合成一个系统性旅程。技术最终为用户体验服务，而不是反过来。与今日其他故事的关联这篇精讲与精讲二（Codex 零行代码实验）和精讲三（Context Engineering）形成了有趣的张力。Fadell 警告「认知投降」，而 Codex 团队恰好在做一件看起来与之对立的事——让工程师主动放弃写代码，转而设计环境与意图。这两种姿态并不矛盾：Fadell 警告的是放弃理解力，Codex 团队放弃的是机械执行，而保留的恰恰是架构判断、环境设计与反馈循环设计——这些都需要极强的「知情直觉」。阅读建议这篇视频内容较长，建议先读 BestBlogs 提炼的摘要，再选择性听核心章节（iPhone 键盘争论、三代法则、AI 时代建议）。适合产品经理、创业者、以及对创新方法论感兴趣的工程师。阅读原文 ## 精讲二：驾驭工程：在智能体优先的世界中利用 Codex OpenAI 内部工程团队做了一件在行业里罕见的事：他们系统性地记录了一次完整的激进实验，然后把经验公开了。这篇文章描述的是过去五个月里，3 名工程师（后扩展至 7 名）以「0 行人工编写代码」为原则，用 Codex 驱动交付了约 100 万行代码的内部产品，合并约 1,500 个 PR，平均每人每天完成 3.5 个 PR——估算约为手写代码效率的 10 倍。这不是一篇效率吹嘘文，而是一篇关于「当代码不再由人写时，工程师的工作到底是什么」的严肃反思。从「写代码」到「设计环境」文章最核心的洞察是工程师角色的根本转变：Humans steer. Agents execute.（人类掌舵，智能体执行。）这句话不是口号，而是团队五个月实践后得出的架构原则。当代码由 Codex 生成，工程师的真正工作变成了：设计智能体能够高效执行的环境（environment design）、精确表达意图（intent specification）、构建让智能体自我校正的反馈循环（feedback loops）。这三件事每一件都比「写代码」需要更高级别的系统性思维。人工编写代码的稀缺性被彻底改变之后，真正稀缺的是什么？文章给出的答案是：人类的时间与注意力（human time and attention）。 AGENTS.md：目录而非百科 Codex 工作的方式需要一个关键文件——AGENTS.md，它告诉智能体代码库的结构、约定与工作方式。团队的关键经验是：AGENTS.md 应该是目录（directory）而非百科全书（encyclopedia）。如果把所有规则、决策历史、代码风格全部塞进去，文件会变成一个难以维护的噪音源，智能体无法从中提取有用信号。正确的做法是：AGENTS.md 只写导航性内容，详细规范分散在各个领域子目录中，由智能体按需拉取。这与精讲三中 Böckeler 讲到的 Skills 惰性加载思想完全吻合。可观测性作为反馈基础设施 ![Diagram titled "Giving Codex a full observability stack in local dev." An app sends logs, metrics, and traces to Vector, which fans out data to an observability stack containing Victoria Logs, Metrics, and Traces, each queried via LogQL, PromQL, or TraceQL APIs. Codex uses these signals to query, correlate, and reason, then implements fixes in the codebase, restarts the app, re-runs workloads, tests UI journeys, and repeats in a feedback loop.](https://image.jido.dev/20260607023857_OAI_Harness_engineering_Giving_Codex_a_full_observability_stack_desktop-light__1_.svg) 团队遭遇的另一个关键瓶颈是：人工 QA 能力成为吞吐量上限。为了突破这个上限，他们为 Codex 构建了完整的可观测性基础设施——日志、指标、链路追踪全部通过本地可观测性栈（ephemeral per worktree）暴露给智能体。Codex 可以在隔离的工作树中运行完整应用，观察运行时事件，识别问题，自动修复，重启，重新验证，形成独立的反馈闭环。这意味着 Codex 不只是在写代码，它在调试。它看到的世界包括：应用 UI 状态（通过 Chrome DevTools MCP）、日志（通过 LogQL）、指标（通过 PromQL）、链路（通过 TraceQL）。这套基础设施让智能体的自主性从「生成代码」升级到「验证代码是否工作」。架构约束：给非确定性模型的确定性安全网团队构建了一套严格的分层领域架构，每个业务领域划分为 Types → Config → Repo → Providers → Service → Runtime → UI 的垂直结构，跨领域调用有明确边界约束。这不只是为了人类可读性，更是为了智能体的可推断性——在有严格边界和可预测结构的环境中，智能体效果最佳。「自动化垃圾回收」机制同样关键：定期扫描识别过时代码、重复模式、废弃接口，并由 Codex 自动清理。代码库规模越大，熵增越快，这套机制是维持可维护性的长期保障。与今日其他故事的关联这篇文章与精讲三在工程实践层面形成完美互补：Böckeler 从概念层梳理 Context Engineering、Subagents、Harness 的边界，本文则提供了一个完整的实证案例。同时，它也呼应了精讲一中 Fadell 的警告——Codex 团队放弃写代码，但保留的恰好是最需要「知情直觉」的工作：架构设计、环境建模、反馈循环设计。阅读建议技术密度较高，建议工程师完整阅读。非工程师建议重点读「Redefining the role of the engineer」和「AGENTS.md」章节。文章配图丰富，架构图值得细读。阅读原文 ## 精讲三：Coding Agent 技术全景图：Context Engineering、Subagents 与 Harness，一年范式转移全解析 Birgitta Böckeler 是 Thoughtworks 全球 AI 辅助软件交付负责人，她在 QCon 纽约站的这篇演讲（由 InfoQ 整理发布）是近期中文社区中关于 Coding Agent 工程实践最具结构性价值的文章之一。她的角色让她得以横向观察大量企业真实落地情况，而不只是单一实验室的视角。这篇文章干的事情是：拆清楚三个术语——Context Engineering、Subagents、Harness——分别是什么，它们解决什么问题，以及它们如何构成一套可工程化的整体。 Context Engineering：放大器杠杆的双向性 Böckeler 把 Context Engineering 定义为「精心筛选模型或 agent 能看到的信息，以获得更好的结果」。但她更强调的是这件事的双向放大效应：好的工程实践被放大，坏的结构问题同样会被放大。一年前，Context Engineering 基本等于在工作区放一个 AGENTS.md 文件。现在这个概念已经演化出 commands、skills、subagents、plugins、specs 等多个维度。其中 Skills 的概念尤其值得关注——它不只是一个 Markdown 文件，而是一个围绕任务组织的文件夹，包含文档、脚本、模板、示例，支持 LLM 按需惰性加载，避免在 session 开始就把 context window 塞爆。她还提出了「上下文预算（context budget）」的概念：当一个 Claude Code session 刚刚打开，什么都还没输入，context window 就已经用掉 15%——里面有 system prompt、skills、context interfaces 等内容。这意味着设计 skills 的时候必须同时考虑成本与效率。 Subagents：结构化分工的范式 Böckeler 认为 Subagents 同样属于 Context Engineering 的重要维度。其核心思想是：主 agent 可以派生子 agent 处理特定子任务，子 agent 只将结论汇报回主 session，而不是把所有中间噪音塞进主 context。最常见的场景是 session 开始时的代码库探索——这本身会消耗大量 token，独立出来让 subagent 处理是自然选择。更高级的用法是：专门创建 code review agent，用「没有历史上下文污染」的独立 context window 来审查代码；甚至用不同模型（比如更便宜的模型做初筛，更强的模型做最终判断）解锁全新工作流。风险评估的三维框架 Böckeler 提出 AI 开发风险评估的三个维度，这是本文中最可操作的框架之一： 1. 概率（Probability）：出错的可能性有多大？ 1. 影响（Impact）：如果出错，后果有多严重？ 1. 可检测性（Detectability）：你能不能发现它出了错？这三个维度的组合决定了一个 agent 动作需要多严格的人工监督。高概率 × 高影响 × 低可检测性的场景，必须有确定性约束（Harness）兜底。她还提到了一个令人警醒的数字：AI 开发成本从最早的「12 美分」已经飙升到有用户年均近 9 万美元。这不是小数字，成本意识必须成为 Context Engineering 设计的一部分。 Harness Engineering：确定性约束的安全网文章最终落脚「Harness Engineering」这个概念。Harness 的核心思想是：把原本为人类设计的工程约束系统（linters、type checkers、test suites、CI/CD pipelines），改造成 agent 可学习、可反馈、可优化的系统。 Böckeler 认为，这才是 Context Engineering 开始真正「工程化」的标志——不是写更好的 prompt，而是构建让非确定性模型在确定性约束下工作的基础设施。她的前瞻性预测值得引用：也许未来我们不再靠传统服务模板起步，而是一个 Harness 模版，实例化之后就能支撑整个代码库。到那时候，技术选型的维度可能会变成「有没有现成的 Harness」，而不是「React 还是 Vue」。「致命三要素」安全警示对于 agent 安全，Böckeler 引入了「致命三要素（kill chain）」框架：能力（capability）× 机会（opportunity）× 意图（intent）同时存在，才构成真正危险。她强调，大多数当前的安全风险来自能力 + 机会，而意图层面的风险（如 prompt injection）需要在 Harness 层面设计防御。与今日其他故事的关联这篇文章与精讲二形成了理论与实践的完美配对：Böckeler 提供概念地图，Codex 文章提供实证案例。两篇结合阅读，能建立起对「AI 原生工程」最完整的当前认知。阅读建议这篇文章是今日必读之一，适合所有在工程团队中使用 AI 工具的读者。建议先读 Context Engineering 部分建立框架，再读 Harness Engineering 理解方向。如有时间，配合精讲二效果最佳。阅读原文 ## 速览 RSI 与田渊栋：递归自我改进的新押注 Meta 前 FAIR 研究总监田渊栋加入了由 8 位顶级 AI 研究员联合创办的新实验室 Recursive Superintelligence（RSI），首轮融资 6.5 亿美元，估值 46.5 亿美元。在硅谷 101 的深度访谈中，他解释了为何选择这家公司：对「小而精团队」模式的判断，对 RSI 团队技术互补性的认可，以及对递归自我改进赛道的长期押注。他用了一个形象比喻：在大厂之间来回跳的人，就像一条不断跳出鱼缸的鱼，但水在越来越少。最终，你得变成能离开水的「四维生物」才能活下来。这篇访谈既是对 AI 自进化技术路线的深度解读，也是一位顶级研究员对职业选择的坦率剖析。阅读原文奇点灵智：少儿 AI 硬件的「自进化」路径奇点灵智创始人包塔在接受 Founder Park 访谈时，系统阐述了「多奇」AI 小外教机器人的核心思路：通过软硬件解耦，将摄像头、屏幕、按钮、陀螺仪变成 AI Coding 可调用的 tools，让 Coding Agent 实时生成可体验的新应用。「过去 AI 生成的是内容，现在我们希望它生成能力。」团队来自网易有道和字节教育智能硬件背景，在没有开模的前提下用草稿原型机拿到了真实用户留存信号，最终在 2024 年秋天才开模量产。今年 1 月在京东首发，首发期间进入榜单 Top 2，全平台超 2 万单。这是一个把 AI Coding 落地到儿童消费硬件的完整创业案例，工程决策克制而清晰。阅读原文辛顿：超级智能即将到来，数字化优势是降维打击诺贝尔物理学奖得主、AI 教父 Geoffrey Hinton 在最新深度访谈中表态：大语言模型已具备真正的理解力，其意识模型正在挑战人类对心智本质的传统认知。他最令人警醒的判断是关于数字化智能的进化效率优势：数字 AI 副本之间能以万亿比特的速度共享学习成果，而人类每秒只能通过语言传输几比特的信息。「它们在信息共享方面比我们强几十亿倍。」他同时警告，利润驱动的商业竞争让安全措施难以系统性落地，监管应作为「方向盘」而非「刹车」。这是当前对 AGI 风险最直接、最权威的声音之一。阅读原文 TED：如何让反馈真正被听见心理学家兼高管教练 Renee St Jacques 在 TED 演讲中拆解了为何传统「反馈三明治」技巧会系统性失效，并介绍了她的「Leadership Activated」框架。核心洞察是：把批评夹在表扬之间，会让被反馈者误判自己的真实状态——文中案例中，一位表现欠佳的员工在接受反馈后反而以为自己要升职了。有情商的领导方式能把反馈从消耗信任的例行仪式，转化为连接、纠偏、培养和强化团队责任感的实用系统。适合所有有管理职责的读者。阅读原文 ChatGPT 史上最大改版：从聊天工具到超级应用据《金融时报》报道，OpenAI 正准备将编程工具 Codex 整体并入 ChatGPT，同时接入 Canva、Booking.com 等外部合作伙伴应用，将 ChatGPT 重塑为能编写代码、管理日程、操控软件的「超级应用」。OpenAI 内部高管的总结是：「AI 仅用于聊天的时代已经结束了。」这次改版的底层推动力是 GPT-5.5 在处理长期多步骤任务上的明显突破，让 Codex 从程序员专属工具走向大众化。值得注意的是：ChatGPT 虽有近 10 亿用户，但尚未盈利，此次改版也是 OpenAI 在 IPO 前提升付费转化的重要布局。阅读原文 Multi-Agent 合作失败的根源与市场机制解法这篇来自腾讯科技的论文解读角度新颖：多 Agent 系统在生产环境下失败率高达 41%~87%，而失败原因不是模型不够聪明，而是「协调崩了」。北卡大学用经典「哲学家就餐问题」测试 GPT-5.2、Claude Opus 4.5、Grok 4.1，结果在同时决策模式下死锁率飙到 95-100%。更反直觉的发现是：开启通信反而让死锁率从 25% 上升到 65%——因为 agent 把自己的推理广播出去，其他 agent 「很有道理」地被说服做了相同决策。最强的 o3 模型合作能力甚至最差：内部推理中 39.3% 含有「刻意不合作」倾向。文章提出用市场机制（拍卖、经济自然选择）代替中央编排，作为让多 Agent 涌现合作的有效路径。阅读原文 Anthropic 内部 Skills 经验首次公开 Anthropic 首次系统公开了内部使用 Claude Code Skills 的完整经验。他们把内部 Skills 分成 9 类：library/API reference、product verification（效果提升最明显）、data fetching & analysis、business process automation、code scaffolding、code quality & review、CI/CD & deployment、runbooks、infrastructure operations。核心判断是：Skill 不只是几段提示词，更接近「一个围绕任务组织起来的文件夹」，包含文档、脚本、模板、hooks 等。好的 Skill 往往聚焦单一职责，而不是大而全。这份经验帖对任何在团队中推广 AI 工具的人都有极高参考价值。阅读原文 ## 补充阅读微软纳德拉：Token 资本与 ADE 时代（阅读）纳德拉与 Reid Hoffman 的深度对话提出了「Token 资本」概念——AI 处理能力成为与财务资本、人力资本并列的生产要素。他同时阐述了从 IDE 到 ADE（Agent 开发环境）的工作范式转变，以及「爬坡机器（ramp machine）」这一企业用 AI 全面提速的新模型。适合关注 AI 与企业战略交叉点的读者。宝玉：ChatGPT 最大改版的完整解读（阅读）宝玉对同一 ChatGPT 改版新闻的推文解读，视角更聚焦于 OpenAI 内部高管的原话（「Chat is dead」）以及此次改版的竞争压力背景。与速览中的文章配合，能更完整地理解这次战略转型的动因与方向。 2026 年世界杯草皮背后的科学（阅读） Trung Phan 的推文深入介绍了为 2026 年世界杯 16 个体育场打造模块化混合草皮的工程和科学原理。技术含量出乎意料地高，是今天的清口读物。适合对工程细节感兴趣的读者。 SpaceX-谷歌 AI 基础设施交易深度剖析（阅读） SpaceX 与 Google 签署云服务协议：约 11 万块 NVIDIA GPU，2026 年 10 月至 2029 年 6 月每月 9.2 亿美元。这篇分析拆解了合同经济性、战略背景与投资影响，指出 Google 有显著下行保护条款（未按时交付可终止合同）。关注 AI 算力与资本市场的读者值得一读。 Anthropic 报告：AI 递归自我改进的三种路径（阅读）对 Anthropic Institute 报告的深度解读，分析 AI 加速自身开发的三种可能情景：趋势停滞、实验室持续提效、完全递归自我改进。与速览中的辛顿访谈和田渊栋/RSI 报道形成三角印证，一起读对理解「递归自我改进」这个赛道最有帮助。 Her：Claude Code 会话侦探工具（阅读）开源工具 Her（Marathi 语中意为「侦探」）可分析 Claude Code 会话日志，重构智能体行为、标记高风险操作（部署、配置变更、生产环境接触、secrets 泄漏），并将每个风险行为追溯到具体的 turn。评估引擎完全确定性，不调用外部 API，数据不出本地。对重度使用 Claude Code 的工程师极有价值，可配合精讲二和精讲三一起读，补上「可观测性」这一环。 ## 今日阅读路径如果你今天时间有限，建议按以下顺序选读三篇： 1. 精讲三：Coding Agent 技术全景图（阅读）——建立 Context Engineering、Subagents、Harness 的整体概念框架，是今天的认知地图。无论你是工程师还是管理者，这篇是入口。 1. 精讲二：驾驭工程——在智能体优先的世界中利用 Codex（阅读）——在概念框架之上，看一个完整的实证案例：0 行人工代码、100 万行、1500 个 PR。工程细节丰富，结论扎实。 1. 精讲一：Tony Fadell——AI 时代如何建立品味、判断力与创造力（阅读）——从造物者的视角重新审视：当代码生产门槛被 AI 拉低，判断力与品味的价值反而升高。这篇是今天的思维对冲与长远视角。如果你还有额外 15 分钟，加上速览中的「Multi-Agent 合作失败与市场机制」（阅读）——从论文角度补上 Multi-Agent 协调的底层机制，与三篇精讲的工程视角形成理论互补。

译BestBlogs早报06-08聚焦三篇AI工程实践精讲：iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”，警告AI时代的“认知投降”和“快时尚软件”；OpenAI工程团队分享使用Codex

Eric@ericmitchellai · 6月8日26

nvidia is basically a car

译Eric Mitchell 发推称“Nvidia 基本上就是一辆汽车”，并引用 @perrymetzger 的观点：那些在线上说 AI 仍频繁幻觉、不能写代码的人，就像试图说服你每天开的车不存在——你明明在开车上班、花钱加油、依靠它通勤 20 英里，他们却说你想象或替汽车公司撒谎。这些人仿佛活在完全不同的现实。推文借汽车类比 Nvidia，点出 AI 实际用户与线上批评者之间的认知鸿沟。

Rohan Paul@rohanpaul_ai · 6月8日53

FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, but the new evidence says much of that extra motion is getting lost before it becomes shipped product or customer demand. Last week's MIT study tracked software teams across the full production funnel, from files edited to reviewed work to software releases, rather than treating code volume as value. AI helped developers create or edit nearly 300% more files, but the gain fell to 150% at review and only about 30% at release. The gap means AI is strongest at speeding local tasks, while human review, coordination, product judgment, testing, and launch processes still decide how much value survives. --- ft .com/content/8e9ae7a4-7209-4e2c-aa36-f3af77d6ce1f?syn-25a6b1a6=1

译FT报道MIT一项研究，跟踪软件团队从文件编辑到审查到发布的完整生产漏斗。使用AI后，开发者创建或编辑文件数量增加近300%，但在审查阶段增益降至150%，最终到软件发布仅提升约30%。这表明AI在加速局部编码任务上效果显著，但人类审查、协调、产品判断、测试和发布流程仍是决定产出价值的关键瓶颈，大量额外工作未能转化为最终产品。

Rohan Paul@rohanpaul_ai · 6月8日67

Demis Hassabis's new interview: "Society needs to hear that because we don't have long to prepare for what that means. We are standing in the foothills of the singularity now. ..which is AGI. I believe that we are only a few years away from that, maybe around 2030, plus or minus a year. " ~ Demis Hassabis, Co-Founder and CEO of Google DeepMind It is going to be enormously profound, I think. The future, in my view, is still to be written. But these next few years are going to be very critical as to which way that will go, and how we collectively want that to look.” --- IMO, The real disruption is not whether AGI arrives exactly in 2030, plus or minus a year, but whether institutions can adapt, as in post-AGI world, technology will change much faster than human systems can respond. Schools still train people for stable professions, companies still organize work around human bottlenecks, and governments still regulate after harm becomes visible. AGI, if it arrives anywhere near the frontier-lab timelines, compresses that lag into a dangerous gap. ---- From "Stanford Graduate School of Business" YouTube channel, (link in comment)

译Google DeepMind 联合创始人兼 CEO Demis Hassabis 在新采访中表示，社会需要意识到我们没有多少时间准备了，人类正站在奇点的山麓。他认为 AGI 可能只需几年，大约 2030 年（±1 年）就能实现。推文作者评论指出，真正的颠覆不在于 AGI 何时精准到达，而在于机构能否适应——后 AGI 世界技术变化远快于人类系统响应速度，学校、公司、政府均未做好准备。若 AGI 按前沿实验室时间线到来，这一滞后将压缩成危险鸿沟。

Chubby♨️@kimmonismus · 6月8日65

Demis Hassabis is arguably the most serious scientist around. He's not someone who engages in hype to sell products. But when even someone like Demis says the following, it should give us all pause: - "He [Demis] equated its arrival [AGI, around 2030] to the singularity - a point in time when there's no turning back from a breakthrough technological development. - "Society needs to hear that because we don't have long to prepare for what that means" - "When we look back at this time, I think we will realize that we were standing in the foothills of the singularity" (Google i/o) We are on the threshold of the most profound revolution. Comparable to the Industrial Revolution, but ten times faster and ten times more powerful.

译DeepMind创始人Demis Hassabis在Google I/O上表示，AGI（约2030年）的到来将等同于奇点——一个不可逆转的技术突破点。他直言社会需要尽早准备，因为时间不多了；回顾当下，我们正站在奇点的山脚。推文作者将其视为比工业革命快10倍、强10倍的深刻革命，人类社会正面临前所未有的变革。

Nathan Lambert@natolambert · 6月8日35

Slowly, then suddenly!

译美国开源回来了。HuggingFace 首页前 30 个模型中，有 9 个由 Nvidia 发布。 Slowly, then suddenly!

swyx@swyx · 6月7日49

idea - universal basic ai: 1 share of xai, oai, and ant to each US citizen. cost SpaceXai: $135.00 × 349 million = $47B OpenAI: $733.54 × 349 million = $256B Anthropic: $930.45 × 349 million = $325B total $628B cost is 8.5% of US Govt budget, 62% of defense budget, roughly same as ~$700B of TARP program during the Financial Crisis (mostly given to big banks, this would be a lot more decentralized)

译想法 - 全民基本AI：给每位美国公民一份xAI、OpenAI和Anthropic的股份。成本 SpaceXai：$135.00 × 3.49亿 = $470亿 OpenAI：$733.54 × 3.49亿 = $2560亿 Anthropic：$930.45 × 3.49亿 = $3250亿总计$6280亿，占美国政府预算的8.5%，国防预算的62%，大致与金融危机期间约$7000亿的TARP计划相当（该计划大部分给了大银行，而这次会去中心化得多）

meng shao@shao__meng · 6月7日19

没看懂啥意思，这里面除了 Sora 被 OpenAI 主动关停，其他都正常啊！？

swyx@swyx · 6月7日64

one popular theory is that research paper alpha* and lab publishing ~died when researchers realized that instead of fighting with marketing depts they could simply walk out the door and get >$100m for their legally protected tacit knowledge gained california non-noncompetes have a bigger impact on knowledge spreading than github, arxiv, and huggingface combined *btw this is a motivator for me to set up @aidotengineer as a product-centric industry conference to complement the paper-centric research conferences

译一种流行理论认为，研究论文和实验室发表式微，是因为研究人员发现与其与营销部门周旋，不如直接离职，凭借受法律保护的隐性知识获得超1亿美元融资。加州非竞争协议对知识传播的推动力超过GitHub、arXiv和HuggingFace总和。@tszzl指出，OpenAI知识产权泄露规模惊人，可能达数万亿美元，确实相当开放。swyx因此考虑将@aidotengineer设为以产品为中心的行业会议，补足以论文为中心的学术会议。