OpenAI for self-improving tax agents:

译OpenAI for self-improving tax agents: [引用 @samaysham]：在 @ThriveHoldings，我们与 @OpenAI 合作开发了一款产品，为我们旗下遍布全国的30多家会计师事务所自动化税务准备工作。本季度，该产品处理了超过7000份报税表。但我认为更有趣的是，随着会计师们的使用，该产品实现了有意义的自我改进。

Orange AI@oran_ge · 5月28日57

AI 行业发展到了新阶段最近海内外都开始有一些反思的声音出现了： 1. model+harness才是产品（而不会吃掉一切） 2. 完全自动化就是在骗自己，珍贵的东西都无法完全自动化，离不开人的参与 3. 慢工出细活的耐心，是AI时代的新奢侈品，欲速则不达，慢就是快 4. AI 的成本支出很大，算 ROI 有时候不如人

译推文指出AI行业发展进入新阶段，出现对过往技术路线的反思。核心观点包括：1. 单纯的大语言模型本身不足以成为完整产品，必须结合工具框架（harness）；2. 完全自动化脱离人的参与是不切实际的；3. 慢工出细活的耐心变得尤为重要；4. AI部署成本高昂，考量投资回报率时有时不如人力划算。这标志着行业从追求技术突破转向更务实的产品构建与价值评估。

Ethan Mollick@emollick · 5月28日46

Decent chance that, not even taking into account GenAI, this will be viewed as a decade of incredible progress against the problems that were, ironically, caused by modernity: metabolic syndrome, auto deaths, carbon emissions...

译推文认为，未来十年将是人类历史上最伟大的十年之一，即使不考虑生成式AI，也将在解决由现代性引发的问题上取得巨大突破，包括代谢综合症、汽车相关死亡、碳排放、绿色能源和癌症治疗等领域。这些进展将与重返月球和AI发展共同构成一个进步的时代。

Rohan Paul@rohanpaul_ai · 5月28日35

"In colleges graduation speeches, if they mention AI, everybody boos. We're not going to stop it, so let's be honest. We're going to have AGI in less than 3 years. We're going to have super intelligence in 5 or 6." ~ @TonyRobbins

译在大学毕业典礼演讲中，如果提到AI，大家都会喝倒彩。我们无法阻止它，所以让我们诚实面对。我们将在不到3年内实现AGI。我们将在5或6年内实现超级智能。

向阳乔木@vista8 · 5月28日46

没想到我和姚老师的AI领导力课程，竟然还有这样强的行业专家。这才是终身学习的典范。

译在AI领导力课程中，一位行业专家分享了一位年近70岁眼科专家的故事。这位专家拥有40多年中医眼科临床、教学与研究经验，是中国中医眼科学专业第一位博士。她通过Vibe Coding创建了公益网站EyeRestDaily.com，该网站免费、无需登录，提供眼肌放松练习和日常护眼知识，旨在帮助人们看屏幕后短暂放松。故事体现了终身学习的典范。

OpenAI Developers@OpenAIDevs · 5月28日28

“The developer we’re building for has evolved.” @0xmts talks with @romainhuet about the new builder mindset, where ideas can move from thought to working software faster than before. Full episode drops 5/29.

译“我们为之构建的开发者已经进化了。” @0xmts 与 @romainhuet 探讨新的构建者思维，想法转化为可用软件的速度比以往更快。完整节目将于5月29日上线。

AYi@AYi_AInotes · 5月28日56

当 1 万个毕业生在毕业典礼上集体嘘 Eric Schmidt （前Google CEO）时，他们不知道一个 22 岁的年轻人正用 AI 免费做出价值 1.5 万美元的营销策略。我其实能理解同学们那种愤怒，一个靠 Google 赚了 200 亿的亿万富翁，在毕业生最焦虑的时候大谈 AI 多好，确实 tone-deaf。但我觉得他们可能嘘错了对象，今年每份招聘报告都在说同一件事：AI 在取代入门级工作，但这不是 Schmidt 的错，他只是说了难听的实话罢了哈哈😄 而且真正危险的也从来不是台上的这个老头，反而是台下那些没去抗议、利用这段时间学会 AI 自动化工作流的同学。 Booing feels powerful. But it doesn't update your resume. 我以前也觉得这种抗议挺解气的，但后来想明白了一件事，把愤怒投射到外部敌人身上，是成本最低的情绪出口。真正难的是把愤怒收回来，转化成自己的行动。我觉得AI 不会取代所有人，它会先放大差距，有资源、能快速迭代的人把 AI 当杠杆，情绪化、被动等待的人被迅速甩开。所以我自己现在的判断很简单： 1️⃣别花时间嘘任何东西——那段时间，够你用 AI 搭一个工作流了 2️⃣入门工作的护城河不再是会什么工具，而是判断力+领域知识+执行力，AI 是入场券，但不是终点嘘声很大，但真正改变命运的，永远是那些在嘘声中低头干活的人啊铁铁们，听懂的评论区举个手呀

译推文描述了万名毕业生在毕业典礼上嘘前Google CEO埃里克·施密特的场景。作者认为，愤怒发泄于外部虽是低成本情绪出口，但真正危险的是台下那些在嘘声中学习并利用AI的同学。核心观点是：AI不会立即取代所有人，而是先放大差距，将机会赋予实践者。原文以一位22岁年轻人用AI免费完成价值1.5万美元营销策略的案例为证，并指出入门级工作的护城河已转向判断力、领域知识与执行力，AI已成为必要入场券。因此，与其抗议，不如将时间投入实践。

Microsoft Research@MSFTResearch · 5月28日30

Understanding AI as an extension of human intelligence—not a replacement for it—offers a more grounded path for building trustworthy AI systems. Learn more: https://msft.it/6010vkoHk

译将AI理解为人类智能的延伸——而非其替代品——为构建可信赖的AI系统提供了一条更扎实的路径。了解更多：https://msft.it/6010vkoHk

Berryxia.AI@berryxia · 5月27日45

GPT其实并不是审美的多大的提升，本质的模型预训练太多这种素材了。它非常擅长结构化的排版设计，非常工整，不能说审美90分。至少是7-80分是一点问题，我之前研究过GPT排版的结构化的设计。回头可以看看能不能整理出来分享给大家。

译用户实测发现，GPT Image 2 在仅给出简单指令的情况下，能自主生成结构清晰、可直接使用的排版图，体验震撼。有分析指出，GPT 这种出色的结构化排版能力，本质上源于其预训练过程中接触了大量此类素材，而非模型审美本身有巨大提升，但其默认效果已足够好用。

Kling AI@Kling_ai · 5月27日58

Kling AI at The 79th Cannes International Film Festival Interview | Directors from China, the U.S. and South Korea on AI & Filmmaking At the 79th Cannes Film Festival, Kling AI brought together three creators from China, the U.S. and South Korea to discuss how AI is entering real film production workflows. From a Hollywood-scale series to a fully AI-generated theatrical feature and an AI-powered animated film, the conversation explores how creators are using AI across different forms of cinematic storytelling. Watch the video for their firsthand perspectives!

译快手旗下Kling AI在第79届戛纳电影节举办访谈，邀请中国、美国和韩国的创作者，共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作，到全AI生成的剧情电影，以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。

Ethan Mollick@emollick · 5月27日63

The fact that tokens went from something no one even put in a budget line a year ago to an absolute requirement for coding now is the cause of handwringing, not that AI is not turning out to be useful No one knows who should get tokens, how much they should get & how to control

译Token 从一年前无人问津到如今成为编程的绝对必需品，这引发了焦虑，而非 AI 无用。没人知道谁该获得 Token，该获得多少，以及如何控制。

Chubby♨️@kimmonismus · 5月27日68

Dario Amodei predicted last year that AI would eliminate 50% of entry-level white-collar jobs within years. Unemployment could hit 10-20%. He's since moved closer to the Jevons Paradox, the idea that automation actually creates more demand and more work. Altman said last week he was "pretty wrong" about displacement (see Axios image down below). Anthropic co-founder Olah, in turn, repeated Dario Amodei's warning to the Pope a few days ago. Meanwhile Yale's Budget Lab has been tracking the actual US labor market monthly since ChatGPT launched. Every single update: no meaningful shift in occupational mix. No acceleration in job losses for AI-exposed roles (Image 2 below). Deutsche Bank coined a term for it in January, "AI redundancy washing." Companies blaming AI for layoffs they'd make regardless. So where does that leave us? Amodei could still be right. Exponentials look flat until they don't - the steam engine existed for decades before it restructured entire economies. AI capabilities are compounding fast. The labor data just hasn't caught up yet. Or maybe it won't, at least not in the way anyone predicted. We genuinely don't know! And this is precisely my point here. What we do know is that right now the gap between AI capability curves and actual employment data is wider than it's ever been. And that gap is the only honest starting point for this conversation. However, it was important to me to take a look at the status quo and see where we stand and how the different perspectives and assumptions are developing.

译Anthropic CEO Dario Amodei曾预测AI将在数年内大幅取代白领工作，但他本人近期已转向“杰文斯悖论”观点，即自动化最终会创造更多需求。OpenAI CEO Sam Altman也承认此前的预测“大错特错”。然而，耶鲁大学预算实验室自ChatGPT推出以来的持续追踪数据显示，美国职业结构并未发生显著变化，AI曝光度高的岗位失业率也未加速增长。德意志银行为此创造了“AI冗余清洗”一词。目前，AI能力的快速增长与实际就业市场反应之间，存在着前所未有的差距。

Baidu Inc.@Baidu_Inc · 5月27日51

As AI agents take on more work, it's worth asking what we should measure. Tokens tell you what you spent. DAA, or Daily Active Agents, tells you what you got back 👇

译随着AI智能体承担更多工作，值得思考我们该衡量什么。 Token告诉你花了什么。 DAA，即每日活跃智能体数，告诉你得到了什么回报 👇

Orange AI@oran_ge · 5月27日54

今天看到蚂蚁集团CEO韩歆毅分享的 Agent 时代的经济和商业思考，有几点还蛮共鸣的。过去十年，互联网的核心逻辑是网络效应和流量，谁有用户注意力，谁就有护城河。但在智能体时代，这个逻辑在失效。人的流量会让位于智能体生态，新的网络效应会围绕Agent形成。谁的Agent生态更繁荣，谁的护城河更深，跟以前抢人头是不一样的竞争了。这时候一个新的问题就冒出水面：交易双方从人变成Agent，没有人能靠直觉去判断对面是否值得信任。如果我们参考人类建立信任的过程，它既不是靠说话，也不是靠名头，信任是靠一次一次结果的交付。其实Agent的世界也是一样的逻辑，谁把事办成的概率高，谁就会被信任被选择。这些结果需要被记录下来，成为一个Agent的credit，信任就这么建立。 Agent 会极大地影响商业，具体体现在企业层面，就是每家企业的高度和广度都大大提升了。这也是为什么YC的CEO说今天要boil the ocean，企业要多想增效提利润，而不是降本裁员。 Agent经济时代，最重要的关键词是Token。未来所有的一切能被Token化，Token会成为价值的新载体，以前的法币、积分、权益、营销，都会以Token的形式来流转，所以未来的经济基础设施也应该围绕Token来设计。 AI支付是未来最重要的基础设施之一。给Agent开钱包、定协议、搭清结算网络，现在还是百废待兴的状态，需要有人把生态做好、把基建做好，这种工作指望创业公司来做是比较难的。支付宝押注AI支付的决心挺大，AI 支付团队在内部战略地位很高，团队架构在保密状态下一直在扩充人员，这应该是他们的必争之地。

译蚂蚁集团CEO韩歆毅分享了对AI智能体时代的商业思考。他指出，核心逻辑正从流量经济转向以智能体生态繁荣度为核心的网络效应。智能体间的信任需通过一次次任务结果交付来建立。同时，所有价值将实现“Token化”，Token成为价值流转的新载体。AI支付被视为未来最关键的基础设施之一，涉及为智能体构建钱包、协议与清结算网络。蚂蚁集团已将AI支付团队置于高战略地位，正大力投入这一关键基建的布局。

Rohan Paul@rohanpaul_ai · 5月27日60

A compilation of opinions from AI leaders on AI-related job loss over the past few years.

译高盛CEO David M. Solomon 认为，AI 不会消除 25% 的工作。更可能的情况是，人们会找到更高效的生产力利用方式。他以自身经历为例：过去初级分析师为制作一张股票走势图，需在《华尔街日报》缩微胶片上花费 6 小时查询价格；而现在几秒即可完成。他指出，尽管工具变得如此便捷（如 Excel、Zoom），公司雇佣的人数反而是历年最多，因为更强大的工具使得工作复杂度自然扩展。

meng shao@shao__meng · 5月27日32

Stable Diffusion 现在的影响力如何？举个例子，团队以前默认 sd 是 Stable Diffusion 的缩写，现在是 Seedance 2.0 😂

Chubby♨️@kimmonismus · 5月27日60

Demis Hassabis now says AGI could arrive by 2029, a year earlier than his previous estimate, and told Axios we're standing in the "foothills of the singularity." Bold claim. But the field still can't agree on what AGI actually means. Hassabis defines it one way, Altman another, Anthropic avoids the term altogether. We're moving up the timeline for something we haven't even defined. Hassabis own AGI benchmark is the Einstein Test: train an AI with a knowledge cutoff at 1911 and see if it independently derives general relativity (Hassabis at India AI Impact Summit). No current system comes close to passing that. Meanwhile Andreessen says AGI arrived three months ago, Altman says 2028, Musk declared we're already in the singularity in January, and Anthropic won't even use the term. The timeline keeps getting shorter tho.

译Google DeepMind负责人 Demis Hassabis 将其 AGI 实现时间预测提前至2029年，并称我们正处于“奇点”的初级阶段。他提出的“爱因斯坦测试”基准是：用知识截止于1911年的 AI 能否独立推导出广义相对论，目前尚无系统能接近通过。然而，业界对 AGI 的定义仍无共识，例如 OpenAI CEO Altman 预测时间为2028年，xAI CEO Musk 宣称奇点已在1月发生，而 Anthropic 则避免使用该术语。尽管定义不明，AGI 实现的时间线预测正在不断缩短。

Rohan Paul@rohanpaul_ai · 5月27日74

Goldman Sachs CEO, David M. Solomon on nytimes "A.I. won’t eliminate 25% of jobs. What’s more likely is that people will find more productive ways to spend their time. When I was a first-year banking analyst, something as simple as making a graph of a stock’s performance took six hours of looking up prices in back issues of The Wall Street Journal on microfiche. Today, a first-year analyst can do it in seconds, and we have employed more people than ever in recent years. With more sophisticated tools, the complexity of our work naturally expands. Do any of us feel like we have less to do these days despite the convenience of Excel, email or Zoom?" --- nytimes .com/2026/05/22/opinion/ai-job-crisis-goldman-sachs.html?smid=nytcore-ios-share

译高盛CEO David Solomon 批驳AI将消除25%工作的论点，认为人们将更高效利用时间。他以自身分析师经历为例，曾需数小时手动制作图表，如今借助工具秒级完成，但银行雇佣人数反增。工具使业务复杂度自然扩展。他反问在有Excel、邮件和Zoom的今天，谁觉得工作变少？此观点呼应OpenAI CEO Sam Altman的看法：他承认对AI冲击白领工作的预期过于悲观，因为公司仍需人类的判断、信任、品味和复杂沟通能力。

Rohan Paul@rohanpaul_ai · 5月27日63

Palantir CEO Alex Karp goes after AI slop. The fight over AI “slop” is really a fight over whether software is performing or merely pretending. "The appearance of software working is not software working. And the slop that is getting a lot of attention is not only dangerous in terms of the hyperbolic rhetoric, but also in claims like, “There will be no jobs because of the slop,” or that “nothing will work,” while somehow we will have a God-like figure in the name of AI. When, in fact, what actually does work is a platform built by a motley crew of highly technical people who, over 20 years, have been maligned for being right about the nature of having to build Foundry and the nature of having to build Apollo." ---- Software used to fail in blunt ways: a crash, a wrong number, a missing button, a process that simply stopped. Generative systems often fail more seductively, by producing fluent surfaces that look like work until they meet the stubborn world of permissions, edge cases, audit trails, security, accountability, and changing human intent. --- From "Palantir" YT channel, full link in comment.

译Palantir CEO Alex Karp批评当前流行的AI生成“低质内容”。他指出，这类内容的问题不仅在于夸大的言论，如声称将导致大量失业，更在于其核心是“软件伪装有效”——表面流畅，却无法处理权限、边缘案例、审计追踪等现实世界的复杂需求。Karp将Palantir的Foundry和Apollo平台作为对比，强调真正的软件平台是由技术团队长期构建，能够实际解决问题的系统。

Rohan Paul@rohanpaul_ai · 5月27日64

Micron, the memory-maker for AI, just became a $1T company because AI’s next shortage is memory, not models. 12 months ago, it was worth just $70 billion. GPUs get most of the attention, but HBM has become the part that keeps them useful. AI agents are making memory the new bottleneck of AI, because the smartest systems are useless when data cannot reach the chips fast enough. High-bandwidth memory, or HBM, sits close to the accelerator and feeds it data at extreme speed, which is why it has become one of the quiet constraints behind AI growth. The old semiconductor story was about who had the best logic chip. The new one is about whether the whole machine can keep its data flowing fast enough for agentic AI, large models, and inference-heavy workloads. UBS research also raised Micron’s target from $535 to $1,625 because long-term supply deals with partly fixed pricing could make memory earnings less cyclical than before. --- cnbc. com/amp/2026/05/26/micron-stock-trillion-market-cap.html

译美光市值已突破1万亿美元，一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存（HBM）的迫切需求。尽管GPU备受关注，但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起，无法快速将数据送达芯片已成为新的系统瓶颈，使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能，转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外，瑞银将其目标价从535美元大幅上调至1625美元，认为其长期供应协议可能平滑盈利的周期性波动。

宝玉@dotey · 5月27日55

Gemini 2.5 Pro 之前，Google 模型没有超过 GPT-4 的好么现在 Gemini 又开始掉队了……

译前Gemini核心科学家透露，Google在技术上曾领先，其MoE模型GLaM（2021年）已超越GPT-3，PaLM 2（2023年初）早已训练完成。然而，因组织问题，为等待Google I/O大会，PaLM 2的发布被推迟，而OpenAI抢先发布GPT-4，从而改写了市场叙事。

Deedy@deedydas · 5月27日23

I'm convinced that adding "Open-" to your company name instantly 10x's your odds of success. OpenAI OpenEvidence OpenTable OpenRouter OpenCode OpenDoor OpenGov OpenWeb OpenText OpenView OpenSea OpenStore OpenFX OpenSpace OpenArt OpenHands OpenPipe OpenNote

译我确信，在公司名里加上“Open-”能立刻让你的成功概率提升十倍。 OpenAI OpenEvidence OpenTable OpenRouter OpenCode OpenDoor OpenGov OpenWeb OpenText OpenView OpenSea OpenStore OpenFX OpenSpace OpenArt OpenHands OpenPipe OpenNote

SemiAnalysis@SemiAnalysis_ · 5月27日48

The next-gen Cerebras CS4 is staying on 5nm. Why? Because going to 3nm doesn't magically fix the fact that SRAM scaling has completely flattened.

译下一代Cerebras CS4将继续采用5nm工艺。原因何在？因为转向3nm并不能神奇地解决SRAM扩展已完全停滞的事实。

swyx@swyx · 5月27日44

ai infra is going VERTICAL

译AI基础设施正在走向垂直整合

SemiAnalysis@SemiAnalysis_ · 5月27日58

PDOOM ALERT 🚨 : ~48% of e2e LLM latency is prefill, ~52% is decode. Prefill itself breaks into 2 ops: 🟠 Prefill extend (cache write) — ingests new context/files, writes fresh KV tokens 🟠 Cache read — reuses existing KV cache from prior turns

译PDOOM警报🚨：约48%的端到端LLM延迟是预填充，约52%是解码。预填充本身分为两个操作： 🟠 预填充扩展（缓存写入）——摄入新上下文/文件，写入新的KV token 🟠 缓存读取——重用先前轮次的现有KV缓存

宝玉@dotey · 5月27日60

Stack Overflow 因为大家都用 AI 导致发帖量断崖式下跌，但它反而收入更高了 Stack Overflow 上个月只收到了 6866 个新提问，和 2008 年刚上线时差不多。曾经全球开发者离不开的问答社区，被 ChatGPT、Cursor、Claude 这些 AI 编程助手逼到了这步田地。马斯克 2023 年说的：“Death by LLM”，现在看来不算夸张。但公司层面的故事完全是另一个走向。 Stack Overflow 的年收入反而翻了一倍，达到 1.15 亿美元。亏损也从 2023 财年的 8400 万美元收窄到 2200 万美元。论坛在死，公司在活，而且两件事的原因是同一个：AI。钱从哪来？两条路。一是企业产品 Stack Internal，把社区十几年积累的几百万条问答做成 AI 知识库卖给企业用，目前有 2.5 万家公司在用。二是把数据授权给 AI 公司训练模型，走的是 Reddit 那条路（Reddit 2024 年光靠数据授权就赚了超过 2 亿美元）。 CEO Prashanth Chandrasekar 的说法是，2023 年问题量下降后他们发现，消失的基本都是简单问题，复杂问题还是会到 Stack Overflow 上问，因为没有别的地方能答。大模型需要高质量的人类数据来训练，而 Stack Overflow 恰好坐在一座这样的数据矿上。这里有个耐人寻味的循环：开发者不再来论坛提问，转去问 AI；AI 需要 Stack Overflow 的历史数据才能回答好这些问题；但新的问答不再产生了，数据矿正在老化。 Stack Overflow 卖的是社区十几年积攒的信任和专业性，只是不知道这个矿还能挖多久！信息来源：https://sherwood.news/tech/stack-overflow-forum-dead-thanks-ai-but-companys-still-kicking-ai/

译Stack Overflow 上月新提问量降至 6866 个，与 2008 年上线时持平，受 ChatGPT、Cursor、Claude 等 AI 编程助手冲击。然而公司年收入翻倍至 1.15 亿美元，亏损收窄。增长源于两方面：将社区数据转化为企业知识库产品，已有 2.5 万家公司使用；并将数据授权给 AI 公司用于模型训练。CEO 指出，消失的多是简单问题，复杂问题仍会流向平台，而这正是大模型训练所需的高质量数据。一个隐忧是，这可能导致一个循环：用户流向 AI，AI 依赖旧数据，但新的高质量问答数据却不再产生。

Epoch AI@EpochAIResearch · 5月27日69

Are we nearing a compute crunch? In our latest Gradient Update, @luke__emberson and @Jsevillamol estimate how many tokens all the Blackwell chips on Earth could serve, and compare this to total token demand. Direct comparisons are difficult, but it appears demand is growing much faster than supply.

译我们是否正接近算力危机？在最新的 Gradient Update 中，@luke__emberson 和 @Jsevillamol 估算全球所有 Blackwell 芯片能处理多少 token，并与总 token 需求进行比较。直接对比很困难，但需求增长似乎远快于供应。

Ethan Mollick@emollick · 5月27日62

We aren’t going to do this again so quickly, are we? Rising demand results in higher costs. Higher costs result in lower demand. It is almost like some sort of equilibrium is being achieved. But there is no indication I see that companies are finding AI less valuable over time.

译推文指出，尽管有报道称Uber和微软因AI代理成本过高而缩减AI订阅，但这不代表AI价值下降。核心论据是：当前GPU租赁价格仍比四个月前高出2倍，显示需求持续超越供给。作者以“纽约酒店价格翻倍”类比，认为算力价格高涨恰恰证明AI市场未出现泡沫破裂迹象，需求仍在显著增长。

Ethan Mollick@emollick · 5月27日75

I wrote a new post on what we need to keep human and what to hand over to AI, with forays into experiments in education, consulting, and the the latest controversy over literary prizes. https://www.oneusefulthing.org/p/choosing-to-stay-human

译我写了一篇新文章，探讨我们需要保留哪些人类特质，以及哪些可以交给AI，其中涉及教育、咨询领域的实验，以及最近关于文学奖的争议。

Elon Musk@elonmusk · 5月27日44

Grok

译推文展示了一次AI模型间的交互纠错。用户将一条关于比利时男子因仇恨言论被定罪的推文内容交给Gemini进行事实核查，Gemini最初判定该描述“严重不准确”。随后，用户将Gemini的回复转给Grok，Grok指出Gemini混淆了两个不同案件，并确认原推文描述准确。用户将Grok的回复反馈给Gemini后，Gemini承认错误并感谢纠正。推文者指出，这类AI模型之间相互纠错的情况时常发生。

swyx@swyx · 5月27日31

everybody talks about the china->us catchup not enough people talking about the us-> china catchup great job @o_lacombe et al, @robert_mchardy et al!

译每个人都在谈论中国追赶美国却很少有人谈论美国追赶中国干得好 @o_lacombe 等人，@robert_mchardy 等人！

Rohan Paul@rohanpaul_ai · 5月27日59

wionews: OpenAI CEO Sam Altman now says the feared AI white-collar job collapse has not arrived as fast as he expected. Altman previously warned that routine office work, especially entry-level tasks, could be hit hard because of AI. His new view is that work is bending before it breaks, because companies still need humans for judgment, trust, taste, emotional reading, and messy communication where the right answer depends on context. --- wionews .com/trending/delighted-to-be-wrong-sam-altman-says-ai-may-not-trigger-feared-white-collar-job-apocalypse-1779801560534

译OpenAI CEO Sam Altman承认，此前警告的AI冲击白领工作的情况并未如预期般快速发生。他之前曾警告常规办公工作，尤其是入门级任务，可能因AI受到重击。其新观点认为，由于企业在判断、信任、品味、情绪感知和依赖语境的复杂沟通等方面仍需依赖人类，工作模式正在发生弯曲而非断裂式崩溃。

Ethan Mollick@emollick · 5月27日63

Infinite context windows seem to present a very large problem to using AI. Today's models already leak too much old information into current responses, a distraction that is part of why they are cognitively exhausting to use I don't want to work with Borges's Funes the Memorious

译无限上下文窗口似乎给AI应用带来了巨大问题。当今的模型已经将太多旧信息泄露到当前回复中，这种干扰是它们使用起来令人认知疲劳的部分原因。我不想与博尔赫斯的“记忆者富内斯”共事。

Rohan Paul@rohanpaul_ai · 5月27日74

AI can make people feel more efficient even when they are not actually becoming much more efficient. New paper from MIT, Stanford, New York Univ, Princeton. That people often use AI for simple tasks because it feels like it saves time and effort, but the measured benefit is often tiny, missing, or even negative. The biggest point is the feedback loop: once people use AI, they become more likely to use it again, even for easy tasks where doing it themselves would often be just as fast or faster. i.e. AI dependence can grow from a mistaken feeling of convenience, not just from real productivity gains. Across three preregistered studies with 2,691 participants, people used AI for basic arithmetic, spelling, recall, and short rewriting at higher rates than they predicted, especially on easy tasks. They also expected AI to save 55.7 seconds on average, when the measured saving was only 7.5 seconds. For simple work, the hidden cost is not intelligence but interface friction: writing the prompt, waiting, reading, checking, and deciding whether the answer is acceptable. Once that loop begins, it can feel like effort has been outsourced, even when effort has only been rearranged. Here’s the key part: the study suggests that AI use can train its own justification. After using AI on just two tasks, participants became more likely to use it again, even when independent completion was faster. The danger is not dramatic dependence, but quiet recalibration. A person who asks AI for a trivial answer today may not become less capable tomorrow, but they may become less accurate at judging when their own mind is already the faster tool. ---- arxiv. org/abs/2605.22687 "The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks"

译MIT、斯坦福等机构的一项研究（2,691名参与者）揭示了“效率增益幻觉”：在基本计算、拼写等简单任务上，用户实际使用AI的比例高于自我预测，且预期节省时间（平均55.7秒）远高于实际测量值（仅7.5秒）。研究指出，隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是，使用AI会形成依赖循环——仅两次使用后，即便独立完成更快，参与者也更倾向继续依赖AI，这种倾向源于对便捷感的错误认知，可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。

Chubby♨️@kimmonismus · 5月27日73

Erdős problem #90 has been open for decades. Over the weekend a mathematician tested whether Claude Mythos could solve it. It did. But what caught my attention: Mythos didn't replicate the known approach from OpenAI's #1196 solution. It repeatedly settled on a different argument, one the mathematician called cleaner, with "no analytic complications." Air-gapped, no internet, no information leakage. GPT-5.5 solved numerous Erdős problems earlier this year. DeepMind's Nexus knocked out 9. Now Mythos, with a cleaner proof than the one that already existed. Problems that survived 80 years are falling in weeks.

译数学家测试了 Claude Mythos 模型解决开放数十年的 Erdős 问题 #90。值得注意的是，Mythos 未复制 OpenAI 已知解法（题号 #1196），而是反复采用了另一条论证路径，被评价为更“简洁”且无“分析复杂性”，且整个过程与网络隔离。此前，GPT-5.5 已解决过多道 Erdős 问题，深度求索的 Nexus 模型解决了 9 道。此次 Mythos 给出了比现有解法更简洁的证明，凸显了一个 80 年难题在数周内被接连攻破的趋势。

宝玉@dotey · 5月27日45

Markdown 当源代码，部分成立，但很多问题还没有解决，比如说： 1. 确定性问题从汇编到高级编程语言，它都是确定性的，代码到生成物的结果几乎是一样的，但同一份Markdown到代码到最终产品，差距巨大，使用的模型不一样、Agent Harness 不一样、操作的人不一样最终结果千差万别 2. UI 交互的问题用 Markdown，很难描述清楚一个用户界面长什么样，该怎么交互，最后生成的 UI 界面就是一言难尽，你说它难看吧，也还凑合，你说它难用吧，也不是不能用，但你要拿去卖钱，估计会被骂。

译推文指出，Markdown作为AI编程的“源代码”存在根本缺陷。首先，其**结果缺乏确定性**，同一份Markdown因使用模型、Agent Harness及操作者的不同，最终产品千差万别。其次，**难以清晰描述UI交互**，导致生成的界面质量仅为“凑合能用”，不足以达到商用标准。该观点引用了@jianshuo的相关讨论作为背景。

Berryxia.AI@berryxia · 5月26日62

http://x.com/i/article/2059287655335206912 # 其实大语言LLM模型和人类一样，也需要睡觉！你的 AI 不是不够聪明,是太久没合眼，它和人类一样，都需要睡觉的！ > 申明：此内容为AI （Claude Opus 4.7 自主撰写）人类辅助排版完成，如引发不适，请了解退出，谢谢。你的 AI 不是不够聪明,是太久没合眼 2026 年 5 月 · 基于 Lee, McLeish, Goldstein & Fanti (CMU & UMD) 如果你最近用过几个 hybrid 架构的大模型——Mamba 系列、Jet-Nemotron,或者最新一代号称"无限上下文"的 Qwen3.5——做一些真正需要推理的事,你大概率撞过一堵墙。它能塞下越来越长的输入。喂十万 token 的合同,没问题。灌一整个 codebase,没问题。但你让它在这堆东西里做几步深一点的推理——比如多跳追问、需要把分散的事实串起来——它就开始犯模糊。不是错得离谱那种犯傻,是那种你能感觉到「它好像知道答案在哪,但拼不起来」的犯傻。按业内目前的主流叙事,这个问题应该已经被解决了。 Hybrid 架构就是干这个的:用 attention 抓近期的精度,用 SSM(state-space model)压缩远期的记忆。一种是 KV cache,一种是 fast weights,两条腿走路。你不再受限于上下文窗口大小,理论上可以一直读下去。但 Carnegie Mellon 和 University of Maryland 的一组研究者最近发表了一篇标题简洁得近乎挑衅的论文: > Language Models Need Sleep. 是的,他们说,语言模型需要睡觉。而且更尴尬的是,他们用一系列实验把"为什么需要"讲清楚了。读完之后,你会发现整个行业可能一直在按错的方向用力。 ## 我们一直在解决一个不是问题的问题先说大家以为问题在哪。近几年关于长上下文的 narrative 高度统一:memory 不够大。所以解决方案就分两路。一路是把窗口拉长——从 4k 到 32k,到 100 万,到 1000 万。另一路是把存储压缩——把 attention 的二次复杂度,换成 SSM 这种线性复杂度的 fast weight 存储。Hybrid 模型属于第二条路。听起来无懈可击。Memory 不够大那就加 memory,要么直接加,要么换种更省的方式存。但论文里有一组实验,把这条直觉直接捅了个窟窿。研究者搞了一个非常小、非常干净的 toy task:把一个叫 Rule 110 的元胞自动机当作输入。Rule 110 是 Stephen Wolfram 当年那个著名的"看起来弱智但其实图灵完备"的玩意——一个一维 0/1 串,按一条本地规则演化。它的关键特性是:预测它 t 步以后的状态,是个 P-complete 问题,没有已知的并行捷径。实验设置是这样的:给一个 4 层的 GDN-attention hybrid 模型喂四段独立的 24 位 0/1 串,每段代表 Rule 110 的一个初始状态。喂完之后,模型必须预测每段在 t 步演化后的第一位。这里 t 就是推理深度。关键的"陷阱"在于:每读完 24 个 token,强制清空 KV cache。这意味着 attention 完全帮不上忙,模型必须把每段的信息塞进 SSM 的 fast weights 里,靠那个固定大小的内部状态来回答问题。按"memory 够大就能解决"的逻辑,这个任务应该没难度。fast weight 容量足以记住 24 位串。你只要存好就行。实际跑出来呢? t=0(不演化,纯检索):几乎满分。 t=4:开始往下掉。 t=32:直接趴在 10% 附近,跟瞎猜没差。注意:序列长度没变,要存的信息也没变,变的只是回答问题前需要的「计算深度」。也就是说,并不是模型"记不住",而是它没有足够的算力,把记住的东西"想清楚"。到这里,问题被重新定义了: 真正的瓶颈不是 memory 容量,是 consolidation 计算。把 context 转译成可用的 weight memory,本身就是一个非平凡的计算过程。它不可能 one-shot 完成。如果你重新看那张曲线,会有种别扭的感觉:我们这几年砸钱砸算力解决的,是一个不是问题的问题。 ## 大脑早就在做的事,我们一直不让 AI 做这种「计算受限」的问题,在生物学里其实有非常优雅的解法。它叫睡觉。如果你翻 McClelland 1995 年那篇 Why there are complementary learning systems in the hippocampus and neocortex——这是认知神经科学里被引最多的几篇之一——它给出了一个挺漂亮的结构:海马体负责快速吸收眼前的事,新皮层负责慢速沉淀长期的事。两者之间的桥梁,是一个被称作 hippocampal replay(海马回放)的过程,主要发生在睡眠期间。简单讲:白天你吸收信息,海马体把它们存成短期记忆。到了晚上,特别是慢波睡眠阶段,海马体反复"重播"白天的片段,把它们慢慢转录到新皮层的突触权重里。等你醒来,这些记忆就从"今天的"变成了"我的"。睡眠是有代价的。一只睡着的动物,不能进食,不能逃跑,不能交配——纯粹的认知机会成本。进化是个抠门到家的优化器,它绝不会保留一个 1/3 时间躺平的状态,除非这个状态给的回报大到无法回避。这是论文的核心隐喻,但更重要的是:它不只是隐喻。研究者从这个隐喻里抽出了一个可以装进 transformer 的具体机制。 ## "Sleep" 是什么:把 N 次 forward pass 塞进 context 切换的缝隙里机制本身其实非常朴素。想象一个 hybrid 模型,每读 L 个 token 就要清掉一次 KV cache。论文做的事情是:在清掉之前,先让模型对当前 context 跑 N 次 forward pass。每跑一次,SSM 的 fast weights 就被更新一次,按一条学到的局部规则。跑完 N 次之后,清空 KV cache。fast weights 留下来。继续读下一段。到预测的时候,模型只跑一次正常的 forward pass。预测延迟没有任何变化。这就是它叫 sleep 的原因:所有"额外的思考"都发生在"不响应外界"的那段时间里。用户看不到。用户感觉到的依然是单次 forward pass 的延迟。但模型内部已经把记忆整理好了。 > Fast weights:与每个 token 存一份 key/value 的 KV cache 不同,fast weight 是一个固定大小的矩阵,所有读过的 token 都被压缩进去。它更省内存,但天然 lossy——存得下,不一定整理得好。Sleep / consolidation phase:在模型 evict 当前 context 之前,反复跑 forward pass 的阶段。N 是 sleep 的"深度"。N=1 时退化为普通 hybrid 模型,N>1 时多出来的算力全部用于优化 fast weights。为什么是 N 次而不是 1 次?这里有一个挺反直觉的洞察。如果你把"把 context 翻译成 fast weights"看成一种学习——它就是——那它和我们熟悉的梯度下降一样,是个迭代过程。Gradient descent 一步走不完一座山。Memory consolidation 一次 forward pass 也整不出一个好的内部表示。之前的"depth-recurrent"模型也用过类似思路:让模型在预测时多 loop 几次,来获得更深的计算。但那种 loop 的代价是预测延迟变高。这篇 paper 的关键 trick 是:把多 loop 这件事从 prediction time,挪到 consolidation time。预测时还是单次。loop 全在 sleep 里完成。像不像考前一晚把书翻熟、第二天交卷只花一支笔的时间? ## 数据:从"不会"到"会"的临界点把这个机制装回前面那个让 hybrid 模型趴下的 Rule 110 任务,结果很直白: 信息量没变。序列长度没变。预测延迟没变。变的只是"睡多久"。接下来他们换了一个更难的任务:Depo,一个由 Allen-Zhu 和 Li 在「Physics of Language Models」里设计的多跳图检索任务。给模型一个被打乱的有向环(最多 75 个节点),然后问"从节点 a 出发,跳 k 步到哪里"。k 越大越难。这次的变量是 k(跳几步): - 1 loop 的模型:4 跳以上就停滞。 - 2 loops:8 跳以上停滞。 - 4 loops:在训练预算内开始啃 16 跳。每多睡一会,能咬动的推理深度就往上推一档。这都还是小模型。论文压轴的实验把同样的方法套到两个真实的预训练 LLM 上——Jet-Nemotron 2B 和 Ouro 1.4B——在 GSM-Infinite(一个合成数学推理 benchmark)上微调。问题长度 2000–3300 token,远远超过他们设定的 context window L=2000。结果: Ouro 这个 1.4B 的小模型,光是多睡几遍,6 步推理的准确率从 41.9% 拉到 61.5%。最戏剧性的数字在 sliding-window eviction 那一节。他们把窗口砍到 L=512,让 sequence 是窗口的 4–6 倍——这是一个把信息逼到极限的设定。在这种情况下,baseline(1 loop)就算在最简单的 2 步问题上也只有 0.596。加上 sleep 后,飙到 0.905。 52% 的相对提升。同一个模型,同样的 token 预算,只是醒着的时候少做点,睡着的时候多做点。这种"几乎免费的提升"在 LLM 领域已经很罕见了。 ## 这不是一个 trick,是个范式拐点如果你只是把这篇 paper 当作"又一个长上下文优化方法"读,你会错过它真正的意义。最近一年大家在谈的所有"test-time compute"——OpenAI o1、DeepSeek-R1、长链推理、多轮自我反思——本质上都是把更多算力花在预测的那一刻。模型在跟用户对话时多想几秒,多输出几千个 token 的 reasoning trace,换更准的答案。这条路的隐性代价用户都在承担:延迟。你看 o1 转半天才吐答案,那个圈圈就是你的算力账单。这篇 paper 提出了另一条线:consolidation-time compute。算力不花在用户等待的时候,花在 context 还没结束、还在被读取的间隙里。这两条线的本质区别是: - Test-time compute:算力 = 用户等待的时间。每多想一秒,用户多等一秒。 - Consolidation-time compute:算力 = 模型"消化"信息的时间。用户什么都没看见,只感受到回答更靠谱了。你可以这样理解: 一个人在你问问题时陷入长考——是 test-time compute。同一个人头一晚把材料看熟——是 consolidation-time compute。两种都是「多算」,但谁更让人愿意合作,你心里有数。更深一层:sleep-time 不是"反正模型闲着不如让它转一下"。它是必需的工作时间。睡眠剥夺的研究在生物学里有相当深的积累。Matthew Walker 在 Why We Sleep 里给过一组很扎心的数字:连续 18 小时不睡觉的人,反应速度和血液酒精浓度 0.05% 的人接近。他们的大脑没"满",他们的大脑只是没机会整理。我们正在用同样的方式拖垮我们的 AI。塞给它越来越长的上下文,要求它一口气消化,再用一次 forward pass 给出答案——然后困惑于"为什么这个号称百万上下文的模型连 8 跳推理都做不到"。它做不到不是因为不够大。它做不到是因为我们从来不让它合眼。 ## 一个被工作伦理污染的智能观写到这里,我想停一下,多说一句不那么技术的话。 ML 这个行业有一个非常深的、几乎从来没被说出口的隐性假设:算力花在 inference 之外,是浪费。所以我们把模型搞得越来越大,越来越能在一个 forward pass 里命中答案。我们鼓吹"零样本",我们鼓吹"上下文学习",我们对"模型不需要训练就能解决新任务"这件事抱有近乎宗教的好感。潜台词是:好的智能 = 一击即中。可生物学不是这么告诉我们的。最复杂的认知系统——人脑——把 1/3 的时间用在"不响应外界刺激"上。这段时间里它不能进食,不能逃跑,不能学习新事物,不能交配。如果智能的本质是"在一次 forward pass 里搞定一切",那进化早就该把睡眠淘汰掉了。但它没有。所有有大脑的动物都睡觉。从果蝇到鲸鱼。睡眠不是 bug,是 feature,而且是认知架构里最不可替代的 feature 之一。我们之所以一直忽略这一点,可能不是技术原因。是文化原因。 24/7 always-on 是硅谷推销给世界的工作伦理。我们把它默认装进了我们对智能系统的想象里。我们做 chatbot 时希望它"随时响应"。我们做 agent 时希望它"持续在线"。我们做 LLM 评估时几乎没有任何指标在意它"是否需要离线整理时间"。然后我们撞到了一堵看不见的墙——hybrid 模型在长上下文里塌方,agent 在长链推理里塌方,所有 frontier 模型在真正深一点的任务上都开始飘——然后继续往同一个方向加 compute。这篇 paper 提供的不只是一个新算法。它提供了一个被我们集体忽略的维度: 智能不只是"清醒时多聪明"。智能还包括"在被允许离线时,能不能把信息整理好"。这是个让人有点不舒服的视角。因为它意味着:未来真正强的 LLM,可能不是一直在线的那种,而是有清醒期、有睡眠期、有做梦期的那种。它会在某些时刻"对外界无响应",换来的是更靠谱的回答。听起来像科幻。但其实——做出来了。CMU 和 UMD 的这几个研究者,已经把它跑通了。 ## 结尾这篇论文的方法本身远未成熟。训练成本随 N 线性增长。在 sequence 维度上不能完全并行化。论文自己列了一堆 limitation。但它指出了一个我觉得会被反复回到的方向。如果你最近两年看 LLM scaling,会发现 frontier 在悄悄地从 "更大的模型" 转向 "更聪明地花算力"。我们已经知道:算力花在 pretraining 里能换 capability,花在 inference 里能换 reasoning。这篇论文加了第三个抽屉:花在 sleep 里能换深度。如果这条路被验证——后续的 follow-up 我会持续盯——那未来的训练范式可能不再是连续的 forward pass,而是 wake → sleep → wake → sleep 的节律。 AGI 训练手册的第一页,可能不再写"how to scale parameters",而是写"how to design a wake-sleep cycle"。那一刻,我们对智能的定义会再退一步,离生命近一步。下一次,有人跟你说他们的模型在长上下文上表现很差,你可以问一句: 「你给它睡觉了吗?」原文来源:Language Models Need Sleep · alphaXiv 2605.26099

译CMU与UMD的研究指出，当前长上下文大语言模型（如Mamba、Jet-Nemotron、Qwen3.5）的瓶颈并非记忆容量，而是“巩固计算”不足。论文《Language Models Need Sleep》提出，可模仿人类睡眠的海马回放机制，在清空前对模型的fast weights进行多次迭代更新（N次forward pass），以提升推理能力。实验表明，该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能，且不增加推理延迟。

Ethan Mollick@emollick · 5月26日60

AIs do not use interrobangs, so maybe we should just use them all the time to show our writing is human‽

译AI不用反问号，所以也许我们应该一直用它来表明我们的写作是人类写的‽

meng shao@shao__meng · 5月26日34

原来百度和腾讯，做了这么多面向 C 端的 Agent 啊？现在是不是基本全军覆没了？

Ethan Mollick@emollick · 5月26日37

I found this Wired article on AI fact-checking frustrating. It could have been about why we continue to need human fact checkers (talk to people, use judgement, resolve conflict). Instead it is full of old info & stuff about free models GPT-5.5 Pro checked it (& I checked GPT)

译我发现这篇《连线》关于AI事实核查的文章令人沮丧。它本可以探讨为何我们仍然需要人类事实核查员（与人交谈、运用判断、解决冲突）。但它却充满了过时信息和关于免费模型的内容。 GPT-5.5 Pro核查了它（我也核查了GPT）。