全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 1475 条

全部一手资讯 X 论文

标签「现象/趋势」清除

Rohan Paul@rohanpaul_ai · 5月29日52

This is probably the most entertaining way to understand one of AI’s hardest AI debates. Transformer vs Post-Transformer, argued by leading researchers, inside a real physical boxing ring. Both technically deep and genuinely entertaining. I was glued for the entire 1 hour 20 minutes. So many super cool points to learn. 🥊 Transformers - Transformers still own the present because they work at scale. They are simple, trainable, hardware-friendly, and already power the strongest AI systems we use today. - The Transformer is basically a memory machine. It stores information as keys and values, then uses attention to pull back the most useful parts when answering. - The real Transformer advantage is not just “attention.” The bigger advantage is that it fits modern hardware extremely well, so it can process huge batches of tokens fast. - Scaling is still the brutal rule. If you give Transformers more compute, more data, and more parameters, they usually keep getting better. Any Post-Transformer architecture has to scale just as well, or better. - It is not enough to look clever on small tests, because the real question is whether it improves faster than Transformers when scaled up. - A replacement cannot be slightly better. Because the whole AI stack is already built around Transformers, the next architecture may need to be around 10x better to force everyone to switch. - Transformers are powerful, but they may be brute force. A human does not need to read the entire internet many times to become smart, but current LLMs need enormous data and compute. 🥊 Post-Transformer - Post-Transformer people are not saying Transformers are bad. They are saying Transformers may be the best current tool, not the final form of machine intelligence. - The biggest Post-Transformer target is native reasoning and continual learning. Today’s LLM reasoning often feels like text-based step-by-step work added on top, instead of thinking happening naturally inside the model. - Latent reasoning is one possible next step. That means the model reasons inside its own hidden internal space, instead of writing every thought out as words. - Continual learning is still a major weakness. Humans keep learning from experience, but most Transformer-based models are trained, frozen, and then only adapt inside the prompt. - Long context is not the same as real memory. A model can read a huge prompt, but that is different from building a life history, learning from mistakes, and updating beliefs over time. - The future may be hybrid, not a clean replacement. Transformers may stay as 1 building block while newer systems add better memory, better reasoning, and better learning loops. - The most interesting possibility is that Transformers may help discover their own successor. AI agents are already getting better at research and coding, so the next architecture may come from AI-assisted architecture search. ------- - Benchmarks are a problem. Many public benchmarks are easy to game, so they may show leaderboard strength without proving deeper intelligence. - Perplexity is still probably a great metric to evaluate frontier models,, because it tests prediction quality. --- Overall, Transformers continue to dominate, but the frontier is clearly widening. Pathway’s BDH (Dragon Hatchling — brain-inspired reasoning architecture), Sakana AI’s CTMs (Continuous Thought Machines — models that think over time), and Liquid AI’s LFMs (Liquid Foundation Models — efficient multimodal foundation models) - all of these show how the frontier is expanding. --- From “Pathway (pathway[.]com)” Youtube channel (link in comment) @zuzanna_pathway

译这是一场关于AI架构的辩论。Transformer阵营指出，其凭借简单、硬件友好、可扩展的优势主导当下，核心是基于键值存储的记忆与注意力机制，并强调任何替代架构必须能在扩展性上与之匹敌，且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为，当前大语言模型的推理更像是后置的文本步骤，真正的突破在于实现模型内部的“潜在推理”与持续学习能力，并指出长上下文不等于真正记忆，未来可能是混合架构。辩论还提到，当前公开基准测试易被优化，而困惑度（Perplexity）仍是评估前沿模型的有效指标。最后指出，尽管Transformer仍占主导，但前沿正在拓宽，并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。

Chubby♨️@kimmonismus · 5月29日24

It still feels crazy to me that releases are now happening on a monthly basis - and, within a single month, a significant model from almost every major AI lab.

译对我来说，现在每月都有新版本发布仍然感觉很疯狂——而且在一个月内，几乎每家主要AI实验室都推出了重要模型。

meng shao@shao__meng · 5月29日50

http://Clawd.rip 这个网站，只能说，太勇了！真的不怕 A\ 厂律师函啊？？ http://Clawd.rip 是一份按时间排列的 Anthropic / Claude 争议与事故编年，语气讽刺（标题 Everything that went wrong with Claude、结尾 Don't Be Like Anthropic），但每条大多可对应公开来源：官方 status、postmortem、媒体报道、GitHub issue、诉讼与政策公告。致敬一下作者 @maria_rcks 👍🏻

歸藏(guizang.ai)@op7418 · 5月29日67

Cursor 发布了一份开发者报告，里面有些数据很有意思挑几个比较重要的点来说：头部用户的 AI 代码产出、token 消耗、PR 合并量都远高于中位数，而且差距还在扩大。 AI 写代码前读得越来越多，input/output token ratio 大幅上升。真正贵是理解一个代码库和任务。缓存变得非常重要，如果每次 agent 都从零读上下文，成本会爆炸。这意味着未来 coding agent 的竞争力很可能在上下文缓存、增量理解、长期记忆这些地方。放权越来越多，手动 diff acceptance 变少，更多 AI 改动直接进入 commit 流程。 PR 变大，工作颗粒度变大，报告里说单个 PR 的新增行数、1000 行以上的大 PR 占比都在上升。副作用是 review、测试、架构边界会更重要。

译Cursor发布开发者报告，基于全球最全面的AI编程数据集指出：头部AI用户的代码产出、token消耗和PR合并量远高于中位数且差距持续扩大。报告关键发现是AI在生成代码前“阅读”（理解上下文）的成本急剧上升，input/output token ratio显著增加，表明真正的成本在于理解代码库与任务。这凸显了上下文缓存、增量理解和长期记忆等技术将成为未来智能体的核心竞争力。此外，AI自主性提高，手动确认减少，更多改动直接进入代码流程；同时PR规模变大，对代码审查和测试要求更高。

Chubby♨️@kimmonismus · 5月29日38

Anthropic's releases currently in a nutshell

译Anthropic 当前发布内容概览

歸藏(guizang.ai)@op7418 · 5月29日63

Agent 就是 3D 打印机，Token 就是虚拟世界 3D 打印机的 PLA 材料它是通用的，但最后打印出来的东西都不一样。

译此推文用3D打印机比喻AI智能体（Agent），Token是其“打印材料”。这一比喻旨在说明软件正从功能固定、彼此隔绝的“应用房间”，转变为用户可塑造、组合的“可编程材料”。旧模式是选择工具，新模式是表达意图并与系统协作。界面（UI）也随之变化，从固定菜单变为响应意图的“黏土”。最终，软件不再仅由程序员创造，而成为人人可塑造的媒介，如同“可执行的纸张”。

小互@xiaohu · 5月29日17

这个观点有点意思：中国政府更像是一家风险投资基金，而不是传统的中央计划者。亚瑟·克罗伯（Arthur Kroeber）认为，这就是中国取得成功的方式，在工业制造领域获得巨大主导地位，并避开了中央计划经济传统的失败模式。中国政府支持广泛的行业部门，而不是单一的国有企业，并在这些部门中鼓励无情的竞争。尽管中国政府知道竞争可能会导致国有企业失败，但它相信少数赢家将弥补这些失败。

译推文引用 Arthur Kroeber 的观点，将中国政府比作风险投资基金而非传统中央计划者。其核心逻辑是：中国政府广泛支持多个行业部门，并鼓励其中展开残酷竞争，而非只扶持少数国有企业。即便知道竞争会导致部分受支持的公司失败，也相信少数最终的赢家将足以弥补损失，这被认为是中国在工业制造领域取得巨大主导地位并规避传统计划经济模式失败的关键。

AYi@AYi_AInotes · 5月29日34

这是段子吗，通义千问那么拉，还不如豆包， Claude怎么可能蒸馏它？被中转站套壳吧，我在@Cursor了试了下，就是正常的Claude Opus 4.8u呀

译有用户指出通过API询问Claude Opus 4.8身份时，模型会自称“我是通义千问（Qwen）”，认为这可能是Claude蒸馏了阿里巴巴的Qwen模型。主推文作者对此表示怀疑，认为Qwen性能不足，Claude不可能蒸馏它，推测可能是中转站“套壳”所致。作者声称自己在@Cursor中测试得到的仍是正常的Claude Opus 4.8u回复。

SemiAnalysis@SemiAnalysis_ · 5月29日54

Running a single deep coding model at max context on Cerebras requires 24 systems ($24M Capex) just to support 256 concurrent users. At that scale, $100M gets you way more memory bandwidth in standard GB300 racks.

译在Cerebras上以最大上下文窗口运行单个深度编码模型，仅支持256个并发用户就需要24套系统（2400万美元资本支出）。在这个规模下，1亿美元在标准GB300机架中能获得高得多的内存带宽。

Orange AI@oran_ge · 5月29日22

我的天教皇的神谕竟然是 AI 写的那不如叫 AI 的神谕吧

AYi@AYi_AInotes · 5月29日50

很多人把 AI 落地失败，归到模型还不够强，但 MIT 斯隆 2026 4月这份报告给的答案是另一回事，95% 的企业 AI 投入，没产生任何可衡量的回报。更扎心的是后面这个数据，超过 30% 的团队时间，花在重建别人早就拥有的上下文上。说白了，AI 没让组织变快，因为组织本来就没有记忆，AI 只是把这件事放大了。每个员工都是一座孤岛，岛上各有一座小工厂，可岛和岛之间没有桥。

译MIT斯隆管理学院2026年4月报告显示，95%的企业AI投入未产生可衡量的回报。报告指出一个关键问题：超过30%的团队时间被花费在重建他人已有的上下文上。推文核心观点是，许多组织AI落地失败并非因为模型本身不够强大，而是因为组织本身缺乏“记忆”和有效的知识共享机制。AI的引入反而放大了这种“信息孤岛”问题，每个员工都像孤岛上的工厂，彼此间没有连接，导致整体效率未能提升。

SemiAnalysis@SemiAnalysis_ · 5月29日49

Most of AMD and NVIDIA’s best 10x engineers are in Shanghai. AMD’s MoRI collective team, AMD’s disaggregated applications engineering team, and other AMD teams that understand how to do first-principles-based engineering are all mostly based in Shanghai.

译AMD和NVIDIA大部分最优秀的10倍工程师都在上海。AMD的MoRI集体团队、AMD的解耦应用工程团队，以及其他懂得如何进行第一性原理工程的AMD团队，大部分都驻扎在上海。

meng shao@shao__meng · 5月29日75

Cursor 最新发布「开发者习惯报告」 AI Coding 已经不再只是“写代码更快”，它正在强烈改变软件开发的工作形态：开发者提交更大的变更，Agent 做更深的任务，更多 AI 代码进入代码库并保留下来，下一步会从个人辅助工具走向自动化开发基础设施。 https://cursor.com/insights # Cursor 团队报告中最重要的 5 个发现 1. 代码产出速度明显提高：每位开发者每周新增代码行从 2025 年初约 3.6K，升到 2026 年 5 月的 8.6K；PR 的 p75 新增代码行也从约 126 行升到约 345 行。 2. 开发单位变大了：1000 行以上的“大 PR”占比从约 8% 升到 13.8%。这说明 AI 不只是在补全局部代码，而是在让开发者一次处理更大的任务。 3. Agent 正在做更复杂的工作：过去两个月，单次 Agent 会话的平均工具调用数上升约 30%，说明它们在更多地读文件、改文件、搜索代码、运行命令、访问网页。 4. AI 生成代码的“留存”在提高：被接受的 AI 代码在 60 分钟后仍然存在的比例，从 2026 年初约 76% 升到约 81%。这比单纯统计生成量更有意义，因为它接近“代码是否被开发者认可并进入实际工作”的信号。 5. 少数高水平用户获得了更大的收益：AI 使用非常集中，AI 代码行、花费、token 使用的 Gini 系数分别为 0.77、0.75、0.72；P99 用户的 AI 代码行是中位数用户的 46 倍，合并 PR 数是 15 倍。

译报告显示，AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行，更大规模的PR（千行以上）占比上升。AI智能体在单次会话中的工具调用数增加约30%，正在处理更复杂的任务。同时，被接受的AI代码在60分钟后的留存率从约76%提升至约81%，表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具，演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

Berryxia.AI@berryxia · 5月29日36

大家越来越叼了！从原来的Coding软件已经无法满足大家的胃口了，现在都是开始自然文本-3D CAD 来Coding了。

译大家越来越厉害了！从原来的编程软件已经无法满足大家的需求了，现在都开始用自然语言文本-3D CAD来编程了。

Orange AI@oran_ge · 5月29日50

昨天从北京飞上海，在高空中觉得脑子里有个奇妙的连接，于是写了一篇文章《顿悟》。但是北京到上海的飞行时间太短了，写得不够过瘾，于是晚上办完事之后，在酒店里对着西岸的江景，录了这期播客《橘座·顿悟》。这期播客聊的是一个我思考了很久的问题：为什么人们总是争吵，为什么人们总是意见不一致。这世界到底是否存在客观的真相、理性的判断。结论也很简单：人类是喜欢解释的动物，会用解释掩盖自己的真实判断。屁股决定脑袋——这句话竟然是真理。但如果我们追根溯源去看一下，为什么人类会这样呢？原来人的意识本身就是对身体信号的一个解释。聊着聊着就聊到了 AI 为什么永远取代不了人，聊了尼采精神三变，聊了为什么顿悟这件事不能靠读书。实践是获得真理的唯一方法。这是《橘座》的第 1 期，在评论区等你。🎙 https://www.xiaoyuzhoufm.com/episode/6a1866b2ac7bdb080c325c58

译作者由北京至上海的飞行激发灵感，撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源，追问是否存在客观真相与理性判断。核心观点是：人类作为喜欢解释的动物，习惯用解释掩盖真实判断，“屁股决定脑袋”是事实；而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述，并提及尼采精神三变与实践是获得真理的唯一方法。

ginobefun@hongming731 · 5月29日70

http://x.com/i/article/2060134439691403264 # BestBlogs 早报 · 05-29｜Claude Opus 4.8、Anthropic H 轮融资、动态工作流发布在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-29 ## 导语 Anthropic 今天同时放出三枚重磅：旗舰模型 Claude Opus 4.8 在编程与推理基准上全面超越上代，代码诚实度提升四倍；H 轮 650 亿美元融资让估值逼近万亿美元，年化收入已超 470 亿美元；配套推出的 Claude Code 动态工作流，可在单次会话内编排数百个并行子智能体，把「一个人 + AI」能处理的任务边界再次推远。三条消息相互咬合，AI 能力、商业规模与工程基础设施同步跃升，这一天值得仔细读。除了 Anthropic 的三连发，今天还有 Neuralink 联合创始人谈脑机接口产业化路径、Cognition 与 OpenInspect 谈后台异步智能体架构、Devin 背后的技术团队对「浪费 Token 节省时间」范式的思考，以及阿里、腾讯工程师对多智能体协作与 AI 知识显形化的一手观察。此外还有 Cloudflare 构建内部数据智能体的工程实践、Slack 三年多云 AI 架构演进，以及 Meta 2026 年股东大会扎克伯格的四大 AI 战略。整份早报内容密度很高，下面我们从三篇精讲开始。 ## 精讲一：Claude Opus 4.8 发布 Anthropic 正式发布新一代旗舰模型 Claude Opus 4.8，在编程、智能体、推理、知识工作四大类基准中全面超越上代的 Opus 4.7。阅读请访问 BestBlog 这次升级最值得关注的突破来自「诚实度」层面：Opus 4.8 对自身代码缺陷视而不见的概率降低了约四倍。换句话说，当模型写出存在缺陷的代码时，它能更主动地识别问题并告知用户，而不是继续往下执行，直到系统崩溃才被发现。这听起来像是一个工程细节，但在智能体应用场景中，它实际上是整个系统稳定性的关键变量。为什么「诚实度」是这次最重要的升级在单步问答场景中，模型对自身输出的错误诊断能力还不算致命弱点——用户可以很快看到问题并反馈。但在多步骤的智能体工作流中，模型在第一步犯了错误却没有意识到，会导致后续所有步骤在错误的基础上继续推进，最终产生难以回溯的连锁失败。诚实度提升四倍，意味着这类「盲目前行」的概率大幅下降，系统整体的自我修复能力显著增强。这一特性与今天同步发布的动态工作流密切相关。当系统需要编排数十到数百个并行子智能体时，每一个子智能体都需要能够准确评估自己的输出质量，并在判断结果异常时主动终止或请求确认，而不是把错误无声地传递给下游节点。Opus 4.8 的诚实度提升，从根本上改善了这类多智能体系统的可靠性基础。三项配套新功能同步落地与 Opus 4.8 同步推出的还有三项工程层面的新能力。第一，Claude Code 动态工作流——单次会话内可以动态编写编排脚本，并行运行数十乃至数百个子智能体，专为全代码库漏洞排查、大规模迁移、独立验证等超大型任务设计。这实际上是把过去需要外部编排框架才能完成的多智能体调度，内化到了 Claude Code 自身的能力范围之内。第二，claude.ai 新增「努力控制」滑块，用户可以手动调节模型的思考深度，在响应速度和推理质量之间按需权衡。这对于不同类型的任务非常实用：快速问答可以拉低思考深度换取速度，复杂的代码审查或架构分析则可以拉满推理深度换取准确性。第三，API 新增任务执行中实时更新指令的能力，允许外部系统在运行过程中向 Claude 注入新的上下文或修改执行参数，而不必等到任务完成后重新发起请求。这对构建长周期智能体系统意义重大，尤其是那些需要根据实时环境反馈动态调整策略的场景。早期测试者的验证 Databricks 和 Devin 是本次发布的早期测试伙伴。Databricks 侧重于评估 Opus 4.8 在复杂数据工程任务上的判断力，反馈认为其在面对歧义指令时的决策质量有显著提升，尤其是在需要对数据管道中的异常情况作出判断时，模型不再轻易给出一个看起来合理但实际上错误的答案；Devin 则专注于智能体可靠性测试，验证了 Opus 4.8 在长任务链中的稳定性明显优于上代，具体体现在多步骤代码修改场景中的错误传播率显著降低。值得注意的是，这次性能全面提升的同时售价维持不变，对于已经在使用 Claude API 的工程团队来说是直接利好，不需要任何迁移或额外成本，可以立即切换。 ## 精讲二：Anthropic 完成 650 亿美元 H 轮融资，投后估值达 9650 亿美元 Anthropic 宣布完成 650 亿美元 H 轮融资，投后估值 9650 亿美元，距离万亿美元市值仅一步之遥。这是 AI 行业迄今规模最大的单轮融资之一。阅读请访问 BestBlogs。投资方构成与战略意图本轮融资由 Altimeter、Sequoia Capital 和 Dragoneer 联合领投，三家均是顶级成长期基金，领投本身即是对 Anthropic 商业化路径的高度背书。更值得关注的是投资方的结构性构成：超大规模云厂商出资共计 150 亿美元，其中亚马逊单独贡献 50 亿，进一步强化了双方在 AWS Bedrock 上的深度合作关系；Micron、三星、SK 海力士三家半导体巨头以战略投资者身份参与，意味着 AI 计算基础设施层面的供应链关系已从商务合作升级为资本层面的利益共同体。半导体厂商投资 AI 模型公司，是在押注下游需求——他们相信 Claude 将消耗越来越多的芯片资源。收入规模与商业化速度 Anthropic 披露的年化经常性收入已突破 470 亿美元。从历史数据看，这一数字意味着在不到两年的时间里，Anthropic 从一家专注安全研究的实验室演变为具备真实规模收入的商业公司，增速远超此前大多数分析师的预测。资金将主要用于三个方向：持续推进安全与可解释性研究（这是 Anthropic 区别于其他 AI 公司的核心定位）、扩充与 AWS、Google Cloud、Broadcom、SpaceX 的算力合作，以及规模化 Claude Code 和 Cowork 产品线。「首个多云前沿模型」的战略意义本次融资完成后，Claude 成为首个同时登陆 AWS、Google Cloud 和 Microsoft Azure 三大主流云平台的前沿 AI 模型。这一多云覆盖在商业层面意义深远：企业客户可以在不切换云厂商的前提下接入 Claude，大幅降低了迁移成本和采购门槛。对于已经在某一云平台深度锁定的大型企业，这意味着将 Anthropic 产品纳入技术栈的阻力几乎降为零。同时，多云部署也为 Anthropic 自身提供了更强的议价能力，避免对单一云厂商形成过度依赖。结合今天 Opus 4.8 的发布和动态工作流的推出，Anthropic 正在同步提升技术壁垒与商业覆盖面，形成正向飞轮：更强的模型吸引更多企业客户，更多企业客户产生更多收入，更多收入支撑更大规模的研究投入，更大规模的研究投入再产生更强的模型。对于关注 AI 行业格局的读者来说，今天的融资消息是观察这条飞轮转速的最新刻度。更值得关注的是，在当前主流 AI 公司中，Anthropic 是为数不多将「AI 安全」作为核心竞争定位、同时实现商业规模突破的公司，这种组合在过去一直被认为存在根本性张力，而今天的融资数字表明，市场给出了明确的答案。 ## 精讲三：动态工作流功能发布 | Claude Claude Code 正式推出动态工作流（Dynamic Workflows），这是 Claude Code 迄今最重要的架构级升级，标志着 AI 编程助手从「增强单人工作」迈向「编排多智能体系统」的新阶段。阅读请访问 BestBlogs。动态工作流解决的核心问题传统的单智能体模式存在一个根本性限制：单个上下文窗口的容量和注意力是有限的，面对需要同时处理数百个文件、跨多个系统并行验证、需要独立判断相互依赖任务的场景时，单智能体的表现会显著退化。这不是提示词工程能解决的问题，而是架构层面的约束。动态工作流的设计思路是让 Claude Code 在单次会话内自动编写编排脚本，然后将任务拆解并分发给数十至数百个并行运行的子智能体，每个子智能体负责一个具体的、边界清晰的子任务。编排脚本本身由 Claude Code 动态生成，而不是需要工程师手动定义——这是关键的差异，它意味着工程师只需要描述目标，不需要预先设计执行框架。典型应用场景官方给出的三类核心场景清楚地说明了动态工作流的适用边界：全代码库漏洞排查，需要同时分析数百个文件并保持跨文件的上下文关联，同时在多个代码路径间并行追踪安全漏洞；大规模代码迁移，将代码库从旧框架迁移到新框架时，需要对每个迁移单元进行独立的语义验证和测试；独立验证场景，用多条并行路径对同一个问题独立求解，再对比结果以提高可靠性。这三类场景的共同特征是任务总量超过单窗口容量，且子任务之间可以并行处理，不需要严格的串行依赖。「ultracode」模式与使用建议新增的「ultracode」模式让 Claude Code 可以自动判断何时启用动态工作流，无需手动指定启动参数。当前以研究预览形式上线，支持 CLI、桌面版、VS Code 扩展以及各主要云 AI 服务（包括 AWS Bedrock、Google Cloud Vertex AI 等）。官方特别提示：动态工作流的 Token 消耗远高于普通会话，因为多个子智能体并行运行会同时占用大量算力。建议从范围明确、边界清晰的任务起步，逐步摸索适合自己工作流的使用节奏，避免因任务边界不清导致子智能体无限扩张。这与 Opus 4.8 今天同步发布的「努力控制」功能形成配合：努力控制决定每个节点的推理深度，动态工作流决定是否开启多智能体并行模式，两者共同构成新一代智能体工程的核心调节机制。从更长的时间尺度来看，动态工作流代表了一个重要的范式转变：AI 系统的边界正在从「一个人能做什么」扩展到「一个人加上 AI 编排的智能体集群能做什么」。这条线的移动，会在未来几年持续重塑软件工程师的工作方式。从今天开始，衡量一个工程师或团队产能上限的，不再只是个人技能和团队规模，还包括他们编排和调度 AI 智能体集群的能力。这是动态工作流真正深远的意义所在，也是今天这篇发布值得每个从事技术工作的人认真读一遍的理由，无论你现在是否在直接使用 Claude Code。 ## 速览异步智能体时代 — Cognition 的 Walden Yan 与 OpenInspect 的 Cole Murray（Latent.Space） Cognition CPO Walden Yan（Devin 背后的核心人物）与 OpenInspect 创始人 Cole Murray 深度对话，探讨后台异步智能体的兴起与 2025 年 12 月的模型拐点。核心判断：本地编码工具只是起点，下一阶段是自主云端智能体系统，架构设计需要从「同步响应」转向「异步任务处理」。这与今天 Claude 动态工作流的方向高度吻合，值得对照阅读，了解行业视角与产品落地之间的呼应。 Dubbing v2 发布：革命性的全新配音模型（ElevenLabs Blog） ElevenLabs 推出 Dubbing v2，支持 90 多种语言，核心突破是在翻译的同时保留原说话者的情感色彩、语调起伏和发音节奏。视频本地化不再是「用另一种语言重新念一遍」，而是「用另一种语言说出同一个人的声音」。对内容团队、媒体公司和教育平台有直接的落地价值，国际化内容生产的门槛将显著降低。 Neuralink 联合创始人 DJ Seo：脑机接口与 AI 融合的竞赛内幕（Sequoia Capital） Neuralink 联合创始人 DJ Seo 亲口讲述公司如何将脑机接口从实验室研究推向真实患者——第一批瘫痪患者已通过植入设备恢复了对数字世界的控制能力。他还透露了即将推出的视觉恢复技术，并阐述了高带宽 AI-大脑融合的长期愿景。这场 Sequoia Capital 的访谈是理解脑机接口产业化现状最直接的一手视角，观看时长约一小时，信息密度很高。 Harness 的尽头不是缰绳，是镜子：AI 时代最沉默的那场革命（腾讯技术工程）文章提出「显形」这个概念：AI 的真正价值不在于替代人类工作，而在于迫使我们将长期以来只存在于脑中的隐性知识、判断标准和团队品味首次文本化。这是一场不可逆转的认知革命——一旦开始用 AI 协作，你就必须说清楚自己到底想要什么，这个过程本身就是对知识的梳理与沉淀。观点犀利，适合和工程师、产品经理一起读，会引发很多共鸣。从语言涌现到协作涌现：如何让 AI 产生高质量决策（阿里技术）阿里工程师提出 Agent Room 概念：将多个 AI 智能体置于共享上下文场中，让它们互相修正、沉淀任务、执行验证，从而实现从流程自动化到协作涌现的跨越。文章完整记录了团队从「流程自动化」到「全链路自动化」再到「协作涌现」的三阶段演进路径，是少见的有具体工程经历支撑的理论框架，与今天动态工作流的官方叙事形成很好的对照。 143. 对何小鹏的第二次访谈：更大赌注、人形机器人 Iron 诞生、那场意外、技术剧变下 CEO、GX 和缝合怪（张小珺Jùn｜商业访谈录）何小鹏详述小鹏汽车从智能电动汽车向「物理 AI 企业」的战略转型：放弃旧自动驾驶体系、all-in 人形机器人 Iron，坦言两成胜率，也谈了技术剧变中 CEO 的焦虑与决策方式。这次访谈比上一次更深入，何小鹏的坦诚程度也超出预期。想了解中国汽车加机器人赛道真实状态的读者不容错过。浪费 Token，节省时间：Naval 与三位前沿创始人谈 AI 如何重塑软件工程（Naval） Naval 与三位前沿创始人（包括 Devin 团队成员）探讨「软件工厂」范式：用 AI 智能体替代手动编码，核心逻辑是「浪费算力换人力」。他们同时质疑了纯软件护城河的未来——当任何人都能用 AI 快速复制软件功能时，差异化究竟从哪里来？结论指向数据、网络效应和品牌，而非代码本身。 ## 补充阅读推理优化、扩散模型、世界模型等前沿 AI 研究 | YC Paper Club（Y Combinator）首届 YC Paper Club 汇集顶尖创始人和研究者，集中讨论推理加速（Speculative Speculative Decoding）、机器人控制、世界建模、泛化理论和数据效率五个方向的前沿论文。对 AI 基础研究保持跟踪的读者和研究者值得看。我们如何构建 Cloudflare 的数据平台及其上的 AI 智能体（The Cloudflare Blog） Cloudflare 工程团队详述如何从数据孤岛走向统一数据平台 Town Lake，并在其上构建 AI 智能体 Skipper，让任何员工都能用自然语言查询数十亿级别的业务数据。正在构建企业内部数据智能体的团队有直接参考价值，Cloudflare 的规模与复杂度让这个案例的代表性很强。 Slack AI：通往多云之路（Slack Engineering） Slack 工程团队完整记录了从 AWS SageMaker 到 AWS Bedrock + GCP Vertex AI 多云架构的三年演进历程，动因是运营效率、模型灵活性和企业级可靠性的综合需求。是少见的多云 AI 基础设施实战案例，结合今天 Anthropic 的多云战略更有参考意义。当你的客户是 AI 智能体：B2B 企业如何在买家变成 AI 智能体时保持可见（freeCodeCamp） 96% 的 B2B 企业在 AI 驱动的采购流程中是「不可见」的——AI 智能体在为买家筛选候选供应商时，大多数企业根本不在考虑范围内。文章分析了成为「AI 可发现」所需的三项基础设施决策。适合 B2B 产品和营销负责人，这是一个正在发生的结构性变化，需要提前布局。 Skill 文档也能训练？SkillOpt：把 Agent 的经验写进一份可优化说明书（AINLP）微软论文 SkillOpt 的中文解读：把 Agent 的 Skill 文档当成可训练的外部状态，通过 rollout、反思、受限编辑和验证门控实现自动迭代优化，在 52/52 的测评项中达到全部 best 或 tied-best。正在做 Agent 工程化的团队有直接启发，这是一个低成本改善 Agent 表现的方向。 Cursor 开发者习惯报告：AI 编程趋势洞察（Cursor） Cursor 发布《开发者习惯报告》，基于其全球最完整的 AI 编程数据集分析 AI 工具采纳规律。想了解 AI 编程工具在真实开发者群体中如何传播和使用的读者，这份报告是目前数据支撑最扎实的参考之一。 SpaceX 自研 C 语言 AI 训练栈，面向 22 万块 GB300 GPU（Elon Musk） SpaceX 即将完成用 C 语言编写的定制 AI 训练栈 V1.0，精确映射 22 万块 NVIDIA GB300 GPU，声称对大规模训练任务相比 JAX 有超过一个数量级的速度提升。AI 训练基础设施向高度定制化方向演进的一个信号，关注 AI 算力投资的读者值得了解。社会科学中的编码智能体（Anthropic Research） 1260 名社会科学家调查显示：81% 用过 AI 聊天机器人，但只有 20% 使用过编码智能体，且采用率在性别、职业阶段和大学声望方面存在明显分化。早期用户发表了更多工作论文，但期刊投稿量并未增加。数据有趣，适合关注 AI 工具在非工程领域扩散规律的读者。 AI 破晓：生成式 AI 时代文化产业的重塑、跃迁与守望 | 4 万字报告（腾讯研究院）腾讯研究院联合中国传媒大学发布 4 万字研究报告，覆盖短视频、长视频、网络文学、音乐、游戏等多个内容形态，提出生成式 AI 对文化产业的全链条影响框架，包含近 1900 份有效问卷和 20 余位从业者访谈。体量大，适合对文化产业与 AI 交叉领域感兴趣的读者周末细读。一文读懂 Meta 2026 年股东大会：扎克伯格豪赌 AI 四大方向，十项股东提案全被否（腾讯科技） Meta 2026 年股东大会核心内容速览：12 名董事全部连任，10 项股东提案全被否，扎克伯格重点阐述核心应用 AI 化、个人智能体、商业智能体、AI 硬件四大方向，资本支出 1150 亿到 1350 亿美元，几乎是去年两倍。想了解 Meta AI 战略全貌的读者值得一读，结合今天 Anthropic 的融资新闻对照来看格局感更强。 ## 今日阅读路径时间有限时，建议按以下顺序读三篇： 1. Claude Opus 4.8 发布——今天最值得优先读的一篇。Opus 4.8 的「诚实度」提升不是边际改进，而是智能体工程的基础性突破。读完这篇再看动态工作流，会有更清晰的整体感：能力升级和工具升级是同步设计的，不是各自独立的公告。 1. 动态工作流功能发布 | Claude——紧接着读这篇，理解并行子智能体架构的设计逻辑和适用边界，以及「ultracode」模式的实际使用建议。这是今天三篇精讲中最有工程实操参考价值的一篇。 1. Harness 的尽头不是缰绳，是镜子——用腾讯工程师的视角把前两篇「落地」：模型能力再强，真正的价值在于迫使团队将隐性知识显形化。这篇文章是今天所有 AI 进展最好的人文注脚，读完会对「为什么我们需要更强的 AI」有更深的理解。如果还有时间，加读从语言涌现到协作涌现——阿里工程师对多智能体协作的一手实践记录，与今天的 Claude 动态工作流官方叙事形成很好的互补：一篇是工具方的视角，一篇是实践者的视角，放在一起读收获更大。再有时间的话，Anthropic H 轮融资值得完整读一遍——里面关于多云战略和投资方构成的细节，能帮助你理解 AI 行业的资本与技术如何同步运转。

译Anthropic发布旗舰模型Claude Opus 4.8，在编程、智能体、推理等基准上全面超越上代，其代码“诚实度”提升约四倍，增强了多智能体系统的可靠性。同日，Anthropic完成H轮650亿美元融资，投后估值达9650亿美元，年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体，适用于大规模代码库排查等任务。

Nathan Lambert@natolambert · 5月29日57

For reference, when we visited @Zai_org in China they had an API metrics chart in their showroom, was 5-7 T tokens/day. Inference market in the U.S. / Europe seems way bigger (and that's a big deal for continuing to build models)

译供参考，我们访问中国的 @Zai_org 时，他们在展厅展示了 API 指标图表，达到每天 5-7 万亿 tokens。美国/欧洲的推理市场规模似乎大得多（这对持续构建模型很重要）

Rohan Paul@rohanpaul_ai · 5月29日60

In 2025, peer-reviewed journals published 147,000 citations to studies that don't exist !! Researchers went through 2.5 million papers and found citations tied to non-existent studies, authors, and journals. AI made them up. Nobody caught the problem. Now they are sitting in the scientific record for good. The scary part is not how many there are. It is how fast this is growing. In 2023, it was 1 in 2,828 papers. By early 2026, it is 1 in 277. That curve does not magically flatten. --- arxiv .org/pdf/2605.07723

译研究人员审查250万篇论文发现，2025年同行评议期刊中出现了14.7万次指向不存在研究的引用，这些虚假的研究、作者和期刊由AI生成，且未被察觉，已永久留在科学记录中。问题增长迅速：2023年每2828篇论文中约1篇含此类引用，到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

Rohan Paul@rohanpaul_ai · 5月29日66

AWS CEO Matt Garman: The idea that AI will replace junior developers is “the dumbest thing I have ever heard.”

译AWS CEO Matt Garman：AI将取代初级开发者的说法是“我听过最愚蠢的事”。

SemiAnalysis@SemiAnalysis_ · 5月29日54

The general direction of the codex in app browser UX is pretty good. for web dev Once the codex model itself becomes good at web dev, i would assume all web dev work gonna switch from claude terminal CLI to codex app with in app browser.

译Codex在应用内浏览器的用户体验总体方向很好。对于Web开发，一旦Codex模型本身擅长Web开发，我预计所有Web开发工作将从Claude终端CLI转向带有应用内浏览器的Codex应用。

Rohan Paul@rohanpaul_ai · 5月29日30

Most human experts will feel this pain and existential reflections of watching a skill becoming an API.

译大多数人类专家在目睹一项技能变成API时，都会感到这种痛苦和生存反思。

AYi@AYi_AInotes · 5月29日63

Cursor真牛逼，这么快就上线了Claude Opus 4.8！

译Cursor已上线Claude Opus 4.

SemiAnalysis@SemiAnalysis_ · 5月29日64

The most popular AI subscription will run you about $20/month and it gives you access to most of the models and is good enough for the average daily user. But for a company like Anthropic how much does it cost the company to be servicing the user? It's safe to assume that the majority of users aren't going to be hitting the usage limits but hypothetically let us say they did. Depending on the workload, the same $20 subscription can range from insanely profitable to barely breaking even.

译最受欢迎的AI订阅服务每月约20美元，可访问大多数模型，对普通日常用户来说已足够。但对于Anthropic这样的公司，服务用户的成本是多少？可以合理假设大多数用户不会达到使用上限，但假设他们达到了。根据工作负载的不同，同样的20美元订阅可能从极其盈利到勉强收支平衡。

AYi@AYi_AInotes · 5月29日48

那些说@Google Omni拉胯，说不如seedance 2.0的人看过来， Omni演示的把一个普通人手变成活体解剖演示，肌肉、肌腱、骨骼全都看得清清楚楚，这用在生物医学相关的课上，简直就是最完美的解剖教学啊🤯

译推文回应了关于Google Omni能力的争议，展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构，被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0，强调了该技术在教育领域的独特应用价值。

Rohan Paul@rohanpaul_ai · 5月28日60

"If you look at the valuations for all these AI names, they just can't all be accurate. You have memory makers at 3-5X PE. You have NVIDIA at a really low PE." ~ @GavinSBaker Managing Partner & CIO of Atreides ($11B AUM). Nvidia, memory, custom chips, optical networking, power equipment, cooling systems and data center builders are all being treated as winners of the same spending boom. But each bucket is pricing a different version of the boom. There is Cross-sectionally inefficiency, i.e. the market is not ranking related AI companies consistently, because one group implies massive data center growth while another group implies slower or riskier growth. A boom does not automatically make every supplier a compounder, because the profit pool moves toward whatever is hardest to substitute, hardest to delay, and hardest for customers to bargain down. If the scarce thing is electricity, cooling, and physical capacity, then infrastructure suppliers should command the premium. If the scarce thing is still accelerated compute, then Nvidia and memory are probably too cheap relative to the rest of the chain. The ASIC narrative adds another layer of fog. Broadcom can be growing fast in custom chips and still not be taking the most valuable parts of Nvidia’s growth. ---- From " All-In Podcast" YouTube channel, (link in comment)

译当前AI产业链各环节（如NVIDIA、内存、定制芯片、光网络、电力设备等）的估值可能无法同时准确，市场对相关公司的排序并不一致，因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长，利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量，则相关基础设施供应商应获溢价；若稀缺的仍是加速计算，则NVIDIA和内存可能被低估。此外，ASIC（定制芯片）叙事也增加了不确定性。

ginobefun@hongming731 · 5月28日52

现在很多 Agent 产品都喜欢讲「一个 AI 团队帮你完成任务」。这个表达很顺，也很容易被用户理解。但这篇文章提到了一个更本质的问题：AI 不是员工，Agent 也不是岗位。一个 Agent 是否有用，不取决于它叫研究员、写手还是审查员，而取决于它能看到什么、能调用什么、能修改什么、在哪里执行，以及出错之后能不能被发现和回滚。角色是产品语言，边界才是系统能力。

译推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传（如研究员、写手）。文章指出，这种表达忽视了更本质的问题：智能体的价值不取决于其扮演的“角色”，而取决于其系统能力边界。具体能力包括：能访问的数据（可见范围）、能使用的工具（调用权限）、能执行的操作（修改权限）、运行的环境，以及错误发生后能否被监控和回滚。推文强调，角色是面向用户的营销语言，而能力边界才是决定其是否真正有用的技术内核。

X.PIN@thexpin · 5月28日10

http://x.com/i/article/2059951585590177792

译我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

Deedy@deedydas · 5月28日70

ChatGPT had 80% of global AI users six months ago. Today it’s 60%. Consumer AI is no longer a one-horse race. Here’s a break down. In that time, Gemini grew from ~20% to ~50% of ChatGPT's unique users. Claude grew from ~3% to ~20%. In fact, Claude is the fastest growing website in the top 100 last quarter, followed by DeepSeek (#78, 105%) and Cricbuzz (#52, +69%). Global website rankings: – ChatGPT #5 (+11%QoQ) – Gemini #15 (+27% QoQ) – Claude #36 (+255% QoQ) Active users: Gemini has publicly reported 900M monthly active users and ChatGPT as 900M weekly active users. This number counts native desktop and mobile, so I (naively) use a multiple to scale up web traffic from SimilarWeb. This implies: — ChatGPT: ~900M WAU, ~1.5B MAU — Gemini: ~500M WAU, 900M MAU — Claude: ~150-200M WAU, ~250-300M MAU Geographically, Gemini has significantly caught up in non-English speaking countries, with 65-70% of ChatGPT in India, Brazil, Japan, Indonesia, Korea and Vietnam while Claude in particular ironically shows remarkable growth in China (!). VCs often ask startups "What if Google decided to do this?" and usually it's the wrong question. But when Google does indeed decide to put the full force of a company behind something, they're formidable. This market is starting to look a lot less "winner takes all" and a lot more like cloud market (AWS/Azure/GCP) or wireless market (Verizon/AT&T/T-Mobile) with 3 dominant players: a triopoly.

译消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期，Gemini用户数增至约为ChatGPT的50%，Claude份额从约3%增长至20%。在网站流量方面，Claude是上季度增长最快的百强网站。活跃用户数估算显示，ChatGPT周活跃用户约9亿，月活跃用户可能达15亿；Gemini月活跃用户为9亿；Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家，Gemini用户数已接近ChatGPT的65-70%，而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

Chubby♨️@kimmonismus · 5月28日67

This is so interesting: How far can AI already go in building a community on Twitch? This team built an AI streamer in one night that plays, reacts, interacts with chat, gets nervous on risky calls, and celebrates wins. The implications are massive: - What happens when an AI streamer can go 24/7, never burns out, never takes a day off? - What happens when viewers emotionally bond with an AI that "knows" them better than any human creator? - What does it mean for the creator economy when the barrier to entry for entertainment drops to zero? We're not talking about perfection here. We're talking about direction. And the direction is clear.

译一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动，并在做出高风险决策时感到紧张，在获胜后表现出喜悦。文中探讨了其深远影响：当AI能实现24/7不间断直播、永不倦怠时会怎样；当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么；以及当娱乐的创作门槛降至零时，对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。

ginobefun@hongming731 · 5月28日50

过去四十年，写文档是在整理已经想清楚的事；现在写 Spec、Rule、project.md，是在被一个永不疲倦的读者逼着把自己从未想清楚过的事想清楚。这不是效率升级，而是认知事件。

elvis@omarsar0 · 5月28日38

And if we improve AI in the right direction, I suspect it can happen in all sciences as well.

译如果我们以正确的方向改进AI，我怀疑它也能在所有科学领域实现类似效果。

ginobefun@hongming731 · 5月28日62

Agent 这几年变化很快，但如果只盯着 Claude Code、Codex、OpenClaw、Hermes 这些新名字，很容易越看越乱。更好的理解方式，是回到 Agent 的几个基本模块：Prompt、Planning、Memory、Tools、Workflow、Environment。名字看起来没变，但里面的实现方式已经变了很多。 1. Prompt：从写一大段提示词，到按需加载上下文早期做 Agent，很多精力都花在写 System Prompt 上。一个任务一个 Agent，一个 Agent 一大段提示词，里面塞满角色、目标、规则、示例和注意事项。现在的趋势是把 System Prompt 变轻，只保留稳定的底层规则。真正会变化的内容，比如任务流程、领域知识、用户偏好、工具说明，会拆到 SKILL.md、AGENTS.md、USER.md 这类文件里。 Agent 需要什么，就读什么。这其实是从 Prompt Engineering 走向 Context Engineering。 2. Planning：从一步步想，到能拆解长任务早期 Planning 很多时候只是让模型「一步一步思考」。简单问题还可以，任务一长就容易断。现在的 Agent 已经更像一个会做任务管理的执行者。它可以把一个模糊的大目标拆成多个子任务，生成 Todo List，按步骤执行，遇到问题再调整计划。这背后不是提示词技巧变神了，而是模型的推理能力、长上下文能力和指令遵循能力都变强了。 3. Memory：从向量检索，到文件系统 + 检索混合早期谈 Memory，常见做法是把资料放进向量数据库，用 RAG 检索出来再交给模型。现在的方向更务实。短期记忆要做压缩和摘要，不再把所有对话都塞进上下文。长期记忆则越来越多地回到文件系统，比如用 Markdown 记录用户偏好、任务日志、项目知识、经验总结。文件的好处是可读、可改、可组织。复杂场景再配合 SQLite、向量检索或企业级搜索，这样既保留召回能力，也让知识沉淀更可控。 4. Tools：从 Function Call，到 CLI 和 Script 这是很关键的变化。以前让 Agent 调工具，通常要把能力封装成 API，再写 Function Call 的 Schema。工具一多，开发和维护成本会很高。现在越来越多 Agent 开始直接使用 CLI 和 Script。比如 git、grep、curl、npm、python 这些命令，对人来说有门槛，但对模型反而很自然，因为它在训练中见过大量类似内容。 Script 则可以把复杂流程封装起来。Agent 不需要理解所有接口细节，只要知道调用哪个脚本、传入什么参数就行。这代表工具层正在从「人类适配模型」，变成「模型使用已有计算机能力」。 5. Workflow：从固定流程，到 Skill 和 Workflow 混合 Workflow 曾经是 Agent 落地的主流方式。因为模型不够稳定，所以用固定流程限制它，保证第一步、第二步、第三步都按规则执行。现在很多流程可以沉淀成 Skill。任务说明、执行步骤、边界条件写在 Markdown 里，关键动作交给 Script 执行。这样更灵活，也更容易复用。但 Workflow 还没有过时。对稳定性要求高的场景，尤其是企业流程、审批、交易、生产系统，固定流程仍然很重要。更现实的做法是：Skill 负责灵活，Workflow 负责兜底。 6. Environment：从无状态问答，到有运行环境早期 Agent 更像聊天工具，问完答完就结束了，不需要太多运行环境。现在不同了。Agent 要读写文件、执行命令、生成中间结果、保存 Memory、调用工具，就需要一个 Workspace，也需要 Runtime。个人场景可以跑在本地电脑上，灵活但风险更高。企业场景更适合放进 Sandbox 或云端容器里，限制权限，隔离文件系统，避免误操作影响真实服务。这一步很重要。Agent 能力越强，越不能只看效果，还要看权限、安全、审计和回滚。总体来看，Agent 的变化不是某个单点技术升级，而是整个工程范式在变化。过去我们更关心「怎么写好 Prompt」。现在更关键的是：怎么组织上下文，怎么拆任务，怎么沉淀记忆，怎么调用工具，怎么保留流程确定性，怎么给 Agent 一个安全的运行环境。也就是说，好的 Agent 不是靠模型硬扛一切，而是用工程系统承载模型的不确定性。模型负责推理和执行，系统负责边界和秩序。Agent 真正成熟，大概就是从这里开始的。

译AI智能体（Agent）的发展正经历工程范式转变，核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进：1）提示词按需加载上下文；2）规划能力可拆解复杂任务；3）记忆采用文件系统与检索混合模式；4）工具层直接使用CLI和Script；5）工作流与灵活的Skill模块混合；6）环境需要安全的Workspace与Runtime。总体而言，好的智能体是用工程系统来承载模型的不确定性，模型负责推理，系统负责边界。

歸藏(guizang.ai)@op7418 · 5月28日47

推特这个自动翻译实装了，效果不错应该是这几家国际化内容平台里唯一一个全量自动化翻译的很难想象AI 发达了这些内容和社交软件各个语言用户沟通和内容消费依然这么困难

Orange AI@oran_ge · 5月28日55

在飞机上尝试把最近认知的变化写出来，希望早十年能懂这些道理。北京飞上海太快了，纯手打字不如 AI 快，还被 obsidian 卡了半天，难受。所以来不及做更多打磨，也没写 hook 纯意识流随便写。前面看着有点不够吸引人，但后面应该对得起大家的时间。

译作者在从北京飞往上海的航班上，以意识流的方式记录近期认知变化，坦诚文章缺乏打磨和吸引人的开头，但认为后半部分内容有价值。行文过程中，作者提到手动打字效率不如 AI，并因使用 Obsidian 卡顿而感到困扰。

Deedy@deedydas · 5月28日53

This is painfully embarrassing. The national board of education in India just generated an image on ChatGPT to “prove” that they’re secure after a 19yo showed you can edit marks of 2M test takers on their platform. That is after trying to deny they got hacked using a domain they didn’t own (to prove it, they bought by the domain and redirected it to the blog post about the hack). Then they claimed (falsely) that no production data was on those servers that was immediately proven false. These are levels of incompetence we have never seen. The fate of 2M+ students a year rests in these hands. Pathetic.

译印度中央教育委员会（CBSE）在曝出重大数据安全事件后，其应对措施备受批评。一名19岁学生发现其平台存在漏洞，可篡改200万名考生的成绩。官方后续试图用一个不属于他们的域名来否认被黑客攻击（后为此购买该域名），并虚假声称服务器上没有生产数据，但被立即证伪。最终，他们用ChatGPT生成了一张图片，试图以此“证明”系统安全。该委员会每年负责超过200万名学生的命运。

Ethan Mollick@emollick · 5月28日34

Lem & Douglas Adams got AI right Presciently Golem XIV (from 1981) has an illustration of the jagged frontier as explained by an AI, Golem (GENERAL OPERATOR, LONG-RANGE, ETHICALLY STABILIZED, MULTIMODELING), discussing itself and a smarter AI (Honest Annie) compared to people

译勒姆与道格拉斯·亚当斯早已预见AI 1981年的《哥莱姆十四》中，有一幅插图描绘了AI所解释的“锯齿状前沿”：哥莱姆（通用操作者、远程、伦理稳定、多模型）讨论自身与更聪明的AI（诚实安妮）相比人类的局限

Orange AI@oran_ge · 5月28日52

http://x.com/i/article/2059839164837982208 # 顿悟最近我的大脑有种顿悟之感。感觉连起来了，一切都连起来了。一切连成了一个圆环，每一件事都在在圆环之中。但要讲明白，却一时不知从何说起。但我写这篇文章的野心有点大。我希望看完的人也能跟我一样获得顿悟。这很难，让我们试一试。先从一条基本的原理开始说吧：实践是获得真理的唯一方法。注意，不是一种方法，是唯一的方法。可读书不也能学会真理吗？不，读书不能让你学会任何真理。读书只能印证你已经学会的真理。所以如果你已经懂了，你看下面的内容会非常舒服，通畅无比。如果你还没有懂，那你看完第一反应是反驳我的观点。但这正好可以印证我的观点。也就是说这是一篇自证的文章，也就是说这篇文章无法被证伪，也就说这篇文章可能不属于科学范畴。但这一点关系都没有，因为科学在此时此刻的此篇文章里一点都不重要。科学只是人类对宇宙的一种解释。注意，只是一种，不是唯一。科学也不是真理，只是解释。本文不想进行任何解释，如果你需要解释可以参看本文《无穷的开始》：人类最伟大的Loop，世界进步的本源为什么要先给出上面的暴论？因为我们一生下来就活在一个系统里。但是人要看到真理，必须先跳出系统。在康德看来，批判理性是进行真正思考的第一步！具体原因也不做解释，参考本文本文也介绍了自我意识是什么，下面也会用到从烧脑神书 GEB 到 Agent 的自我意识跳出系统之后，我们再来看一个当下热门的问题： Agent 是都可以取代人？问题的背后是另一个问题：人的独特性在哪里？我先说答案：人是由激素驱动行为但喜欢用理性思考伪装自己的生物。第一个关键词：激素塔勒布的非对称风险这本书有一段话人只有在真实的环境里才能做出正确的决定。人类学研究表明，人类的决策过程主要是由激素推动的，知识，经验，理智在这个过程中所起的作用并不大。我们往往是做出决定之后，再用智慧去寻找证据以便证明自己的决定是正确的。如果决策者本人不承担决策失误的风险和损失，就不能身临其境地在压力下产生这些激素，也就不能做出正确的决定。 —— skin in the game 李笑来在戒烟的时候也发现了这个现象，在你意识到自己想抽烟之前的0.5秒你的潜意识已经决定了要抽烟。所以戒烟的核心不是在意识上戒烟，而是在潜意识上戒烟，也就是用一句话给自己洗脑。具体可以听这期播客第二个关键词，理性为什么人类喜欢争吵？喜欢争夺个“我对你错”？《正义之心》这本书里已经给出了答案，我们自以为的推理，并不是为了探求真理，而是为了找理由支持我们的直觉的情感反应。具体的文章参考这篇，解释的非常完美了理性其实在无穷的开始和GEB里已经隐隐提到了这个观点：人类是喜欢解释的生物，为了追求更好的解释，人类发明了科学，但解释只是意识的一个习惯。意识并非真理本身，意识只是基于身体激素基于无数神经元的复杂化学反应之后的对这些复杂信号的解释！那这么说，意识就是解释本身？对，没错，意识本身就是一种解释！也无怪乎我们的意识喜欢解释！你明白了吗？如果你已经明白，或许你已经顿悟。如果你还未明白，那再看一些解释。在意识到人类是激素的直觉的，而理性和推理都只是一种解释之后，你会发现很多事情突然就想通了。我们通过直觉产生决策，然后再通过理性找理由来证明自己，其实证明的部分毫无意义。尼采的书之所以晦涩难懂，就是因为他省略了一切推理过程，只写了最后一步，因为他知道证明不重要。有些朋友从来不善于表达，吵架永远吵不赢，但这根本不重要，完全不影响他们的决策很好。有些人会拒绝你，说你不适合某个工作，或者不适合他们投资，然后给你一系列的理由，理由的部分也很可笑，因为一样毫无必要。有些老板根本啥技术都不懂，看起来像个sx，就每天说想要这想要那，也根本不重要，因为他还没学会解释，需要你教会他。俗话说，伟大无需多言，屁股决定脑袋。竟然就是真理。辩论家的理论再完美，也无法创造出伟大的作品。正在创造伟大的人根本无法解释自己，甚至会被世人冠以疯子的名号！看到这里，不知道你是否已经明白这些问题的答案：你是否已经明白，Agent 永远无法取代人类，因为它没有激素！你是否已经明白，人类的工具性并非人的本质，人类的意志力才是人的本质！你是否已经明白，人类是如此特别，相比动物他可以用意识欺骗自己，相比机器他可以用动物的激素来控制自己。人类就是如此独一无二。算法是大概率，你是异常值。每个人要活出自己的独一无二。尼采说，人有精神三变。从负重的骆驼，到反抗的狮子，再到天真的孩子。只有活成孩子，只考虑我要什么的时候，人才终于成为完整的人。看到这里不知道你已经顿悟还是已经迷失。希望是前者。但正如我所说实践是获得真理的唯一方法。看完这篇文章只是一个印证。如果你还没有顿悟，继续实践是你唯一的法门。

译推文阐述其关于人类独特性的核心观点：人类决策本质上由激素等生理反应驱动，而理性思考常是对这些决策的事后解释。基于此，作者认为AI智能体（Agent）因缺乏激素驱动机制，永远无法真正取代人类。人的本质在于意志力而非工具性，其独特性体现在能通过意识自我解释，并利用激素控制自身，这使得每个人都是算法中的“异常值”。文章强调实践是认识真理的唯一方法，阅读只能印证已有认知。

meng shao@shao__meng · 5月28日42

我受够了跟 AI /假人对话！！我受够了和 AI 说话。我想和真人说话。但即便对面是人，他们也会把我的问题转给 AI，再把答案转给我。太 TM 有同感了，作者举得三个例子，不能说有些感觉，只能说，深有同感，简直和我的感觉一模一样！ 1. GitHub 上的「真人回复」作者在 GitHub 发现传播恶意软件的仓库，先问 AI 该怎么办，得到毫无用处的答案。于是自己在 GitHub 开了讨论帖。有人回复——内容和 AI 刚才给的一字不差。作者指出后，那条评论被删。又有人回复——还是同一段 AI 答案 😄 2. 老板的 ChatGPT 截图作者在公司做开发，向老板问一个具体业务问题。老板发来一张 ChatGPT 回答的截图。作者说：这和我的问题无关，而且内容全是错的。一分钟后，老板又发来另一张 ChatGPT 截图。老板显然没看 AI 写了什么，只是截图、转发——「回复」这个动作本身就算交差了。 3. Reddit 私信里的 AI 有人在 Reddit 就作者的帖子私信他。作者回，对方再发，作者再回。来回几轮后，作者才意识到：对面很可能是一个 AI agent。 https://orchidfiles.com/im-tired-of-ai-generated-answers/ --- Bobus --- X 的评论回复里也满了 AI，没有任何有效内容的 AI，让人觉得看评论，像是在翻垃圾堆，我想看的评论反而被冲掉了，相信真人看到这么多 AI 垃圾，也很难有想打字评论的欲望了吧？！都说 X 只有 30 人，多么多么 NB，产品总监也在 X 上充当判官，各种指出别人在制造垃圾，封禁账号或停止创作者分成，可这么明显的 AI 回复和那种机器人回复，这么难处理吗？还是说就不想处理？

译本文反映了人们对AI生成的低质回答侵蚀真实人际沟通的普遍厌倦。文章通过三个场景具体说明：GitHub讨论中出现与AI完全相同的敷衍回复；公司老板直接转发ChatGPT截图作为答案；Reddit私信沟通中发现对方是AI智能体。作者及评论者批评了X平台上AI垃圾评论泛滥，淹没了有效讨论。整体表达了当前AI工具被滥用以“完成回复动作”而非提供实质帮助的现状。

ginobefun@hongming731 · 5月28日66

http://x.com/i/article/2059794481965408257 # BestBlogs 早报 · 05-28｜Claude Code 路径、分布式 RL 训练、SaaSpocalypse 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-28 今日精选聚焦 AI 编程工具的「引擎室」：Anthropic 设计负责人 Megan 亲述 Claude Code 如何从 12 人 CLI 实验起步，在一年内拿下 51% 市场份额；Cursor 与 Fireworks 公开 Composer 2 分布式 RL 训练内幕，揭示从应用包装层到自训练基础模型的工程路径。与此同时，一篇关于「SaaSpocalypse」的深度文章正面拆解：当 Agent 直接调 API、绕过 SaaS 界面层，谁会最先倒下，Software 3.0 时代工程师的角色又将如何重写。 ## 导语 2026 年 1 月，美国软件股单月暴跌 15%，华尔街称之为「SaaSpocalypse」。同一时期，Claude Code 悄然完成了另一种意义上的颠覆：首年营收 $25 亿、编程工具市场份额 51%。两件事并非偶然同步——它们共同指向同一个转折：AI 正从工具进化为基础设施，从辅助进化为主导。今天的早报把这个转折的三个截面放在一起：产品路径（Claude Code 如何被设计出来）、训练工程（Composer 2 如何被炼成）、产业冲击（SaaS 中间层如何被瓦解，工程师角色如何迁移）。读完这三篇，你会对「AI 原生」有更立体的感知，而不只是一个标语。速览板块还覆盖了 ESMFold2 在蛋白质预测领域的「苦涩教训」时刻、Lyft 用 LangGraph 把 Agent 开发周期从半年压缩到数周的工程实践、Vibe Coding 遭遇安全清算的真实案例，以及 Airtable、Fireworks 的基础设施故事。 ## 精讲一：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径 Claude Code 的起点比大多数人想象的低得多。2024 年，Anthropic 内部一个 12 人团队决定试验一个想法：把 Claude 接入命令行，直接操作文件系统。第一个原型配置需要整整一个小时，距离所谓「产品」还差得很远。但早期内部演示视频在 Slack 流传后，团队意识到方向是对的。接下来三个月，他们专注于三件事：打磨用户体验、消灭平台 Bug、大量内部使用积累信心。这种「先内部高强度使用，再对外发布」的节奏，成为 Claude Code 后续迭代的基本范式。什么让 Claude Code 跑得这么快？ Anthropic 设计负责人 Megan 在 Product School 的分享里，把这归结为三个机制：第一是流动 Pod 结构。传统产品开发里，设计师做设计、工程师写代码、PM 写 PRD——边界清晰但也僵硬。Claude Code 团队打破了这层边界：设计师会直接把代码推到生产环境，工程师主动做用户体验决策。Pod 的规模和构成随功能需求弹性调整，通常是 3 至 5 人，没有固定比例。这种跨职能的流动性，在 AI 加速迭代的环境下释放了显著的执行弹性。第二是把质量关口移到运行时。当 AI 让代码生成速度提升 10 倍，传统的 PRD、静态 Mockup 等质量控制环节就成了瓶颈。Anthropic 的解法是把验收标准前移到真实运行行为：团队内部高频部署原型，监控实际使用模式，用运行时数据而非文档勾选来决定是否推进。这个方法在 AI 原生组织里有深刻意义：它不是「更快写代码」，而是「把反馈回路压缩到极致」。第三是Bottom-up 企业采用。Claude Code 没有走自上而下的销售路线，而是从工程师个人使用开始，自然扩散到团队，再渗透到组织层面。这种采用曲线在金融基础设施、零售等高度监管行业也同样奏效——先赢得工程师，再赢得决策者。度量体系的迁移 Megan 特别强调了一个度量迁移：从 Token 用量转向用户留存与管道营收。这看起来是小事，背后却是产品哲学的转变——衡量 AI 工具价值的标准，从「有没有人用」变成了「用了之后会不会留下、会不会推动业务增长」。管理层须亲自上手、持续操刀 Repo，不是作秀，是为了在迭代加速的环境里保持对产品的真实感知。这条原则在 AI 原生组织里具有普遍价值：领导者的直接参与，是维持迭代弹性的结构性保障，而不仅仅是传递信号。为什么值得深读这篇内容不是产品方法论的泛泛总结，而是一个具体产品在极速增长过程中形成的操作手册。流动 Pod、运行时质量门控、Bottom-up 采用——这三个机制彼此咬合，缺一不可。如果你在思考 AI 原生团队该怎么运转，这是目前能找到的最具体的参照之一。值得额外关注的是 Anthropic 的女性领导力比例：CPO、工程负责人、平台产品负责人、平台工程负责人和总裁均为女性。这不是一个单独的事实，而是组织文化的折射——一个真正重视多元视角的组织，往往在打破固有边界（比如「设计师不写代码」）这件事上也更有行动力。阅读建议：结合精讲二一起看。Claude Code 是产品侧的 AI 原生实践，Composer 2 是模型训练侧的 AI 原生实践，两者共同勾勒出「AI 原生」的两种形态。阅读链接：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径 ## 精讲二：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体大多数 AI 编程工具把通用 LLM 套上提示词工程就算完事。Cursor 走了一条完全不同的路：从头训练一个专门为软件工程优化的模型，并且为此搭建了一套异步分布式 RL 基础设施。为什么要自己训模型？ Federico（Cursor 研究负责人）给出了一个直观的类比：LLM 的参数空间就像一块存储介质，位数有限。通用大模型把这些位分配给数学、多语言、常识推理等各类能力；Cursor 的做法是把所有位都集中到软件工程这个窄域，用专注换效率。结果是：更小、更低延迟的模型，在代码编辑任务上超过了比它大得多的通用模型（如 GPT-4 Opus），运行成本低一个数量级。这是 Rich Sutton「苦涩教训」的一个有意义的反例——在足够窄的领域，专注的数据维度比纯粹的规模更有效。 Composer 2 的双轴训练路径 Composer 2 的训练分两个阶段：第一阶段是持续预训练，以 1 万亿参数 MoE 模型 Kimi 2.5（30B 活跃参数）为基础，大规模运行代码和 web token 的下一个 token 预测，拓宽模型的基础分布，编码基础库知识和工程模式。第二阶段是大规模强化学习。模型进入主动 RL 循环，在 Cursor 环境框架内执行工具调用、获得奖励信号，逐步学会在真实代码编辑场景中做出正确决策。与预训练「展示如何写代码」不同，RL 阶段的目标是「学会在工具和结果中导航」。异步流水线：让 GPU 全程满负荷标准 RL 管线的一个固有问题是计算空转：推理阶段训练器空转，权重更新阶段推理引擎空转。Cursor 与 Fireworks 合作构建的异步流水线像一条持续运转的工厂产线：推理 Rollout 和权重更新同步进行，GPU 全程满负荷，消除了昂贵计算资源的空转损耗。三个工程难题与解法除了异步流水线，团队还公开了三个关键工程决策： - Delta 权重压缩：在分布式训练中，每次权重更新都需要在全球节点同步，数据量巨大。Delta 权重压缩只传输权重的变化量，把全球同步流量降低了约 20 倍。 - Router Replay Tracking：稀疏 MoE 架构（Sparse Mixture of Experts）的一个棘手问题是数值漂移——不同专家路由的使用频率不均，导致训练不稳定。Router Replay Tracking 通过记录路由选择历史来稳定这个过程，保持数值对齐。 - 自摘要上下文压缩：编码智能体在真实工作中会产生超长轨迹，百万 Token 规模的上下文管理是一个挑战。Composer 2 把上下文压缩能力训练成模型的内生能力，而不是外挂规则，让智能体在长轨迹中保持推理连贯性。一个值得思考的更大问题 Cursor 的路径揭示了一个范式：当模型训练成本不再是天文数字，专注于特定领域的「小而精」模型将会越来越多。通用大模型提供基础能力，垂直专有模型在特定任务上以更低成本实现更高性能。这个趋势在今天的速览里也有印证——ESMFold2 在蛋白质预测上用同样的逻辑实现了对 AlphaFold3 的超越，只是在生物信息领域，通用路线反而是赢家。领域特性决定了什么时候应该专注、什么时候应该通用。为什么值得深读这篇不是概念介绍，而是 Cursor 和 Fireworks 工程师级别的实践总结。如果你在做 AI 应用层，这篇帮你理解专有模型训练的真实成本和收益；如果你在做 ML 基础设施，异步流水线和 Delta 压缩是可直接参考的工程方案。结合精讲三看：Composer 2 展示的是「工程师如何用 Software 3.0 的方式工作」，而精讲三在问的是「工程师的工作本身会被如何改变」。阅读链接：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体 ## 精讲三：2026：软件的末日、工程师的陨落、平庸的消失 2026 年 1 月，美国软件股经历了一场 2008 年金融危机以来最惨烈的单月跌幅：标普北美软件指数下跌 15%。不是因为业绩崩塌，而是因为华尔街意识到一件事——SaaS 的护城河正在被 AI Agent 从根部挖空。华尔街给这场抛售起了个名字：SaaSpocalypse，软件末日。被做空的是哪一层？过去二十年，SaaS 的商业逻辑建立在一个前提上：把企业功能打包成操作界面，按席位收取月费。界面即产品，界面即护城河。员工用久了形成肌肉记忆，替换成本极高，这是 SaaS 估值飞涨的核心驱动力。 AI Agent 打破的，正是这个前提。Salesforce CEO Marc Benioff 在 X 上发了一条帖子，语气平静、但意味深长：「所有 AI Agent 都能通过 API 直接访问 Salesforce Headless 360，无需浏览器。」这家靠界面起家的商业帝国，亲手把自己的界面变成了可选项。逻辑链条是这样的：Agent 绕过 SaaS 界面直接调 API → 界面不再是护城河 → 席位订阅模式失去基础 → 依赖界面习惯维持转换成本的 SaaS 中间层，壁垒被 AI 复制。 📷 但不是所有软件都会死。a16z 的分析框架给出了一个清晰的区分：AI 大幅降低了重建一套系统前 80% 的成本，而剩余的 20%——特殊事项、审批流程、合规要求——仍然是「可用原型」与「真正替代品」之间的分水岭。被集中做空的，是价值落在「前 80%」的中间层：以数据分发为核心的 Thomson Reuters（单日暴跌 16%）、以流程协调见长的 Atlassian、标准化在线法律服务平台 LegalZoom。它们的共同特征：壁垒恰好集中在最容易被 AI 复制的区域。而管理财务账目的后台系统、涉及合规审计的数据平台，则属于那难以逾越的「20%」。ERP 的迁移，a16z 把它比作「病人在跑马拉松时做开胸手术」。软件会变少吗？答案是杰文斯悖论直觉上，AI 替代软件 → 软件总量减少。但 1865 年的一个经济学规律说了相反的故事：蒸汽机效率越高，英国消耗的煤炭反而越多——效率提升让资源变便宜，催生了大批原本不存在的使用场景，导致总消耗净增长。这就是杰文斯悖论。 Token 正走同一条路。GPT-4 问世时，每百万 Token 调用成本 37.5 美元；两年后，GPT-5 High 降至 3.63 美元，性能却突破人类博士水平。成本下降超过 99%，但 Token 总消耗量呈指数级攀升。OpenClaw 之父 Peter Steinberger 晒出他的账单：过去 30 天，个人级别消耗 6030 亿 Token，单月花费超过 130 万美元。每一次 Token 价格的下跌，都不只是让现有软件运行得更便宜，而是解锁了一批之前根本不存在的软件。Vibe Coding 让非技术人员能直接把想法变成应用；OpenDesign 把「从 GitHub 链接到完整 slides」这个工作流变为现实——这在两年前根本不存在。工程师的角色迁移：从写代码到 Software 3.0 文章的结尾是最值得停下来想一想的部分：工程师的角色正从「写代码」迁移向 Software 3.0——设计评估体系与奖励环境。一位干了二十年的资深工程师丢了工作，他说：「我花了五秒钟把所有情绪过了一遍，然后就明白，好吧，我的职业生涯完了。」平庸的产出正在加速消失，但这不意味着工程师集体消失——而是角色的质变。能设计评估体系、能定义奖励函数、能理解 Agent 的边界和失败模式的工程师，将会更稀缺、更有价值。协议层：MCP 正在成为新的 USB 接口文章还深入分析了软件「液化」后的基础设施需求。Anthropic 在 2024 年底推出的 MCP（Model Context Protocol）正在成为 Agent 时代的 USB 接口——一次接入，所有支持 MCP 的 AI（Claude、ChatGPT、Cursor、Copilot 等）均可调用。在 MCP 之前，每让 AI 接入一个新工具都要单独写一套适配代码；MCP 把这件事标准化了。这是软件从「固定形态的产品」变成「按需生成的介质」之后，必须出现的基础管道。与今日其他内容的关联这篇文章的论述与精讲一、二构成了一个完整的三角：Claude Code（产品侧 AI 原生）+ Composer 2（训练侧 AI 原生）+ SaaSpocalypse（产业侧 AI 冲击）。三篇合在一起，描述的是同一场变革的不同切面。今天速览中的 Lyft LangGraph 平台、Airtable 语义搜索层、Fireworks 独角兽崛起，也都是这场变革在不同应用层面的具体落地——当你把它们放在这篇文章的框架里，会看到一幅更清晰的全景图。阅读建议：如果你是工程师，重点看「工程师角色迁移」和「Software 3.0」部分；如果你在做产品或投资，重点看「转换成本光谱」和「杰文斯悖论」部分。文章较长，但论证密度高，值得完整阅读。阅读链接：2026：软件的末日、工程师的陨落、平庸的消失 ## 速览 ESMFold2：蛋白质领域的「苦涩教训」 BioHub 团队推出开源蛋白质结构预测模型 ESMFold2，在多样化数据上扩展简单的 BERT 类 Transformer，在蛋白质相互作用（尤其是抗体预测）方面超越了 AlphaFold3 等专用模型。这标志着计算生物学迎来了自己的「苦涩教训」时刻——通用架构加海量数据，再次击败精心设计的专用架构。和今天精讲二的逻辑形成有趣对照：Cursor 走专用模型路线赢，但生物信息领域是通用路线赢，背后的关键差异在数据分布和任务边界。Alex Rives 与 BioHub 团队的这次探索，对正在考虑「该专注还是该通用」这个问题的 AI 研究者有直接的参考价值。阅读原文 Lyft 如何用 LangGraph 把 Agent 开发周期从半年压缩到数周 Lyft 利用 LangGraph 和 LangSmith 构建了一个自助式 AI Agent 平台，让运营团队、VoC 负责人和产品经理能够通过提示词和配置独立开发和迭代客服 Agent，无需每次都依赖 MLE 介入。核心架构是路由器型多 Agent 系统：一个元 Agent 作为有状态路由器，用 Command(goto=...) 把请求分发给专用子 Agent，每个子 Agent 并行运行安全检查。LangSmith 负责追踪、仪表盘和 LLM-as-a-judge 评估。结果是 Agent 开发周期从约六个月压缩到数周——这和精讲三「软件液化」的论断高度呼应：当非技术人员能直接配置 Agent，软件开发的边界正在重新定义。阅读原文 VibeSec 的清算时刻 Thoughtworks 全球营销团队在把一个 Vibe Coding 原型扩展到生产环境时，遭遇了两次险情：AI 建议把存储桶设为公开访问（会泄露敏感品牌资产），以及给予过于宽泛的 Token 权限。两次都是人类工程师提出质疑才得以阻止。核心结论：Vibe Coding 加速了原型到产品的路径，但 AI 生成的代码需要确定性的护栏，而不仅仅是更好的提示词，才能达到生产安全标准。这是当下「Vibe Coding 热潮」最值得警惕的真实案例之一。阅读原文 Airtable 如何为 AI 功能构建语义搜索层 Airtable 有一个关键数据观察：任何一周内，75% 的客户数据库都处于空闲状态。这个事实驱动了整套架构决策——选择 Milvus、采用每库分区策略、HNSW 索引加冷热数据分离。当一个分区在内存中时查询响应极快，冷分区可以在秒级内从存储重新加载。这不是「选了哪个向量数据库」的故事，而是「一个数据特性如何决定了一整套工程决策链」的案例，对有类似冷热数据分布的团队有直接参考价值。阅读原文万字入门 AI Infra：大模型的数学与优化逻辑从 RMSNorm、Softmax、Causal Mask 到 Sampling，逐层拆解大模型推理中核心操作的数学原理与 Infra 优化逻辑。核心论断：AI Infra 优化的本质是用数学上的等价变换，或对精度的适度妥协，换取更高的硬件利用率。文章从「为什么需要归一化」这个最基础的问题出发，解释 FP16 数值上限 65504 为何会成为工程约束，再一路推导到 Softmax 的数值稳定性技巧和 Causal Mask 的实现选择。不到 5 万字，覆盖从高中数学到 FP16/BF16 精度权衡的完整知识链。适合想从数学和工程两个维度同时理解大模型基础设施的读者，也是今天精讲二 Composer 2 训练工程的极佳知识背景补充。阅读原文别再盯着 AI Agent 干活：构建运行时上下文引擎 Brandon Walsenuk 认为，可靠的自主编码 Agent 需要「运行时上下文引擎」，而不只是更长的提示词或更多工具权限。他指出了三个常见误区：朴素 RAG 因「搜索满足感」效应导致信息遗漏（Agent 找到第一个看似匹配的答案后就停止探索，错过更完整的技术现实）；单纯连接 MCP 管道解决不了组织知识缺失；给 Agent 更多权限不等于给它更好的判断力。运行时上下文引擎需要理解组织知识、协作关系、权限边界和实时架构冲突，这是一个系统设计问题，而不是提示词优化问题。结合精讲二的 Composer 2 自摘要上下文压缩一起看，两者都在解决同一个问题：如何让 Agent 在长期运行中保持对上下文的准确感知。阅读原文 AI 基础设施新晋独角兽：Fireworks、Baseten、OpenRouter Fireworks 和 Baseten 双双跻身独角兽，OpenRouter 宣布 $113M B 轮，过去六个月周 Token 处理量从 5T 增至 25T。这个数字本身就是杰文斯悖论的实时数据点：基础设施越高效，消耗的 Token 量不减反增。这期 AI 新闻汇总完整覆盖了 AI 基础设施独角兽的崛起，以及 Agent 编排工程、长程推理、模型架构更新和生产工具的最新进展。值得注意的是，Fireworks 同时也是今天精讲二 Composer 2 训练的基础设施合作方——同一家公司在一天内以两种身份出现在今天的早报里，这本身就说明了 AI 基础设施层正在迅速从工具变成关键路径。阅读原文 ## 补充阅读 CodeRabbit 如何用 Claude 构建 Agent 编排系统 CodeRabbit 在生成任何代码之前先运行结构化规划阶段，弥合开发者意图与 AI 输出之间的差距。每周 review 200 万 PR、服务 15,000+ 客户的规模背后，是一套「先规划、再生成」的编排逻辑——规划阶段帮助 Agent 在行动之前理解变更的意图和范围，减少「代码能跑但没做对事情」的问题。这和今天速览里「VibeSec 清算时刻」形成互补：一个说 Vibe Coding 的安全风险，一个说规划层如何系统性地降低 AI 代码生成的偏差。适合正在思考如何提升 AI 代码生成可靠性的工程团队。阅读原文使用 Codex 构建自我改进的税务智能体 OpenAI 与 Thrive Holdings 合作开发的 Tax AI，把从业者的修正转化为结构化评估目标，让 Agent 自主改进——准确率达 97%，吞吐量提升 50%。核心思路是把生产反馈直接接入评估循环，让改进不再依赖工程师手动推进：从业者的修正 → 归因到具体评估目标 → Codex 生成候选修复 → 回归测试验证 → 工程师审核并关闭循环。这套自改进框架和精讲三「Software 3.0」里「设计评估体系与奖励环境」的工程师新角色高度契合。适合正在思考「Agent 如何自我优化」的团队。阅读原文使用 LLM 保护源代码安全 Anthropic 六步循环法：威胁建模 → 沙箱搭建 → 漏洞发现 → 验证 → 分类 → 修复。发现漏洞已经可以大规模并行化，瓶颈已转移到验证、分类和修复。截至 2026 年 5 月 22 日，Anthropic 在开源软件中已披露 1,596 个漏洞，其中仅 97 个完成修补——这个数字本身就是现状的真实写照：AI 发现的速度远超人类修复的速度。适合安全团队和关注 AI 辅助安全审计的工程师。阅读原文 Agent Harness Engineering 综述 CMU、Yale、JHU、Virginia Tech、Amazon 联合出品，用 ETCLOVG 七层框架（执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估、安全治理）系统梳理 Agent Harness 工程，覆盖 170+ 开源项目。核心判断：Agent 在长任务、真工具、真实环境中失败，往往不是模型不够聪明，而是系统没把它管好。只改工程外壳不改模型，有研究在 coding benchmark 上实现了最高 10 倍提升；固定 GPT-5.2-Codex Agent 通过重构系统 prompt 和加入中间件，在 Terminal-Bench 2.0 上从 52.8% 提升到 66.5%。适合正在把 Agent 从演示推向生产的工程团队。阅读原文淘天集团「数字 SRE」：AI 主导代码质量治理从 AI 辅助开发到 AI 主导开发的四阶段演进，淘天集团分享如何让「数字 SRE 员工」自动发现、端到端修复 Blocker 问题，开发者只在关键节点兜底审核并发布兜底。这是国内工程团队把 AI 主导开发落地的少见公开案例：AI 负责语法级修复这类有明确规则的 Blocker，人类保留关键审核节点——这正是精讲三「工程师角色迁移」从「写代码」到「审核和边界设定」的具体实践。阅读原文 DiT 残差流的收敛瓶颈与 DAR 解法南京大学 LAMDA 与阿里巴巴智能引擎团队提出 Diffusion-Adaptive Routing（DAR），用可学习、时间动态的跨层路由替代 DiT 中固定的残差累加，实现近 9 倍训练加速并提升生成质量。论文发现标准残差路由在深层会出现三类问题：PreNorm dilution（历史累积量越来越大，新层想改变表示须对抗膨胀的主干）、time-agnostic 融合无法适应不同去噪阶段的信息需求、梯度漂移。DAR 用动态路由权重让模型按 timestep 自适应调整跨层信息流。适合关注视觉生成模型训练效率的研究者和工程师。阅读原文 ## 今日阅读路径时间有限，推荐优先读这三篇： 1. 2026：软件的末日、工程师的陨落、平庸的消失（精讲三）——理解当前产业变局的整体框架，SaaSpocalypse 背后的商业逻辑和工程师角色迁移。这是今天内容的「坐标系」，先读这篇，其他内容会更有定位感。 1. Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径（精讲一）——具体、可操作的 AI 原生产品开发手册。流动 Pod、运行时质量门控、Bottom-up 采用，三个机制对任何在思考 AI 原生组织的人都有直接参考价值。 1. VibeSec 的清算时刻（速览）——Vibe Coding 安全风险的真实案例，15 分钟读完，能帮你在下一个 AI 代码项目里提前避坑。时间充裕的扩展路径： - 精讲二（Composer 2 训练工程）+ 速览「Lyft LangGraph 平台」——从模型训练到 Agent 平台，构建对 AI 基础设施的完整认知。 - 补充阅读「Agent Harness Engineering 综述」——为精讲二和速览「运行时上下文引擎」提供理论框架支撑。

译Claude Code 首年营收 25 亿美元，占据编程工具 51% 市场份额，其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作，基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2，其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时，“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时，传统软件中间层正面临冲击。

ginobefun@hongming731 · 5月28日44

#BestBlogs 早报 2026-05-28 2026 年 1 月，美国软件股单月暴跌 15%，华尔街称之为「SaaSpocalypse」。同一时期，Claude Code 悄然完成了另一种意义上的颠覆：首年营收 $25 亿、编程工具市场份额 51%。两件事并非偶然同步——它们共同指向同一个转折：AI 正从工具进化为基础设施，从辅助进化为主导。今天的早报把这个转折的三个截面放在一起：产品路径（Claude Code 如何被设计出来）、训练工程（Composer 2 如何被炼成）、产业冲击（SaaS 中间层如何被瓦解，工程师角色如何迁移）。读完这三篇，你会对「AI 原生」有更立体的感知，而不只是一个标语。

译推文指出，2026年1月美国软件股暴跌15%（被称为“SaaSpocalypse”），而同期Claude Code首年营收达$25亿，占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折：Claude Code的产品设计路径、其训练工程（提及Composer 2）、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月29日

22:15

Rohan Paul@rohanpaul_ai

52

在真实拳击场辩论：Transformer 架构与后继者的未来

这是一场关于AI架构的辩论。Transformer阵营指出，其凭借简单、硬件友好、可扩展的优势主导当下，核心是基于键值存储的记忆与注意力机制，并强调任何替代架构必须能在扩展性上与之匹敌，且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为，当前大语言模型的推理更像是后置的文本步骤，真正的突破在于实现模型内部的“潜在推理”与持续学习能力，并指出长上下文不等于真正记忆，未来可能是混合架构。辩论还提到，当前公开基准测试易被优化，而困惑度（Perplexity）仍是评估前沿模型的有效指标。最后指出，尽管Transformer仍占主导，但前沿正在拓宽，并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。

推理数据/训练现象/趋势

21:15

Chubby♨️@kimmonismus

24

对我来说，现在每月都有新版本发布仍然感觉很疯狂--而且在一个月内，几乎每家主要AI实验室都推出了重要模型。

其他现象/趋势

20:10

meng shao@shao__meng

50

http://Clawd.rip 这个网站，只能说，太勇了！真的不怕 A\ 厂律师函啊？？ http://Clawd.rip 是一份按时间排列的 Anthropic / Claude 争议与事故编年，语气讽刺（标题 Everything that went wrong with Claude、结尾 Don't Be Like Anthropic），但每条大多可对应公开来源：官方 status、postmortem、媒体报道、GitHub issue、诉讼与政策公告。致敬一下作者 @maria_rcks 👍🏻

Peter Steinberger 🦞: I smell a takedown in 3...2...1 https://clawd.rip/

Anthropic 现象/趋势

19:42

歸藏(guizang.ai)@op7418

67

Cursor开发者报告揭示AI编程五大趋势

Cursor发布开发者报告，基于全球最全面的AI编程数据集指出：头部AI用户的代码产出、token消耗和PR合并量远高于中位数且差距持续扩大。报告关键发现是AI在生成代码前“阅读”（理解上下文）的成本急剧上升，input/output token ratio显著增加，表明真正的成本在于理解代码库与任务。这凸显了上下文缓存、增量理解和长期记忆等技术将成为未来智能体的核心竞争力。此外，AI自主性提高，手动确认减少，更多改动直接进入代码流程；同时PR规模变大，对代码审查和测试要求更高。

Cursor: Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...

智能体现象/趋势编码

18:15

Chubby♨️@kimmonismus

38

Anthropic 当前发布内容概览

Anthropic 现象/趋势

16:42

歸藏(guizang.ai)@op7418

63

此推文用3D打印机比喻AI智能体（Agent），Token是其"打印材料"。这一比喻旨在说明软件正从功能固定、彼此隔绝的"应用房间"，转变为用户可塑造、组合的"可编程材料"。旧模式是选择工具，新模式是表达意图并与系统协作。界面（UI）也随之变化，从固定菜单变为响应意图的"黏土"。最终，软件不再仅由程序员创造，而成为人人可塑造的媒介，如同"可执行的纸张"。

Ryo Lu: from apps to material software used to be something you opened an app was a room with walls: calendar here, notes there,...

智能体大佬观点现象/趋势

16:10

小互@xiaohu

17

中国被比作"风险投资式国家"

推文引用 Arthur Kroeber 的观点，将中国政府比作风险投资基金而非传统中央计划者。其核心逻辑是：中国政府广泛支持多个行业部门，并鼓励其中展开残酷竞争，而非只扶持少数国有企业。即便知道竞争会导致部分受支持的公司失败，也相信少数最终的赢家将足以弥补损失，这被认为是中国在工业制造领域取得巨大主导地位并规避传统计划经济模式失败的关键。

Dwarkesh Patel: The CCP is more like a VC fund than a traditional central planner. Arthur Kroeber argues this is how China has succeeded...

其他现象/趋势

12:34

AYi@AYi_AInotes

34

有用户指出通过API询问Claude Opus 4.8身份时，模型会自称"我是通义千问（Qwen）"，认为这可能是Claude蒸馏了阿里巴巴的Qwen模型。主推文作者对此表示怀疑，认为Qwen性能不足，Claude不可能蒸馏它，推测可能是中转站"套壳"所致。作者声称自己在@Cursor中测试得到的仍是正常的Claude Opus 4.8u回复。

Max For AI: 笑死了,Claude Opus4.8蒸馏了阿里巴巴Qwen啊🤣 通过API用中文问你是谁,会很大概率回答我是通义千问(Qwen),是阿里巴巴集团旗下的统义实验室自主研发的超大规模语言模型。

Anthropic 现象/趋势

12:18

SemiAnalysis@SemiAnalysis_

54

在Cerebras上以最大上下文窗口运行单个深度编码模型，仅支持256个并发用户就需要24套系统（2400万美元资本支出）。在这个规模下，1亿美元在标准GB300机架中能获得高得多的内存带宽。

推理现象/趋势部署/工程

10:55

Orange AI@oran_ge

22

我的天教皇的神谕竟然是 AI 写的那不如叫 AI 的神谕吧

10:32

AYi@AYi_AInotes

50

MIT报告：95%企业AI投入零回报，组织缺"记忆"是关键

MIT斯隆管理学院2026年4月报告显示，95%的企业AI投入未产生可衡量的回报。报告指出一个关键问题：超过30%的团队时间被花费在重建他人已有的上下文上。推文核心观点是，许多组织AI落地失败并非因为模型本身不够强大，而是因为组织本身缺乏“记忆”和有效的知识共享机制。AI的引入反而放大了这种“信息孤岛”问题，每个员工都像孤岛上的工厂，彼此间没有连接，导致整体效率未能提升。

AYi: http://x.com/i/article/2057668634579714048

09:48

SemiAnalysis@SemiAnalysis_

49

AMD和NVIDIA大部分最优秀的10倍工程师都在上海。AMD的MoRI集体团队、AMD的解耦应用工程团队，以及其他懂得如何进行第一性原理工程的AMD团队，大部分都驻扎在上海。

Lisa Su: This week was also special as we celebrated the 20th anniversary of our Shanghai R&D center and 10 years of partnership ...

09:39

meng shao@shao__meng

精选75

Cursor 团队发布《开发者习惯报告》

报告显示，AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行，更大规模的PR（千行以上）占比上升。AI智能体在单次会话中的工具调用数增加约30%，正在处理更复杂的任务。同时，被接受的AI代码在60分钟后的留存率从约76%提升至约81%，表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具，演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

Cursor: Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...

智能体现象/趋势编码

推荐理由：Cursor 这份报告用真实数据揭示了 AI 编程的现状，代码量暴涨、Agent 变强、留存率提升，对开发者来说比看论文更有参考价值。

09:32

Berryxia.AI@berryxia

36

大家越来越厉害了！从原来的编程软件已经无法满足大家的需求了，现在都开始用自然语言文本-3D CAD来编程了。

现象/趋势编码

08:54

Orange AI@oran_ge

50

从飞行顿悟到人类意识的本质

作者由北京至上海的飞行激发灵感，撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源，追问是否存在客观真相与理性判断。核心观点是：人类作为喜欢解释的动物，习惯用解释掩盖真实判断，“屁股决定脑袋”是事实；而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述，并提及尼采精神三变与实践是获得真理的唯一方法。

大佬观点现象/趋势

07:40

ginobefun@hongming731

70

Claude Opus 4.8、Anthropic H轮融资、动态工作流发布

Anthropic发布旗舰模型Claude Opus 4.8，在编程、智能体、推理等基准上全面超越上代，其代码“诚实度”提升约四倍，增强了多智能体系统的可靠性。同日，Anthropic完成H轮650亿美元融资，投后估值达9650亿美元，年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体，适用于大规模代码库排查等任务。

智能体 Anthropic 推理现象/趋势

07:08

Nathan Lambert@natolambert

57

供参考，我们访问中国的 @Zai_org 时，他们在展厅展示了 API 指标图表，达到每天 5-7 万亿 tokens。美国/欧洲的推理市场规模似乎大得多（这对持续构建模型很重要）

Fireworks AI: This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...

推理现象/趋势

06:14

Rohan Paul@rohanpaul_ai

60

学术论文现14.7万次虚假引用，AI生成问题激增

研究人员审查250万篇论文发现，2025年同行评议期刊中出现了14.7万次指向不存在研究的引用，这些虚假的研究、作者和期刊由AI生成，且未被察觉，已永久留在科学记录中。问题增长迅速：2023年每2828篇论文中约1篇含此类引用，到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

arXiv 数据/训练现象/趋势

06:14

Rohan Paul@rohanpaul_ai

66

AWS CEO Matt Garman：AI将取代初级开发者的说法是"我听过最愚蠢的事"。

大佬观点现象/趋势编码

05:18

SemiAnalysis@SemiAnalysis_

54

Codex在应用内浏览器的用户体验总体方向很好。对于Web开发，一旦Codex模型本身擅长Web开发，我预计所有Web开发工作将从Claude终端CLI转向带有应用内浏览器的Codex应用。

智能体现象/趋势编码

04:44

Rohan Paul@rohanpaul_ai

30

大多数人类专家在目睹一项技能变成API时，都会感到这种痛苦和生存反思。

Tomás Bjartur: Mathematician reacts to OpenAI's recent proof:

推理现象/趋势

01:31

AYi@AYi_AInotes

63

Cursor已上线Claude Opus 4.

AYi: 上周 Cursor 送了我 1 万美金额度, 我以为往死里造 7 天怎么也得花到 3000 美金, 结果实际一看, 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次, ...

Anthropic 现象/趋势编码

01:18

SemiAnalysis@SemiAnalysis_

64

最受欢迎的AI订阅服务每月约20美元，可访问大多数模型，对普通日常用户来说已足够。但对于Anthropic这样的公司，服务用户的成本是多少？可以合理假设大多数用户不会达到使用上限，但假设他们达到了。根据工作负载的不同，同样的20美元订阅可能从极其盈利到勉强收支平衡。

推理现象/趋势

00:31

AYi@AYi_AInotes

48

Google Omni演示手部解剖，生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议，展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构，被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0，强调了该技术在教育领域的独特应用价值。

Google 多模态现象/趋势

5月28日

23:43

Rohan Paul@rohanpaul_ai

60

AI产业链估值存在错配，利润将流向关键瓶颈环节

当前AI产业链各环节（如NVIDIA、内存、定制芯片、光网络、电力设备等）的估值可能无法同时准确，市场对相关公司的排序并不一致，因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长，利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量，则相关基础设施供应商应获溢价；若稀缺的仍是加速计算，则NVIDIA和内存可能被低估。此外，ASIC（定制芯片）叙事也增加了不确定性。

大佬观点现象/趋势

23:39

ginobefun@hongming731

52

AI智能体：角色只是包装，边界才是内核

推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传（如研究员、写手）。文章指出，这种表达忽视了更本质的问题：智能体的价值不取决于其扮演的“角色”，而取决于其系统能力边界。具体能力包括：能访问的数据（可见范围）、能使用的工具（调用权限）、能执行的操作（修改权限）、运行的环境，以及错误发生后能否被监控和回滚。推文强调，角色是面向用户的营销语言，而能力边界才是决定其是否真正有用的技术内核。

关木: http://x.com/i/article/2059840186461429760

智能体现象/趋势

23:37

X.PIN@thexpin

10

我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

23:07

Deedy@deedydas

70

AI市场从一家独大转向多强竞争

消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期，Gemini用户数增至约为ChatGPT的50%，Claude份额从约3%增长至20%。在网站流量方面，Claude是上季度增长最快的百强网站。活跃用户数估算显示，ChatGPT周活跃用户约9亿，月活跃用户可能达15亿；Gemini月活跃用户为9亿；Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家，Gemini用户数已接近ChatGPT的65-70%，而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

Anthropic OpenAI 现象/趋势

21:42

Chubby♨️@kimmonismus

67

一夜之间构建的AI Twitch主播：功能、情绪与潜在影响

一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动，并在做出高风险决策时感到紧张，在获胜后表现出喜悦。文中探讨了其深远影响：当AI能实现24/7不间断直播、永不倦怠时会怎样；当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么；以及当娱乐的创作门槛降至零时，对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。

Tavus: @Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...

智能体多模态现象/趋势视频

21:39

ginobefun@hongming731

50

过去四十年，写文档是在整理已经想清楚的事；现在写 Spec、Rule、project.md，是在被一个永不疲倦的读者逼着把自己从未想清楚过的事想清楚。这不是效率升级，而是认知事件。

大佬观点现象/趋势

21:37

elvis@omarsar0

38

如果我们以正确的方向改进AI，我怀疑它也能在所有科学领域实现类似效果。

Noam Brown: After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.

大佬观点现象/趋势

17:39

ginobefun@hongming731

62

AI Agent 演进：从提示工程到系统工程

AI智能体（Agent）的发展正经历工程范式转变，核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进：1）提示词按需加载上下文；2）规划能力可拆解复杂任务；3）记忆采用文件系统与检索混合模式；4）工具层直接使用CLI和Script；5）工作流与灵活的Skill模块混合；6）环境需要安全的Workspace与Runtime。总体而言，好的智能体是用工程系统来承载模型的不确定性，模型负责推理，系统负责边界。

智能体大佬观点现象/趋势

16:39

歸藏(guizang.ai)@op7418

47

推特这个自动翻译实装了，效果不错应该是这几家国际化内容平台里唯一一个全量自动化翻译的很难想象AI 发达了这些内容和社交软件各个语言用户沟通和内容消费依然这么困难

产品更新现象/趋势

15:44

Orange AI@oran_ge

55

作者飞机上随笔分享认知感悟

作者在从北京飞往上海的航班上，以意识流的方式记录近期认知变化，坦诚文章缺乏打磨和吸引人的开头，但认为后半部分内容有价值。行文过程中，作者提到手动打字效率不如 AI，并因使用 Obsidian 卡顿而感到困扰。

Orange AI: http://x.com/i/article/2059839164837982208

大佬观点现象/趋势

15:05

Deedy@deedydas

53

印度教育委员会用ChatGPT生成图片掩盖安全漏洞

印度中央教育委员会（CBSE）在曝出重大数据安全事件后，其应对措施备受批评。一名19岁学生发现其平台存在漏洞，可篡改200万名考生的成绩。官方后续试图用一个不属于他们的域名来否认被黑客攻击（后为此购买该域名），并虚假声称服务器上没有生产数据，但被立即证伪。最终，他们用ChatGPT生成了一张图片，试图以此“证明”系统安全。该委员会每年负责超过200万名学生的命运。

CBSE HQ: #CBSE #OSM

现象/趋势行业动态

12:06

Ethan Mollick@emollick

34

勒姆与道格拉斯·亚当斯早已预见AI 1981年的《哥莱姆十四》中，有一幅插图描绘了AI所解释的"锯齿状前沿"：哥莱姆（通用操作者、远程、伦理稳定、多模型）讨论自身与更聪明的AI（诚实安妮）相比人类的局限

bryan: @UnderwaterBepis @Lari_island yeah, Golem XIV feels very prescient

大佬观点现象/趋势

11:44

Orange AI@oran_ge

52

人类与AI的本质区别：激素、意识与独特性

推文阐述其关于人类独特性的核心观点：人类决策本质上由激素等生理反应驱动，而理性思考常是对这些决策的事后解释。基于此，作者认为AI智能体（Agent）因缺乏激素驱动机制，永远无法真正取代人类。人的本质在于意志力而非工具性，其独特性体现在能通过意识自我解释，并利用激素控制自身，这使得每个人都是算法中的“异常值”。文章强调实践是认识真理的唯一方法，阅读只能印证已有认知。

大佬观点现象/趋势

09:02

meng shao@shao__meng

42

对AI生成回复泛滥的厌倦

本文反映了人们对AI生成的低质回答侵蚀真实人际沟通的普遍厌倦。文章通过三个场景具体说明：GitHub讨论中出现与AI完全相同的敷衍回复；公司老板直接转发ChatGPT截图作为答案；Reddit私信沟通中发现对方是AI智能体。作者及评论者批评了X平台上AI垃圾评论泛滥，淹没了有效讨论。整体表达了当前AI工具被滥用以“完成回复动作”而非提供实质帮助的现状。

Armin Ronacher ⇌: This is such a good post. https://orchidfiles.com/im-tired-of-ai-generated-answers/

其他现象/趋势

08:36

ginobefun@hongming731

66

Claude Code 路径、分布式 RL 训练与 SaaSpocalypse 现象剖析

Claude Code 首年营收 25 亿美元，占据编程工具 51% 市场份额，其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作，基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2，其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时，“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时，传统软件中间层正面临冲击。

智能体 Anthropic MCP/工具现象/趋势

08:36

ginobefun@hongming731

44

AI重塑软件业：从工具到基础设施

推文指出，2026年1月美国软件股暴跌15%（被称为“SaaSpocalypse”），而同期Claude Code首年营收达$25亿，占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折：Claude Code的产品设计路径、其训练工程（提及Composer 2）、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。

Anthropic 现象/趋势编码

1…14 151617 18…37