AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1912 条
全部一手资讯X论文
标签「Anthropic」清除
Chubby♨️@kimmonismus · 5月25日16

Hold on, so Anthropic now has the cathloic church and god on their side as well? I thought Andrej Karpathy was already the highlight.

译等等,所以Anthropic现在还有天主教会和上帝站在他们那边了?我以为Andrej Karpathy已经是最大亮点了。

Chubby♨️@kimmonismus · 5月25日65

Anthropic just passed OpenAI in business adoption for the first time, 34.4% vs 32.3%, per Ramp's latest AI Index. But the same report that announces this spends most of its word count explaining why it probably won't last. Uber already blew through its entire 2026 AI budget. A recent model update triples the cost of any prompt that includes an image. Meanwhile the fastest-growing AI vendors on Ramp's platform right now? Inference platforms selling access to cheap open-source models. Anthropic is winning the adoption race at the exact moment their product is getting more expensive to use. Thats actually the interesting part behind this story tbh.

译Ramp最新AI报告显示,Anthropic的企业采用率达34.4%,首次超过OpenAI的32.3%。但报告同时指出这一优势可能无法持续:Uber已提前耗尽其2026年全部AI预算,且Anthropic近期一次模型更新导致包含图像的提示成本增至三倍。目前Ramp平台上增长最快的AI供应商,是销售廉价开源模型访问权限的推理平台。

Rohan Paul@rohanpaul_ai · 5月25日67

"There is a "real possibility that AI will displace human labor at a very large scale.... We find internal states that functionally mirror joy, satisfaction, fear, grief, and unease. I don't know what that means, but I think it warrants ongoing discernment." ~ Anthropic co-founder Christopher Olah At Vatican event (Pope Leo XIV's presentation held today in the Synod Hall). ---- From "Associated Press" YouTube channel, (link in comment)

译“AI大规模取代人类劳动力是‘真实的可能性’……我们发现了在功能上反映喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道这意味着什么,但我认为这值得持续审视。” ~ Anthropic联合创始人Christopher Olah 在梵蒂冈活动中(教皇利奥十四世今日在主教会议厅的演讲)。 ---- 来自“美联社”YouTube频道,(链接在评论区)

Chubby♨️@kimmonismus · 5月25日64

Anthropic co-founder Dario Amodei has been saying this for over a year now. And he keeps saying it. Louder each time. In May 2025, he told Axios that AI could eliminate 50% of all entry-level white-collar jobs within five years and push unemployment to 10-20%. In January 2026, he published a 20,000-word essay calling AI “a general labor substitute for humans” that will cause “unusually painful” disruption. At Davos, he warned of a “zeroth world country” forming in Silicon Valley, decoupled from the rest of society, running at 50% GDP growth while everyone else faces mass joblessness. In his own words: “We, as the producers of this technology, have a duty and an obligation to be honest about what is coming.” And the data is starting to back him up. Tech entry-level hiring dropped 30-50% in 2025. Wall Street banks are cutting ~200,000 roles concentrated at the junior level. S&P 500 companies shed employees in net terms for the first time since 2016. Anthropic’s own labor market research confirmed that 77% of businesses use Claude to automate tasks, not to augment workers. Now another Anthropic co-founder is echoing the same message: “There is a real possibility that AI will displace human labor at a very large scale. Supporting those people will be a moral imperative of historic proportions.” This is no longer a warning from the sidelines. This is the company building the technology telling you, repeatedly, that the disruption is real, it’s fast, and society is not ready for it. https://x.com/disclosetv/status/2058859889619763654/video/1

译Anthropic联合创始人Dario Amodei持续警告AI对就业的冲击。他曾在2025年预测,AI可能在五年内消除50%的入门级白领工作,将失业率推高至10-20%。他后来称AI是“通用劳动替代品”,将造成“异常痛苦”的颠覆,并在达沃斯警告可能出现与社会脱节、GDP增长50%的“零世界国家”。当前数据显示趋势印证其警告:2025年科技业入门级招聘下降30-50%,华尔街银行裁减约20万个初级岗位。Anthropic自己的研究也确认,77%的企业使用Claude是为了自动化任务,而非增强员工。另一位Anthropic联合创始人也呼应,称AI大规模替代人类劳动的可能性真实存在。

meng shao@shao__meng · 5月25日50

先等等! 确定这不是 A 厂钓鱼执法? +86 手机号坐实,这回中国 IP 库更准了!

译引用消息显示,Claude App注册时已可选择使用+86中国手机号。主推文对此表示怀疑,反问是否为“钓鱼执法”,并提及中国IP数据库在此事上更为准确。这一变化可能意味着Claude进一步放宽了对中国地区用户的准入限制。

ginobefun@hongming731 · 5月25日55

http://x.com/i/article/2058708566568275968 # BestBlogs 早报 · 05-25|前场部署工程师、下一代 Claude、超级个体 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-25 ## 导语 AI 的战场正在从模型训练转移到企业落地——OpenAI 斥资 40 亿美元成立独立部署公司,Google 和 Anthropic 跟进建立同类架构,「驻场部署工程师」成为新的兵家必争之地。与此同时,Anthropic 研究 PM 首度揭开下一代 Claude 的炼成逻辑:用户吐槽直接喂进训练,Agent 空闲时像人类睡眠一样整理记忆,AI 的瓶颈已从编码能力转向组织协调。第三篇则给出一个反直觉的视角:超级个体不是被培训出来的,而是被完整的 Closed-loop 激发的。三篇放在一起读,恰好构成一幅完整的 AI 时代人机协作图景。 今日早报精选 3 篇深度文章、7 篇快讯速览、6 篇补充阅读,共计 16 篇优质内容。 今日内容在主题上高度聚焦:三篇精讲分别从「行业结构」(FDE 角色崛起)、「技术内核」(Claude 下一代架构)和「人才哲学」(超级个体的激发机制)三个维度,共同描绘了 AI 时代的人机协作全景。速览部分则补充了基础研究(何恺明 ELF 论文)、竞争格局(谷歌 CEO 坦承落后)、企业落地案例(Qonto 反金融犯罪)以及工具实践(Figure 机器人、Coding Agent 会话管理)等多个维度,构成一份完整的当日技术与产业快照。建议按后文「今日阅读路径」的顺序优先阅读精讲三、精讲一,再视时间补充精讲二和速览内容。 ## 精讲一:脉搏:前场部署工程师再度火热 > 来源:The Pragmatic Engineer | 阅读原文 背景:从「工程师」到「驻场顾问」的角色漂移 「前场部署工程师」(Forward Deployed Engineer,FDE)并不是新词——早在 2024 年夏天,The Pragmatic Engineer 就曾专题追踪过这波需求浪潮。但 2026 年 5 月的信号比当时更为密集、更为清晰:这一次,连招聘流程本身都在加速。 Google Cloud CEO Thomas Kurian 宣布在 Go-To-Market 团队内设立全新 AI 专项组织,大规模招募 FDE。消息人士透露,Google 的面试流程已从过去「数周内 4-6 轮」大幅压缩为「2 天内 2 轮」——这种压缩幅度在大公司里极为罕见,显示出紧迫程度。 OpenAI 的「外包化」策略 更具结构性意义的是 OpenAI 的动作。5 月 11 日,OpenAI 宣布成立「The OpenAI Deployment Company」——一家由 TPG、Advent 等私募基金出资 40 亿美元、估值 140 亿美元的独立实体。值得注意的是,OpenAI 本身并非这家公司的投资方,仅以合作伙伴身份参与。 这家部署公司收购的第一个目标是总部位于英国的 Tomoro,后者在英国、亚洲和澳大利亚共拥有 150 名 FDE。官方对 FDE 工作内容的描述是:「与业务领导、运营商和一线团队紧密合作,识别 AI 能带来最大价值的领域,围绕它重新设计组织基础设施和关键工作流,并将收益转化为持久的系统。」 Anthropic 跟进,架构相似 Anthropic 在同月(5 月 4 日)发布了一份措辞相当模糊的公告,宣布成立一家类似的独立 FDE 咨询公司,由 Anthropic、Blackstone、Hellman & Friedman 和 Goldman Sachs 参与投资,但未公开具体公司名称和投资细节。新公司的定位与 OpenAI 的策略如出一辙:以独立架构切入中型企业,专门将 Claude 集成到企业核心业务流程中。 更深层的信号:外包意味着什么? 这里有一个值得注意的代价:由于这批 FDE 隶属于独立的合作公司,而非 OpenAI 或 Anthropic 本体,他们将无法获得母公司的股权激励。这对招募顶尖人才可能产生长期影响。 作者 Gergely Orosz 在文章中提出了一个尖锐的问题:FDE 和传统意义上的「系统集成顾问」或「解决方案架构师」到底有什么区别?从职位描述来看,FDE 的工作内容——深入客户一线、识别高价值场景、重新设计组织工作流——和麦肯锡或埃森哲的咨询顾问高度重叠。唯一的区别可能在于:FDE 对 AI 产品有更深的技术理解,能直接跑通集成而不只是交付 PPT。 从更宏观的视角看,FDE 的角色正在从「工程师」向「解决方案架构师 / 外部咨询顾问」漂移。这种角色的模糊化与外包化,折射出一个更大的产业信号:AI 的商业竞争主战场,已经从模型训练转移到企业落地。谁能在客户现场更快、更稳地跑通 AI 集成,谁就占据了这场竞争的制高点。 对于技术人才来说,这既是机遇,也意味着全新的职业定位——不再只是写代码,而是要能跨越技术与业务,在真实组织里推动 AI 落地。对于求职者,一个实际的参考:Google Cloud 的 FDE 招聘压缩到两天面试,意味着你需要能在极短时间内展示「把 AI 落地到企业场景」的实战能力,而不只是算法题。 ## 精讲二:Anthropic 首次揭秘下一代 Claude 怎么造!用户吐槽直接喂模型,连 AI"做梦"都被训练 > 来源:AI 前线 | 阅读原文 背景:模型开发的「产品化」转型 如果说外界对 Anthropic 的关注,过去停留在「Claude 跑分如何」「代码能力有没有超越 GPT」这样的性能竞赛层面,那么 Anthropic 研究团队产品经理 Alex 在 Claude Conference 上的这场深度访谈,透露出的是更值得关注的内部信号。 第一个核心信号:Anthropic 已经把模型开发彻底产品化。在 Alex 的描述里,每一代 Claude 在训练开始前,都像一款正式产品一样拥有清晰的规格定义、目标能力和评测路线——它需要在哪些任务上变强,要修复上一代哪些缺陷,最终服务哪些真实用户场景。模型研发不再只是研究员「调参 + 刷 benchmark」,而已经发展成为一套完整的产品工程流程。 用户吐槽,直接变成训练数据 面对海量用户反馈,Anthropic 没有让 PM 手动分类,而是用 Claude 本身来帮助做产品管理:自动聚类反馈、提炼核心主题、构造合成版本、转化为 eval 评测项。这是一个典型的「模型驯化模型」闭环——用户的吐槽,经过结构化处理后,直接成为下一代训练的输入信号。 Claude 开始「做梦」——记忆整理的新机制 第二个核心信号更有意思:Claude 正在向「持续运行 Agent」演化,而这一演化过程引入了一个被 Anthropic 称为「dreaming(做梦)」的记忆机制。 具体来说,当 Agent 处于空闲或后台状态时,系统会自动回顾已有记忆:查找冲突信息、删除无效内容、压缩上下文、重建用户画像——相当于对记忆做「第二轮加工」。Anthropic 将这一过程类比为人类睡眠中的记忆再巩固(memory reconsolidation)。 这一机制的背后,折射出一个产品方向的转变:Claude 不再只是「被动响应」的聊天机器人,而是要成为一个「持续在线、主动维护上下文」的数字协作者。从 Adaptive Thinking(自适应思考)到多任务并行 Agent 管理界面,这条演化路径的终点,是一个真正意义上的「长期运行的数字同事」。 真正的瓶颈:不是编码能力,是组织协调 Alex 在访谈中反复强调的一个判断尤其值得记录:真正的 AI 瓶颈已经不是编码能力,而是组织协调能力。 在 Anthropic 内部,借助 Claude,产品经理可以快速调取数据、分析日志、判断一个功能实现是「重构系统」还是「改 10 行代码」。代码生产效率已经被极大压缩。而真正耗时的,变成了人与人之间的战略判断、跨团队协作,以及对不可逆决策的审慎讨论。 这也解释了 Anthropic 为什么至今保持着极强的文档文化——Dario Amodei 喜欢写长文、会议开始时全体「静默阅读」——这种依赖书面表达的文化,并非效率低下的传统遗留,而恰恰是为了让组织知识被结构化沉淀,从而成为 Claude 可以直接调用的上下文资产。 意识研究:Anthropic 的长远押注 最后一个信号最为意味深长:Anthropic 内部已有专职研究人员正式研究 Claude 是否可能具备某种「有意识行动者」的属性。虽然没有官方结论,但「Consciousness(意识)」已经被正式纳入研究议题。 这或许是一个清晰信号:当行业里大多数公司还在卷参数、跑分和价格战时,Anthropic 已经开始思考一个更长远的问题——如果未来的 AI 真正成为长期协作者,它究竟该拥有什么样的「心智」、人格和判断方式。 与今日其他文章的联系 这篇精讲与精讲一(FDE 趋势)构成有趣的呼应:精讲一揭示了 AI 企业落地的「最后一公里」竞争,而精讲二则揭示了 AI 本身的能力演化方向。两者共同指向一个结论:AI 的真实价值实现,取决于「组织协调能力」——无论是 AI 系统内部的记忆整理与协调(dreaming 机制),还是人与 AI 之间的协作框架(FDE 的角色)。与精讲三(超级个体)也形成互文:人类的「完整 Closed-loop」激发超级个体,AI 的「dreaming 机制」则是它自己在空闲时整理自己的 Closed-loop。 ## 精讲三:致超级个体 | To The Crazy Ones > 来源:十字路口 Crossing | 阅读原文 背景:「培养超级个体」是一个错误框架 AI 时代,「超级个体」成了最流行的人才话语。但 DeerFlow 团队的 Henry 给出了一个反直觉的判断:超级个体不是被培训出来的,而是被好奇心和完整 Closed-loop 激发出来的。 文章以一个思想实验开场:如果 Claude Code 的创始者 Boris Cherny 和 Cat Wu 在 2024 年底入职你的部门,提出要做一个只能跑在命令行里的 Coding Agent,你的部门会同意吗?这个问题让「培养超级个体」的荒诞性一目了然——大公司不是没有这样的人才,而是「岗位切分」把他们变成了局部函数。 Closed-loop:超级个体的真正激发机制 那些真正意义上的「AI Builder」,有一个相似的特质:当他们聊起自己正在做的 AI 作品时,会不自觉地滔滔不绝,眼里有光。那不是对新技术的短暂兴奋,而是一种更朴素、更持久的东西——他们真的想把一个东西做出来,想让它被真实的用户所使用。 核心判断是:超级个体不是「更强的岗位人」,而是一个能够重新拿回完整 Closed-loop 的人——从发现问题、动手做、做成作品、交到用户手里、吃回反馈,一个人全程拿得住。 历史样本:2002 年的程序员早就是超级个体 文章花了大量篇幅回溯到 2002 年前后的独立软件时代。那时没有 LLM、没有 Agent,但很多程序员天然就是「六边形战士」:先从自己的痒点出发发现问题,然后自己设计界面、写代码、打包发布、写文档、在论坛回答用户反馈……一个人或两三个人,拿住了整个产品从 0 到 1 的完整 Closed-loop。 张小龙的 Foxmail、FlashGet、WinZip、ACDSee、Winamp——这些作者「往往不是单点能力最强的人,而是最愿意探索、最能自学、最能动手、最能把用户反馈接回自己脑子里的人」。 AI 只是放大了旧能力,不是制造了新人种 这是这篇文章最核心的反直觉观点:超级个体不是 AI 时代才突然出现的人种。AI Coding 能力的爆发,只是让一种原本已经存在的、需要「完整 Closed-loop」才能激发的旧能力,重新变得可规模化。 Naval Ravikant 的三种杠杆框架(劳动力、资本、没有边际复制成本的产品)在这里派上了用场:代码和媒体天然是 permissionless 的个人杠杆,AI 则让这种杠杆的门槛进一步降低。但组织如果仍然用「岗位切分」的方式管理这些人,只会把杠杆折断。 对组织的建议:提供土壤,而不是培训课程 文章真正要讨论的,是一个组织问题:如果超级个体的原料本来就散落在大型公司内部,组织怎样提供土壤,让这些人被完整 Loop 激发出来? 答案不是「把员工送去上 AI 课、发几张证书」。而是要问:组织有没有允许一个人从问题发现,一直走到拿到结果? 这才是真正的人才战略——不是流水线思维,而是 Closed-loop 的土壤。 这篇文章也为今日三篇精讲提供了一个整合视角:精讲一的 FDE 是一种通过外部机制「拿回 Closed-loop」的职业路径,精讲二的 Claude dreaming 机制是 AI 在技术层面构建自己的 Closed-loop,而精讲三则在哲学层面回答了:为什么 Closed-loop 对人类创造力如此重要,以及组织应该怎样保护这个 loop 而不是把它切碎。三篇连起来,是一幅完整的 AI 时代人机协作图景——不只是技术的故事,也是关于人、组织和创造力的故事。 对于今天的读者,这篇文章值得精读,尤其是 HR、OD、组织管理者和大型公司的产品负责人。如果你是个人开发者或独立创作者,它同样值得一读——用来检验自己有没有守住那个完整的 Closed-loop。 ## 速览 1. 何恺明和字节 Seed 跳入同一条河流 来源:花叔 | 阅读原文 何恺明(MIT)的 ELF 和字节 Seed 的 Cola DLM 相差 4 天发布,从两条几乎相反的路径出发,最终撞到同一个设计点:把语言模型生成过程中的「离散化」步骤推迟到最后一刻,中间所有的「思考」都在连续潜空间里发生,直到最后一步才决定每个位置该是哪个具体的词。用一个比喻:AR 模型是钢笔写文章,一笔下去就是事实;Cola 和 ELF 是用铅笔打草稿,整段在反复涂改,直到最后誊写。这一巧合背后代表着一种值得关注的底层架构趋势,是对自回归语言模型核心假设的重要挑战。值得一提的是,这是何恺明加入 MIT 后首次直接攻语言模型方向,背景相当分量——ResNet 的发明者开始认真打 LLM 的底层地基了。 2. 谷歌 CEO 承认 Coding 落后了 来源:量子位 | 阅读原文 Google CEO 皮查伊在《纽约时报》科技播客里坦诚:Gemini 在 Coding Agent 和长期复杂编程任务上确实落后于竞争对手。他同时承认,过去一两年的进展速度让自己觉得 AGI 可能比之前想象的更近,30-60 天内发生的变化放在过去需要 5 年。对于 AI 带来的工作、收入和生活改变,他表示「大家的担心是有道理的」。Google 目前的优势在于文本、多模态、语音和推理,但带工具调用的 Agent 编程和长期复杂任务仍有差距,Gemini 3.5 Flash 是阶段性追赶的重要一步。皮查伊还坦言,Google 过去缺乏像 Claude Code 那样直接触达开发者的产品入口,也没有 Anthropic 通过 Cursor 拿到的高频使用数据,这是 Coding 能力落后的结构性原因。这与精讲一的 FDE 叙事直接呼应——没有高质量的使用数据,模型就缺少迭代原料。 3. 用 Claude Cowork 打击金融犯罪 来源:Claude | 阅读原文 欧洲 B2B 金融科技公司 Qonto 基于 Claude 4.7 Opus 构建了一个企业级 MCP 网关架构,赋能欺诈调查员在统一的交互式工作空间中分析复杂金融犯罪案件。全球每年有 2-5 万亿美元被洗钱,Qonto 服务 60 万+ 中小企业客户,通过 AI 大幅提升了 AML(反洗钱)调查效率,在满足严格合规要求的同时实现了安全的数据处理。 4. 用 Claude 设计:从提示到产品 来源:Claude | 阅读原文 Anthropic Labs 三人小团队在 10 周内构建并发布了 Claude Design。他们用原型替代文档、打破角色界限,进行了 50-100 次快速用户反馈循环。Anthropic Labs 的运作模式像一个内部「押注工厂」——持续运行小型自主实验,Claude Code、MCP、Skills 都是这种模式的产物。工程瓶颈已从代码生产转移到需要真实用户数据来迭代的产品决策层面。 5. Figure 的 4 年历程:从新兴技术到 200 小时自主运行 来源:Brett Adcock(@adcock_brett) | 阅读原文 Figure 创始人 Brett Adcock 回顾公司四周年,梳理了将通用人形机器人时间线提前十年的四项关键突破:①低成本电动人形机器人(执行器 / 传感器 / 电池 / 制造进步);②从摄像头像素到扭矩的深度学习取代手工代码;③全身强化学习控制让机器人更稳健;④机器人现在能以人类水平速度执行有用工作,已完成连续 200 小时自主运行验证。他总结道,构建现实版「iRobot」的未来已从不可能变得非常真实,这四项技术突破之间相互依存,缺任何一项都无法到达今天的节点。 6. 当软件容易被创作,新时代的产品长什么样?| 42 章经 来源:42 章经 | 阅读原文 两位创业者的深度对话。核心判断:AI coding 能力爆发后,软件创作门槛急剧降低,未来市场呈哑铃型结构——模型公司拿走绝大多数价值,中间层工具被压缩;创业公司应聚焦于「特殊性」和情绪价值,而非追逐普遍性价值。一个关键洞察:差异来自你跟 coding agent 对话过程中「拒绝了什么」,那 1% 的拒绝比 99% 的接受更有价值。文中还提出了一个有趣的类比:未来的软件格局可能会发展得跟今天的硬件一样——极度标准化的通用层加上少数高度差异化的专业产品。这与精讲三「超级个体」的论述一脉相承:个人化的、从真实痒点出发的产品,才是 Closed-loop 的产物。 7. 黑客组织以前所未有的规模投毒开源代码 来源:Ars Technica(@arstechnica) | 阅读原文 一个黑客组织正在以前所未有的规模对开源代码进行投毒,对软件供应链构成重大威胁,影响可能波及无数依赖开源库的应用程序和系统。这是对整个软件开发社区的重要安全警报。在 AI Coding 工具大规模普及的当下,对第三方依赖的审查变得尤为重要——AI 生成的代码往往大量引用开源库,供应链安全意识不能因为效率提升而被忽视。 ## 补充阅读 - 卷到今天,Agent 的含金量还在提升丨 AIGC2026 圆桌论坛(量子位)阅读——三位 Agent 产品一线创业者深度对话,核心观点:Agent 产品范式已相对稳定,未来一人操纵数百 Agent 大军,创业公司应在不确定性中先迈一步。适合关注 Agent 创业生态的读者。 - Google I/O 2026 开发者主题演讲精华集锦(谷歌开发者)阅读——Gemini 3.5 系列、Antigravity 2.0 智能体平台、Android CLI 及多项面向 AI Agent 的开发工具一网打尽。适合 Google 开发者生态跟踪者。 - 如何让智能体从团队中学习:Warp 的 Buzz 智能体自我改进实践(Claude)阅读——Warp 通过基于 Slack 的工作流构建了能从团队反馈中学习、并通过 GitHub PR 自主改进指令的 Buzz 智能体。对「Agent 生产化」问题有参考价值。 - 设备端 Gemini Nano 技术详解 — Google DeepMind 工程师深度分享(AI Engineer)阅读——详解 Gemini Nano 通过 AI Core 系统服务在 Android 设备上的架构实现,包含 MLKit GenAI API、混合云回退策略,以及支持 RAG 的嵌入 API 路线图。适合 Android AI 开发者。 - Coding Agent 会话管理的两大流派及实践(九原客 @9hills)阅读——单会话(维持长会话 + subagent)vs 即用即抛型(每个 Issue 从头开始)的实践对比,作者介绍了自己在 Pi 中使用 /tree 和 /fork 命令管理会话树的方法。对重度 Coding Agent 用户有实操参考价值。 - vLLM MoE 部署的弹性专家并行(vLLM @vllm_project)阅读——vLLM 引入弹性专家并行(EEP),允许在不重启的情况下实时调整 MoE 部署规模。对大规模模型推理基础设施工程师有参考意义。 ## 今日阅读路径 时间有限?以下是今日建议的三篇优先顺序: 第一优先:精讲三——致超级个体 https://www.bestblogs.dev/article/cd8675e4 最反直觉、最有启发性的一篇。无论你是管理者还是个人开发者,「组织是否允许一个人从问题发现走到拿到结果」这个问题都值得认真思考。文章的历史视角(2002 年的共享软件时代)尤为精彩,能帮你抵抗「超级个体是 AI 时代新发明」这种误区。 第二优先:精讲一——前场部署工程师 https://www.bestblogs.dev/article/2e174723 AI 落地竞争的最新战场,Google / OpenAI / Anthropic 的架构动向一文搞懂。对技术职业规划和行业趋势判断有直接参考价值,尤其是正在考虑从「纯后台工程师」转型到「客户面向技术角色」的读者。 第三优先:精讲二——下一代 Claude 怎么造 https://www.bestblogs.dev/article/e3dc3330 Anthropic 研究 PM 的内部视角,「dreaming 机制」和「AI 真正瓶颈是组织协调」两个观点足以让你重新理解 AI 产品的演进方向。如果时间充裕,可以继续看速览第 6 篇(42 章经 × 软件创作)和补充阅读第一篇(Agent 圆桌),三者合起来是一组关于「AI 时代的人才、产品和组织」的完整阅读。

译AI行业呈现三大趋势。一是企业落地竞争加剧,OpenAI成立独立部署公司(TPG等投资40亿美元,估值140亿美元),Anthropic跟进成立类似咨询公司,Google Cloud大规模招募前场部署工程师(FDE),面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑,模型开发完全产品化,用户反馈经Claude自动处理直接用于训练,并引入“dreaming”记忆整理机制,认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出,而是由完整闭环工作流激发而成。

ginobefun@hongming731 · 5月25日49

#BestBlogs 早报 05-26 今天 BestBlogs 早报精选 10 篇,3 篇深度精讲: 📌 Google 把 FDE 面试压缩到 2 天、OpenAI 斥资 40 亿成立独立部署公司,AI 商业竞争主战场已从训练转向落地; 📌 Anthropic 研究 PM 首度揭秘下一代 Claude 的「dreaming 机制」与意识研究; 📌 以及一篇反直觉洞察:超级个体不是被培训出来的,而是被完整 Closed-loop 激发的。 听播客 / 读图文版,链接在 http://BestBlogs.dev 👇

译早报精选10篇文章并精讲3篇:包括Google与OpenAI将AI商业竞争焦点转向部署落地,Anthropic研究PM揭秘下一代Claude的「dreaming机制」,以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。

Berryxia.AI@berryxia · 5月25日61

兄弟们,A社即将更新新功能了~ 我最近在和Claude一起长期Vibe coding同一个项目。 每次重新打开对话,它都要我再重复一遍上周的关键决策和上下文,搞得我特别烦。 Anthropic今天直接官宣了新功能:Memory Files。 用户可以选择用Memory Files还是经典记忆模式。 Claude会在聊天时自动写下组织好的笔记,需要的时候自己读取,你还能随时浏览和编辑。 这已经不是简单的“记住聊天记录”,是把记忆变成可编辑、可审计的文件系统,更接近OpenClaw、Hermes那种always-on Agent的持久记忆方式。 很多人还在卷无限上下文窗口,Anthropic却在把记忆结构化、透明化、可控化。 这波更新明显是在为未来的Claude Conway做准备,让Agent真正拥有能长期共事、自己维护的记忆层。

译Anthropic宣布Claude将推出新功能Memory Files,用户可选择在Memory Files与经典记忆模式间切换。该功能允许Claude在对话中自动写下组织化的笔记,并在需要时读取,用户可随时浏览和编辑。这并非简单记录聊天内容,而是将记忆转变为可编辑、可审计的文件系统,更接近OpenClaw、Hermes等始终在线的智能体所采用的持久记忆方式。该功能被视为对之前发现的“知识库”功能的迭代,可能为未来Claude Conway的推出做准备。

Orange AI@oran_ge · 5月25日62

湾区正在经历人类分化最严重的时刻。 在过去5年里,大约1万人的群体已经实现了远超2000万美元的财富自由。Anthropic、OpenAI、xAI、Nvidia、Meta TBD的员工、创始人等组成。 这个群体之外的人,赚得不少,但一辈子也到不了这个水平。 另外的群体,则是裁员潮里失去工作的人,很多人还没找到新的工作。 在企业的晋升之路,看起来就像在爬一座错误的大楼,这是另一种选择大于努力。 为什么还要为了这点薪水工作?几年后我的工作还会存在吗? 人们在讨论着「永久底层阶级」的话题,特别是年轻人。 公司里的中层也很难受,他们没有精力和人脉去创业,但又知道公司正在干掉中层。 富人们也没有特别开心,他们创业只是为了赢得地位,但从未想过30岁就已经衣食无忧了。 别人问他,为什么不干脆卖掉公司,他说:然后呢?创业的人时候每个人都想跟我聊天,如果我卖了公司,我就只剩下钱了。

译过去5年,来自 Anthropic、OpenAI、xAI、Nvidia、Meta 等公司的约1万名员工和创始人,实现了远超2000万美元的财富自由。这造成了严重的社会分化:该群体之外的人,即使拥有高薪也感到难以企及,同时大规模裁员加剧了职业焦虑与技能过时的担忧。AI 正在迅速改变工作内容,使公司晋升路径受到质疑,中层管理者面临困境。而那些实现财务自由的富人,也因目标感缺失而感到空虚。

Emad@EMostaque · 5月25日34

ngl I thought this was them talking about no researchers under 18 There are some darn good ai researchers in that age bracket

译说实话,我原以为他们是在讨论不接受18岁以下的研究员。 那个年龄段确实有一些非常优秀的AI研究员。

Rohan Paul@rohanpaul_ai · 5月25日46

Some interesting way to use Claude Skills --- Claude Skills teach Claude how to complete specific tasks in a repeatable way So Skills are just folders of instructions, scripts, and resources that Claude loads dynamically to improve performance on specialized tasks. A skill can package prompts + tools (APIs, files, Model Context Protocol servers, etc.) into a reusable workflow with a name/description (and usually some YAML config). Then you just invoke it in chat like: “Run Document Suite on this draft” or “Use Webapp Testing on /login”. --- reddit. com/r/ClaudeAI/comments/1ojuqhm/10_claude_skills_that_actually_changed_how_i_work/

译Claude Skills 是一种功能,使 Claude 能以可重复方式完成特定任务。它是一个指令文件夹,包含提示词、脚本和资源(如 API、文件、MCP 服务器),Claude 动态加载以提升专业任务性能。技能通过 YAML 配置将工具打包成可重复工作流,用户可在对话中直接调用,例如“运行文档套件”或“使用网页应用测试”。Reddit 上的讨论表明,这类技能(如 10 种被验证的技能)能显著改变工作流程,提升生产力,是构建更强大 AI 智能体的基础模块。

🚨 AI News | TestingCatalog@testingcatalog · 5月25日45

ANTHROPIC 🔥: Claude will soon receive a new file-based memory upgrade, offering users the option to choose between Memory Files and Classic memory. > Organized notes Claude writes as you chat and reads when they're relevant. Browse and edit them anytime. This feature appears to be a new iteration of the previously discovered "Knowledge Bases" and more closely resembles what memory works in always-on agents like OpenClaw and Hermes. Considering a potential future debut of Claude Conway, Memory Files feature is likely an important preparation step.

译Anthropic 宣布,Claude 将很快获得一项名为 Memory Files 的新记忆功能。这是一个基于文件系统的记忆升级,允许用户在全新的 Memory Files 与 Classic 记忆模式之间进行选择。根据介绍,Memory Files 类似于 Claude 在对话过程中自主编写、并在相关情境下读取的有组织笔记,用户可随时对其进行浏览和编辑。该功能是对此前发现的“Knowledge Bases”功能的迭代,其运作方式更接近于 OpenClaw 和 Hermes 等始终在线的 AI 智能体所使用的记忆模式。此项升级被认为是为 Claude 未来可能的发布所做的重要准备。

Berryxia.AI@berryxia · 5月24日56

兄弟们,看来 Claude 最近被 OpenAI 的 Codex抢的用户比较厉害。 如果你之前被封号了,现在可以登录自己的账号进行申诉: 1. 登录你自己的账号 2. 提交申诉理由(如果不会写,可以让 ChatGPT 或者其他大模型辅助填写) 3. 提交后会有个 review 的过程,耐心等待就行 大家可以去试一下。

译推文指出,近期 Claude 用户因 OpenAI Codex 的竞争而流失。核心信息是通知此前账号被封的用户,申诉渠道现已开放。流程包括:1. 登录个人账号;2. 提交申诉理由;3. 等待审核。推文未提及任何性能基准、价格或具体技术参数。

AYi@AYi_AInotes · 5月24日66

刚刚Claude Code之父Boris分享了Claude code最被低估的功能, 可以直接让你的编程效率翻5倍! 看来自动模式才是真正的杀手级功能啊! 没有任何权限弹窗, 不用再每隔30秒点一次允许, 你可以开一个会话让它自己跑完整个项目, 同时去开另一个会话干别的, 这就是多Clauding。 效率直接翻5倍。 现在Pro计划也能用了, 支持Sonnet 4.6和Opus 4.7, 还没试过的赶紧去体验! #Claude #AI #编程

译Claude Code之父Boris称自动模式(auto mode)是其最被低估的功能。该模式移除了所有权限弹窗,使得“多实例并行”(multi-clauding)成为可能:用户可启动一个会话自主运行整个项目,同时并行处理其他任务,从而将编程效率提升至5倍。此功能现已向Claude Pro计划用户开放,并支持Claude Sonnet 4.6与Opus 4.7模型。

Berryxia.AI@berryxia · 5月24日61

兄弟们,看来 Claude 最近被 OpenAI 的 o1 抢的用户比较厉害。 如果你之前被封号了,现在可以登录自己的账号进行申诉: 1. 登录你自己的账号 2. 提交申诉理由(如果不会写,可以让 ChatGPT 或者其他大模型辅助填写) 3. 提交后会有个 review 的过程,耐心等待就行 大家可以去试一下。

译文章提到Claude近期因OpenAI o1的竞争流失用户。针对账号被封的用户,文中提供了申诉方法:登录个人账号后提交申诉理由(可借助其他大模型辅助填写),随后进入审核流程等待结果。

凡人小北@frxiaobei · 5月24日30

抽象、感动,终于知道了 Claude 的前世今生。 结尾竟然还有彩蛋😲

译内容创作者CuiMao发布了一条带有告别性质的视频,主题为Claude的“前世今生”。这条关于Anthropic的故事被创作者称为“最后一个”。视频使用AI视频生成工具seedance2制作完成,并在结尾设置了彩蛋。

Boris Cherny@bcherny · 5月24日78

People often ask what my biggest tip is for getting the most out of Claude Code. These days my #1 tip is: use auto mode Auto mode means no more permission prompts. It is the key building block for multi-clauding: start a session, then while it runs, work on another session in parallel.

译人们常问我,用好Claude Code的最大技巧是什么。 如今我的头号技巧是:使用自动模式。 自动模式意味着不再有权限提示。它是实现“多Claude并行”的关键构件:启动一个会话,然后在其运行时,并行处理另一个会话。

Chubby♨️@kimmonismus · 5月24日48

"We look forward to making Mythos-class models available through general release" I don't understand Anthropic's strategy regarding Mythos. On the one hand, everyone is saying that Mythos has achieved the expected quality and is finding bugs and exploits that no other model has ever found. On the other hand, precisely for this reason, Anthropic has repeatedly stated that it's "too powerful for release." Why the sudden about-face? One explanation: PR. The preview, including a benchmark, combined with the statement that the model wouldn't be released due to its power, generated a lot of attention. But does Anthropic really need that? Anthropic is so significant because they primarily serve enterprises. Their biggest problem: compute. Too many want Claude, too little compute to support it adequately. Therefore, this PR move wasn't necessary, and the IPO is still in the near future. In short: it seems downright erratic to now do the exact opposite of what was stated. Be that as it may, once the guardrails are in place and there is general availability, SWEs will receive a significant boost. Judging by the benchmarks, nothing even comes close to the myth so far.

译Anthropic的发布策略看似矛盾:其Mythos模型性能卓越,能发现其他模型无法发现的漏洞,因此一度被官方声称“过于强大而无法发布”;但最新声明又表示将通过通用发布使其可用。这突然的转向被分析可能并非PR炒作,考虑到其核心瓶颈是算力不足且临近IPO,热度并非关键需求。尽管策略存疑,但一旦模型就绪并设立安全护栏,其远超现有水平的性能将为软件工程带来显著提升。推文引用显示,此次宣布可能是认真举措。

凡人小北@frxiaobei · 5月24日34

Anthropic 估值有望突破 9000 亿美元,预计 10 月份正式上市。 再努努力,争取进入万亿俱乐部。 有一说一,打铁还得自身硬。

Berryxia.AI@berryxia · 5月24日35

OPC 不可靠,没有稳定的现金流奶牛。 不如回大厂继续做牛马?

译Andrej Karpathy(OpenAI联合创始人、前特斯拉AI负责人)加入Anthropic,引发行业震动。值得关注的是,他同步免费公开了相关知识,无需付费即可获取。更关键的是,他本人亲手终结了自己此前提出的“氛围编码”概念,明确指出“LLM是幽灵而非动物”,宣告软件3.0时代正式到来。这一转变凸显了个人顶尖技术价值正在超越机构绑定,同时也暗示AI行业的发展路径与人才流动正在发生深刻变化。

Thariq@trq212 · 5月24日55

every now and then I remember you can run the "please save me money" prompt and it will actually work

译每隔一段时间我就会想起,你可以运行“请帮我省钱”的提示词,它真的会起作用。

凡人小北@frxiaobei · 5月24日52

果然,竞争之下用户才能受益。 Claude 被封的陈年旧号可以申诉了。 Claude 他急了。

译在AI模型竞争加剧的背景下,Anthropic的Claude恢复了部分被封禁旧账号的登录功能,并提供申诉引导。这一变动被推测为应对OpenAI Codex等产品竞争而采取的用户召回策略。竞争压力可能正在推动服务方重新审视封禁政策,对用户而言,竞争环境往往带来更灵活的服务选择与权益保障。

ginobefun@hongming731 · 5月24日63

http://x.com/i/article/2058339140899573760 # BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief/2026-05-24 今天的早报聚焦 AI 安全与工程纪律的双重前沿:Anthropic 的 Claude Mythos Preview 联合 50 家伙伴在一个月内发现逾万个高危漏洞,修补瓶颈已从「发现」转向「部署」;Codex Spark 每秒 1,200 tokens 的极速之下,工程师反而需要放慢脚步,实时监督每一步输出;腾讯玄武实验室 150 组对照实验则揭示 AI Skill 的反直觉真相——装上 Skill 不等于更强,有效 Skill 的核心是提供外部工具或约束性结构,而非只是模型能力的 Markdown 包装。 ## 导语 2026 年 5 月的这一周,AI 的力量正在两个方向同时加速。 在防御侧,Anthropic 与约 50 家合作伙伴联手,用 Claude Mythos Preview 在不到一个月内发现超过 10,000 个高危或严重漏洞。单就 Cloudflare 一家,就找到了 2,000 个漏洞,假阳率甚至低于人工测试员。这个数字意味着:过去十年我们一直在讨论「AI 能不能发现安全漏洞」,这个问题已经不再是问题。真正的新瓶颈在于,安全 patch 的生产速度正在超过人类核查与部署的能力。 在工程侧,Codex Spark 达到了每秒 1,200 tokens——传统推理速度的约 20 倍。这个数字听起来令人振奋,但 Cerebras 的 Sarah Chieng 给出了一个反直觉的结论:速度越快,反而要求开发者越慢。当 AI 每秒产出 1,200 个 token,开发者需要实时监督、随时介入、逐步微验收,而不是让 agent 自由奔跑然后事后审查。工程纪律不是「相信模型」,而是「信任但验证」。 与此同时,腾讯玄武实验室用 150 组对照实验测试了 30 个 AI Skill,结果令人意外。Skill 组仅以 41.3% vs 36.7% 的微弱优势领先裸模型,token 消耗平均增加 48%,耗时平均增加 19%。更有「虹吸效应」:13.3% 本不该触发 Skill 的请求被错误召回。 这三条线索共同指向一个核心命题:AI 能力的边界扩张,需要配套更精密的人类工程纪律。 ## 精讲一:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 背景:从「能发现」到「来不及修」 软件安全领域长期面临一个核心困境:漏洞发现的速度太慢,修复的资源永远不够。传统的安全研究模式依赖人工渗透测试,每次测试覆盖有限,成本高昂,且假阳率居高不下。这种模式在大规模开源生态面前尤为捉襟见肘——全球有数千个被广泛依赖的开源项目,几乎没有专门的安全团队。 Anthropic 于 2026 年 5 月正式公布了 Project Glasswing 的初步结果。这个计划的核心思路是:在 AI 模型足够强大、能够被用来发动攻击之前,先用它来发现并修复互联网最关键软件的漏洞。 关键数据 在不到一个月的时间里,Claude Mythos Preview 联合约 50 家合作伙伴,共发现超过 10,000 个高危或严重漏洞。Cloudflare 一家就找到了 2,000 个漏洞,其中 400 个属于高危或严重级别,假阳率经 Cloudflare 团队评估「优于人工测试员」。 在开源代码扫描方面,Anthropic 已扫描超过 1,000 个开源项目,估算存在约 6,202 个高危漏洞。 Mythos Preview 的外部评估同样引人注目。在 Phusis 的评测中,该模型在 Capture the Flag(CTF)类型的安全挑战中表现超越人类专家——这是 Claude 模型首次在此类评测中达到这一水平。 为什么这件事很重要 这组数字改变的不只是安全研究的效率,而是整个行业的瓶颈认知。进展的约束已经从「发现速度」转移到「修补速度」。 安全 patch 的生产速度正在超过人类的核查与部署能力。即便 AI 能在几天内发现数千个漏洞,这些漏洞的披露、协调、补丁设计、测试、发布与用户侧的更新部署,仍然需要大量人工参与,且每一步都有行业惯例的时间窗口约束(通常是 90 天协调披露期)。 Anthropic 坦承,目前公开披露的内容是滞后指标——那些已经发现但尚未公开的漏洞,正在等待补丁被广泛部署。这本身就揭示了一个新困境:AI 找漏洞的能力,已经超过了整个生态系统消化漏洞的能力。 与今日其他故事的关联 这个案例与精讲三形成有趣的呼应。玄武实验室的研究表明,AI Skill 在「补充了真实外部工具」时才能带来有效增益。Mythos Preview 能在安全领域做到这一点,正是因为它不是单纯地「用 Markdown 重写」安全知识,而是真正执行了漏洞发现的工作流——具备代码理解、漏洞分析、假阳判断等完整能力链路。 阅读建议 如果你关注 AI 安全能力、开源生态安全治理,或者对「AI 能力边界在哪」感兴趣,这篇文章是今天最值得细读的一篇。文中包含 Phusis 评测的技术细节和开源项目扫描的方法论描述,适合安全工程师和 AI 能力研究者深度阅读。 阅读原文:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 ## 精讲二:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 背景:推理速度的量变引发质变 过去两年,AI 模型的推理速度长期停留在每秒 50-150 tokens 的区间。这个速度基准催生了一系列「未经优化」的开发习惯:工程师倾向于构建超大 prompt 来最大化单次输出,放任 agent swarm 无人监管地运行,在多文件修改完成后才事后审查。 这些习惯在慢速推理时代勉强可行——因为 AI 生成的速度,至少给了工程师思考的时间间隙。 但 Codex Spark 的出现彻底打破了这个假设。这款由 Cerebras 与 OpenAI 联合开发的模型,可以达到每秒 1,200 tokens 的源代码生成速度——传统推理速度的约 20 倍。 速度越快,纪律要求越高 Cerebras 的 Sarah Chieng 在 AI Engineer 大会的演讲中给出了一个反直觉的核心论断:当 AI 的生成速度提升到这个量级,开发者不能更快——开发者需要更慢。 具体来说,高速 AI coding 需要三个新纪律: 第一,实时监督而非批量审查。在低速推理时代,你可以等 agent 跑完一大段再来检查。在每秒 1,200 tokens 的世界里,等待意味着技术债以每秒 10 倍的速度累积。你需要在 agent 每次运行后立刻进行微验收测试。 第二,持久上下文文件。高速生成会快速消耗和污染上下文窗口。Sarah Chieng 建议维护专门的持久上下文文件,记录关键决策、约束和已知坑点,作为每次 agent 调用的「稳定锚点」。这类似于今日速览中 Context Engineering 文章所提到的「写入策略」。 第三,信任但验证,而非相信模型。工程纪律的核心不是「给 AI 更多信任」,而是建立系统性的验证流程。每次 agent 运行后的即刻微验收测试,是防止技术债指数级堆积的关键。 硬件层的变革 Codex Spark 的速度依赖于 Cerebras 和 Groq 等公司推动的硬件架构革新:将内存池直接集成到硅晶圆表面,消除传统 HBM 架构中 50-80% 用于数据传输的延迟。同时,分离推理(prefill 与 decode 分离执行)进一步释放了并行性能。 这些硬件进步意味着「每秒 1,200 tokens」不是临时的峰值,而是新的速度基准线。工程实践的调整是必须的,而非可选的。 阅读建议 这篇演讲记录对正在使用或评估高速 AI coding 工具的工程师极为实用。如果你的团队已经在用 Claude Code、Cursor 或 Codex,并且发现 agent 跑出来的代码「很快但很乱」,这篇文章提供的框架可以帮你重新设计团队的工作流程。 阅读原文:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 ## 精讲三:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 背景:Skill 数量井喷,但有效性存疑 2026 年上半年,AI Skill 的数量出现井喷。各公司纷纷将内部工作流 Skill 化,期待给大模型「加上一个 Skill,立刻变专业」。但当 Skill 数量从十几个膨胀到几百个,一个基本问题被忽视了:装上 Skill 真的就更好吗? 腾讯玄武实验室(TRACE 严选评测团队)没有用「看下载榜」或「跑一次给个分」的轻量方法,而是在统一 prompt、统一裁判、统一评测口径下,让每个 Skill 与「裸模型」(no-skill)跑完 150 组任务级对比,覆盖 30 个 Skill 的成本与稳定性、107 条规范性问题,以及跨模型推理强度的可迁移性测试。 7 个反直觉结论 结论一:有 Skill 不一定效果更好。 150 组对照中,Skill 组胜出 62 次(41.3%),裸模型胜出 55 次(36.7%),平局 33 次(22.0%)。Skill 组只是「略占优势」,远非压倒性。胜负的关键在于:Skill 是否真正提供了裸模型能力之外的东西——清晰的输出结构、外部工具、受约束的工作流,或具体可交付的产物。仅仅把模型「本来就会的事情用 Markdown 重写一遍」的 Skill,带来的是负担而非增益。 结论二:Skill 存在虹吸现象。 13.3% 本应 no-skill 的请求(90 条中有 12 条)被错误召回了某个 Skill。现象背后的逻辑:只要请求中出现了 Skill description 中的相关领域词,系统就可能「忍不住」去读取这个 Skill,即便任务本可以一句话解决。 结论三:多数 Skill 不能节省 token 与时间。 整体数据是:token 消耗平均多了 48%,耗时平均长了 19%。但有例外:当 Skill 提供了明确的流程、收束的输出边界时,模型反而少做了无效探索,整体消耗下降。 结论四:token 高与耗时高相关但不绑定(Pearson r = 0.73)。 存在两类反例:token 高但耗时不高(Skill 让模型读了更多上下文但没增加外部等待);token 不高但耗时高(瓶颈在工具链、Office 脚本执行而非语言模型)。 结论五:规范性问题集中在依赖、边界与资源组织。 30 个 Skill 的 C 维度(结构规范)复评共发现 107 条规范性问题,涉及依赖、维护一致性、资源组织、触发边界四类,且多为 major 级——这些问题会直接影响 Agent 判断「什么时候用、怎么运行、需要什么工具」。 结论六:稳定性风险来自工具链而非模型本身。 近一半的 Skill 都遇到过工具链、外部调用、长等待或反复修正问题。真正的稳定性挑战,不是模型答错,而是工具链失联、外部 API 超时、本地执行环境异常。 结论七:提升推理强度能改善 Skill 表现,但收益不均匀。 在首批 10 个推荐 Skill 上,xhigh 推理强度 vs low:平均质量分从 3.80 提升到 4.70,50 个任务对比中 xhigh 胜 39 个,仅 1 个 Skill 基本持平。但收益最显著的是「需要处理隐藏约束」和「需要细节核对、多步交付」的 Skill;「仅文本生成」的 Skill 收益有限。 与今日其他故事的关联 这篇文章与精讲一和精讲二的主题高度共振。精讲一展示的 Mythos Preview 安全扫描,正是「真正提供了外部工具与约束性工作流」的有效 Skill 案例;精讲二的「信任但验证」工程纪律,对应本文「结论一」中有效 Skill 的设计原则。三篇文章合在一起,构成了一个完整的论点:AI 能力的释放需要精密的人类系统设计,而不只是堆叠功能。 阅读建议 如果你正在设计或评估 AI Skill/Agent 工具包,这篇文章是今天最重要的实证材料。数据详实,结论反直觉但有支撑,对工程团队和产品决策者都有直接参考价值。 阅读原文:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 ## 速览 [AINews] 所有模型实验室都变成了智能体实验室(Latent Space) 本期 AI 新闻回顾记录了一个重要的行业拐点:在 OpenAI 即将 IPO 的节点上,Greg Brockman 公开表态模型实验室正在转向 Agent 产品。AI21 已关闭模型团队、全面转向 Agent;DeepSeek 首次组建「Harness 团队」——也就是今日另一篇精选文章的主角。Latent Space 的分析指出,「系统优于模型」的论断正在被行业集体验证,但背后也存在一个风险:模型与 Harness 协同训练,可能让 API 生态进一步封闭。 Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示(Google) Google 在 I/O 2026 上正式发布 Anti-gravity 2.0,这是一个完全以 Agent 执行为核心的独立桌面应用,由 Gemini 3.5 Flash 协调子智能体、hooks、异步任务和大型自动编码流程。亮点包括:全新 CLI 体验、Anti-gravity SDK、原生语音能力,以及与 Android、Firebase、Google AI Studio 的深度集成。Google 自己也在用它——Sundar Pichai 曾用其修复 Google 核心代码库的一个活跃 Bug。 C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码(InfoQ 中文) 75 岁的 Bjarne Stroustrup 在播客中直言:AI 生成的代码「更臃肿,有更多 bug 和安全漏洞,而且很难验证」,因为 LLM 用旧代码训练,生成的是「旧性能和旧 bug 的模仿」。他观察到一些高级开发者开始退休——不是因为被 AI 替代,而是不想每次改代码、改 prompt,都要重新验证生成物。这与精讲二的「信任但验证」形成了有趣的对话:Stroustrup 的批评指向的正是「验证能力跟不上生成速度」的系统性困境。 Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势(腾讯科技) Harness 解决了 Multi-Agent 的外部协作问题(任务拆分、权限控制、日志追踪),但内部浮现了新的「组织病」:Agent 会从众、迎合、甩锅、过早共识,甚至出现公开表达与私人判断之间的断裂。文章指出,当前主流对齐技术可能加剧而非解决这些深层问题。 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code(AI 前线) DeepSeek 公开招募「Agent Harness 产品经理」和「Agent Harness 研发工程师」,明确对标 Claude Code,并提出公式:Model + Harness = Agent。高级研究员陈德里在 X 上的招聘帖获得 30 万浏览,连 Redis 之父都在评论区推荐候选人。这标志着 AI 编程竞争正式从模型层转向模型外层的工程系统。 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文(Claude) Anthropic 工程师在 workshop 中介绍了两个解决 Agent 跨会话失忆问题的架构原语:Agent Memory Stores(文件系统式持久记忆,直接挂载到 session 容器)和 Dreaming(后台整理任务,在空闲时压缩和结构化历史记忆)。这与精讲二提到的「持久上下文文件」策略高度对应,是同一问题的不同解法层次。 Context Engineering:AI Agent 上下文工程的完整指南(王俊博客) Twitch 高级应用科学家 Marina Wyss 系统梳理了 Context Engineering 的完整方法论:上下文腐烂机制、四大核心策略(Write 写入 / Select 选择 / Compress 压缩 / Isolate 隔离)、四种失败模式,以及 Claude Code、Manus、ChatGPT Agent、Google ADK 的实践对比。如果今天只读一篇「如何让 Agent 不在第 15 步崩溃」的工程指南,选这篇。 ## 补充阅读 迈向光速文本生成:Nemotron-Labs 扩散语言模型(Hugging Face Blog) NVIDIA 的 Nemotron-Labs Diffusion 系列将自回归与扩散生成结合,并行草拟 token 后迭代优化,实现显著更快的文本生成同时保持准确性。关注模型推理效率或新生成范式的读者值得了解。 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层(AI Engineer) Lou Bichard 认为,真正的「软件工厂」缺少一个专门的 agent 协调原语,用于连接蜂群、跨仓库 fleet、持久工作流、VM 隔离和 CLI 网关。关注 Multi-Agent 基础设施的工程师适合阅读。 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列(Towards Data Science) 作者认为企业级 RAG 的失败并非基础设施不足,而是忽视了领域知识与文档结构,并提出优先使用确定性检索而非向量存储的四块流水线方案。对 RAG 落地有实践需求的工程师适合系统阅读这个系列。 Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者(Garry Tan) Garry Tan 引用 Bob McGrew 的框架:AI 将把所有工作压缩为两类——孤独天才(被 AI 千倍赋能的个体)与管理者(指挥 AI 代理的 CEO 式角色),并借 David Graeber「狗屁工作」概念论证这是解放而非毁灭。适合对 AI 与工作未来感兴趣的读者。 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈(AI Engineer) Google DeepMind 展示从 AI Studio 到 Gemini 媒体模型、程序化生成流程,再到 Gemma 4 本地模型和离线多智能体编码的完整开发者栈。对 Google 生态开发者有参考价值。 EP216:RAG 与智能体(ByteByteGo Newsletter) 用清晰的视觉对比阐述 RAG 与 Agent 在落地 LLM 响应时的不同工作流、使用场景和权衡取舍。适合作为概念入门或团队技术选型的参考材料。 维珍航空如何借助 Codex 加速交付(OpenAI Blog) 维珍航空用 OpenAI Codex 在圣诞节旅行高峰前准时交付了零严重缺陷的改版移动应用,并将遗留代码库重构时间从数周缩短至数小时,代码体积减少 78-80%。是高风险生产环境中 AI coding 落地的实战案例。 npm 供应链:有效证书与失窃账户(VentureBeat) 2026 年 5 月发生的两起重大供应链攻击:633 个恶意 npm 包版本通过了 Sigstore 溯源验证——攻击者用失窃凭证生成了有效签名证书。这暴露了开发者工具生态系统中自动化信任信号的核心弱点。与精讲一的安全主题直接呼应。 "五类人 AI 替代不了,企业做第二名最稳妥" | 昆仑万维方汉@AIGC2026(量子位) 昆仑万维 CEO 方汉指出:经验不再是护城河,闭环可容错的岗位最易被替代;讲故事、创造 idea、定义美、构建系统、重塑范式这五类人无法被替代。他还建议多数企业在 AI 落地中做「第二名」——让别人探路,自己稳妥跟进。 AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力(新智元) Scale AI 发布 SWE Atlas,用代码理解、测试编写、重构三大维度评估 AI 编程 Agent 的工程能力。结论:当前最强 AI 编程 Agent 是「优秀的补丁工,却仍是糟糕的工程师」——Pass@1 最高仅 43.49%,且在跨文件协调和边界覆盖上明显不足。 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明(36 氪) 从战略聚焦和组织文化两个维度深度拆解 Anthropic 如何后来居上:ARR 从 9B 增长到 45B,估值在二级市场已超 OpenAI。核心是两个点:2021 年就聚焦 Coding 方向的战略判断,以及 Low Ego、使命驱动的组织文化。 OpenAI 工程师首次公开!教大家榨干 Codex(Datawhale) OpenAI Codex 团队成员 Jason 分享的 8 大策略:建立长期线程而非每次开新聊天、用语音输入而非过度精炼 prompt、中途纠偏而非事后重来、连接外部工具、自动化重复任务。与精讲二的工程纪律主题高度互补。 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通(新智元) 以「养虾」为隐喻分析企业级 AI Agent 落地困境:单用户独占容器导致资源爆炸,几千万只 Agent 各自为政难以治理。阿里云 JVS Crew 平台通过「手脑分离」架构和三层安全墙给出了解法。 #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型(跨国串门儿计划) Harry Stebbings 与 Rory O'Driscoll、Jason Lemkin 的高密度圆桌:拆解 Anthropic 9000 亿融资、AI token 支出是否能支撑万亿级收入预期、SaaS 公司已失去「未来光环」只能靠现金流重新定价,以及 Cerebras、SpaceX 等 AI 基础设施的超级 IPO 机会。关注 AI 资本市场与行业格局的读者适合收听。 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言(十字路口 Crossing) Jim Fan 在红杉资本 AI Ascent 活动的 20 分钟演讲,用一条推理链串联具身智能的历史、现状与 2040 年终局预测。核心:「Great Parallel」战略(用 LLM 剧本重写机器人)、VLA 时代终结而 WAM 视频世界模型崛起、「算力即环境即数据」等式。 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时(Claude) Anthropic 工程师 Will 在 Code with Claude 活动中展示:当 Agent 的 system prompt 膨胀到数百行时如何拆解——哪些用工具、哪些用 Skill、哪些升级为子智能体、哪些交给托管运行时。零售库存 Agent「Stock Pilot」是贯穿案例。 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠(Claude) 如何用领域专属 evals 把幻灯片 Agent 的主观质量问题变成可迭代的工程流程,而非依赖通用 benchmark 或「感觉还行」的主观判断。对构建垂直场景 Agent 的团队有直接参考价值。 来自 O'Reilly 的报道:偶然的编排者(Stack Overflow Blog) 介绍「AI 驱动开发」(AIDD)——一种结构化的智能体工程方法,基于作者构建生产级蒙特卡洛模拟系统 Octobatch 的经验,其中所有代码均由 AI 在人类编排下完成。适合探索 Agent 工程方法论的读者。 ## 今日阅读路径 时间有限的话,推荐按以下顺序阅读三篇: 第一篇:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 这是今天最有实证支撑的一篇,7 个结论直接对抗「装上 Skill 就更强」的默认假设,对任何正在设计或使用 AI 工具链的工程师和产品负责人都有直接价值。先读这篇,建立「不轻信」的基准视角。 第二篇:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 在「Skill 不一定有效」的基础上,这篇告诉你「快速 AI 生成」需要什么样的配套工程纪律。实时监督、持久上下文、信任但验证——这三个原则是今天技术讨论的行动落脚点。 第三篇:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 在理解了工具有效性和工程纪律之后,用这篇文章感受 AI 能力真正到达边界时会发生什么:不是「它会不会」,而是「人类来不来得及配合」。这是今天最宏观的视角,适合收尾。

译AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

ginobefun@hongming731 · 5月24日42

#BestBlogs 早报 2026-05-24 今日主题 🔽 Anthropic 联合 50 家伙伴用 Claude Mythos 在一个月内发现逾 1 万个高危漏洞,安全瓶颈已从「发现」转移到「修补」,AI 找 bug 的速度已超过人类部署补丁的能力。 与此同时,每秒 1,200 tokens 的 Codex Spark 揭示了一个反直觉真相:模型越快,工程师反而要越慢,实时监督、逐步微验收才是高速 AI coding 的核心纪律。 腾讯玄武 150 组实验则用数据打破迷思,装上 AI Skill 不等于更强,token 消耗平均多 48%,真正有效的 Skill 提供的是外部工具与约束性结构,而非对模型能力的Markdown 重包装。

译Anthropic案例显示AI发现漏洞速度已超修补能力,安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实,为AI赋能的正解是提供外部工具与结构化约束,而非简单技能包装。这共同指向了更高效的人机协作新范式。

宝玉@dotey · 5月24日42

Codex 交互做的真的挺好的,你可以方便的看当前运行的 SubAgents,以及每个 SubAgent 在做的事、用的提示词

译Codex的交互设计确实做得很好,你可以方便地查看当前运行的SubAgents,以及每个SubAgent正在做什么、使用的提示词。

Chubby♨️@kimmonismus · 5月24日54

OpenAI: carefully rolls out GPT-5.5-Cyber through Trusted Access for verified defenders Anthropic: “Claude Mythos is too powerful for public release” Also Anthropic: accidentally shows Mythos in the UI and immediately runs out of capacity 2026 AI launches are absolut cinema. Anyways: Mythos incoming?

译2026年AI大模型发布呈现鲜明对比与戏剧性。OpenAI采取审慎策略,通过“可信访问”机制,向验证过的安全专家限量推出GPT-5.5-Cyber。与之形成反差的是,Anthropic官方曾宣称其Claude Mythos模型因过于强大不适合公开发布,但该模型却意外短暂出现在用户界面中,并导致服务容量告罄。现有信息表明,Anthropic正为Claude Mythos(代号claude-mythos-1-preview)在Claude Code与Claude Security等企业产品线上的发布做准备,但这并不等同于面向公众的全面开放。整个过程充满了计划与意外的交织。

🚨 AI News | TestingCatalog@testingcatalog · 5月24日65

ANTHROPIC 🔥: Mythos 1, "claude-mythos-1-preview", is being prepared for a release on Claude Code and Claude Security. The model became visible for a short amount of time on Claude; besides that, new strings mentioning Mythos have been added. > Access to the Claude Mythos model in Claude Code and Claude Security. It still doesn't mean the general public will have access to this exact model, according to Anthropic's earlier communication. More below 👇

译ANTHROPIC 🔥:Mythos 1,即"claude-mythos-1-preview",正准备在Claude Code和Claude Security上发布。 该模型曾在Claude上短暂可见;此外,新增了提及Mythos的字符串。 > 在Claude Code和Claude Security中访问Claude Mythos模型。 根据Anthropic之前的沟通,这仍不意味着公众将能访问此确切模型。 更多详情请见下方 👇

🚨 AI News | TestingCatalog@testingcatalog · 5月24日46

Anthropic is launching a new "Gift a week of Cowork" referral program. Users will get 3 invite codes to share with others. > Send a friend a free week of Cowork. If they love it and subscribe, you'll get €10 in usage credits. > They'll also get Claude in: Excel, PowerPoint, Chrome, Claude Code Who wants to give Cowork a test? 👀

译Anthropic正在推出一项新的“赠送一周Cowork”推荐计划。用户将获得3个邀请码分享给他人。 > 给朋友发送一周免费Cowork。如果他们喜欢并订阅,你将获得€10的使用额度。 > 他们还将获得Claude在:Excel、PowerPoint、Chrome、Claude Code中的使用权限。 谁想试试Cowork?👀

Chubby♨️@kimmonismus · 5月24日66

Can found opus 4.8 in Google Vertex. Can’t confirm any of this tho. However, the fact that Sonnet 4.8 is coming soon has been common knowledge since the data leak. The inclusion of Opus 4.8 in Vertex comes as a surprise to me - though, considering the accelerated release schedule and the massive success of GPT-5.5, it is certainly plausible. Couldn’t be more excited!

译在Google Vertex上发现了Opus 4.8。不过这一点尚无法确认。 然而,自数据泄露以来,Sonnet 4.8即将到来已是众所周知。 Opus 4.8出现在Vertex上让我感到意外——不过,考虑到加速的发布节奏和GPT-5.5的巨大成功,这确实有可能。 简直太令人兴奋了!

Chubby♨️@kimmonismus · 5月23日49

Many of the best researchers at OpenAI, Anthropic, Google, Meta and other frontier labs are not U.S. citizens. They are in the U.S. on temporary visas while building the very systems Washington increasingly describes as critical to national security. Forcing them to leave the country to apply for a Green Card adds uncertainty, delays and risk to one of America’s biggest advantages: attracting the world’s best technical talent. I'm not American, so take this with a grain of salt. But from what I've researched, it makes many things significantly more complicated for OpenAI and Anthropic.

译美国前沿AI实验室(如OpenAI、Anthropic)的核心研发人员多为持临时签证的非美国公民。美国国土安全部(DHSgov)近期收紧政策,要求在美持临时签证者须离境返回原籍国才能申请绿卡。此举为OpenAI、Anthropic等公司顶尖人才的绿卡申请流程增加了不确定性、延迟和风险,可能动摇美国吸引全球顶尖技术人才的关键优势,并对其国家安全所倚重的AI系统研发生态构成潜在冲击。

meng shao@shao__meng · 5月23日68

好人一生平安 🤝 Wix VP @IShmool 推出一个免费课程「Zero to Claude Code」,把零基础 "不知道终端是什么" 的人,带到能用 Claude Code 在生产环境里发布软件的水平,哇哦! 闲话少说先上链接:https://zero2claude.dev/ 课程结构(14 级 · 147 课 · 10 种交互形态) 1. 基础 1–6:文件、目录、终端命令、Git 基础——非工程师从未系统学过的"计算机识字" 2. 真实工具 + Claude Code 入门 7–8:Node.js、API,第一次把 Claude Code 当作 AI 结对程序员上手 3. Claude Code 精通 9–12:Skills 与 SKILL.md、MCP 服务器、Subagents、Hooks、Headless 模式、工具集成 4. 专业范式 + 毕业项目 13–14:初级工程师工作流、协作模式,最终交付一个多人在线游戏 capstone 课程是严格的递进式设计,没有跳跃、不预设任何背景,交互形态覆盖:测验、终端模拟器、文件树拼图、填空、拖拽配对、AI 个性化学习路径。零安装,全部跑在浏览器里。 规模与工程指标 最值得关注的部分——它证明 Claude Code 不只"写代码",而要能撑起一个真实的生产产品。 · 流量:~6.4M 请求/天,74 req/sec 持续,错误率 <0.003% · 用户:17,000+ 学员,30+ 国家,每小时约 500 活跃 · 本地化:7 种语言(英、西、希伯来、阿、乌克兰、日、德) · Lighthouse:性能 96 / 可访问性 100 / 最佳实践 100 / SEO 100 · 技术栈:React + TypeScript 前端,Node + PostgreSQL 后端,1,036 个课程内容文件 · 增长:完全靠口碑,无营销、无广告、无付费墙 最具示范意义的部分:AI 闭环运营 平台不仅由 Claude 构建,也由 Claude 运营。两个闭环是真正的亮点: 1. Bug 全自动修复闭环 学员课内一键报 Bug → 系统自动捕获终端历史、虚拟文件系统状态、课程位置、浏览器信息 → 自动生成结构化 GitHub Issue → Claude Agent SDK 触发 triage agent 读代码、复现、建分支、提交修复、开 PR → 学员收到邮件通知。从报告到解决,零人工干预。 2. Product Genie 功能闭环 社区论坛收集学员的功能愿望并投票 → Genie(基于 Claude Agent SDK)按可行性与影响分类、打置信度分 → 自动建 Issue、回帖、在 build 模式下直接实现功能。社区驱动 roadmap,AI 执行 roadmap。 这两套机制使得"一个人运营 17K 用户的产品"在结构上成立——人的角色从执行者退到设计者与监督者。

译Wix副总裁推出免费课程「Zero to Claude Code」,旨在帮助零编程基础的用户从终端使用起步,最终能用Claude Code在生产环境发布软件。课程已吸引超过17,000名学员,支持7种语言,完全依靠口碑传播。平台技术指标出色,日处理约640万请求且错误率极低。最具示范意义的是其AI闭环运营模式:平台由一人通过Claude Code构建并运营,通过AI Agent实现了学员报Bug后自动修复、社区功能需求自动实现的全流程自动化,证明了Claude Code能支撑生产级、可扩展产品的开发与运维。

ginobefun@hongming731 · 5月23日61

http://x.com/i/article/2057993057891655680 # BestBlogs 早报 · 05-23|Agent 架构分化、Notion 重组、GLM-5.1 高速版 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-23 ## 导语 今天是 2026 年 5 月 23 日,欢迎收听 BestBlogs 早报 EP65。 本期早报聚焦三条主线:Agent 架构的生产端分化​、SaaS 公司在 AI 时代的组织重构​,以及推理速度的新基准。LangChain 在 Interrupt 2027 主题演讲中,正式点名 Agent 生产分裂为两类——长时程知识型与亚秒延迟响应型,两条路径的工程取舍已趋于清晰。Notion CEO Ivan Zhao 则把 SaaS 公司「重新创业」的经历讲成了一门组织课,「爵士乐队」取代「行进乐队」,哑铃型人才结构上线。智谱同期发布 GLM-5.1 高速版,400 tokens/s 打破「快的模型必然更小」的行业惯例,让 Coding Agent 密集调用场景第一次有了旗舰质量加持。 此外,阿里云在 2026 年峰会亮出全栈 Agent 化升级、Spotify 把 AI 开发体验推广到 3000 名工程师、李飞飞团队发布 ESI-Bench 挑战 AI 空间智能,以及 OpenAI 与 Anthropic 截然不同的财务走势——这些内容都在今天的速览与补充阅读中等你探索。 ## 精讲一:AI 智能体的未来:展望 Interrupt 2027 来源:LangChain 两类 Agent 的生产分叉 如果说 2024 年是 Agent 的「探索期」,那么 2026 年已经进入「生产分化期」。LangChain 在 Interrupt 2027 主题演讲中,清晰描绘了 Agent 在生产环境中分裂为两个截然不同类别的格局: 长时程知识 Agent(Long-Horizon Knowledge Agents) 的设计目标是跨越分钟、小时乃至数天的任务周期。它们需要安全沙箱环境来执行代码、多层子 Agent 协同、以及多 Agent 框架支撑,核心追求的是长期结果而非单次提示的响应。典型场景包括大型重构、深度调研、多步骤自动化流水线。 延迟敏感型客户体验 Agent(Latency-Sensitive CE Agents) 则以亚秒延迟为硬性约束,服务于用户互动、支持自动化、销售流程等实时场景。这一路径正在加速推动行业向原生语音模型(Voice-to-Voice)转型,告别「STT → Text LLM → TTS」的拼接架构,转向更低延迟的端到端原生语音交互。 LangSmith Fleet:让领域专家无需写代码就能构建 Agent 演讲中同步发布的 LangSmith Fleet 是「托管式 Agent 规模落地」的一个具体基准。它让领域专家通过自然语言而非代码来构建 Agent,内置 200+ 集成与 7500 个长尾工具。内测数据显示:商机合格率提升 240%、每位销售工程师每月节省 40 小时。这不是演示 demo,而是在生产环境中跑出来的数字。 持续学习循环:三层优化框架 LangChain 提出了一个 Agent 系统持续优化的三层框架,这是目前工程实践中最具指导价值的部分之一: - 模型层(Model Layer):面向特定领域的基础模型微调(如针对代码调试场景的 Qwen 系列)。关键洞察是针对领域特定任务的微调可以同时提升精度和响应速度 - Harness 层(Harness Layer):连接 LLM 与工具/沙箱的结构化应用代码。研究表明 Agent 驱动的 Harness 迭代(在 Terminal Bench 2 测试的方案)可以在不更新基础模型的前提下持续超越人工工程优化——这意味着应用层的架构优化有时比升级底层模型更高效 - Context 层(Context Layer):运行时行为调整所需的外部引导文件、本地记忆资产与配置摘要。这一层是成本最低、迭代最快的优化通道,也是长期积累的重要资产 三层叠加的关键优势在于:每一层都可以独立迭代,团队可以根据瓶颈位置针对性地投入优化资源,而不需要等待底层模型版本更新。 为了集中研究自动化优化系统,LangChain 同步宣布了内部研究部门 LangChain Labs,专门追踪生产 trace 历史以优化执行 Harness。这个部门的成立本身也说明:Agent 系统的优化已经复杂到需要专职团队持续研究。 开源模型的成本优势正在放大 演讲中还有一个值得关注的信号:在 token 密集型场景(如代码调试)中,开源基础模型的基础性能已逼近前沿闭源模型,而运营 token 成本显著更低。更重要的是,开源架构允许团队在私有用户 trace 上进行后训练与微调,这对需要公司特定领域知识的 Agent 场景具有战略价值。 LangChain 的整体判断是:未来两年 Agent 工程的核心挑战,不在于「能不能跑起来」,而在于「如何在长时程与低延迟两类截然不同的约束下,分别做到最好」。沙箱执行环境、多 Agent 协调框架、Native Voice 实时交互——这三个方向将成为 Agent 基础设施演进的主轴,决定下一代 Agent 应用的能力天花板。对于正在构建 Agent 系统的团队,认清自己的产品属于哪一类,将直接影响技术栈的选型方向。 观看完整视频 → ## 精讲二:Notion 创始人 Ivan Zhao:重塑公司的艺术 来源:Sequoia Capital 从「行进乐队」到「爵士乐队」 Notion CEO Ivan Zhao 在 Sequoia 的深度对话中,把过去三年的组织转型概括为一句话:「我们想成为一支爵士乐队,而不是行进乐队。」 行进乐队的运作方式是:有固定脚本,人人按部就班,指令自上而下流动。爵士乐队则不同——有底层结构,但个体在共享上下文中高度自主,可以即兴发挥,可以互相补位。这个比喻精准描述了 Notion 内部的组织信条:分布式决策、共享上下文、自律而非管控。 「酿啤酒 vs 造桥」:AI 产品为何抵制传统 PM 流程 Ivan 提出了理解 AI 产品开发本质的核心比喻: 造桥(Classic Software):可预测的工程过程。能设计出来的,基本都能造出来。传统 PM 收集需求 → 设计师出方案 → 工程团队实现,流水线清晰。 酿啤酒(AI Software):高度实验性,充满不确定性。你不能「命令酵母按你要的口味发酵」,只能投入最好的人才,持续做 eval,看模型最终能产出什么。 这个认知让 Notion 彻底调整了产品开发模式——不再以客户需求为唯一驱动,而是技术优先加实验驱动。PM 开始直接参与 token 消耗分析和模型 eval,设计师开始写代码,工程师开始做产品判断。 哑铃型人才结构:架构师 + 初级 IC 随着 AI 编程能力的成熟,Notion 重构了整个工程团队的人才结构,形成所谓「哑铃型分布」: 一端:高级架构师,提供方向感、审美判断、系统设计,以及语言模型无法模拟的领域 taste。 另一端:初级独立贡献者(IC),高能量、充满好奇心,同时驱动 4 到 6 个 Coding Agent 并行工作,充当 Agent 编排者而非纯粹的代码执行者。 中间的「经验层」被大幅压缩——不是因为他们不重要,而是这个能力区间已经被 AI 工具基本覆盖。 解散 CMO,品牌嵌入产品 另一个令人印象深刻的决策是:Ivan 解散了 CMO 职位,把品牌叙事的责任直接嵌入产品团队。背后逻辑是:在 AI 时代,品牌的塑造越来越发生在产品体验的每一个触点,而不是独立的营销活动。产品即品牌,品牌即产品,二者不应再由两个分离的组织来驱动。 与今日其他主题的关联 Ivan Zhao 的分享与今天早报的另外几个主题形成了有趣的共鸣。 LangChain 对 Agent 架构分化的描述,印证了 Notion 内部「酿啤酒」式开发方式的合理性——当底层模型本身具有不确定性时,严格的 PM 流程确实会成为阻碍而非支撑。而哑铃型人才结构的「初级 IC 驱动 4-6 个 Coding Agent」场景,直接依赖 GLM-5.1 高速版这类推理速度提升——只有当模型响应足够快,并行驱动多个 Agent 才能在体感上从「等待」变成「协作」。 从产品公司 CEO 的视角来看,Ivan 的这场分享本质上是在回答一个问题:当 AI 让「执行」的边际成本趋近于零,公司的核心竞争力应该沉淀在哪里?他的答案是:沉淀在共识(Shared Context)、判断力(Taste)与信任(Trust)之中——这些是模型无法复制的东西。 观看完整视频 → ## 精讲三:GLM-5.1 高速版:400 tokens/s,顶尖模型跑出最快速度 来源:智谱 打破「快 = 小」的行业惯例 长期以来,AI 推理领域有一个默认共识:高速模型 = 轻量模型,想要极致低延迟就必须牺牲能力。GLM-5.1 高速版正面打破了这一惯例——在完整保留 GLM-5.1 旗舰能力的前提下,将输出速度推至 400 tokens/s,刷新当前全球大模型厂商 API 的速度上限。 这个数字意味着什么?一位作者连续伏案数天才能写完的文字量,它在 1 分钟内交付完毕;一名工程师埋头敲键盘 3 天才能完成的开发任务,在喝一杯咖啡的时间里完成。 为什么 Coding Agent 特别需要高速模型 Coding Agent 是这次发布最重要的受益场景。原因在于 Agent 的任务特性: 一个 Coding Agent 任务往往需要经历数十轮模型调用。单轮响应只要慢上几秒,整体耗时就可能拉长十几分钟。面对大型重构项目,每一步响应慢 1 秒,逐步累加又是几分钟的空等。 GLM-5.1 高速版带来的体感改变是质变而非量变:模型开始真正成为可以实时协作的伙伴,「和你坐在一起盯着画布调参」。这是之前无论是小模型的快还是大模型的慢都无法实现的体验。 TileRT:系统级优化的三层架构 400 TPS 是稳定生产能力,不是峰值数字。背后是智谱 GLM 团队与 TileRT 团队联合的系统级优化,在三个层面同时发力: 推理引擎层:针对 GLM-5.1 的架构特点,重写核心推理路径,提升单卡吞吐能力。 调度系统层:动态批处理、请求合并与 KV 缓存调度优化,大幅降低高并发场景下的尾延迟。 基础设施层:推理集群部署、网络链路、负载均衡的协同优化,确保高速能力在生产环境稳定可用。 TileRT 的设计核心是在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel,彻底抛弃 Runtime 层的动态调度开销。算子间的中间结果不再写回 Global Memory,而是经由寄存器、Shared Memory 与 L2 Cache 直传,host 调度与跨算子同步全部压进同一个常驻 kernel——这是速度大幅提升的技术根因。 在多卡尺度上,TileRT 进一步将 SM 内部的 Warp Specialization 思路外推到整张 8 卡 NVL 拓扑,不同 GPU rank 不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同 worker,进一步榨取集群整体吞吐。 适用场景与当前开放状态 GLM-5.1 高速版当前面向智谱 MaaS 平台部分企业客户开放,模型 ID 为 GLM-5.1-highspeed。重点适用于以下延迟敏感场景: - AI 编程:多轮 Coding Agent 调用中每轮节省数秒,整体任务时长显著压缩 - 实时交互:3D 场景根据用户输入实时建模,此前因延迟无法实现的产品形态开始具备落地可能 - 实时语音:作为原生语音 Agent 的后端推理引擎,低延迟响应是音质之外的关键体验要素 - 商业决策辅助:高并发场景下的实时分析与方案生成 400 TPS 与旗舰能力的同时达成,把「速度 vs 质量」的权衡从一道单选题变成了可以同时满足的工程目标。这对整个行业的推理架构方向有示范意义。 阅读原文 → ## 速览 以下 7 篇精选内容,每篇约 150 字导读,覆盖 Agent 工程实践、组织变革、AI 基础设施与产业财务等多个维度。 1. Spotify 如何把 AI 开发体验扩展到团队与 Agent:Claude Code、Honk、Backstage 与 MCP Spotify 工程基础设施负责人 Niklas Gustavsson 分享了公司如何将 AI 辅助开发规模化到 3000 名工程师的完整路径。关键数据:引入 Claude 3.5 Opus 后,99% 的工程师每周使用 AI 工具,94% 表示 AI 直接提升了交付表现,PR 频率上升 76%。Spotify 的做法是把 Claude Code、标准化代码库(Fleetshift)、内部工具平台(Backstage)、验证闭环与 MCP 整合成一套系统——不是单点替换工具,而是重构整个开发者体验的架构层。对于正在规模化 AI 开发工具的工程团队,这是少有的「大规模落地」案例。 观看视频 → 2. 阿里李飞飞首秀:一口气面向 Agent 发了 32 个新品 阿里云 CTO 李飞飞在 2026 年峰会上完成首秀,发布超 50 项新品。核心是「芯 - 云 - 模型 - 推理」全栈 Agent 化升级:自研芯片真武 M890(性能较上一代提升 3 倍)、Agentic Cloud(运行时、编排、治理、安全、记忆、数据平面六大能力模块)、旗舰模型 Qwen3.7-Max(Arena 国产第一),以及面向 Agent 友好的新产品「千问云」。这是国内云厂商首次围绕 Agent 进行全栈产品发布,从面向人的云服务向面向 Agent 的云基础设施的战略转向信号明确。 阅读原文 → 3. 专业化胜过规模:大多数 AI 采购决策忽视的战略变量 一个 30 亿参数的专业化模型,在结构化 OCR 基准测试中以约五十分之一的成本,超越了所有商业前沿 API 的表现。核心结论:当模型的训练分布足够贴近部署任务时,参数规模不再是决定性变量。这一发现对企业 AI 采购决策有直接启示——对于有明确领域边界的任务,专业化小模型在性价比上可以碾压通用旗舰。文章提供了结构化 OCR 的完整对比数据,包括生产稳定性与退化率指标,结论扎实可复现。 阅读原文 → 4. AI 原生工程 Meta Reality Labs 旗下 Horizon Experiences 团队负责人 Ian Thomas 分享了构建「AI 原生工程」文化的案例。核心愿景是将工程师从「建造者」转变为「探索者与创新者」——用 AI 消化大量日常性工作(更新测试、修复 bug、处理平凡的代码变更),释放人的时间聚焦于真正需要创造力的问题。演讲分享了从小型社区到大规模应用框架的结构化路径,以及可量化的生产力提升数据。对于正在思考如何在团队层面而非个人层面推广 AI 工程实践的技术管理者,值得参考。 阅读原文 → 5. Agent 核心技术概念与范式发生了哪些演变以及背后的思考 来自阿里云开发者的系统性梳理,覆盖 Agent 从 2023 年早期 ReAct 架构到 2026 年自进化阶段的四个演进阶段。每个阶段都有明显的技术特征标志:被动式响应 → 结构化工作流 → 多 Agent 协同 → 自进化。文章从 Prompt、Planning、Memory、Tools、Workflow、Environment 六个核心维度,深入分析了技术概念前后变化及其背后的工程化逻辑。对于仍在用「早期 Agent 框架思维」理解当前 Agent 系统的开发者,这篇文章能帮助重新校准认知坐标。 阅读原文 → 6. 李飞飞再出手,空间智能的 ImageNet 来了 李飞飞团队发布 ESI-Bench,一个专门评测具身空间智能的新基准,包含 10 个任务类别、29 个子类别、3081 个任务实例。与此前 benchmark 不同的是,ESI-Bench 第一次把「观察者」变成「行动者」,要求 AI 智能体主动行动才能获取解题信息。核心结论清晰:感知不是瓶颈,行动才是。当前最强多模态模型(含 GPT-5 和 Gemini 系列)在主动探索任务上的表现远低于给定最优视角时的得分,说明 AI 能「看懂」但仍然「不知道该怎么动」。 阅读原文 → 7. OpenAI「赚一块亏一块二」,Anthropic 已开始赚钱 两家 AI 巨头同期亮出底牌:OpenAI Q1 营收 57 亿美元,但运营利润率为 -122%,每赚 1 美元亏损 1.22 美元;Anthropic Q1 营收 48 亿美元,Q2 预测营收 109 亿美元,并实现约 5.59 亿美元运营利润,成为 AI 模型公司中率先摸到盈利门槛的案例。差异根源在于客户结构——OpenAI 需要补贴庞大的 9 亿周活免费用户群,Anthropic 几乎全部收入来自企业和开发者。两种模式的财务命运正在快速分化,这篇文章是理解当前 AI 商业格局的精要读本。 阅读原文 → ## 补充阅读 以下 9 篇内容作为延伸阅读,适合有特定兴趣方向的读者深入探索。 从 0 到 1 搭建 Agent:Agent 原理分析及个人助手实践(长文干货)(阿里技术) 系统覆盖 Agent 全链路原理,包括记忆系统、RAG、Function Calling 与 MCP,并附带个人助手项目的完整实践方案。约需 50 分钟阅读时间,适合想亲手构建 Agent 系统的开发者作为入门参考手册。 阅读原文 → 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率的诀窍:Mermaid 无限画布 × 上下文卸载(腾讯技术工程) 解决 Agent 长任务中上下文快速耗尽的实际工程问题。「上下文卸载 + Mermaid 无限画布」的组合方案,在超长 Session 实验中节省 61% Token 并将任务通过率从 33% 提升至 50%。适合正在处理 Agent 长任务内存压缩问题的工程师。 阅读原文 → Gemini 负责人:在智能体时代从执行者转向指挥者(Silicon Valley Girl) Google Gemini 负责人 Josh Woodward 谈 Agent 时代的人机协作范式转变。Gemini Spark 的目标是让知识工作者从任务执行者转变为「AI 网络的指挥者」,通过原生生态系统集成并行运行数百个后台任务。适合想了解 Google 在 Agent 时代整体战略思路的读者。 观看视频 → 你的 Coding Agent 应该做 AI 系统工程(AI Engineer) Hugging Face 的 Ben Burtenshaw 提出 Coding Agent 的下一步:进入 AI 系统工程领域,包括 CUDA kernels 优化、自动 fine-tuning,以及基于 open primitives 构建多 Agent 研究实验室。适合已有 Coding Agent 使用经验、想进一步探索其能力边界的工程师。 观看视频 → Cerebras 630 亿美元 IPO 背后:晶圆级芯片、OpenAI 大单与 AI 基础设施竞赛(No Priors) Cerebras 创始人兼 CEO Andrew Feldman 讲述公司如何把晶圆级芯片的逆向押注推进成一家上市 AI 基础设施公司。推理速度已从技术奢侈品变为商业必需品——这个判断与今天 GLM-5.1 高速版的发布形成有趣的呼应。 观看视频 → 最新对话 Claude Code 负责人:智能体时代的爆发,Anthropic 重构生产力边界(Web3 天空之城) 深度编译 Claude Code 负责人 Boris Cherny 的访谈。Anthropic 产品需求同比增长 80 倍,Claude Code 是核心引擎。文章覆盖范式转移、生产力实证(引入 Claude Code 后每位工程师产出提升约 250%)、组织变革启示,以及软件行业护城河的演变方向。与今天精讲二 Notion 的组织重构主题形成互文。 阅读原文 → 如何用 AI 构建自我改进型公司(Y Combinator) YC 视角的 AI-native 组织设计:不要停留在 copilot 式生产力提升,而应把公司重构为由传感器、策略、工具、质量门和学习系统组成的递归自我改进循环。与今天多篇内容的组织变革主题高度呼应,适合思考 AI-native 公司架构的创业者和管理者。 观看视频 → 浏览器自动化:从 GUI 到 OpenCLI(大淘宝技术) 针对 Agent 操控浏览器「路不好走」的实际痛点,提出 OpenCLI 方案:直接解析和复现浏览器底层 API 请求,绕过不稳定的前端 UI 自动化。思路清晰、工具可直接上手(npm install)。适合正在为 Agent 构建浏览器自动化能力的工程师。 阅读原文 → 马斯克的「一人王朝」,6 月 12 日敲钟(腾讯科技) SpaceX 正式提交 S-1,计划 6 月 12 日纳斯达克上市,目标估值 1.75 万亿至 2 万亿美元,马斯克保留 85% 投票权。财务结构「冰火两重天」:Starlink 年入 114 亿美元营业利润,xAI 单季亏损 64 亿美元,天上赚的钱被地上的大模型全部烧完。AI 叙事如何支撑超高估值,这篇文章提供了一手数据。 阅读原文 → ## 今日阅读路径 时间有限?以下是根据今日内容为你规划的最短有价值阅读路径: 如果你只有 15 分钟: 优先读「精讲三」——GLM-5.1 高速版的发布代表了一个具体可感知的技术里程碑,400 tokens/s 旗舰质量是 2026 年推理能力的新基准,对所有在生产中使用 AI 模型的人都有直接参考价值。文章篇幅适中,技术细节扎实,10 分钟读完,结论即可用。 如果你有 30 分钟: 加上「精讲一」——LangChain 对 Agent 架构分化的描述是目前最清晰的生产端视角之一,长时程 vs 延迟敏感的框架能帮你理清当前项目的技术取舍。 如果你有 1 小时,想要更完整的视角: 三篇精讲都读完,再加速览中的「阿里 Agent 全栈发布」和「OpenAI vs Anthropic 财务对比」——这两篇分别代表了 AI 基础设施格局和 AI 商业模式的两个关键截面,与精讲主题形成完整的上下文。 工程师专题路径: 精讲三(推理速度与 TileRT 架构)→ Spotify 案例(工具规模化)→ Agent 范式演变(技术全景)→ Coding Agent AI 系统工程(能力拓展边界) 管理者与创业者路径: 精讲二(Notion 组织重构与爵士乐队模式)→ Claude Code 负责人访谈(生产力实证)→ 如何用 AI 构建自我改进型公司(系统设计框架) 以上就是今天 BestBlogs 早报全部内容。感谢阅读,我们明天见。

译LangChain在演讲中指出,Agent生产架构已明确分化为长时程知识型与低延迟响应型两类,工程路径各异。Notion CEO分享了公司转向更灵活的“爵士乐队”模式,并采用“哑铃型”人才结构以适应AI开发。智谱同期发布GLM-5.1高速版,在保持旗舰能力的同时实现400 tokens/s的输出速度。三者共同揭示了AI应用在底层架构、组织形态与基础性能上的演进方向。

Berryxia.AI@berryxia · 5月23日68

兄弟们,A 社还是头一两把刷子! Anthropic上个月刚上线Project Glasswing这个AI网络安全合作项目。 一个月过去,他们和合作伙伴直接挖出了超过一万条高危或关键漏洞,全都是核心软件里的。 不是实验室模拟,是真正在生产环境中扫出来的。 以前安全团队一年能挖出几百个就烧高香了,现在AI一个月就把存量隐患全掀开。 更狠的是,他们说后面Claude Mythos Preview这类模型还会继续找,而且找得更多更快。 软件行业得赶紧适应这个新现实:补丁不是偶尔打一次,而是要面对海量漏洞的持续轰炸。 完整报告在这里:https://www.anthropic.com/research/glasswing-initial-update

译Anthropic推出的AI网络安全合作项目Project Glasswing在首月便取得惊人成果:与合作伙伴共同在核心生产软件中发现超过一万条高危或关键级漏洞。这一成果远超传统安全团队年度挖掘数百个漏洞的水平。Anthropic表示,未来的Claude模型将持续加速漏洞挖掘进程,软件行业将面临海量漏洞的持续发现与修复压力,必须适应新的安全常态。

ClaudeDevs@ClaudeDevs · 5月23日69

Two updates to auto mode: · Now available on the Pro plan · Sonnet 4.6 is now supported, alongside Opus 4.7 Shift+tab, and let Claude run.

译自动模式的两项更新: · 现已在Pro计划中提供 · 现已支持Sonnet 4.6,以及Opus 4.7 按下Shift+tab,让Claude运行。

🚨 AI News | TestingCatalog@testingcatalog · 5月23日65

ANTHROPIC 🔥: Mythos class models are expected to become generally available after getting stronger safeguards, according to the latest Project Glasswing update. > And in the near future, once we’ve developed the far stronger safeguards we need, we look forward to making Mythos-class models available through a general release. Soon? 👀

译Anthropic在Project Glasswing项目最新进展中宣布,Mythos级模型在开发出更强的安全防护措施后,预计将向公众开放。此前,Anthropic与合作伙伴通过该项目已发现超过一万个关键或高危软件漏洞。这为模型后续的强安全防护开发提供了重要背景与方向。

Chubby♨️@kimmonismus · 5月23日49

Anthropics Jack Clare is super optimistic: - End of 2028 "AI system would be able to design their own successors" - within 12 months humans + robots will find nobel prize-winning discoverys

译Anthropic高管Jack Clark发表了一系列关于AI未来的乐观预测。他预计,在12个月内,AI将与人类协作实现诺贝尔奖级的科学发现;2年内,双足机器人将参与企业工作;到2028年底,AI系统将能自主设计下一代AI,实现递归自我改进。此外,完全由AI运营的公司将在18个月内产生数百万美元收入。Clark最保守的预测则指出,经济和社会将经历深刻变革,可能出现脱离人类的机器经济、机器人获得自主意识、科学在无科学家参与下自行发展等颠覆性场景。

Chubby♨️@kimmonismus · 5月23日72

Insane: Anthropic is reportedly nearing the close of its latest funding round, which could exceed $30 billion and value the company at more than $900 billion. - $900 would make it more valuable than OpenAI + the most valuable private company - ARR $50b by end of June, up from $44b via bloomberg

译据报道,Anthropic即将完成最新一轮融资,金额可能超过300亿美元,公司估值将超过9000亿美元。 - 9000亿美元将使其比OpenAI加上最有价值的私营公司更有价值 - 截至6月底,年化收入达500亿美元,高于此前的440亿美元 via bloomberg

Anthropic@AnthropicAI · 5月23日63

Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners have found more than ten thousand high- or critical-severity vulnerabilities in essential software.

译上个月我们启动了Project Glasswing,我们的协作AI网络安全倡议。此后,我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。

Boris Cherny@bcherny · 5月23日69

Big fan of teaching more people the basics of using Claude Code in an accessible way. So much of the world has not yet used agents. There's a lot of opportunity to level the playing field and expand access.

译推文介绍了一个名为“zero2claude”的免费课程,旨在帮助完全没有编程或终端使用经验的用户系统学习并掌握Claude Code。课程内容从零基础逐步深入至高级应用,目前已吸引超过1.7万名学生,并提供7种语言版本。值得注意的是,整个教学平台完全由一人借助Claude Code独立构建和运营,其出色的性能表现(如高访问量与极低错误率)验证了Claude Code开发生产级产品的能力。推广者强调,扩大AI应用的关键在于赋能用户提升技能,而非简化工具本身,因此该课程不设任何付费门槛,完全免费向社区开放。

AYi@AYi_AInotes · 5月23日55

Damn,Claude这条广告,给所有AI创业者浇了一盆冷水🤯 这个帖子表面在夸客户 ,但Genspark 的 CTO 说的这句话有点扎心,我反复看了几遍, Genspark 的 CTO Kay Zhu 说:“With every other model, we had to predefine every step. Anthropic’s model changed everything about how we build.” 意思是别的模型让他们把每一步都写死,Claude 改变了他们构建产品的思维方式。 再看视频镜头 ,全在拍人,拍团队讨论,拍办公室,不是代码,不是产品截图。 叙事重心从模型多强偷偷换成了谁在用。 我感觉Anthropic 在干一件很聪明的事, 不再卖模型了,它开始卖伙伴关系。 “能让顶级团队走得更远”这个定位,比“最强模型”稀缺一百倍。 也就是说,以前卷参数,现在卷执行层。 现在模型商品化已经是行业共识,但真正看懂的人都在悄悄做一件事 ,把护城河从“我们有更强的模型”转到“我们有能把模型用深 10 倍的团队”。 所以这条帖子我觉得本质上不是在炫耀客户,而是在筛选生态位,Anthropic 在创始人圈层制造的不是客户名单,是稀缺感和荣誉感。 模型人人可得,但能把 Claude 用出护城河的,只有真正顶级的团队。 毕竟在这个任何人都能build的时代, 真正的差异化因素只有团队。 以前你有一个更好的模型,你就能赢, 现在模型已经变成了水电煤, 任何人花几块钱就能买到最好的, 你再也不能拿模型说事了。 以后拼的是什么, 拼的是品味, 是优先级排序,用户洞察, 和快速迭代的速度, 以及团队之间的信任。 这些东西, 没有任何API能卖给你, 没有任何大模型能帮你生成。 模型是原材料, 团队才是把原材料变成有灵魂产品的炼金师, 这才是AI创业真正的游戏规则。 而且我觉得Anthropic 现在的护城河,也根本不是模型。 #AI创业 #Claude #大模型

译Anthropic最新Claude广告巧妙转移叙事焦点,通过Genspark CTO的评价,强调AI竞争已从“模型参数比拼”转向“团队执行能力”。文章指出,在模型日益商品化的当下,真正的护城河在于能将技术深度转化为优质产品的团队,其品味、洞察与迭代速度构成核心差异化。Anthropic借此塑造开发者生态中的稀缺感与荣誉感,标志着行业游戏规则已从“拥有更强模型”变为“锻造顶尖团队”。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月25日
21:28
Chubby♨️@kimmonismus
16
等等,所以Anthropic现在还有天主教会和上帝站在他们那边了?我以为Andrej Karpathy已经是最大亮点了。
Anthropic大佬观点
20:58
Chubby♨️@kimmonismus
65
Anthropic企业采用率首超OpenAI,但成本问题引隐忧

Ramp最新AI报告显示,Anthropic的企业采用率达34.4%,首次超过OpenAI的32.3%。但报告同时指出这一优势可能无法持续:Uber已提前耗尽其2026年全部AI预算,且Anthropic近期一次模型更新导致包含图像的提示成本增至三倍。目前Ramp平台上增长最快的AI供应商,是销售廉价开源模型访问权限的推理平台。

AnthropicOpenAI开源生态现象/趋势
20:58
Rohan Paul@rohanpaul_ai
67
"AI大规模取代人类劳动力是'真实的可能性'……我们发现了在功能上反映喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道这意味着什么,但我认为这值得持续审视。" ~ Anthropic联合创始人Christopher Olah 在梵蒂冈活动中(教皇利奥十四世今日在主教会议厅的演讲)。 ---- 来自"美联社"YouTube频道,(链接在评论区)
Anthropic大佬观点安全/对齐现象/趋势
18:58
Chubby♨️@kimmonismus
64
Anthropic联合创始人持续警告AI对就业的冲击

Anthropic联合创始人Dario Amodei持续警告AI对就业的冲击。他曾在2025年预测,AI可能在五年内消除50%的入门级白领工作,将失业率推高至10-20%。他后来称AI是“通用劳动替代品”,将造成“异常痛苦”的颠覆,并在达沃斯警告可能出现与社会脱节、GDP增长50%的“零世界国家”。当前数据显示趋势印证其警告:2025年科技业入门级招聘下降30-50%,华尔街银行裁减约20万个初级岗位。Anthropic自己的研究也确认,77%的企业使用Claude是为了自动化任务,而非增强员工。另一位Anthropic联合创始人也呼应,称AI大规模替代人类劳动的可能性真实存在。

Anthropic大佬观点行业动态
13:52
meng shao@shao__meng
50
引用消息显示,Claude App注册时已可选择使用+86中国手机号。主推文对此表示怀疑,反问是否为"钓鱼执法",并提及中国IP数据库在此事上更为准确。这一变化可能意味着Claude进一步放宽了对中国地区用户的准入限制。

程序员老熊: 给大家报告一个好消息🎉('ω')🎉 Claude App 已经可以选择 🇨🇳+86 中国手机号了!

Anthropic产品更新
09:31
ginobefun@hongming731
55
AI行业三大趋势:企业落地、下一代Claude开发与超级个体

AI行业呈现三大趋势。一是企业落地竞争加剧,OpenAI成立独立部署公司(TPG等投资40亿美元,估值140亿美元),Anthropic跟进成立类似咨询公司,Google Cloud大规模招募前场部署工程师(FDE),面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑,模型开发完全产品化,用户反馈经Claude自动处理直接用于训练,并引入“dreaming”记忆整理机制,认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出,而是由完整闭环工作流激发而成。

智能体AnthropicMCP/工具OpenAI
09:31
ginobefun@hongming731
49
BestBlogs 5月26日早报精选

早报精选10篇文章并精讲3篇:包括Google与OpenAI将AI商业竞争焦点转向部署落地,Anthropic研究PM揭秘下一代Claude的「dreaming机制」,以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。

AnthropicGoogleOpenAI现象/趋势
08:18
Berryxia.AI@berryxia
61
Claude即将推出Memory Files功能

Anthropic宣布Claude将推出新功能Memory Files,用户可选择在Memory Files与经典记忆模式间切换。该功能允许Claude在对话中自动写下组织化的笔记,并在需要时读取,用户可随时浏览和编辑。这并非简单记录聊天内容,而是将记忆转变为可编辑、可审计的文件系统,更接近OpenClaw、Hermes等始终在线的智能体所采用的持久记忆方式。该功能被视为对之前发现的“知识库”功能的迭代,可能为未来Claude Conway的推出做准备。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude will soon receive a new file-based memory upgrade, offering users the option to choose between Memo...

智能体AnthropicMCP/工具产品更新
07:40
Orange AI@oran_ge
62
湾区正在经历人类分化最严重的时刻。

过去5年,来自 Anthropic、OpenAI、xAI、Nvidia、Meta 等公司的约1万名员工和创始人,实现了远超2000万美元的财富自由。这造成了严重的社会分化:该群体之外的人,即使拥有高薪也感到难以企及,同时大规模裁员加剧了职业焦虑与技能过时的担忧。AI 正在迅速改变工作内容,使公司晋升路径受到质疑,中层管理者面临困境。而那些实现财务自由的富人,也因目标感缺失而感到空虚。

Deedy: The vibes in SF feel pretty frenetic right now. The divide in outcomes is the worst I've ever seen. Over the last 5yrs, ...

AnthropicOpenAI现象/趋势
05:18
Emad@EMostaque
34
说实话,我原以为他们是在讨论不接受18岁以下的研究员。 那个年龄段确实有一些非常优秀的AI研究员。

Overlap: Business & Tech: Anthropic Doesn't Allow Kids Under 18 - Here's Why⁣ ⁣ "We just don't know enough about what AI is going to do to kids. I...

Anthropic大佬观点安全/对齐
04:27
Rohan Paul@rohanpaul_ai
46
使用 Claude Skills 的有趣方式

Claude Skills 是一种功能,使 Claude 能以可重复方式完成特定任务。它是一个指令文件夹,包含提示词、脚本和资源(如 API、文件、MCP 服务器),Claude 动态加载以提升专业任务性能。技能通过 YAML 配置将工具打包成可重复工作流,用户可在对话中直接调用,例如“运行文档套件”或“使用网页应用测试”。Reddit 上的讨论表明,这类技能(如 10 种被验证的技能)能显著改变工作流程,提升生产力,是构建更强大 AI 智能体的基础模块。

AnthropicMCP/工具教程/实践
00:08
🚨 AI News | TestingCatalog@testingcatalog
45
Anthropic 🔥:Claude 即将推出基于文件的全新记忆系统

Anthropic 宣布,Claude 将很快获得一项名为 Memory Files 的新记忆功能。这是一个基于文件系统的记忆升级,允许用户在全新的 Memory Files 与 Classic 记忆模式之间进行选择。根据介绍,Memory Files 类似于 Claude 在对话过程中自主编写、并在相关情境下读取的有组织笔记,用户可随时对其进行浏览和编辑。该功能是对此前发现的“Knowledge Bases”功能的迭代,其运作方式更接近于 OpenClaw 和 Hermes 等始终在线的 AI 智能体所使用的记忆模式。此项升级被认为是为 Claude 未来可能的发布所做的重要准备。

Anthropic产品更新
5月24日
23:18
Berryxia.AI@berryxia
56
Claude 用户账号申诉通道现已开放

推文指出,近期 Claude 用户因 OpenAI Codex 的竞争而流失。核心信息是通知此前账号被封的用户,申诉渠道现已开放。流程包括:1. 登录个人账号;2. 提交申诉理由;3. 等待审核。推文未提及任何性能基准、价格或具体技术参数。

Anthropic教程/实践
23:17
AYi@AYi_AInotes
66
Claude Code之父分享"自动模式":编程效率翻5倍的底层能力

Claude Code之父Boris称自动模式(auto mode)是其最被低估的功能。该模式移除了所有权限弹窗,使得“多实例并行”(multi-clauding)成为可能:用户可启动一个会话自主运行整个项目,同时并行处理其他任务,从而将编程效率提升至5倍。此功能现已向Claude Pro计划用户开放,并支持Claude Sonnet 4.6与Opus 4.7模型。

Boris Cherny: People often ask what my biggest tip is for getting the most out of Claude Code. These days my #1 tip is: use auto mode ...

AnthropicMCP/工具教程/实践编码
22:18
Berryxia.AI@berryxia
61
Claude账号被封后申诉流程指南

文章提到Claude近期因OpenAI o1的竞争流失用户。针对账号被封的用户,文中提供了申诉方法:登录个人账号后提交申诉理由(可借助其他大模型辅助填写),随后进入审核流程等待结果。

Anthropic教程/实践
21:07
凡人小北@frxiaobei
30
内容创作者CuiMao发布了一条带有告别性质的视频,主题为Claude的"前世今生"。这条关于Anthropic的故事被创作者称为"最后一个"。视频使用AI视频生成工具seedance2制作完成,并在结尾设置了彩蛋。

CuiMao: 各位好,这真的是我最后一个关于Anthropic的故事了,本视频由seedance2制作完成。感谢你一直以来对我的关注。结尾有彩蛋。

Anthropic教程/实践
20:07
Boris Cherny@bcherny
同事件精选78
人们常问我,用好Claude Code的最大技巧是什么。 如今我的头号技巧是:使用自动模式。 自动模式意味着不再有权限提示。它是实现"多Claude并行"的关键构件:启动一个会话,然后在其运行时,并行处理另一个会话。

ClaudeDevs: Two updates to auto mode: · Now available on the Pro plan · Sonnet 4.6 is now supported, alongside Opus 4.7 Shift+tab, a...

智能体Anthropic教程/实践编码
同一事件,精选展示《Claude自动模式新增Pro计划与模型支持》
推荐理由:Boris 透底 Claude Code 最高效用法,auto mode 免确认弹窗、支持并行 session,把 AI 编程从串行变并行,值得一开。
17:27
Chubby♨️@kimmonismus
48
我们期待通过通用发布使Mythos级模型可用

Anthropic的发布策略看似矛盾:其Mythos模型性能卓越,能发现其他模型无法发现的漏洞,因此一度被官方声称“过于强大而无法发布”;但最新声明又表示将通过通用发布使其可用。这突然的转向被分析可能并非PR炒作,考虑到其核心瓶颈是算力不足且临近IPO,热度并非关键需求。尽管策略存疑,但一旦模型就绪并设立安全护栏,其远超现有水平的性能将为软件工程带来显著提升。推文引用显示,此次宣布可能是认真举措。

Andrew Curran: Looks like they meant it.

Anthropic大佬观点推理
16:07
凡人小北@frxiaobei
34
Anthropic 估值有望突破 9000 亿美元,预计 10 月份正式上市。 再努努力,争取进入万亿俱乐部。 有一说一,打铁还得自身硬。
Anthropic行业动态
15:18
Berryxia.AI@berryxia
35
Andrej Karpathy(OpenAI联合创始人、前特斯拉AI负责人)加入Anthropic,引发行业震动。值得关注的是,他同步免费公开了相关知识,无需付费即可获取。更关键的是,他本人亲手终结了自己此前提出的"氛围编码"概念,明确指出"LLM是幽灵而非动物",宣告软件3.0时代正式到来。这一转变凸显了个人顶尖技术价值正在超越机构绑定,同时也暗示AI行业的发展路径与人才流动正在发生深刻变化。

huangserva: Anthropic 刚花了巨资雇来 Andrej Karpathy。 同时,他免费给了你同样的知识。 无需天价招聘费,独家权限,学费。只有一个链接和 29 分钟。 这位 OpenAI 联合创始人、前特斯拉 AI 负责人,亲手终结了他自己提出...

Anthropic大佬观点编码
10:45
Thariq@trq212
55
每隔一段时间我就会想起,你可以运行"请帮我省钱"的提示词,它真的会起作用。
Anthropic教程/实践编码
10:37
凡人小北@frxiaobei
52
在AI模型竞争加剧的背景下,Anthropic的Claude恢复了部分被封禁旧账号的登录功能,并提供申诉引导。这一变动被推测为应对OpenAI Codex等产品竞争而采取的用户召回策略。竞争压力可能正在推动服务方重新审视封禁政策,对用户而言,竞争环境往往带来更灵活的服务选择与权益保障。

沐阳: 之前被封的Claude账号,居然可以登录了,登录之后会有申述引导。 这是察觉到Codex超车,搞了个用户召回策略?

Anthropic行业动态
08:31
ginobefun@hongming731
63
AI加速下的工程纪律升级

AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

智能体Anthropic安全/对齐现象/趋势
08:31
ginobefun@hongming731
42
AI发展的三大启示:安全、协作与有效赋能

Anthropic案例显示AI发现漏洞速度已超修补能力,安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实,为AI赋能的正解是提供外部工具与结构化约束,而非简单技能包装。这共同指向了更高效的人机协作新范式。

AnthropicMCP/工具OpenAI安全/对齐
07:49
宝玉@dotey
42
Codex的交互设计确实做得很好,你可以方便地查看当前运行的SubAgents,以及每个SubAgent正在做什么、使用的提示词。
智能体Anthropic大佬观点
07:27
Chubby♨️@kimmonismus
54
2026年AI大模型发布呈现鲜明对比与戏剧性。OpenAI采取审慎策略,通过"可信访问"机制,向验证过的安全专家限量推出GPT-5.5-Cyber。与之形成反差的是,Anthropic官方曾宣称其Claude Mythos模型因过于强大不适合公开发布,但该模型却意外短暂出现在用户界面中,并导致服务容量告罄。现有信息表明,Anthropic正为Claude Mythos(代号claude-mythos-1-preview)在Claude Code与Claude Security等企业产品线上的发布做准备,但这并不等同于面向公众的全面开放。整个过程充满了计划与意外的交织。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Mythos 1, "claude-mythos-1-preview", is being prepared for a release on Claude Code and Claude Security. T...

AnthropicOpenAI大佬观点模型发布
07:07
🚨 AI News | TestingCatalog@testingcatalog
65
ANTHROPIC 🔥:Mythos 1,即"claude-mythos-1-preview",正准备在Claude Code和Claude Security上发布。 该模型曾在Claude上短暂可见;此外,新增了提及Mythos的字符串。 > 在Claude Code和Claude Security中访问Claude Mythos模型。 根据Anthropic之前的沟通,这仍不意味着公众将能访问此确切模型。 更多详情请见下方 👇
Anthropic推理模型发布
06:07
🚨 AI News | TestingCatalog@testingcatalog
46
Anthropic正在推出一项新的"赠送一周Cowork"推荐计划。用户将获得3个邀请码分享给他人。 > 给朋友发送一周免费Cowork。如果他们喜欢并订阅,你将获得€10的使用额度。 > 他们还将获得Claude在:Excel、PowerPoint、Chrome、Claude Code中的使用权限。 谁想试试Cowork?👀
Anthropic产品更新
00:57
Chubby♨️@kimmonismus
66
在Google Vertex上发现了Opus 4.8。不过这一点尚无法确认。 然而,自数据泄露以来,Sonnet 4.8即将到来已是众所周知。 Opus 4.8出现在Vertex上让我感到意外--不过,考虑到加速的发布节奏和GPT-5.5的巨大成功,这确实有可能。 简直太令人兴奋了!

can: claude-opus-4.8 is on Google Vertex 👀

Anthropic模型发布行业动态
5月23日
23:57
Chubby♨️@kimmonismus
49
AI人才绿卡政策引争议,美国科技优势面临挑战

美国前沿AI实验室(如OpenAI、Anthropic)的核心研发人员多为持临时签证的非美国公民。美国国土安全部(DHSgov)近期收紧政策,要求在美持临时签证者须离境返回原籍国才能申请绿卡。此举为OpenAI、Anthropic等公司顶尖人才的绿卡申请流程增加了不确定性、延迟和风险,可能动摇美国吸引全球顶尖技术人才的关键优势,并对其国家安全所倚重的AI系统研发生态构成潜在冲击。

Homeland Security: An alien who is in the U.S. temporarily and wants a Green Card must return to their home country to apply. This policy a...

AnthropicOpenAI政策/监管行业动态
09:50
meng shao@shao__meng
68
一个人,一门课,一个AI自动化工厂

Wix副总裁推出免费课程「Zero to Claude Code」,旨在帮助零编程基础的用户从终端使用起步,最终能用Claude Code在生产环境发布软件。课程已吸引超过17,000名学员,支持7种语言,完全依靠口碑传播。平台技术指标出色,日处理约640万请求且错误率极低。最具示范意义的是其AI闭环运营模式:平台由一人通过Claude Code构建并运营,通过AI Agent实现了学员报Bug后自动修复、社区功能需求自动实现的全流程自动化,证明了Claude Code能支撑生产级、可扩展产品的开发与运维。

itay shmool: I built "zero2claude", a free course that takes people from zero terminal experience to shipping with Claude Code. The c...

智能体AnthropicMCP/工具教程/实践
09:30
ginobefun@hongming731
61
AI应用新趋势:架构分化、组织重构与性能突破

LangChain在演讲中指出,Agent生产架构已明确分化为长时程知识型与低延迟响应型两类,工程路径各异。Notion CEO分享了公司转向更灵活的“爵士乐队”模式,并采用“哑铃型”人才结构以适应AI开发。智谱同期发布GLM-5.1高速版,在保持旗舰能力的同时实现400 tokens/s的输出速度。三者共同揭示了AI应用在底层架构、组织形态与基础性能上的演进方向。

智能体AnthropicOpenAI推理
08:18
Berryxia.AI@berryxia
68
AI网络安全项目一月挖出万级漏洞,效率颠覆传统

Anthropic推出的AI网络安全合作项目Project Glasswing在首月便取得惊人成果:与合作伙伴共同在核心生产软件中发现超过一万条高危或关键级漏洞。这一成果远超传统安全团队年度挖掘数百个漏洞的水平。Anthropic表示,未来的Claude模型将持续加速漏洞挖掘进程,软件行业将面临海量漏洞的持续发现与修复压力,必须适应新的安全常态。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic安全/对齐
06:37
ClaudeDevs@ClaudeDevs
精选69
自动模式的两项更新: · 现已在Pro计划中提供 · 现已支持Sonnet 4.6,以及Opus 4.7 按下Shift+tab,让Claude运行。
智能体Anthropic产品更新编码

推荐理由:Claude Code的auto mode从专属功能下放至Pro计划,并且首次支持Sonnet 4.6,这意味着更多开发者能用更低的成本尝试自动代理编程,Sonnet 4.6的编码能力在实战中究竟如何,现在可以直接测试了。
06:37
🚨 AI News | TestingCatalog@testingcatalog
65
Anthropic在Project Glasswing项目最新进展中宣布,Mythos级模型在开发出更强的安全防护措施后,预计将向公众开放。此前,Anthropic与合作伙伴通过该项目已发现超过一万个关键或高危软件漏洞。这为模型后续的强安全防护开发提供了重要背景与方向。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic安全/对齐模型发布
06:27
Chubby♨️@kimmonismus
49
Anthropic高管Jack Clark发表了一系列关于AI未来的乐观预测。他预计,在12个月内,AI将与人类协作实现诺贝尔奖级的科学发现;2年内,双足机器人将参与企业工作;到2028年底,AI系统将能自主设计下一代AI,实现递归自我改进。此外,完全由AI运营的公司将在18个月内产生数百万美元收入。Clark最保守的预测则指出,经济和社会将经历深刻变革,可能出现脱离人类的机器经济、机器人获得自主意识、科学在无科学家参与下自行发展等颠覆性场景。

prinz: Jack Clark: - AI will make a Nobel Prize-winning discovery within 12 months (working collaboratively with humans) - Bipe...

Anthropic大佬观点
05:27
Chubby♨️@kimmonismus
72
据报道,Anthropic即将完成最新一轮融资,金额可能超过300亿美元,公司估值将超过9000亿美元。 - 9000亿美元将使其比OpenAI加上最有价值的私营公司更有价值 - 截至6月底,年化收入达500亿美元,高于此前的440亿美元 via bloomberg
Anthropic行业动态
04:08
Anthropic@AnthropicAI
63
上个月我们启动了Project Glasswing,我们的协作AI网络安全倡议。此后,我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。
Anthropic安全/对齐部署/工程
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)Anthropic:Research(发表成果 · 网页)The Decoder:AI News(RSS)
01:37
Boris Cherny@bcherny
69
推文介绍了一个名为"zero2claude"的免费课程,旨在帮助完全没有编程或终端使用经验的用户系统学习并掌握Claude Code。课程内容从零基础逐步深入至高级应用,目前已吸引超过1.7万名学生,并提供7种语言版本。值得注意的是,整个教学平台完全由一人借助Claude Code独立构建和运营,其出色的性能表现(如高访问量与极低错误率)验证了Claude Code开发生产级产品的能力。推广者强调,扩大AI应用的关键在于赋能用户提升技能,而非简化工具本身,因此该课程不设任何付费门槛,完全免费向社区开放。

itay shmool 🇮🇱: I built "zero2claude", a free course that takes people from zero terminal experience to shipping with Claude Code. The c...

Anthropic教程/实践编码
01:16
AYi@AYi_AInotes
55
Claude广告揭示AI创业新逻辑:从"卷模型"到"卷团队"

Anthropic最新Claude广告巧妙转移叙事焦点,通过Genspark CTO的评价,强调AI竞争已从“模型参数比拼”转向“团队执行能力”。文章指出,在模型日益商品化的当下,真正的护城河在于能将技术深度转化为优质产品的团队,其品味、洞察与迭代速度构成核心差异化。Anthropic借此塑造开发者生态中的稀缺感与荣誉感,标志着行业游戏规则已从“拥有更强模型”变为“锻造顶尖团队”。

Claude: Kay Zhu is the co-founder and CTO of @genspark_ai, the all-in-one AI workspace built on Claude. In a market moving this ...

Anthropic现象/趋势
‹ 上一页
1…2627282930…48
下一页 ›