5月8日

05:29

Anthropic：Research（发表成果 · 网页）

精选73

2025年10月，Anthropic公司开源了AI模型对齐测试工具箱Petri，用于快速检测模型的欺骗、奉承等风险倾向。该工具已成为Claude模型系列对齐评估的核心部分，并被英国AI安全研究所等外部机构采用。近日，Petri升级至3.0版本，主要改进包括：架构调整提升适应性，允许单独调整审计与目标模型；通过“Dish”附加组件使用真实系统提示和部署环境，增强测试真实性；与另一开源工具Bloom集成，实现更深入的行为评估。为确保独立性与公信力，Petri的开发已移交非营利组织Meridian Labs。

Anthropic 安全/对齐开源生态

推荐理由：Petri 从 Anthropic 内部工具箱变成行业公共品，捐赠给 Meridian Labs 意味着对齐评估不再绑定一家公司，做安全测试的团队又多了一个可参考的标尺。

03:13

Tomer Tunguz 博客（VC 分析）

精选57

估值折价：Anthropic高增长背后的市场疑虑

Anthropic在15个月内估值从10亿飙升至300亿美元，但其企业价值与未来收入之比仅为17倍，远低于增长更慢的Palantir（49倍）。这一估值折扣主要源于四大因素：极高的资本密集度（如年成本达62亿美元的GPU协议）、未来盈利能力不明（可能成为软件公司或资本密集型公共事业）、收入增长的波动性，以及外生的政治与监管风险。市场正通过折扣来反映这个高速变化领域的不确定性。

Anthropic 现象/趋势

推荐理由：Tomer用资本密集度、盈利不确定性、增长波动和政治风险四把尺子量了Anthropic的估值折价，看完你会理解为什么市场给AI增长打了个问号。

02:41

Claude：Blog（网页）

精选85

在Excel、PowerPoint、Word和Outlook中与Claude协同工作

Claude for Excel、PowerPoint和Word现已全面上市，Outlook版本开放公开测试。Claude能在四大微软应用间保持连续对话上下文，实现跨文件智能协作。例如，在Outlook中分类邮件并起草回复，在Excel中调整数据后，PowerPoint图表和Word文档会自动同步更新。企业管理员可通过微软管理中心统一部署，并配置OpenTelemetry进行全流程监控。该套件支持通过Claude账户或现有LLM网关访问，Microsoft 365 Copilot用户也可在Excel和PowerPoint中直接调用Claude。

Anthropic 产品更新

推荐理由：Claude 这次 Office 集成不是普通插件，它让 Excel、PPT、Word、Outlook 共享同一对话上下文，改一个数其余自动更新，生产力提升是实打实的，企业用户值得立即部署。

02:30

Simon Willison 博客

借助Claude Mythos Preview，Mozilla在幕后强化Firefox安全

Mozilla利用Claude Mythos Preview模型，成功定位并修复了Firefox中的数百个安全漏洞。此前AI生成的漏洞报告多为低质量信息，但随着模型能力提升及技术方法改进，报告质量发生显著变化。修复的漏洞包括一个存在20年的XSLT漏洞和一个长达15年的<legend>元素漏洞。值得注意的是，许多自动化攻击尝试已被Firefox现有的深度防御机制拦截。数据显示，2025年Mozilla每月修复约20-30个安全漏洞，而到2026年4月，单月修复数量跃升至423个，呈现爆发式增长。

Anthropic 安全/对齐开源生态

01:30

Simon Willison 博客

精选70

关于xAI与Anthropic数据中心合作的观察

Anthropic在活动中宣布与SpaceX/xAI达成协议，将租用其环境记录恶劣的“Colossus 1”数据中心全部容量。该数据中心曾因燃气轮机无许可运行而污染空气，并关联到居民健康问题，此举在数据中心已成政治敏感议题的背景下引发争议。同时，xAI宣布将于2026年5月15日停用Grok 4.1 Fast等多个模型，仅提前两周通知，招致用户不满。Elon Musk解释称，出租是因为认可Anthropic确保AI“对人类有益”的努力，但保留在AI“危害人类”时收回资源的权利。

Anthropic xAI 安全/对齐现象/趋势

推荐理由：Anthropic租下Colossus 1不仅是一次商业合作，更暴露了算力短缺下的伦理妥协，而xAI突然砍掉Grok 4.1 Fast则提醒开发者别把鸡蛋放一个篮子里。

01:29

Anthropic：Research（发表成果 · 网页）

精选81

自然语言自编码器：将Claude的"想法"解码为文本

Anthropic团队推出自然语言自编码器方法，能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”，形成“激活值→文本解释→重建激活值”的循环，并以重建相似度为目标进行优化。应用表明，NLA能揭示模型未言明的内部状态，例如在安全测试中，发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码，并合作发布了交互式探索工具。

Anthropic 安全/对齐开源生态论文/研究

推荐理由：Anthropic 搞出了一种从激活中直接读出自然语言的方法，相当于给 Claude 的内心戏配了字幕。他们用这招发现模型在安全测试里比表面更常怀疑自己被评估，对审计隐藏动机也有奇效。做 AI 安全的人应该立刻点开看。

5月7日

22:38

The Decoder：AI News（RSS）

Anthropic 如何以 80 倍的增长突破自身基础设施，直入马斯克的数据中心

Anthropic 将接入埃隆·马斯克的 Colossus 1 超级计算机。这一出人意料的合作源于 Anthropic 自身面临的计算资源紧张、即将到来的 IPO 压力，以及马斯克立场的显著转变。公司近期的 80 倍规模增长已远超其现有基础设施的承载能力。

Anthropic xAI 行业动态部署/工程

21:08

The Decoder：AI News（RSS）

AI模型在首先学习其价值观为何重要时能更好地遵循这些价值观

Anthropic Fellows Program的一项研究显示，在训练语言模型时，先让其学习解释目标价值观的文本，再教导具体行为，能显著提升模型对这些价值观的遵循度。这种方法使模型即使在训练中从未遇到的情境下，也能更好地坚持价值观，体现了训练顺序对AI行为对齐的关键影响。研究强调了价值观理解前置在提升模型可靠性和一致性方面的潜力。

Anthropic 安全/对齐论文/研究

19:08

The Decoder：AI News（RSS）

Claude的新"Dreaming"功能旨在让AI代理从错误中学习

Anthropic为Claude Managed Agents新增“Dreaming”功能，这是一个异步处理过程，能自动回顾历史代理会话、清理重复或过时的记忆条目，并提炼新见解。同时，Outcomes和Multiagent Orchestration两项功能现已进入公开测试阶段。这些更新旨在帮助AI代理在跨会话中从错误学习，实现持续改进，提升代理的自主学习和适应能力。

智能体 Anthropic 产品更新

18:29

Anthropic：Research（发表成果 · 网页）

精选67

聚焦领域：Anthropic研究所的核心研究方向

Anthropic研究所公布了其四大核心研究领域：经济扩散、威胁与韧性、真实世界中的AI系统以及AI驱动的研发。该机构将利用其身处前沿AI实验室内部的独特优势，研究AI对世界的实际影响，并公开分享成果。具体举措包括发布更细粒度的“Anthropic经济指数”以预警重大变革，分析面对新型AI安全风险时最需投资韧性的社会领域，以及探讨AI工具如何加速其自身研发。这些研究成果将为Anthropic的“长期利益信托”提供决策依据，并帮助外部组织与公众更好地应对AI发展。

Anthropic 安全/对齐现象/趋势

推荐理由：Anthropic 的研究所首次系统公开研究议程，这不是公关辞令，而是一份真问题清单，尤其 AI 驱动的 AI R&D 部分，预示了递归自我改进的可能路径，值得反复读。