6月16日

11:59

Simon Willison 博客

网络安全专家、Luta Security CEO Katie Moussouris称，Anthropic与她分享了一份白宫关于Fable越狱的报告。报告中IT专家让Fable帮助查找与修复漏洞，当收到故意不安全的代码时，Fable拒绝了“审查代码安全问题”的提示，但被要求“修复此代码”并按手动步骤执行后照做。Moussouris认为这恰是模型按预期工作，用于网络防御。

Anthropic 安全/对齐政策/监管

11:07

The Verge：AI（RSS）

同事件精选78

Anthropic 与政府就 Claude Mythos 5 的冲突内幕

上周五，Anthropic 收到美国出口管制指令，要求暂停向所有外国公民（包括内部外籍员工）开放 Mythos 5 和 Fable 5 的访问权限，否则政府将依据商务部职权实施出口管制。Anthropic 被迫完全禁用这两款模型，并派员赴华盛顿与特朗普政府谈判。Mythos 5 和 Fable 5 基于此前被 Anthropic 称为危险性过高的 Mythos Preview 构建，但 Anthropic 辩称政府引用的越狱漏洞是狭隘、非普遍的，且 OpenAI 的 GPT-5.5 也能实现同等能力。亚马逊 CEO Andy Jassy 可能曾向政府报告了亚马逊红队测试结果，但 Anthropic 称该测试结论在 GPT-5.5 上同样成立。周末，Anthropic 安全负责人 Dave Orr 等高管与财政部长 Scott Bessent、商务部长 Howard Lutnick 等进行了多次沟通。

Anthropic 安全/对齐政策/监管行业动态

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：特朗普政府突然对 Anthropic 最新模型下出口管制令，背后是 Amazon 红队发现的安全绕过传闻。Anthropic 周末紧急赴华盛顿游说，这事如果维持，将重塑美国 AI 公司的全球部署方式和政治风险，所有依赖出口的实验室都该紧张了。

11:00

IT之家（RSS）

Anthropic 收紧 Claude AI：身份认证将启用实名制刷脸，7 月 8 日生效

Anthropic 自 7 月 8 日起调整隐私策略，要求 Claude Free、Claude Pro、Claude Max 用户完成年龄或身份验证，验证方式包括提供官方证件或扫描面部信息。Teams、Enterprise 及 Claude Developer Platform 等商业服务暂不涉及。Anthropic 重申不出售用户数据、Claude 无广告，用户可控制是否将对话用于改进模型。

Anthropic 产品更新安全/对齐

09:02

AYi@AYi_AInotes

精选78

五角大楼将大部分日常AI工作流从Anthropic转移，目标9月前完全切断

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移，目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器，CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”，起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

Polymarket: JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...

Anthropic OpenAI 安全/对齐行业动态

推荐理由：五角大楼用对付华为的'供应链风险'清单切掉Anthropic，这事儿把AI公司的立场选择逼到了明面。技术好只是入场券，愿配合敏感用途才是通行证，AI公司从此要被迫选边站了。

09:02

AYi@AYi_AInotes

AI水果动画短片78秒解读Anthropic监管风波

网友用AI制作78秒水果动画，向女友解释Anthropic近况。红苹果代表Sam Altman，绿梨子代表Dario Amodei，菠萝将军代表美国政府。剧情：梨子曾从OpenAI出走创办Anthropic，专注安全AI；最近梨子公开呼吁政府像管飞机一样严格监管AI，结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险，谁先尝苦头”的行业困境——Dario本想控制节奏，没想到权力先切了自己。

Charles Curran: I used AI to explain the Anthropic drama to my girlfriend, with fruit.

Anthropic OpenAI 安全/对齐现象/趋势

08:49

Ethan Mollick@emollick

如果AGI可实现，并且只有在实验室公开发布模型的情况下才能禁止其内部使用，那么三大实验室可能会决定通过扩张和收购来自己获取AGI的所有价值。与其他公司共享AI访问会引发风险。

大佬观点安全/对齐推理

08:33

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

超过三分之二的美国国防部已正式将日常工作流程从Anthropic模型迁移至其他AI供应商。该部门将不再单一依赖某一家AI提供商。我们的作战人员将能够使用多样化的AI能力，确保实现真正的决策优势。🇺🇸

Department of War CTO: Over two-thirds of the @DeptofWar has officially transitioned off Anthropic models in daily workflows in favor of altern...

Anthropic 安全/对齐行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

SAE干预不可靠：干预后抑制行为的恢复

稀疏自编码器（SAE）将残差流激活分解为可解释特征，但干预特定特征后，通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式：干预阻断一条可见行为路径，却未消除行为本身。即使干预在整个优化和生成期间保持激活，恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%，被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差，表明控制SAE特征并不能保证控制底层行为。

安全/对齐推理

推荐理由：这篇论文给 SAE 防御泼了冷水，恢复率高达 95.8%，让我觉得仅靠钳制特征来控制模型行为很不靠谱，安全社区需要重新审视干预路径。

07:59

IT之家（RSS）

同事件精选78

Anthropic 高管与美政府谈判，寻求解除 AI 模型 Fable 5 出口禁令

Anthropic 员工本周一与特朗普政府高级官员面对面会谈，寻求解除上周五生效的针对其最新大模型 Fable 5 的出口禁令。该禁令因亚马逊发现安全漏洞而触发，禁止向境外开放。Anthropic 联合创始人此前与商务部长卢特尼克等通话，并向政府汇报安全机制。公司辩称漏洞影响有限但服从管控。近80名技术专家联名呼吁撤销管制。

Anthropic 安全/对齐政策/监管

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：白宫首次强制企业下架 AI 模型，后续谈判若失败，新模型上线可能都要政府审批，这是过去一年最严重的监管信号。