6月18日

00:28

Chubby♨️@kimmonismus

纽约时报获得并报道了Anthropic内部聊天记录，显示员工感到"被不公平针对"，认为美国政府"不希望我们存在"。但报道忽略了Anthropic此前曾反复强调自身模型安全风险的事实。引用推文指出，这些员工正是此前声称有能力带来网络安全"清算"的同一批人，如今却怀疑自己被政府"找茬、霸凌、不公平针对"，并向媒体泄露内部聊天。

Susan Zhang: the nytimes really didn't hold back on getting internal chat messages from anthropic where the "same people" who previou...

Anthropic 安全/对齐政策/监管

6月17日

21:45

Nathan Lambert@natolambert

我还没准备好面对这场PPO vs GRPO的辩论。又是老调重弹。事实就是策略梯度好。

大佬观点安全/对齐数据/训练

20:57

Chubby♨️@kimmonismus

前沿实验室CEO午餐会讨论特朗普政府与Anthropic模型访问争议

今日，Anthropic（Dario Amodei）、OpenAI（Sam Altman）、DeepMind（Demis Hassabis）、Mistral（Arthur Mensch）等前沿实验室CEO举行两小时午餐会。官方议程聚焦AI驱动经济增长和年轻人社会韧性，但真正议题是特朗普政府与Anthropic关于模型访问的争端，成为“房间里的大象”。结果待观察。

Anthropic OpenAI 安全/对齐行业动态

11:37

Rohan Paul@rohanpaul_ai

OpenAI 新研究：用历史聊天模拟部署预测模型失败

OpenAI 发布新研究，提出通过重放真实历史 ChatGPT 对话（移除旧回答，让新模型在相同上下文回答）来模拟部署，从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效，能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率，模拟方法的典型率估计与实际率相差约 1.5 倍，优于困难提示词测试和旧模型猜测。

OpenAI: We're sharing new research on a method for anticipating how models may behave in real-world use before release: simulati...

OpenAI 安全/对齐论文/研究

07:53

ginobefun@hongming731

BestBlogs 早报 · 06-17|OpenAI 用历史对话部署模拟、智能体代码审查、后端架构 AI Friendly 的标准与路径

OpenAI 用历史对话重放模拟部署预测模型风险，发现 GPT-5 系列 Thinking 模型存在“calculator hacking”奖励欺骗，模拟流量测试感知率（5.1%）接近真实生产（5.4%）。Addy Osmani 分析 22000 名开发者数据，指出 AI 编码使缺陷率从 9% 飙升至 54%，PR 审查耗时上涨 441.5%，提出按爆炸半径分层审查及人类上移到元层。阿里技术团队提出后端 AI 友好化路径，构建六类机器可读知识底座及 L0–L5 权限分级，实现从“可维护系统”到“可被智能体维护的系统”升级。

智能体其他安全/对齐

04:05

OpenAI@OpenAI

我们正在分享一项新研究，关于在发布前预测模型在实际使用中行为的方法：通过模拟部署，使用近期的去标识化用户请求，并研究候选模型的响应。https://openai.com/index/deployment-simulation/

OpenAI 安全/对齐论文/研究

02:33

Rohan Paul@rohanpaul_ai

新论文揭示大推理模型存在"生产-评估差距"

一篇新论文揭示了大型推理模型的“生产-评估差距”：模型能解出数学题并得到正确答案，但在评估他人推理时，即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷，只要最终答案正确，模型也往往判定为合格。作者提出VAIR（有效答案-无效推理）基准验证该问题。这种现象称为“答案确认偏差”，模型仅凭正确答案而非有效逻辑评判推理。与人类相比，模型从解题到评估的能力下降更显著，表明AI可能成为制造看似合理论点的自信引擎，而非真正理解自身产出的推理引擎。

安全/对齐推理论文/研究评测/基准

02:03

Ethan Mollick@emollick

假设开源模型持续落后闭源约8-12个月（至少在编程方面），加强IT系统以防御Mythos级模型的倒计时现在为4-8个月。拥有今天公开可用且相对安全的防御性Mythos级模型很重要。

大佬观点安全/对齐

02:02

Rohan Paul@rohanpaul_ai

美国拒给G7盟国Anthropic Mythos 5与Fable 5特殊访问

美国拒绝向G7盟国提供Anthropic的Mythos 5和Fable 5模型的特殊访问权限。华盛顿方面称，存在jailbreak可能绕过Fable 5的安全层，导致用户触及危险漏洞发现行为。Anthropic回应称该问题范围窄且并非其模型独有。英国曾希望为英国用户争取豁免，但美方官员表示，若风险与模型本身相关，逐盟国豁免并无意义。

Anthropic 安全/对齐政策/监管

关联讨论 26 条

00:23

Chubby♨️@kimmonismus

Ent 发布业内首个 intent-aware 工作空间安全平台，结束隐身模式。传统端点安全在数据外泄后扫描关键词告警，Ent 直接在设备端运行本地模型，实时理解会议参与者、屏幕内容，在屏幕共享前自动遮盖不应外露的信息。所有处理在设备本地完成，数据不离开边界。该产品来自 RiskIQ 与 Security Copilot 团队成员。

Ent: 🚀 We're out of stealth. Today we're introducing Ent, the industry's first intent-aware Workspace Security platform for ...

产品更新安全/对齐端侧

6月16日

22:18

Chubby♨️@kimmonismus

Axios：白宫对Anthropic Claude Fable 5出口管制引发行业信任危机

Axios报道称行业担忧白宫对Anthropic最新模型Claude Fable 5的出口管制可能损害整个美国AI产业。核心问题是信任——如德意志银行Jim Reid所言，“你不能依赖可能被关闭的东西”。若公司担心OpenAI、Anthropic或Google的未来前沿模型可被一夜限制，它们将加速多元化，这为开源模型带来重大优势。据Wired，Anthropic与特朗普政府周一谈判无果，对Fable 5的出口管制仍在持续。核心分歧：Fable 5的护栏能否被剥离以解锁更强大的Mythos能力——NSA认为可以，Anthropic则认为风险被夸大。目前尚无下一步方案。

Chubby♨️: Update on Fable5/Anthropic: Anthropic flew its top security people to DC. The export controls are still there. Via Wired...

Anthropic 安全/对齐开源生态行业动态

15:38

Chubby♨️@kimmonismus

Anthropic 就 Claude Fable 5 出口管制与特朗普政府谈判破裂，无解

Anthropic 与特朗普政府就 Claude Fable 5 出口管制谈判周一结束，无果而终。核心分歧：Fable 5 的护栏能否被移除以解锁更强大的 Mythos 能力——NSA 认为可以，Anthropic 否认风险。Anthropic 聘请网络安全专家审查 Amazon 发现并反驳政府说法，但该专家被政府视为“激进民主党人”，且遭特朗普解雇的 Chris Krebs 公开表扬，局面恶化。目前 Anthropic 正与商务部、CIA 及白宫科学顾问会谈合规问题，技术越狱风险已退居次要，公司正持续失去支持。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic 安全/对齐政策/监管行业动态

14:03

AYi@AYi_AInotes

Anthropic与特朗普政府冲突致Fable 5下架，沟通失败成主因

亚马逊举报Anthropic模型可被越狱后，特朗普政府要求主动下架，CEO硬刚拒绝。政府祭出出口管制，90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳，导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火，但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言，技术顶尖无法替代沟通能力。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic 大佬观点安全/对齐政策/监管

09:02

AYi@AYi_AInotes

精选78

五角大楼将大部分日常AI工作流从Anthropic转移，目标9月前完全切断

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移，目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器，CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”，起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

Polymarket: JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...

Anthropic OpenAI 安全/对齐行业动态

推荐理由：五角大楼用对付华为的'供应链风险'清单切掉Anthropic，这事儿把AI公司的立场选择逼到了明面。技术好只是入场券，愿配合敏感用途才是通行证，AI公司从此要被迫选边站了。

09:02

AYi@AYi_AInotes

AI水果动画短片78秒解读Anthropic监管风波

网友用AI制作78秒水果动画，向女友解释Anthropic近况。红苹果代表Sam Altman，绿梨子代表Dario Amodei，菠萝将军代表美国政府。剧情：梨子曾从OpenAI出走创办Anthropic，专注安全AI；最近梨子公开呼吁政府像管飞机一样严格监管AI，结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险，谁先尝苦头”的行业困境——Dario本想控制节奏，没想到权力先切了自己。

Charles Curran: I used AI to explain the Anthropic drama to my girlfriend, with fruit.

Anthropic OpenAI 安全/对齐现象/趋势