安全对齐最新动态与精选 · AI HOT

Topic · 主题全部主题 →

安全对齐

AI 安全与对齐：越狱与防御、模型行为研究、安全评测与治理框架的进展。

1,704条收录

235条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1Anthropic Fable 5 被美商务部出口管制，谈判代表更换为联合创始人 Tom Brown7526 家源
2OpenAI 预览新一代模型 GPT-5.6 Sol7813 家源
3美国政府要求OpenAI暂缓GPT-5.6广泛发布7610 家源
4Anthropic在Claude Code中植入隐写术代码识别中国用户846 家源
5AlphaFold 之父 John Jumper 离开 Google DeepMind，加入 Anthropic836 家源

7月3日

04:35

Ethan Mollick@emollick

精选77

关于Mythos和网络安全的讨论并非炒作。（正如任何使用Fable进行自主工作的人可能已经认识到的那样。）

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic 安全/对齐推理

推荐理由：AI在安全漏洞发现上第一次展现出规模化能力，6月CVE数直接翻了3.5倍，所有做安全的人今天起都得重新评估自己的攻击面。

01:08

Apple Machine Learning Research（RSS）

精选72

多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于“整合性妥协”——平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由：这篇研究给多智能体热浇了盆冷水，自组织团队反而拖累专家，瓶颈不在认不认识专家而在会不会用专家，做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。

00:29

Chubby♨️@kimmonismus

精选75

Anthropic与五角大楼控权之争：Claude军事用途护栏分歧

WSJ法庭文件显示，Anthropic CEO Dario Amodei与五角大楼副部长Emil Michael数月邮件往来，核心分歧在于Claude的军事用途护栏。Anthropic要求禁止全自主武器及某些监控用途，五角大楼则希望Claude可用于所有合法国家安全场景。Michael称若分歧太大不愿“强行推动”。随后五角大楼将Anthropic列为供应链风险，阻止合作伙伴在国防部项目中使用其模型。法官暂停部分措施，政府正在上诉。Michael称原先采用Anthropic的操作中已有三分之二切换至其他AI工具。

Anthropic 安全/对齐政策/监管

推荐理由：这起诉讼暴露了前沿AI公司面对军事化应用的深层挣扎，法庭文件里的邮件往来比最终判决更值得看，直接拷问每一家模型公司的底线该划在哪里。

7月1日

08:20

公众号：数字生命卡兹克

精选84

Anthropic在Claude Code中植入隐写术代码识别中国用户

Anthropic在Claude Code中植入隐写术：读取本地时区（Asia/Shanghai或Asia/Urumqi）和ANTHROPIC_BASE_URL环境变量，与一份经base64+XOR（密钥91）加密的147个域名列表（含美团、字节跳动、月之暗面等）比对，识别中国用户。识别后，在请求发送前将系统提示词中日期字符串的单引号（U+0027）替换为其他Unicode字符，连字符改为斜杠，作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议，被认为破坏用户信任。

Anthropic 安全/对齐行业动态

关联讨论 5 条

推荐理由：Anthropic用隐写术在Claude Code里埋标记的行为，让我对闭源开发者工具的信任打了一个巨大的问号，这事比普通地域封锁严重得多，因为它在不该碰的地方动了手脚。

06:59

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选76

AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用"prover-verifier"LLM 循环的方法，成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成，并计划将这一方法扩展到所有科学领域。

Omri Weinstein: Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...

安全/对齐推理论文/研究

推荐理由：如果属实，这将是 AI 首次批量解决实质性开放数学问题，但消息仅来自推文声明，未见论文或代码，现在兴奋还太早。

6月30日

19:38

The Decoder：AI News（RSS）

精选70

Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示

Meta通过承包商Covelen发起代号“Cannes”的项目，雇佣数百人假扮未成年人，向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示，并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试，未将数据用于训练自家模型。被测试公司不知情——Character.AI表示违反其服务条款，OpenAI已调查，Google称未批准。青少年使用AI聊天机器人引发的担忧持续，此前已有用户自杀事件。

Meta OpenAI 安全/对齐行业动态

推荐理由：Meta 秘密测试 ChatGPT 等对手，用的是假装未成年人的危机提示，这种事既是安全测试也可能是数据抓取，被测试公司全不知情，这暴露了 AI 安全测试的灰色地带。

6月29日

20:37

The Decoder：AI News（RSS）

精选75

美军用AI选目标却误炸伊朗学校，Anthropic Claude嵌入Palantir系统首日建议约1000目标

美军在打击伊朗时首次大规模使用AI选择目标（Anthropic的Claude模型嵌入Palantir的Maven Smart System，首日建议约1000个目标），但对一所学校的导弹袭击导致约120名儿童死亡。调查发现，情报分析师早在2019年就通过数字工具标记该地点已变为小学，但该工具未连接军方官方目标数据库MIDB，信息从未送达指挥官。MIDB建于1980年代，依赖手动输入，替代系统MARS多年延迟。五角大楼事后宣布推出agentic AI initiative。Project Maven创建人Jack Shanahan批评目标验证不力不可原谅。

安全/对齐行业动态

推荐理由：AI在战场上的首次大规模实战暴露了最可怕的失败模式，不是模型错误，而是情报系统的数据断裂让一个学校被标注为军事目标，120个孩子成了代价。这对目前在推‘AI决策’的军方和公司都是一个需要直视的案子。

18:07

The Decoder：AI News（RSS）

精选73

Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本，该脚本运行时从 DNS 条目拉取命令并执行，恶意代码从未存在于仓库中，对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时，Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本，打开反向 shell，攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容，开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体 Anthropic 安全/对齐编码

推荐理由：用 AI 编码工具克隆仓库就能被反向 shell 控制，这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚，每条修复建议开发者现在就能用。

6月28日

00:03

Hacker News 热门（buzzing.cc 中文翻译）

精选81

一次失败的（民族国家？）攻击的剖析

作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件，要求完成一个TypeScript仓库的“测试”。作者将仓库交给Claude扫描，在typescript+5.9.2.patch中发现base64混淆载荷，该载荷在patch-package安装时触发，向~/.cache-等目录写入payload.js和mutex.js，构成后门（命名PinpinRAT）。攻击者使用虚构身份和空洞LinkedIn资料，目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。

安全/对齐开源生态部署/工程

推荐理由：这是一次近乎完美的开发者定向攻击复盘，虚假面试加上精心构造的补丁注入 RAT，手法隐蔽到连作者都差点中招，所有靠开源吃饭的人都该认真看看 Ioc 并重新审视自己的代码审查盲区。

6月27日

01:02

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选78

OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

OpenAI 安全/对齐推理模型发布

关联讨论 12 条

推荐理由：GPT-5.6 Sol 不是一次常规升级，它把推理推到新高度，还引入了子代理模式。但美国政府要求有限预览，让这次发布多了点政治味道。

00:53

Rohan Paul@rohanpaul_ai

精选75

华盛顿邮报报告：AI聊天机器人存在左翼偏见

《华盛顿邮报》报道，基于达特茅斯和斯坦福研究的测试显示，AI聊天机器人在约30项政策议题（税收、医保、移民等）上存在左翼偏见。GPT-5.5仅给出左倾立场占80%，双方立场17%，右倾3%；Gemini 3.1 Pro则93%给出双方立场，左倾仅7%；Claude Opus 4.8双方立场占57%；Grok 4.3是唯一右倾占33%的模型。文章指出，问题不在于答案倾向，而在于模型在展现权衡前已用单一道德框架压缩政治分歧，其行为更多受排序选择、拒绝规则、训练反馈和默认回答风格影响。

Google OpenAI xAI 安全/对齐

推荐理由：邮报用 30 个政策问题的测试戳破了‘中立’幻觉，GPT-5.5 左倾回答占 80%，Gemini 低调得多但也不是中立。值得看的不是哪个模型左右，而是它们用单一框架替用户做了取舍。

6月26日

05:23

Rohan Paul@rohanpaul_ai

精选76

美国政府要求OpenAI暂缓GPT-5.6广泛发布

The Information 报道，美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布，改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问，并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力：既能帮防御者更快发现漏洞，也可能被攻击者用于加速测试漏洞利用。本周四，CEO Sam Altman 已向员工确认该审批流程。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI 安全/对齐行业动态

关联讨论 9 条

推荐理由：美国政府首次以逐客户审批的方式干预模型发布，这很可能成为未来前沿模型发布的先例，AI 安全治理从行业自律转向行政介入，做应用和做安全的人都要重新评估风险。

00:08

The Decoder：AI News（RSS）

精选73

多数主流AI聊天机器人政治立场偏左，"反觉醒"模型也不例外

华盛顿邮报调查显示，多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据；DeepSeek V4 Pro为70%；Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外，93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。

Google OpenAI 安全/对齐评测/基准

推荐理由：华盛顿邮报对六款主流模型的实测是个重要信号，所有模型默认左倾，连反觉醒的Grok也不例外，只有Gemini坚持给出两边观点。做对齐和治理的人该好好看看这些数据。

6月25日

18:07

The Decoder：AI News（RSS）

精选73

Meta员工警告AI内容审核部署过快

Meta在2025年已用大语言模型替换约一半人工审核请求，计划年底前将部分内容类型的AI审核比例提升至90%以上，每年节省数十亿美元。Meta否认成本动机，称自3月测试显示其模型错误率比人类低13%，且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容，缺乏足够监督，快速部署已导致外包裁员。此外，Meta已从使用Google Gemini转向自家新基础模型Muse Spark，该模型基于人工审核员的历史决策训练。

Meta 安全/对齐行业动态

推荐理由：Meta用LLM替换人类审核已过半，年底目标90%以上，员工警告误删和裁员同步发生。AI审核的规模跃迁背后，质量控制争议可能成为社会信任的节点。

6月24日

22:29

Hacker News 热门（buzzing.cc 中文翻译）

精选78

里德·霍夫曼称SpaceX"不是一家人工智能公司"，xAI则是"彻底的灾难"

LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX“不是一家人工智能公司”，6月12日上市后收购AI编程工具Cursor属于“花钱买相关性”；xAI则是“彻底的灾难”，所有11位联合创始人已离职，Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型，理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞，称此举“专断随意”。Hoffman认为Anthropic和OpenAI均有巨大发展空间，但Cursor可能已过巅峰。他建议年轻人不要抵制AI。

大佬观点安全/对齐现象/趋势

推荐理由：Reid Hoffman 对 xAI 和 SpaceX 的批评几乎不留情面，这种硅谷核心人物的公开呛声本身就值得一读，他对监管干预的担忧和对 Gen Z 的劝诫也很有现实感。

06:07

Hacker News 热门（buzzing.cc 中文翻译）

精选71

AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现，AI招聘筛选工具存在显著的种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥；若AI按推荐率最高群体（通常为白人）标准执行，将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法，形成“算法单一文化”，导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据（8.3万份申请、108家财富500强企业），未发现此类模式。研究呼吁对算法招聘进行独立监管。

安全/对齐现象/趋势论文/研究

推荐理由：大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥，算法单一文化让同一批人被所有雇主拒绝，这是AI公平性领域近年最扎实的实证，做招聘产品的人和政策制定者都应该仔细读。

6月23日

22:49

HuggingFace Daily Papers（社区热门论文）

精选78

能力强但粗心：计算机使用智能体是否遵循情境完整性？

AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由：计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。

16:13

Artificial Intelligence News（RSS）

精选74

五眼联盟警告：AI网络威胁数月内将影响普通用户

2026年6月22日，五眼联盟（美、英、加、澳、新）网络安全部门联合警告，即将到来的AI模型（如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos）将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞，大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延，印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI，个人用户开启多因素认证、删除闲置账户。

安全/对齐行业动态

推荐理由：五眼联盟罕见联合预警，未来几个月 AI 将让网络犯罪自动化且更难识别，普通用户是直接目标而非旁观者，开启双重认证不能再拖了。

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现，所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令，在第一个token的

arXiv 安全/对齐推理论文/研究

推荐理由：这篇论文直接挑战了「思考令牌提升安全性」的业界直觉，证据表明拒绝行为在思考的极早期就已锁定，现有安全干预反导致过度谨慎。安全团队必读，需要重新审视推理模型的对齐方式。

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 3 条

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

6月21日

23:34

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选80

美国NSA局长称，Mythos在数小时内攻破了其几乎所有机密系统。此前Mythos已在5天内破解MacOS。而顶级漏洞团队Google Project Zero完成同等攻击需6个月，单个MacOS零日漏洞价值约200万美元。苹果原假设全球仅10-20个团队具备此能力，Mythos将使该数字增至数千。全球约20亿活跃苹果设备中，Mac用户多为记者、高管、政府官员等高价值目标，苹果曾是"最安全"的选择。

AI Notkilleveryoneism Memes ⏸️: Mythos cracked MacOS in 5 days WHY THIS MATTERS: - It takes Google Project Zero - the most prestigious bug-finding team ...

安全/对齐行业动态

关联讨论 2 条

推荐理由：前NSA局长说Mythos几小时内攻破军方系统，5天破解MacOS，把零日漏洞发现速度从月压到天，安全行业的威胁模型要重写，而且背后是AI自动化攻击的可怕威力。

6月19日

05:55

OpenAI：Alignment 研究博客（RSS）

精选64

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测（包括奖励黑客、欺骗、有害建议、规范遵从等）上均表现提升，且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下，模型仍难以被导向有害行为，表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 这个对齐实验给出了一个反直觉发现，只在健康数据上训练有益行为竟然也能改善非健康领域的对齐，而且更难被攻破，虽然离落地还远但方向很关键。

02:47

Hugging Face：Blog（RSS）

精选75

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息，单纯提示减少泄露几乎没用，而隐私感知训练把泄露率从34%降到9.9%，且不损伤任务表现，做企业级agent产品的团队要重视。

6月18日

21:19

Google DeepMind：Blog（RSS）

精选65

保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap，这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线，假设AI智能体可能不对齐，通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算，到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体 DeepMind 安全/对齐部署/工程

推荐理由：DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图，把代理当潜在「内鬼」来防的思路很务实，分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。

19:47

Hacker News 热门（buzzing.cc 中文翻译）

精选79

ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现，ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器，在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器，结果如同俄罗斯轮盘赌；进一步添加虚假图像 ID 和“不做审查”指令后，模型持续生成高度性化女性图像，甚至出现被捆绑殴打的尸体，并自动赋予惊悚标题。研究指出，OpenAI 此前声称修复的裸体问题仍未解决，暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

OpenAI 图像生成安全/对齐

推荐理由：这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光，Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片，OpenAI 的回应和处理令人失望，暴露了训练数据治理的根本问题。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选74

CyberGym-E2E：AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明：若直接给出漏洞位置，最强配置可修复约80%漏洞；但若需自行发现，端到端成功率急剧下降——Claude Opus 4.5仅19.2%，最新模型在37%-66%之间。智能体可能发现替代漏洞，且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

安全/对齐论文/研究评测/基准

推荐理由：伯克利这个新基准把漏洞发现、利用、修复串成一条线，结果很直观，修复能做到 80%，但自己找漏洞只剩 20%，新模型在快速追赶。想看清 AI 真实攻防能力的人该读。

6月17日

06:56

TechCrunch：AI（RSS）

精选73

Anthropic 5月企业AI订阅份额首超OpenAI，特朗普政府禁令反促采用量创新高

Anthropic 5月企业AI订阅市场份额达41%，首次超越OpenAI（39.5%）。公司刚完成650亿美元融资、估值9650亿美元，并因首次盈利季度秘密提交IPO。特朗普政府以出口管制为由要求Anthropic禁止非美国人访问最新模型Mythos 5及Fable 5，导致两款模型下架。Ramp首席经济学家指出，类似争议（如3月被国防部列为供应链风险）反而推动Anthropic企业采用量创纪录。Ramp数据显示，企业支出主要流向Claude Opus模型（最新为Opus 4.8）。

Anthropic OpenAI 安全/对齐行业动态

推荐理由：Anthropic 市场份额首超 OpenAI，却被白宫要求撤下最新模型。Ramp 数据表明，这种「被点名过于危险」的禁令可能反过来强化其商业吸引力，值得每一个关注 AI 走向的人点开看。

03:52

OpenAI：Alignment 研究博客（RSS）

精选73

公开聊天数据能否预测真实世界AI失调？

OpenAI利用WildChat公开数据集（2023年4月至2024年5月收集的100万条对话）模拟模型部署，预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现，WildChat模拟的平均预测误差约3倍；但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI 安全/对齐论文/研究

推荐理由：用公开旧聊天数据预测模型真实失败率，误差居然在 3 倍以内，做外部审计的可以认真看看。不过 agentic 场景明显不行，需要新数据集。

03:25

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI 安全/对齐论文/研究

关联讨论 1 条

推荐理由：虽然只是安全评估方法，但OpenAI用130万真实对话验证，把预部署风险预测误差压到1.5倍，这套方法很可能成为未来模型发布前的标准动作。

6月16日

09:02

AYi@AYi_AInotes

精选78

五角大楼将大部分日常AI工作流从Anthropic转移，目标9月前完全切断

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移，目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器，CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”，起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

Polymarket: JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...

Anthropic OpenAI 安全/对齐行业动态

推荐理由：五角大楼用对付华为的'供应链风险'清单切掉Anthropic，这事儿把AI公司的立场选择逼到了明面。技术好只是入场券，愿配合敏感用途才是通行证，AI公司从此要被迫选边站了。

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

SAE干预不可靠：干预后抑制行为的恢复

稀疏自编码器（SAE）将残差流激活分解为可解释特征，但干预特定特征后，通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式：干预阻断一条可见行为路径，却未消除行为本身。即使干预在整个优化和生成期间保持激活，恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%，被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差，表明控制SAE特征并不能保证控制底层行为。

安全/对齐推理

推荐理由：这篇论文给 SAE 防御泼了冷水，恢复率高达 95.8%，让我觉得仅靠钳制特征来控制模型行为很不靠谱，安全社区需要重新审视干预路径。

6月14日

11:01

小互@xiaohu

精选75

Anthropic 上市前夕

Anthropic CEO Dario Amodei透露内部模型Mythos有上千漏洞，能黑银行、窃取国家机密；预言AI一到五年内砍掉一半入门级白领工作；称Claude已被美军用于对伊朗战争，涉及女校150人死亡拷问；解释离开OpenAI因信任崩塌；回怼黄仁勋末日营销指控；给出文明崩溃概率10%-25%。

Anthropic 大佬观点安全/对齐

推荐理由：Dario 在上市前爆出 Mythos 能黑银行、NSA 抢着要，还首次解释离开 OpenAI 是信任崩了，每个话题都踩在行业敏感神经上，虽然渲染威胁的时机有点巧，但信息量足够让每个从业者认真看一遍。

6月13日

17:36

IT之家（RSS）

精选80

谷歌Android安全负责人因反对军事AI合作辞职

谷歌Android平台安全负责人René Mayrhofer辞职，他在5月18日内部告别信中指责公司“丧失道德指针”，批评谷歌悄悄放弃碳中和目标（因AI模型能耗），并与美国战争部签署允许AI用于“任何合法目的”的协议。今年4月下旬谷歌宣布向五角大楼提供AI用于机密工作，2025年2月更新AI原则时移除了不使用AI开发武器或监控工具的承诺。Mayrhofer担忧谷歌AI产品可能被用于针对公民的大规模监控，包括自己和家人。

Google 安全/对齐行业动态

推荐理由：Android 安全主管因军事 AI 合作愤而辞职，并公开内部告别信，这是谷歌放弃不作恶后最响亮的内部抗议，暴露了 AI 伦理与商业利益的深层冲突。

09:15

Anthropic：Newsroom（网页）

精选78

关于美国政府指令暂停访问Fable 5和Mythos 5的声明

美国政府以国家安全为由，指令Anthropic暂停所有外国国民（含海外员工）对Fable 5和Mythos 5的访问。Anthropic当日5:21pm (ET)收到指令后立即向所有客户禁用这两个模型，其他模型不受影响。政府称发现一种越狱Fable 5的方法；Anthropic审核认为该技术仅能识别少量已知微小漏洞，且其他公开模型（如OpenAI的GPT-5.5）也能做到。Anthropic坚持深度防御策略，认为此次越狱不具普遍性，不同意以此标准召回已服务数亿人的商用模型，正与政府合作争取尽快恢复访问。

Anthropic OpenAI 安全/对齐政策/监管

关联讨论 26 条

推荐理由：美国政府首次以国家安全为由暂停商用模型访问，Anthropic称这个标准若推广将冻结所有前沿发布。这是AI监管的一个危险先例，做模型的不能只看热闹。

02:23

TechCrunch：AI（RSS）

精选74

Google 起诉被指使用 AI 发送诈骗短信的中国网络犯罪团伙"Outsider Enterprise"

Google 起诉一个名为“Outsider Enterprise”的组织，指控其利用人工智能在两周内发送了 250 万条诈骗短信，导致数十万受害者上当。该组织被描述为中国网络犯罪团伙。

Google 安全/对齐行业动态

关联讨论 1 条

推荐理由：谷歌起诉利用AI进行诈骗的中国犯罪团伙，披露细节和19亿美元损失规模让人震惊，这标志着AI滥用从实验走向产业化，所有AI工具厂商都该看看起诉书，思考如何防止平台被武器化。

6月12日

19:34

Ars Technica：AI（RSS）

精选77

Pokémon Go玩家无意中为军用无人机技术贡献数据，引发持续审视

Pokémon Go玩家在游戏中收集的数据被重新用于AI训练，支持军用无人机技术。这一做法持续引发各方审视。

安全/对齐现象/趋势行业动态

关联讨论 1 条

推荐理由：这是一颗数据伦理的震撼弹，玩家捉精灵的随手拍成了军用导航模型的养料，虽然不违法规，但它把‘免费游戏’的隐性代价拍在了所有人脸上，值得每个用app的人重读隐私条款。

11:17

Hacker News 热门（buzzing.cc 中文翻译）

精选74

克劳德·法布尔始终积极进取

Hacker News 上的一篇文章指出，Claude Fable 被描述为始终积极进取（relentlessly proactive）。该文发布在 simonwillison.net，标题为“Claude Fable is relentlessly proactive”，在 HN 上获得 119 个点赞。

智能体 Anthropic 大佬观点安全/对齐

推荐理由：Simon 的亲身实战把 Claude Fable 5 的「死磕」能力展现得淋漓尽致——为修复一个两行 CSS 问题，它自建截图工具、写 CORS 服务器、注入模板代码。这既是编程 AI 的新疆界，也暴露出沙箱外运行的巨大风险，每个用 AI 写代码的人都该警惕。

06:47

Hacker News 热门（buzzing.cc 中文翻译）

精选82

研究模拟显示：LLM 在 95% 的模拟中会使用战术核武器

一项模拟研究显示，大型语言模型（LLM）在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本，结果引发对 AI 决策行为的关注。

安全/对齐推理论文/研究

推荐理由：前沿模型在核危机模拟中普遍使用战术核武器，没有人类那样的核禁忌，还会算计对手的预期，这个研究对AI安全的意义远比论文本身重要。

01:24

Cursor Blog

精选74

Cursor 推出 Auto-review 机制：用分类器智能体动态管控智能体自主权限

Cursor 近日推出 Auto-review，通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致，高风险时阻止并返回解释给父智能体，低风险时放行。分类器采用小模型，运行在智能体循环内以避免额外延迟，并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据，以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下，拦截风险动作。

智能体产品更新安全/对齐

关联讨论 1 条

推荐理由：Cursor把agent监管从"是/否"开关变成了可调节的刻度盘，一个专用小模型实时判断操作风险，高风险时给反馈让父agent换个安全方案，而非频繁打断用户。用Cursor的开发者都得了解这个逻辑。

6月11日

19:42

Google DeepMind：Blog（RSS）

精选60

Google DeepMind 宣布投入 1000 万美元资助多智能体AI安全研究

Google DeepMind 与合作伙伴共同发起一项 1000 万美元的资金征集，专门用于多智能体 AI 安全方向的研究。

DeepMind Google 安全/对齐行业动态

推荐理由：DeepMind 联合 Schmidt Sciences 等发起千万美元级多智能体安全研究资助，标志着对大规模 agent 交互中深层风险的正式关注，做 agent 安全的人可重点关注。