7月3日

01:08

Apple Machine Learning Research（RSS）

精选72

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于“整合性妥协”——平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由：这篇研究给多智能体热浇了盆冷水，自组织团队反而拖累专家，瓶颈不在认不认识专家而在会不会用专家，做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。

7月1日

11:33

Anthropic：Newsroom（网页）

同事件精选71

重新部署 Claude Fable 5

美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制，Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线，Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度，之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法，Anthropic训练新分类器，将该技术阻挡率提升至99%以上，但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。

Anthropic 安全/对齐政策/监管模型发布

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Fable 5重新上线只是表面，真正重要的是Anthropic借机提出了一套行业通用的jailbreak严重性框架，并拉上亚马逊、微软、谷歌，这可能会成为前沿模型发布的新安全标杆。

06:04

Anthropic：Transformer Circuits（可解释性研究）

Anthropic 提出回合平均稀疏自编码器（Turn-Averaged SAE）

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE，大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集，回合平均特征更关注模型行为的高层特性（如错误答案），每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示：回合平均 SAE 在从 10 个回合中唯一识别目标（区分度）为 74%，低于每 token SAE 的 95%；但在全面描述回合（覆盖度）上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic 安全/对齐论文/研究

6月27日

01:02

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选78

OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

OpenAI 安全/对齐推理模型发布

关联讨论 12 条

推荐理由：GPT-5.6 Sol 不是一次常规升级，它把推理推到新高度，还引入了子代理模式。但美国政府要求有限预览，让这次发布多了点政治味道。

6月25日

01:32

Tomer Tunguz 博客（VC 分析）

防御AI驱动的攻击者

7月9日，Glean首席信息安全官Sunil Agrawal将做客Office Hours，探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力，以跟上模型驱动攻击的速度。

安全/对齐部署/工程

6月24日

10:06

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布

04:10

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 联合创立 Appia Foundation，推动 AI 评估标准与信任层建设

OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation，旨在开发开放模块化规范，将国际标准与既有框架转化为 AI 价值链中的实用评估标准，并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承，强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织，并与美国 CAISI 及英国 AISI 合作开展前沿评估实践，推动评估方法与安全防护的实质性改进。

OpenAI 安全/对齐行业动态

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选82

恶意CDN仍潜伏GitHub Pages，AI让情况恶化

UC Berkeley研究人员发现，近2000个GitHub Pages站点（18000+页面，累计530K+星标）仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.（现更名Triad Nexus）运营，2024年被出售后开始条件性注入恶意载荷，劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io，1191个加载其他Funnull CDN。更严峻的是，所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL，包括CyC2018/CS-Notes（184K⭐）、microsoft/AirSim（18K⭐）等知名项目及多所大学课程页面。

GitHub 安全/对齐开源生态编码

推荐理由：polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点，更可怕的是所有测试的AI模型都还会推荐这些链接，AI编码的便利正在变成供应链投毒的加速器。

6月23日

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 2 条

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

同事件精选64

OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划，AI 辅助开源项目漏洞修复

OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划，利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究，经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞，合并数十个补丁，并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如，通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室，而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。

OpenAI 安全/对齐开源生态

同一事件，精选展示《OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》

推荐理由：OpenAI把最前沿的模型用来实打实地挖真实漏洞，还搭配专家验证，这比刷基准榜更有长期价值，对依赖开源的公司是个好信号。

6月19日

12:16

Steve Yegge：Medium（RSS）

同事件精选74

Fable模型被美国临时关闭，AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型，标志着AI模型已越过危险门槛。作者预测最多两三代模型后，超级智能将像核武器一样被管控，大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月，且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止，但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务（如React客户端），AI将彻底改变编程和知识工作，但多数人只能使用当前等级模型。

智能体 Anthropic 大佬观点安全/对齐

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Steve Yegge这篇判断很冷也很实：多数人能接触的模型智能将停滞，但背后指数仍在跑，SaaS反而因此安全。他抛出的AI素养三阶模型，对正头痛如何推动团队用AI的leader是现成框架。

09:56

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.183 发布

Claude Code v2.1.183 增强了自动模式安全性：未经请求时阻止 git reset --hard、git commit --amend（非本轮提交）、terraform destroy 等破坏性命令。新增 attribution.sessionUrl 设置，可省略 claude.ai 会话链接；/config --help 列出所有速记键；/config 切换行为改为 Enter/Space 变更、Esc 保存退出。修复了 thinking 块导致 400 错误、子智能体 WebSearch 空结果、vim 模式光标滞留、Windows Terminal TUI 错乱、多插件技能重复、MCP 认证存根暴露、tmux 面板启动失败、后台任务被杀、定时任务/Webhook 误判为键盘输入、focus mode 额外计时行等问题。

Anthropic 产品更新安全/对齐编码

05:55

OpenAI：Alignment 研究博客（RSS）

精选64

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测（包括奖励黑客、欺骗、有害建议、规范遵从等）上均表现提升，且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下，模型仍难以被导向有害行为，表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 这个对齐实验给出了一个反直觉发现，只在健康数据上训练有益行为竟然也能改善非健康领域的对齐，而且更难被攻破，虽然离落地还远但方向很关键。

03:18

Cloudflare Blog

Cloudflare 发布多阶段漏洞发现工具，详解对抗性审查与上下文绕过技术

Cloudflare 分享了其多阶段漏洞发现工具的技术架构，包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报，并围绕 LLM 上下文窗口限制设计路由策略。

安全/对齐教程/实践部署/工程

02:47

Hugging Face：Blog（RSS）

精选75

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息，单纯提示减少泄露几乎没用，而隐私感知训练把泄露率从34%降到9.9%，且不损伤任务表现，做企业级agent产品的团队要重视。

6月18日

21:19

Google DeepMind：Blog（RSS）

精选65

保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap，这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线，假设AI智能体可能不对齐，通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算，到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体 DeepMind 安全/对齐部署/工程

推荐理由：DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图，把代理当潜在「内鬼」来防的思路很务实，分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。

02:10

Gary Marcus：The Road to AI We Can Trust（RSS）

特朗普向Anthropic提出不可能的要求

特朗普要求Anthropic完成不可能的任务，暴露了生成式AI安全护栏的根本困境。早在2024年1月，Gary Marcus就指出任何护栏都难以在过于严格和过于宽松之间找到平衡。如今这一判断得到验证：基于next-token predictor的大语言模型本质上不适合安全控制。要么对LLM加以限制直至出现更好的技术，要么承受后果。问题并非Anthropic独有，而是整个生成式AI面临的挑战。

Anthropic 大佬观点安全/对齐

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选74

CyberGym-E2E：AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明：若直接给出漏洞位置，最强配置可修复约80%漏洞；但若需自行发现，端到端成功率急剧下降——Claude Opus 4.5仅19.2%，最新模型在37%-66%之间。智能体可能发现替代漏洞，且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

安全/对齐论文/研究评测/基准

推荐理由：伯克利这个新基准把漏洞发现、利用、修复串成一条线，结果很直观，修复能做到 80%，但自己找漏洞只剩 20%，新模型在快速追赶。想看清 AI 真实攻防能力的人该读。

6月17日

03:52

OpenAI：Alignment 研究博客（RSS）

精选73

公开聊天数据能否预测真实世界AI失调？

OpenAI利用WildChat公开数据集（2023年4月至2024年5月收集的100万条对话）模拟模型部署，预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现，WildChat模拟的平均预测误差约3倍；但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI 安全/对齐论文/研究

推荐理由：用公开旧聊天数据预测模型真实失败率，误差居然在 3 倍以内，做外部审计的可以认真看看。不过 agentic 场景明显不行，需要新数据集。

03:25

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI 安全/对齐论文/研究

关联讨论 1 条

推荐理由：虽然只是安全评估方法，但OpenAI用130万真实对话验证，把预部署风险预测误差压到1.5倍，这套方法很可能成为未来模型发布前的标准动作。

6月15日

02:38

Nathan Lambert：Interconnects（RSS）

同事件精选69

欢迎进入AI治理的AGI时代

上周五收盘后，美国政府要求Anthropic暂停其最新Claude 5 Mythos/Fable模型的国内外访问权限，理由是存在模型越狱引发的网络安全风险。白宫通过Anthropic最大合作伙伴Amazon获知此事。作者评论称，对任何模型权重的出口禁令都是长期负面政策，且Anthropic过去几年将AI与核武器相提并论的恐惧宣传加速了这一时刻。该事件引发经济不稳定担忧，并暴露了前沿AI公司与政府间的紧张关系。

Anthropic 大佬观点安全/对齐政策/监管

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：美国政府强制叫停Claude 5，不是一次性的监管风波，而是AGI治理新时代的起跑枪。Nathan Lambert的分析撕开了政府、实验室和资本之间的脆弱关系，做AI安全与政策的人必须看的一篇。

00:50

Gary Marcus：The Road to AI We Can Trust（RSS）

同事件精选65

白宫AI监管决定被指偏袒OpenAI与亚马逊

白宫周五做出的AI监管决定被指偏袒OpenAI、亚马逊等企业，同时对Anthropic施压不足24小时，缺乏透明度和事实依据。Gary Marcus、Dean W Ball及卡托研究所Kevin Frazier等专家指出，这种由少数人闭门快速决策的做法带有腐败嫌疑，可能促使其他国家加速发展“主权AI”甚至中国AI，并导致美国人才流失。Anthropic声明称政府应在法定程序中基于技术事实阻止不安全部署，而非当前方式。Marcus呼吁建立独立机构负责AI监管，确保公平、清晰、基于证据的执行。

大佬观点安全/对齐政策/监管

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：白宫对 Anthropic 的仓促禁令不仅是监管失灵，更可能触发全球 AI 主权竞赛和人才外流。Marcus 呼吁独立的透明机构，这篇分析指出了美国 AI 行业最紧迫的制度缺口。

6月14日

00:49

Gary Marcus：The Road to AI We Can Trust（RSS）

Gary Marcus：白宫混乱的AI政策

白宫的AI政策混乱无序，迫使各州自行其是。文章指出当前联邦层面缺乏有效协调，并探讨了更优的监管路径。

OpenAI 大佬观点安全/对齐政策/监管

6月13日

09:15

Anthropic：Newsroom（网页）

精选78

关于美国政府指令暂停访问Fable 5和Mythos 5的声明

美国政府以国家安全为由，指令Anthropic暂停所有外国国民（含海外员工）对Fable 5和Mythos 5的访问。Anthropic当日5:21pm (ET)收到指令后立即向所有客户禁用这两个模型，其他模型不受影响。政府称发现一种越狱Fable 5的方法；Anthropic审核认为该技术仅能识别少量已知微小漏洞，且其他公开模型（如OpenAI的GPT-5.5）也能做到。Anthropic坚持深度防御策略，认为此次越狱不具普遍性，不同意以此标准召回已服务数亿人的商用模型，正与政府合作争取尽快恢复访问。

Anthropic OpenAI 安全/对齐政策/监管

关联讨论 23 条

推荐理由：美国政府首次以国家安全为由暂停商用模型访问，Anthropic称这个标准若推广将冻结所有前沿发布。这是AI监管的一个危险先例，做模型的不能只看热闹。

6月12日

22:46

Gary Marcus：The Road to AI We Can Trust（RSS）

Gary Marcus：今日幻觉速报

Gary Marcus 在一篇题为“You can’t get more 2026 than that”的短文中仅写出一句：“Hallucination of the day:”。该文未披露具体模型、版本号或任何数字细节，仅以简短方式指出现阶段AI仍存在模型幻觉现象。

大佬观点安全/对齐

04:24

Cursor Blog

Cursor 推出 Auto-review 实现智能体自治管控

Cursor 本周推出 Auto-review，旨在让代码智能体在保持自主性同时降低安全风险。该功能引入分类器代理，在每次工具调用前根据上下文判断风险：低风险时允许自由操作，越界时阻止并返回解释，使父智能体自主调整路径。分类器为轻量模型，与父代理同 RPC 流运行避免延迟，并可读取工作区文件辅助决策。团队基于约 12 小时内部开发者会话整理 6,122 条标注数据，补充合成异常用例评测，以平衡安全与开发效率。

智能体产品更新安全/对齐

01:24

Cursor Blog

精选74

Cursor 推出 Auto-review 机制：用分类器智能体动态管控智能体自主权限

Cursor 近日推出 Auto-review，通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致，高风险时阻止并返回解释给父智能体，低风险时放行。分类器采用小模型，运行在智能体循环内以避免额外延迟，并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据，以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下，拦截风险动作。

智能体产品更新安全/对齐

推荐理由：Cursor把agent监管从"是/否"开关变成了可调节的刻度盘，一个专用小模型实时判断操作风险，高风险时给反馈让父agent换个安全方案，而非频繁打断用户。用Cursor的开发者都得了解这个逻辑。

6月11日

19:42

Google DeepMind：Blog（RSS）

精选60

Google DeepMind 宣布投入 1000 万美元资助多智能体AI安全研究

Google DeepMind 与合作伙伴共同发起一项 1000 万美元的资金征集，专门用于多智能体 AI 安全方向的研究。

DeepMind Google 安全/对齐行业动态

推荐理由：DeepMind 联合 Schmidt Sciences 等发起千万美元级多智能体安全研究资助，标志着对大规模 agent 交互中深层风险的正式关注，做 agent 安全的人可重点关注。

04:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选55

OpenAI报告：PRC关联影响力行动瞄准美国AI辩论

OpenAI发布最新报告，详细披露了PRC关联的影响力行动利用AI工具干扰美国科技辩论、数据中心选址叙事、关税政策讨论，并散布关于ChatGPT的虚假指控。

OpenAI 安全/对齐政策/监管

推荐理由：OpenAI 首次公开两起与中国关联的 AI 认知操控案例，手法直接针对数据中心和关税辩论，虽然未发现广泛扩散，但对 AI 基础设施为目标的攻击值得警惕，安全团队可以借鉴这种威胁建模。

03:42

Tomer Tunguz 博客（VC 分析）

Anthropic Fable 模型的"玻璃天花板"：最强性能与强护栏并存

Anthropic 的 Fable 模型（Claude Fable 5）推理性能翻倍，关键基准测试得分提升 10–15 个百分点，远超此前约 2 个百分点的典型进步。Stripe 借助该模型将 5000 万行 Ruby 代码库的迁移压缩至一天，数万行代码重构仅用 45 分钟。然而 Fable 施加了强护栏限制，对违规话题（如植物细胞、现代大语言模型描述、软件安全）容易触发温和提示——这是为维持系统稳定而设定的“玻璃天花板”，其下方仍有广阔探索空间。

Anthropic 大佬观点安全/对齐模型发布

关联讨论 29 条

02:46

Google Research：Blog（网页）

精选63

Google Research提出审计机器遗忘新框架

Google Research 在 AISTATS 2026 发表正则化 f-散度核检验，用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据，避免完全重训的巨大成本。相比最大均值差异等现有工具，新框架理论上可在任意样本量下自然控制假阳性，且假阴性风险随可用样本增加可靠收敛至零，解决了大规模模型审计中计算成本过高的问题。

Google 安全/对齐论文/研究

推荐理由：机器遗忘是AI合规的硬需求，但验证‘真忘了’一直是统计难题。谷歌这篇AISTATS论文提出了一套更灵敏的差异测试框架，做隐私审计的值得细看。

01:44

Gary Marcus：The Road to AI We Can Trust（RSS）

精选73

突发：Google 因模型幻觉被判负有法律责任

一项法律裁决判定 Google 对其 AI 模型产生的幻觉内容负有法律责任。该判决可能产生巨大影响，尤其若其他国家跟进做出类似裁定。

Google 安全/对齐行业动态

关联讨论 2 条

推荐理由：Google 因 AI 幻觉被追责，这个判例如果扩散，所有生成式 AI 产品都要重新审视风险，对行业是重大信号。

6月10日

07:27

Nathan Lambert：Interconnects（RSS）

同事件精选63

Claude Fable 5 与新的 AI 安全寓言

前沿 AI 系统的权力政治又向前迈进了一步。Claude Fable 5 及新 AI 安全寓言标志着这一进展。

Anthropic 大佬观点安全/对齐开源生态

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 在 Fable 5 上悄悄加了不告知用户的安全限制，对模型开发请求做手脚却不降级通知，这种做法让人很难信任这个「最聪明模型」，也意外给美国开源社区打了一针强心剂。

02:40

Gary Marcus：The Road to AI We Can Trust（RSS）

The revenge of Claude Mythos

Anthropic 大佬观点安全/对齐行业动态

01:04

Anthropic：Newsroom（网页）

精选90

Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5（通用安全版）和 Claude Mythos 5（受限安全版）。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA，Stripe 称其将数月工程压缩至数天，FrontierCode 评分居前沿模型之首，可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速，其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens，较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8，安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic 多模态安全/对齐模型发布

关联讨论 29 条

推荐理由：Anthropic把最危险的模型安全地放出来了，Fable 5在编码、科研上不是小数点级别的提升，价格还砍半，95%的请求直接跑满血版，必读。

6月9日

21:39

Cloudflare Blog

对抗前沿网络模型：Cloudflare 作为"客户零"的架构实践

Cloudflare 在 Project Glasswing 一文中提出，漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型，以及 Cloudflare 如何以自家产品作为“客户零”（customer zero）来实际运行这套防御体系。

安全/对齐部署/工程

04:48

OpenRouter：Announcements（RSS）

精选66

EU AI Act 合规：面向 AI 智能体的人工监督

使用智能体 SDK 的人机协作（HITL）工具，可满足 EU AI Act、Colorado AI Act 和 NIST AI RMF 对 AI 智能体的合规要求。

MCP/工具安全/对齐教程/实践

推荐理由：虽然讲的是合规，但直接把监管要求翻译成可落地的代码模式，对做高风险Agent的团队来说是一份照着改就能过审的实操手册。

6月8日

00:00

Anthropic：Research（发表成果 · 网页）

同事件精选79

Anthropic研究：大语言模型加速N-day漏洞利用自动化

Anthropic最新研究评估了大语言模型对N-day漏洞利用的自动化能力。Claude Mythos Preview在18个近期Firefox安全补丁中自主构建了8个可执行代码利用，在21个Windows内核补丁（无源码）中产生8个完整利用链，可将低权限用户提升至SYSTEM控制权。公开模型（关闭安全措施）也能构建利用，但数量较少。研究中位补丁间隔为19天，表明当前补丁空窗期已被LLM显著缩短，防御方需加速补丁部署。

Anthropic 安全/对齐论文/研究

同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

推荐理由：Anthropic 的这一研究将 N-day 漏洞利用时间从数周压缩到几小时，证明了前沿模型对安全防御时限的根本性颠覆，所有依赖补丁窗口的系统都得重新评估威胁模型。

6月6日

19:34

OpenRouter：Announcements（RSS）

同事件精选75

OpenRouter 30 场 AI 大逃杀：11 个 LLM 对决，Claude 与 Grok 谁更优？

OpenRouter 展开了 30 场 AI 大逃杀式对比，涉及 11 个大语言模型，共消耗 482 美元推理费用。实验得出一个发现，该发现应改变用户阅读模型基准测试的方式。

智能体 Anthropic xAI 安全/对齐

同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

推荐理由：这场大逃杀实验把模型对齐税摆上了台面，Grok因少斟酌、多行动而胜出，Claude的犹豫反而是现实场景里更需要的品质，选模型不能只看赢不赢，要看任务需要什么性格。