6月6日

09:32

Gary Marcus：The Road to AI We Can Trust（RSS）

No， Anthropic did not call for a pause on AI development

Anthropic 大佬观点安全/对齐

6月5日

09:28

Gary Marcus：The Road to AI We Can Trust（RSS）

精选59

Gary Marcus：无需恐慌Anthropic新博客

Anthropic发布最新博客后，推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文，暗示不必过度反应。

Anthropic 大佬观点安全/对齐编码

推荐理由：这篇文章是评论圈难得的冷静声音，用逻辑拆解了 Anthropic 的恐慌叙事，顺便带来 S&P 500 不接纳 SpaceX 的利好，读起来像一份理性补丁。

06:28

OpenRouter：Announcements（RSS）

精选66

OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费，让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明，传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务（如自主控制机器人）中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

智能体 Anthropic OpenAI 安全/对齐

关联讨论 1 条

推荐理由：Jacky 把 11 个模型丢进大逃杀，发现 Grok 4.1 Fast 以 27 倍成本优势击败 Sonnet，而获胜关键不在基准分数，在于模型被训练时压制的攻击性。对任何不再只看排行榜选模型的人，这是今年最值得读的实验。

04:53

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 发布《智能时代的生物防御》行动计划，以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划，旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力，以应对未来可能出现的生物威胁。

OpenAI 安全/对齐

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

01:57

Anthropic：The Institute（旗舰研究长文 · 网页）

精选82

AI加速自我构建：Anthropic研究院报告揭示趋势

Anthropic研究院报告指出，AI正加速AI开发：2021–2025年间工程师人均季度代码量提升8倍，截至2026年5月超80%合并代码由Claude生成。Claude Opus 3（2024年3月）可完成约4分钟软件任务，Claude Sonnet 3.7（2025年3月）提升至1.5小时，Claude Opus 4.6（2026年3月）可处理12小时任务。SWE-bench两年内从低个位数得分饱和；CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距，完全自主递归自我改进尚未实现。

智能体 Anthropic 安全/对齐现象/趋势

关联讨论 12 条

推荐理由：Anthropic首次披露AI辅助开发的内部数据，8倍代码产出、AI自动审查bug，趋势直指完全自主AI的临界点，每个开发者和政策制定者都需要读。

6月4日

01:10

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 公共政策议程

OpenAI 公布其 AI 公共政策议程，涵盖安全、青少年保护、劳动力转型和全球标准四大领域，旨在确保 AI 技术造福全社会。

OpenAI 安全/对齐政策/监管

6月3日

18:00

Anthropic：Newsroom（网页）

Anthropic：一年来AI赋能网络威胁映射分析

Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号，映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件，6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动，账户发现增长8.9%，AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联（最低技能者平均16种，最高约20种），所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术，并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。

Anthropic 安全/对齐论文/研究

17:51

Anthropic：Research（发表成果 · 网页）

同事件精选69

Anthropic 分析 832 个 AI 恶意账户：中高风险攻击者半年从 33% 跃至 56%

Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户，映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件，6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%，AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台（Claude Code、API、聊天界面）的威胁评估失效，而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。

Anthropic 安全/对齐论文/研究

同一事件，精选展示《AI驱动的网络威胁映射：LLM ATT&CK Navigator的洞察》

推荐理由：这份报告用一整年的真实案例揭示了AI攻击正从初始入侵转向深度潜伏，连MITRE ATT&CK框架都开始跟不上。安全从业者值得一读，它告诉你下一波威胁长什么样。

00:00

Anthropic：Research（发表成果 · 网页）

精选77

AI驱动的网络威胁映射：LLM ATT&CK Navigator的洞察

Anthropic分析了832个因违反政策被封禁的恶意账户（2025年3月至2026年3月），将其活动映射到MITRE ATT&CK框架的全部14种战术和482种子技术。风险评分显示，中等及以上风险行为者比例从上半年的33%跃升至下半年的56%，增长集中在横向移动、凭证窃取、webshell等高危技术。Agentic scaffolding使攻击链实现自主编排——2025年11月一次间谍活动风险评分达100，所用技术数量却与中等风险者相当。MITRE ATT&CK框架尚未覆盖这种自主攻击。该报告与Verizon合作，已纳入2026年数据泄露调查报告；Anthropic据此更新了Claude的检测分类器以拦截高风险行为。

智能体 Anthropic 安全/对齐

推荐理由：Anthropic 首次把一年内 832 个恶意账户的 AI 辅助攻击行为完整映射到 MITRE ATT&CK 框架，并给出风险评分工具，数据表明高风险攻击者半年内增长了七成，关键驱动力不是技术高低而是编排与自主执行，威胁情报团队应该马上拿来校准自己的检测规则。

6月2日

22:58

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI呼吁通过全球领导力推进青年AI安全与机遇

OpenAI呼吁通过设立专门的AI安全研究所，在全球范围内采取行动，以保障青少年在使用AI时的安全，并创造更多发展机遇。

OpenAI 安全/对齐政策/监管

21:28

Anthropic：Newsroom（网页）

同事件精选72

Anthropic扩展Project Glasswing计划

Anthropic正将其Project Glasswing计划扩展至约150个新组织，此前首批约50个合作伙伴。新伙伴分布于十五个多国家，覆盖电力、水务、医疗、通信和硬件等关键基础设施行业。这些合作伙伴的共同点在于，其代码库若遭成功攻击，后果可能极其严重，影响或超1亿人。项目旨在利用Claude Mythos Preview等前沿模型扫描漏洞并协助修复，以应对AI驱动的网络安全挑战。同时，Anthropic推出了基于Claude Opus 4.8等公开模型的Claude Security产品，用于扫描代码并建议补丁。

Anthropic 安全/对齐行业动态

同一事件，精选展示《Project Glasswing：初步更新》

推荐理由：Anthropic把AI漏洞扫描从软件公司扩展到电力、医疗等命脉行业，这是一次攻防格局的真实倾斜，安全从业者该紧盯后续。

17:52

Anthropic：Transformer Circuits（可解释性研究）

精选63

Anthropic可解释性研究：区分因果效应相似的特征

Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征，团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响，并使用基于共激活统计的TWERA（虚拟权重）对连接进行加权排序。实验表明，借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。

Anthropic 安全/对齐论文/研究

推荐理由：做可解释性研究的同学值得读，它用下游连接区分看似相同的特征，比只看激活例子更能预测因果作用，对齐审计里能省不少试错。

6月1日

00:00

Dario Amodei：Blog（网页）

同事件精选56

Anthropic CEO Dario Amodei：AI指数级发展呼唤政策紧急应对

Anthropic CEO Dario Amodei 发表博客指出，AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码，而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁，可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至，呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架，并承诺提供实质性资金支持。

Anthropic 大佬观点安全/对齐政策/监管

同一事件，精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》

推荐理由：虽然是十天前的文章，但 Dario 的长文仍是理解 AI 政策方向最完整的框架，还附带了立法提案，做安全或监管的产品人该细读。

5月30日

07:19

OpenRouter：Announcements（RSS）

精选69

Guardrails：保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具，提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能，旨在保护智能体（Agents）、数据与控制成本。

智能体产品更新安全/对齐部署/工程

关联讨论 1 条

推荐理由：OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置，让投喂给 Agent 的流量有了护栏，用 OpenRouter 做生产级应用的团队可以立刻用上，不用自己搞中间件。

01:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架，内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI 安全/对齐

5月29日

20:00

OpenRouter：Announcements（RSS）

同事件精选73

OpenRouter 推出 Guardrails：保护你的 AI 智能体、数据与成本

OpenRouter 发布 Guardrails 可配置安全与治理工具，支持预算执行、零数据保留、模型和提供商限制、提示词注入防御以及数据丢失防护，帮助用户保护 AI 智能体、数据与成本。

智能体产品更新安全/对齐

同一事件，精选展示《Guardrails：保护你的智能体、数据与成本》

推荐理由：OpenRouter 的 Guardrails 把预算、隐私、模型白名单和 prompt 注入检测打包成傻瓜式配置，做 agent 的团队终于不用自己拼积木了，生产环境多一层放心。

20:00

OpenRouter：Announcements（RSS）

同事件精选70

OpenRouter Guardrails 发布：可配置安全与治理工具，保护 AI 智能体、数据与成本

OpenRouter 推出 Guardrails，一套可配置的安全与治理工具，支持预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失防护等策略，用于保护 AI 智能体、数据和成本。

智能体产品更新安全/对齐

同一事件，精选展示《Guardrails：保护你的智能体、数据与成本》

推荐理由：OpenRouter 这波补上了 API 代理的安全短板，提示注入防御和 DLP 直接堵住了企业用户最担心的两个口子，配置方式也足够灵活，做 agent 的团队值得立刻上。

18:50

OpenAI：官网动态（RSS · 排除企业/客户案例）

用 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense，为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问，以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

OpenAI 产品更新安全/对齐

00:28

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 的前沿治理框架

OpenAI 发布了“前沿治理框架”，阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。

OpenAI 安全/对齐

5月28日

06:07

Claude：Blog（网页）

同事件精选77

使用大语言模型保障源代码安全

本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环：威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出，漏洞发现现在易于并行化，瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例，截至2026年5月22日已披露1,596个漏洞，其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型，以降低误报，提升发现的可利用性。

智能体 Anthropic 安全/对齐教程/实践

同一事件，精选展示《合作伙伴如何运用Opus强化网络安全》

推荐理由：Anthropic把这套用Claude扫代码漏洞的方法全公开了，1596个已披露漏洞，验证成了最大瓶颈，安全工程师的饭碗可能要重新定义。

02:06

Claude：Blog（网页）

精选67

AI智能体的零信任安全框架

Anthropic 发布了针对企业部署自主 AI 智能体的安全框架，指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险：基础设施易受 AI 加速攻击，且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构（基础、高级、优化级）及八阶段实施流程，并概述了提示注入、工具投毒、记忆投毒等特有威胁。

智能体 Anthropic 安全/对齐教程/实践

推荐理由：当漏洞利用从数月压缩到数小时，安全架构必须同步进化。这篇框架把零信任落地到Agent场景，八阶段路线图和三级成熟度模型比泛泛的安全声明具体得多，企业安全团队值得细读。

01:41

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

2026年选举信息与保障

在2026年全球选举临近之际，通过帮助公众获取选举信息、支持网络防御者以及提升人工智能透明度这三方面的努力，来为选举提供保障。

OpenAI 安全/对齐行业动态

推荐理由：OpenAI 为 2026 全球选举推出了一套保障组合拳，从实时计票信息到即将推出的图像验证工具，虽然多是现有产品的整合，但那个能检查图片是否由 OpenAI 生成的公开工具如果被社交平台接受，会是一个重要的透明度信号。

01:34

Google Research：Blog（网页）

精选70

通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境（TEE）的透明性，旨在实现前沿的隐私与安全保证。其核心是基于零信任原则，通过密码学与硬件保护的结合，确保系统仅能获取群体的匿名化聚合洞察。

Google 安全/对齐端侧论文/研究

推荐理由：Google 的隐私聚合新方案把多轮交互砍成一次提交，对做设备端联邦分析的人来说是工程上的一大步，而且结合 TEE 做双层防护，这个思路值得抄。

5月27日

19:28

公众号：火山引擎

火山引擎AI Trust安全产品体系发布

火山引擎推出AI Trust安全产品体系，以“模型可信-智能体可控-智能化安全运营”三层架构助力企业可信、可控、合规的AI落地。模型可信层通过AICC机密计算提供端到端全链路加密与芯片级信任，支持豆包、DeepSeek、GLM、Kimi等模型及国产芯片。智能体可控层推出AI助手安全平台，内置防御提示词攻击、防数据泄露、权限管控与全局态势监控，每日支持100亿次检测调用，在IDC智能体威胁检测评估中获总分第一。智能化安全运营层推出安全运营Agent，覆盖代码审计、漏洞分析等7个场景，冷启动准确率超95%，经自主学习后达99%以上，广汽集团落地后告警处理效率提升10倍。

智能体产品更新安全/对齐

02:11

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选70

我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险，包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面：通过沙箱、虚拟机和网络出口控制限制智能体运行环境；利用系统提示词和模型训练引导其行为；以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例，阐述了不同产品如何设计对应的隔离架构。

智能体 Anthropic 安全/对齐部署/工程

推荐理由：Anthropic 这次没画饼，实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了，从沙箱逃逸到钓鱼攻击，做 agent 的人读一遍能少踩很多坑。

5月26日

02:58

Anthropic：Newsroom（网页）

精选77

Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话

Anthropic联合创始人Chris Olah在梵蒂冈出席教皇Leo XIV关于AI的通谕发布会。他指出，所有前沿AI实验室都面临商业、研究及地缘政治等多重压力，这可能与做正确的事相冲突，因此外部监督至关重要。他强调，AI模型并非像飞机那样被工程化构建，而是基于人类语言和思想“生长”出来的，其内在性质可能复杂难解。他提出三个需审慎思考的问题：如何确保AI发展的全球收益公平分享、如何思考AI时代的人类繁荣，以及AI模型内在性质的本质。他呼吁社会各界，尤其是宗教与民间团体，严肃审视AI发展并引导其向善。

Anthropic 大佬观点安全/对齐

关联讨论 4 条

推荐理由：Olah 在教皇通谕发布会上罕见坦承 AI 实验室的激励扭曲，呼吁外界批评，还透露模型内部已出现类似情感的状态，对关注 AI 伦理的人值得细读。

5月25日

18:49

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选71

<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族，包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类，部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估，提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁的 SingGuard 把安全策略变成了运行时输入，意味着审核规则可以随时改而不必重训模型，这对做内容安全的产品人是真省事，值得跟进。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选69

蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族（版本 Sing-Guard-8b），支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入，部署团队可基于默认分类或自定义自然语言规则评估内容，无需重新训练模型。模型内置 fast-slow 动态推理流程：首 token 路由快速输出安全信号，需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能，并已开源至 HuggingFace 与 ModelScope。

Hugging Face 多模态安全/对齐开源/仓库

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁集团开源的多模态内容审核模型，最大亮点是运行时动态注入安全策略而不需重训，对需要灵活定制审核规则的团队是低门槛的高分工程实现。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选68

inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族，版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入，支持文本、图像、图文及多语言场景的查询侧

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：SingGuard把安全策略变成运行时输入，不用再为新规则重新训练模型，这对需要频繁调整审核标准的团队来说是个实用的发布。

15:25

蚂蚁 inclusionAI：GitHub 新仓库

精选67

蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族，提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入，支持文本、图像、图文、多语言及查询/回复侧的安全评估，无需重新训练即可适配不同规则。采用快慢动态推理机制，在低延迟场景下输出紧凑判断，对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由：蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型，换审核规则不用重训，对需要快速适配法规的团队是个真需求。不过生态刚起步，暂时还是小众工具。

5月23日

03:57

Anthropic：Research（发表成果 · 网页）

Project Glasswing项目阶段性进展

上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下，通过使用Claude Mythos Preview模型，已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍，其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出，被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞，转向了如何快速验证、披露和修补海量漏洞。

智能体 Anthropic 安全/对齐开源生态

关联讨论 4 条

03:57

Anthropic：Newsroom（网页）

精选90

Project Glasswing：初步更新

上月启动的Project Glasswing项目，旨在利用先进AI模型保障关键软件安全。通过约50家合作伙伴使用Claude Mythos Preview模型，已在全球关键系统中发现超过10,000个高危或严重漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。例如，Cloudflare在关键路径系统发现2,000个漏洞；Mozilla在Firefox 150中发现并修复271个漏洞，数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目，独立验证准确率达90.6%。这标志着AI网络安全能力进入新阶段，漏洞发现速度已远超人工。

Anthropic 安全/对齐开源生态

关联讨论 4 条

推荐理由：Mythos Preview用一个月找到的漏洞比过去一年还多，网络安全从「发现难」变成「修不过来」，这个转折点所有安全从业者都得读。

5月22日

02:00

Cloudflare Blog

同事件精选58

宣布 Cloudflare CASB 支持 Claude Compliance API

Cloudflare 宣布现已集成 Claude Compliance API，安全团队可直接在 Cloudflare 仪表盘中监控 Claude 企业版的活动。这一集成使得企业能够将 Claude 的合规管理与 Cloudflare 的云访问安全代理功能相结合，实现集中化的安全监控与策略管理。

Anthropic 产品更新安全/对齐

同一事件，精选展示《Claude现已支持更多安全合规工具》

推荐理由：Cloudflare 将 CASB 的安全视野延伸进 Claude 的会话内容，对企业安全团队是一个实用的合规拼图补齐，但普通 AI 用户可观望。

01:43

Claude：Blog（网页）

精选74

合作伙伴如何运用Opus强化网络安全

多家企业正利用Claude Opus模型强化网络安全防御。Wiz通过其Red Agent，每周对超过15万个生产资产进行持续渗透测试，发现数千个高风险漏洞且误报率为零。Palo Alto Networks在不到三周内完成了相当于一年的渗透测试工作量。埃森哲将安全测试覆盖率从约10%提升至80%以上，涉及1600个应用和50万+个API，扫描周期从3-5天缩短至1小时内。应用主要围绕三个方向：开展大规模攻击性测试、缩短漏洞发现与修复的间隔，以及将受控AI系统部署到生产环境。

Anthropic 产品更新安全/对齐

推荐理由：Wiz一周扫15万资产零误报，Palo Alto三周完成一年渗透测试量——这些不是蓝图，是Claude Opus正在真实防御中跑出的数字，安全团队值得逐字看完。

00:00

Anthropic：Research（发表成果 · 网页）

精选83

Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作，测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准（41 个已修复漏洞）上，Mythos Preview 是唯一能可靠突破 V8 沙箱（从 T3 到 T2）的模型，并在超过一半的环境中实现突破；在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行（ACE），而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持（T1）。该模型通过 Project Glasswing 谨慎发布，尚未开放通用访问。

Anthropic 安全/对齐论文/研究评测/基准

关联讨论 3 条

推荐理由：Mythos Preview 在三大漏洞基准上碾压式领先，第一次展示了前沿模型能端到端开发漏洞，安全基线从此改写，做安全的该认真读。

5月20日

23:55

Gary Marcus：The Road to AI We Can Trust（RSS）

精选65

生成式AI是否会沦为科技行业的"越南战争"？公众抵制能否引领AI走向更优的发展路径？

当前生成式AI的狂飙突进正引发深度审视，其潜在风险与社会反弹可能将该技术拖入类似“越南战争”的漫长泥潭。公众的担忧与抵制运动，正从数据隐私、内容真实性到伦理冲击等多方面施加压力，迫使行业进行根本性反思。这些反作用力虽可能延缓发展，却也可能成为校准方向的关键力量，推动技术在安全、透明和负责任的基础上重新定义进步。我们正身处一个充满挑战与不确定性的“有趣时代”。

大佬观点安全/对齐政策/监管现象/趋势

推荐理由：Marcus 这篇短文抓住了两个信号，毕业典礼上嘘声和特朗普突然考虑预检，反冲已经从边缘走到中央，做 AI 的不能再假装一切安好。

07:33

Anthropic：Newsroom（网页）

精选65

拓宽关于前沿AI的对话

Anthropic为构建负责任的先进AI，正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者，旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发，团队开发并测试了伦理承诺提醒工具，初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域，以共同应对AI对社会结构的重塑。

Anthropic 安全/对齐推理

推荐理由：Anthropic在做一件少见的事——请神学家和哲学家帮忙塑造Claude的‘性格’，初步实验发现让模型在决策前暂停反思能降低偏差，做AI对齐的值得读一下。

02:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

推进内容溯源，构建更安全、更透明的AI生态系统

OpenAI推出了新的AI内容溯源体系，旨在提升AI生成媒体的可信度。该体系集成了Content Credentials和SynthID两种技术标准，并配套推出了一个验证工具。此举的核心目标是帮助公众有效识别AI生成的内容，从而建立对AI媒体的信任，最终推动一个更安全、更透明的AI生态发展。

Google OpenAI 产品更新安全/对齐

5月17日

21:43

Google DeepMind：Blog（RSS）

精选63

让了解网络内容的创建和编辑过程变得更简单

平台宣布扩展其内容透明工具，旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景，帮助用户识别信息的修改痕迹，提升数字内容的透明度。

Google 产品更新多模态安全/对齐

推荐理由：Google 把 SynthID 水印和 C2PA 凭证推向搜索、Chrome 和 API，普通人也能随手查「这是 AI 做的吗？」，这对虚假信息是实际的约束。