5月22日

04:26

Rohan Paul@rohanpaul_ai

Dario Amodei向Oprah解释AI安全如何与商业需求、日常部署、访问控制和政策权衡交织在一起。严格的儿童安全规则（例如）可以保护儿童，但当系统无法清晰区分情况时，会恶化成人使用体验。

Anthropic 大佬观点安全/对齐

02:44

Sundar Pichai@sundarpichai

同事件精选72

谷歌CEO Sundar Pichai在I/O大会上与MatthewBerman进行了深入对话，全面探讨了当前人工智能发展的多个核心方面。Pichai重点关注了AI代理如何可能取代部分互联网功能，并改变用户的信息获取方式，甚至威胁原始互联网的形态。对话还深入讨论了开源AI模型面临的商业模式困境、中美在AI领域的激烈竞争格局，以及网络安全威胁，包括AI可能引发的攻击和谷歌的应对策略。此外，Pichai指出谷歌正面临巨大的AI算力需求，计算资源已成为主要瓶颈，并探讨了发布强大AI模型的阈值判断问题。他强调了谷歌致力于开发低成本、高效率的AI模型的原因，以应对资源挑战。整体而言，这次对话覆盖了AGI竞赛、AI代理、信息饮食等关键议题，深入分析了AI发展的挑战、机遇和未来趋势。

Matthew Berman: Sundar Pichai (@sundarpichai), Google CEO, on: 🔹Race to AGI 🔹Agents 🔹AI & Information Diet 🔹Open Source 🔹Cybersecur...

智能体 Google 大佬观点安全/对齐

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Sundar 罕见聊了不开源大模型、算力瓶颈和中美 AI 生态风险，不是 PR 套话，做基础设施和战略的人值得看。

02:00

Cloudflare Blog

同事件精选58

宣布 Cloudflare CASB 支持 Claude Compliance API

Cloudflare 宣布现已集成 Claude Compliance API，安全团队可直接在 Cloudflare 仪表盘中监控 Claude 企业版的活动。这一集成使得企业能够将 Claude 的合规管理与 Cloudflare 的云访问安全代理功能相结合，实现集中化的安全监控与策略管理。

Anthropic 产品更新安全/对齐

同一事件，精选展示《Claude现已支持更多安全合规工具》

推荐理由：Cloudflare 将 CASB 的安全视野延伸进 Claude 的会话内容，对企业安全团队是一个实用的合规拼图补齐，但普通 AI 用户可观望。

01:43

Claude：Blog（网页）

精选74

合作伙伴如何运用Opus强化网络安全

多家企业正利用Claude Opus模型强化网络安全防御。Wiz通过其Red Agent，每周对超过15万个生产资产进行持续渗透测试，发现数千个高风险漏洞且误报率为零。Palo Alto Networks在不到三周内完成了相当于一年的渗透测试工作量。埃森哲将安全测试覆盖率从约10%提升至80%以上，涉及1600个应用和50万+个API，扫描周期从3-5天缩短至1小时内。应用主要围绕三个方向：开展大规模攻击性测试、缩短漏洞发现与修复的间隔，以及将受控AI系统部署到生产环境。

Anthropic 产品更新安全/对齐

关联讨论 1 条

推荐理由：Wiz一周扫15万资产零误报，Palo Alto三周完成一年渗透测试量——这些不是蓝图，是Claude Opus正在真实防御中跑出的数字，安全团队值得逐字看完。

01:31

TechCrunch：AI（RSS）

特朗普推迟AI安全行政令签署：'我不想妨碍这种领先地位'

特朗普政府宣布推迟签署一项要求对人工智能模型实施发布前政府安全审查的行政令。该行政令原计划强制要求AI模型在公开发布前接受政府安全评估。推迟的原因是特朗普对该行政令的具体措辞表示不满。这一决定涉及对前沿AI技术监管方式的调整，可能影响美国AI安全政策的推进节奏。

Anthropic OpenAI 安全/对齐政策/监管

00:00

Anthropic：Research（发表成果 · 网页）

精选83

Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作，测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准（41 个已修复漏洞）上，Mythos Preview 是唯一能可靠突破 V8 沙箱（从 T3 到 T2）的模型，并在超过一半的环境中实现突破；在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行（ACE），而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持（T1）。该模型通过 Project Glasswing 谨慎发布，尚未开放通用访问。

Anthropic 安全/对齐论文/研究评测/基准

关联讨论 3 条

推荐理由：Mythos Preview 在三大漏洞基准上碾压式领先，第一次展示了前沿模型能端到端开发漏洞，安全基线从此改写，做安全的该认真读。

5月21日