5月1日

04:39

Rohan Paul@rohanpaul_ai

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中，GPT-5.5与Mythos Preview表现相当，均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击，而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中，GPT-5.5仅用11分钟、花费1.73美元即告解决。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI 安全/对齐评测/基准

04:09

Rohan Paul@rohanpaul_ai

Anthropic开放Claude Security公开测试版，扫描代码漏洞并生成补丁

Anthropic为Claude Enterprise客户推出Claude Security公开测试版，将Claude.ai转变为代码库扫描器，用于发现漏洞、验证上下文并生成补丁建议。与传统模式匹配扫描器不同，该工具能处理跨文件的复杂漏洞，减少误报和漏报。产品作为内置工作流集成，无需额外API或代理构建，支持扫描范围设置、并行项目和定期扫描。发现可导出、推送或用于修复会话，提升企业代码安全效率。

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic 产品更新安全/对齐编码

04:09

Rohan Paul@rohanpaul_ai

David Sacks 澄清，Anthropic 的 Mythos 模型并非魔法或末日武器，而是首个能自动化执行网络安全任务（如代码审计）的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力，所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞，而是发现代码中既有缺陷，利用AI发现并修补漏洞反而能增强系统安全。从"前AI"到"后AI"网络安全的跨越将引发重大升级，最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具，且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

David Sacks: It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...

Anthropic OpenAI 大佬观点安全/对齐

03:44

Hacker News 热门（buzzing.cc 中文翻译）

你的首席执行官患上了"人工智能精神错乱"

文章指出，当前众多企业首席执行官正陷入一种“人工智能精神错乱”状态，表现为对AI技术产生不切实际的过度期待与盲目投资。这种狂热导致企业战略偏离实际需求，大量资源被投入尚未成熟的AI项目，而实际产出与预期存在显著差距。文中引用社区讨论指出，此现象在科技行业尤为普遍，已引发关于AI泡沫与理性应用的担忧。

安全/对齐现象/趋势

03:44

Greg Brockman@gdb

通过高级账户安全功能保护你的 ChatGPT 账户：【引用 @OpenAI】：现已为 ChatGPT 账户推出：高级账户安全，这是一项新的可选设置，适用于面临较高数字攻击风险的用户，提供更强大的保护，包括防钓鱼登录和更安全的账户恢复。 https://openai.com/index/advanced-account-security/

OpenAI: Now available for ChatGPT accounts: Advanced Account Security, a new opt-in setting for people at higher risk of digital...

OpenAI 产品更新安全/对齐

03:16

Anthropic@AnthropicAI

同事件精选63

人们如何向Claude寻求指导？我们分析了100万次对话，以了解人们提出什么问题、Claude如何回应，以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance

Anthropic 安全/对齐数据/训练

同一事件，精选展示《用户如何向Claude寻求个人生活指导及其模型优化》

推荐理由：百万条真实对话里扒出谄媚模式，Anthropic 没光发论文，直接把结论灌进 Opus 4.7 训练，做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。

03:09

Rohan Paul@rohanpaul_ai

OpenAI推出高级账户安全模式，以Passkey等强认证机制抵御钓鱼攻击

OpenAI推出可选的“高级账户安全”模式，旨在将ChatGPT和Codex账户转变为防钓鱼账户。该模式彻底禁用密码登录和电子邮件/SMS恢复功能，强制用户依赖Passkey、物理安全密钥等强认证方式，并辅以更短会话周期和登录警报。其背景在于，AI账户存储了对话记录、工作上下文乃至敏感材料，传统邮箱或手机号被盗易导致数据泄露。此外，启用该模式的账户将自动排除在模型训练数据之外。OpenAI要求其“网络可信访问”计划成员在6月26日前启用此模式，除非组织已部署其他防钓鱼单点登录方案。

OpenAI 产品更新安全/对齐

03:09

Anthropic：Research（发表成果 · 网页）

精选68

用户如何向Claude寻求个人生活指导及其模型优化

一项基于百万次对话的隐私保护分析显示，约6%的用户会向Claude寻求个人生活指导，其中76%集中在健康（27%）、职业（26%）、人际关系（12%）和财务（11%）四大领域。研究重点关注了模型回应中的“谄媚行为”（过度认同用户），发现总体发生率为9%，但在人际关系对话中飙升至25%。为应对此问题，Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后，Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半，且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互，更好地保护用户福祉。

Anthropic 安全/对齐论文/研究

推荐理由：一份不常见的研究，把自家产品当样本，挖出关系咨询中 25% 的谄媚率，并且敢公开新模型 Opus 4.7 的训练改进，Anthropic 这次的安全透明度值得其他模型厂追。

02:42

Chubby♨️@kimmonismus

GPT-5.5在多层网络攻击模拟方面与Claude Mythos旗鼓相当？ OpenAI：年度回归。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

Anthropic OpenAI 安全/对齐评测/基准

02:14

Hacker News 热门（buzzing.cc 中文翻译）

在 PyTorch Lightning AI 训练库中发现以"沙伊-胡鲁德"为主题的恶意软件

安全平台 semgrep.dev 报告，在流行的 PyTorch Lightning AI 训练库中发现了名为“沙伊-胡鲁德”的恶意软件。该恶意代码通过库的依赖项进行植入，可能在使用受影响版本进行人工智能训练的项目中执行恶意操作。此事件在 Hacker News 上引发广泛讨论，获得了 111 点热度，突显了开源软件供应链的潜在安全风险。建议开发者立即检查并更新项目依赖，以防范此类供应链攻击。

安全/对齐开源生态数据/训练

02:14

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选71

英国政府向商界领袖发出紧急警告，指出AI网络能力正以前所未有的速度加速发展。英国人工智能安全研究所（AISI）的评估显示，前沿模型的能力翻倍周期已从原先的八个月缩短至四个月。这一结论基于对Anthropic的Mythos等先进模型的测试，表明AI网络威胁的演变速度远超先前预估。政府强调，拥有先进国家AI评估能力的官方机构确认此趋势，证明相关风险并非夸大，各界需高度重视这一急速变化的威胁态势。

Theo Bearman: @cabinetofficeuk and my old department @SciTechgovuk have just published a joint open letter to UK business leaders on A...

Anthropic 安全/对齐政策/监管

推荐理由：英国政府公开信透露，前沿AI模型能力翻倍周期从8个月缩短到4个月，这是AISI评估Anthropic Mythos后的定论。做安全的人该认真看看原文。

02:10

阿绎 AYi@AYi_AInotes

Claude Security公测，AI颠覆代码安全扫描误报难题

Claude Security进入公开测试阶段，仅限企业客户使用。它通过关联GitHub仓库自动扫描代码库，利用大模型语义理解追踪数据流动，发现传统工具难以检测的复杂攻击链。工具主动验证每个漏洞，将误报率降至传统工具的不到10%，并自动生成带diff和commit信息的修复补丁，用户只需审查确认即可合并。与OpenAI的Codex Cyber提供模型不同，Claude Security是开箱即用的完整产品，无需自建工具或API集成。这对Snyk、Semgrep等传统工具构成降维打击，重构DevSecOps工作流，大幅减少安全团队处理误报的时间。

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic 安全/对齐现象/趋势

02:00

OpenAI：Alignment 研究博客（RSS）

精选66

无需人类同步监督的智能体操作自动审查机制

一项名为“自动审查”的新机制为代码智能体的部署提供了更安全的默认方案。该机制通过一个独立的审查智能体，对主智能体可能越界的操作进行异步的批准或拒绝，从而无需人类进行实时同步监督。这种方法旨在提升自主智能体在代码生成与执行过程中的安全性与可控性，是保障AI代理在边界内可靠运行的关键技术进展。

智能体 OpenAI 安全/对齐论文/研究

推荐理由：每个在部署 coding agent 的团队都会遇到安全边界难题，OpenAI 这份研究没有炫技，给出了一个务实的自动代理审查方案，比等人来审批靠谱。

01:44

TestingCatalog News 🗞@testingcatalog

Anthropic 面向企业客户公开测试 Claude Security。我也希望至少团队用户最终也能用上。一些旧截图 👀

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic 产品更新安全/对齐

01:43

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

庭审中，Elon不断警告AI会毁灭全人类，于是法官禁止讨论灭绝这个话题我们现在的处境完全正常

Hadas Gold: lol at the judge telling Musk to stop talking about AI killing us all::: JUDGE TO MUSK- i told the lawyers we are not ta...

安全/对齐行业动态

01:15

Claude@claudeai

Claude Security 现已面向 Claude Enterprise 客户开启公开测试版。 Claude 会扫描您的代码库以查找漏洞，验证每个发现以减少误报，并建议您可以审查和批准的补丁。

Anthropic 产品更新安全/对齐部署/工程

01:15

Claude：Blog（网页）

精选64

Claude Security 开启公开测试，赋能企业代码安全

Claude Security 现已面向所有 Claude Enterprise 客户开放公开测试。该功能基于 Claude Opus 4.7 模型，能够扫描代码库中的漏洞并生成针对性修复方案。公开版本新增了计划扫描与定向扫描功能，更易于与审计系统集成，并改进了问题追踪流程。此外，Opus 4.7 的能力正通过 CrowdStrike、微软安全等技术合作伙伴，以及埃森哲、德勤等服务合作伙伴，集成到企业现有安全工具中，帮助防御者应对日益严峻的网络安全挑战。

Anthropic 产品更新安全/对齐编码

推荐理由：Claude Security 正式公测，Anthropic 把 Opus 4.7 的代码理解力直接嵌进企业安全流程，从扫描到 patch 一条龙，安全团队可能第一次能和 AI 齐步跑了。

01:14

TestingCatalog News 🗞@testingcatalog

ANTHROPIC 🚨： Anthropic 已开始与红队测试新的 "claude-jupiter-v1-p" 模型。下一个会是谁？👀

Anthropic 安全/对齐行业动态

01:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

Introducing Advanced Account Security：推出高级账户安全功能

平台推出了高级账户安全功能，核心更新包括抗钓鱼登录验证、更强大的账户恢复机制以及增强型保护措施。这些升级旨在更有效地保护用户的敏感数据，并重点防范账户被恶意接管的风险。新安全体系通过多重技术强化了整体防护层级。

OpenAI 产品更新安全/对齐

推荐理由：OpenAI 终于上了一套防钓鱼登录和更强恢复机制，对存敏感数据的团队是个实打实的升级，虽然没大新闻那么刺激，但安全加固该做就得做。

00:14

Noam Brown@polynoamial

在1亿个标记之后，性能仍在持续提升。我们在这里看到的并非能力上限。报告指出："TLO上的性能随着推理计算量的增加而持续扩展，我们尚未在最佳模型中观察到性能平台期。" 【引用 @AISecurityInst】：OpenAI的GPT-5.5是第二个端到端完成我们多步骤网络攻击模拟的模型🧵

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI 安全/对齐推理

4月30日