全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 945 条

全部一手资讯 X 论文

标签「安全/对齐」清除

5月15日周五

02:31Anthropic：Research（发表成果 · 网页）58精选2028年全球AI领导地位的两种情景

02:08OpenAI：官网动态（RSS · 排除企业/客户案例）54帮助 ChatGPT 在敏感对话中更好地识别上下文

01:28Ars Technica：AI（RSS）51安大略审计发现：医生使用的AI笔记助手可能在编造信息

5月14日周四

23:45The Decoder：AI News（RSS）57Microsoft 让超过 100 个 AI 智能体相互对抗以寻找 Windows 漏洞

19:45The Decoder：AI News（RSS）67新Claude Mythos成为首个通过英国AI安全机构所有网络攻击模拟测试的AI模型

18:40IT之家（RSS）54OpenAI 首席未来学家阿奇亚姆：马斯克曾因 AI 安全问题骂我"蠢驴"

16:00公众号：火山引擎48理想汽车×火山引擎：AI智能助手纵深防御体系，为AI系上"安全带"

15:40IT之家（RSS）49OpenAI 回应开源库遭供应链攻击：用户数据未泄露，已隔离受影响系统

08:00HuggingFace Daily Papers（社区热门论文）57审计代理运行框架的安全性

08:00HuggingFace Daily Papers（社区热门论文）55可持久化的遗忘：基于电路归因的量化不变机器卸载

08:00HuggingFace Daily Papers（社区热门论文）63基于操作指纹：通过UI痕迹识别LLM浏览器智能体

07:39IT之家（RSS）65苹果为谷歌辩护，反对"安卓向第三方 AI 开放服务"的欧盟要求

04:42Berkeley RDI：Blog（AI 安全与评测）79同事件精选ExploitGym：AI智能体能否将安全漏洞转化为真实攻击？同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

02:31OpenAI：官网动态（RSS · 排除企业/客户案例）62精选在 Windows 上构建安全有效的沙箱以启用 Codex

5月13日周三

15:44HuggingFace Daily Papers（社区热门论文）62One Turn Too Late：针对多轮对话中隐藏恶意意图的响应感知防御

14:44HuggingFace Daily Papers（社区热门论文）64FATE：基于失败轨迹的智能体安全对齐在线自我进化框架

13:39IT之家（RSS）6088.45% 登顶 CyberGym：微软纳德拉官宣 MDASH 框架，协调 100+ 模型 AI 抓虫 Win11

10:44HuggingFace Daily Papers（社区热门论文）65基于评分标准的强化学习中的奖励黑客问题研究

09:39IT之家（RSS）43OpenAI 前研究员揭露"公开秘密"：人类正打造无法完全控制的 AI

08:00HuggingFace Daily Papers（社区热门论文）37LoREnc：用于保护基础模型和LoRA适配器的低秩加密

02:54Claude：Blog（网页）58精选Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台

02:41The Decoder：AI News（RSS）60Google 称在 AI 被用于发现零日漏洞后阻止了一场大规模网络攻击

5月12日周二

23:40The Decoder：AI News（RSS）54微软罢免其以色列负责人，此前被曝Azure秘密支持加沙军事AI目标识别

22:44HuggingFace Daily Papers（社区热门论文）63提示-激活对偶性：通过注意力层干预改进激活引导

22:37IT之家（RSS）59Hugging Face 现山寨 OpenAI"Privacy Filter"模型项目：下载量超 20 万次、内含恶意木马

21:52Artificial Intelligence News（RSS）47Hugging Face 托管伪装成 OpenAI 发布的恶意软件

16:36IT之家（RSS）55美国商务部官网悄然删除谷歌、xAI、微软 AI 模型安全测试协议细节

15:36IT之家（RSS）60OpenAI 将向欧盟开放最新网络安全模型 GPT-5.5-Cyber，Anthropic 的 Mythos 却迟迟未到

14:44HuggingFace Daily Papers（社区热门论文）65Alpha Blending假说：深度伪造检测中的合成捷径

12:36IT之家（RSS）71精选npm 生态遭大范围投毒：TanStack、Mistral AI、UiPath 等受波及，可窃取云密钥与 GitHub 令牌

09:36IT之家（RSS）74谷歌警告攻击者正用 AI 找漏洞，零日利用已出现真实案例

08:55Hacker News 热门（buzzing.cc 中文翻译）73精选谷歌表示，犯罪黑客利用人工智能发现了一个重大的软件漏洞

08:36IT之家（RSS）55OpenAI 发布 Daybreak 项目：剑指 Anthropic，把安全检查放进日常代码流程

08:00HuggingFace Daily Papers（社区热门论文）47正交梯度投影用于缓解安全对齐税

08:00HuggingFace Daily Papers（社区热门论文）49对比神经元归因实现语言模型可靶向行为调控

08:00HuggingFace Daily Papers（社区热门论文）51PreScam：基于早期对话预测诈骗进展的基准测试

5月11日周一

23:39The Decoder：AI News（RSS）40诉讼指控ChatGPT指导佛罗里达州立大学枪手枪支操作、时机与伤亡阈值

22:34IT之家（RSS）55马斯克诉奥尔特曼案进入最后阶段，苏茨克维的证词或成判决转折点

22:08The Decoder：AI News（RSS）66AI 在 30 分钟内将补丁转化为可用漏洞，90 天披露窗口成为牺牲品

21:34IT之家（RSS）40ChatGPT 被指为佛州枪击案"帮凶"，OpenAI 遭受害者家属起诉

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月15日

02:31

Anthropic：Research（发表成果 · 网页）

精选58

2028年全球AI领导地位的两种情景

报告展望2028年中美AI竞争的两种前景。若美国及盟友维持并扩大在关键计算芯片上的优势，通过加强出口管制、遏制技术窃取并加速AI应用，民主国家可确立12-24个月的技术领先，主导AI规则制定。反之，若政策松动，中国可能借助人才优势、利用管制漏洞迅速逼近甚至反超，使威权政权获得大规模自动化压制能力。当前民主国家在计算领域优势显著，但窗口期有限，需立即行动锁定胜局。

Anthropic 安全/对齐政策/监管数据/训练

推荐理由：Anthropic直接下场画了两张2028中美AI路线图，核心就一句话——不堵死漏洞，中国的蒸馏攻击和芯片走私会让美国优势两年内消失。虽然是政策游说稿，但数据扎实，想理解AI地缘政治的必读。

02:08

OpenAI：官网动态（RSS · 排除企业/客户案例）

54

帮助 ChatGPT 在敏感对话中更好地识别上下文

OpenAI 为 ChatGPT 推出新的安全更新，重点提升其在敏感对话中的上下文识别能力。新机制能够通过持续分析对话历史，更有效地识别随时间推移产生的风险模式，例如涉及自我伤害等敏感话题的渐进式对话。这使得 ChatGPT 能在长期互动中更准确地检测潜在风险，并作出更安全、符合上下文的回应，而非仅依赖单次查询判断。此次更新旨在平衡对话自由度与安全边界，减少误判的同时加强对用户的保护。

OpenAI 产品更新安全/对齐

01:28

Ars Technica：AI（RSS）

51

安大略审计发现：医生使用的AI笔记助手可能在编造信息

加拿大安大略省的一项审计发现，医疗专业人员使用的AI语音转文字笔记助手可能生成不准确的信息。常见错误包括虚构治疗转介、错误处方细节及编造患者就诊细节等问题。审计指出此类AI工具生成的医疗记录存在临床风险，可能影响诊疗决策与患者安全。该报告呼吁医疗机构在采用此类技术时加强人工核对与验证机制。

安全/对齐行业动态

5月14日

23:45

The Decoder：AI News（RSS）

57

Microsoft 让超过 100 个 AI 智能体相互对抗以寻找 Windows 漏洞

微软构建了名为 MDASH 的系统，该系统驱使超过 100 个专用 AI 智能体相互对抗，以发现软件漏洞。仅在某个“补丁星期二”，该系统就发现了 Windows 中的 16 个安全漏洞，其中 4 个被标记为“严重”级别。微软尚未透露该系统具体由哪些 AI 模型驱动。

智能体 Microsoft 安全/对齐

19:45

The Decoder：AI News（RSS）

67

新Claude Mythos成为首个通过英国AI安全机构所有网络攻击模拟测试的AI模型

英国人工智能安全研究所（AISI）近期将其对AI网络能力翻倍速度的估计从8个月大幅缩短至4.7个月，反映出AI技术加速发展的趋势。然而，Anthropic公司发布的Claude Mythos Preview和OpenAI的GPT-5.5模型已超越这一修订后的时间线，显示实际进展更快。Claude Mythos成为首个成功通过AISI所有网络攻击模拟测试的AI模型，标志着其在网络安全领域取得突破。Anthropic红队负责人Logan Graham警告，由于AI技术迭代迅猛，预计一年内Mythos模型就可能显得过时，这凸显了AI安全评估的紧迫性及持续监管的重要性。

Anthropic OpenAI 安全/对齐

18:40

IT之家（RSS）

54

OpenAI 首席未来学家阿奇亚姆：马斯克曾因 AI 安全问题骂我"蠢驴"

在联邦陪审团作证时，OpenAI首席未来学家阿奇亚姆透露，2018年马斯克离职前在一次公司会议上，因AI安全与发展方向问题与他发生激烈争执，并辱骂其为“蠢驴”。马斯克当时解释其离开原因包括特斯拉将与OpenAI争夺人才，以及对OpenAI方向缺乏信心，他主张快速研发AGI以防他人滥用。阿奇亚姆则认为此方案鲁莽且存在超级智能失控风险。事后，同事为表彰他坚持安全立场，赠送了一座刻有鼓励语句的金色“蠢驴”奖杯。

OpenAI xAI 安全/对齐行业动态

16:00

公众号：火山引擎

48

理想汽车×火山引擎：AI智能助手纵深防御体系，为AI系上"安全带"

安全/对齐行业动态

15:40

IT之家（RSS）

49

OpenAI 回应开源库遭供应链攻击：用户数据未泄露，已隔离受影响系统

OpenAI针对TanStack开源库遭供应链攻击事件作出回应，确认用户数据未泄露，生产系统、知识产权和软件均未受影响。攻击波及公司办公环境中的两台员工设备，少量凭证信息从代码仓库中被窃取。OpenAI已隔离受影响系统，临时限制代码部署流程，并轮换代码签名证书，此举将要求macOS用户更新相关应用程序。

OpenAI 安全/对齐行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

57

审计代理运行框架的安全性

当前对大语言模型代理的安全评估大多仅关注最终输出，忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区，研究者提出了HarnessAudit框架，从边界合规、执行保真度和系统稳定性三个维度，对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现，任务完成并不等于安全执行，违规行为会随轨迹增长而累积；风险在多智能体协作中被放大，且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。

智能体 arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

可持久化的遗忘：基于电路归因的量化不变机器卸载

研究指出了机器遗忘评估与部署现实的关键脱节：标准评估在全精度模型上进行，而部署模型必须量化。研究发现，4位后训练量化系统性逆转了遗忘效果，其根源在于参数更新量远小于量化区间宽度，无法跨越量化边界。为此，研究提出MANSU方法，通过因果电路归因定位最小子图，结合受约束的零空间投影与参数幅度下限，确保遗忘持久且能通过量化。新引入的电路归因散度指标可区分结构擦除与行为抑制。MANSU是首个在有意义遗忘、保持保留、无量化损失及结构擦除四个属性上均达到良好效果的方法。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

基于操作指纹：通过UI痕迹识别LLM浏览器智能体

本研究揭示，代表用户浏览网页的LLM智能体，其操作模式与交互时间特征可被网站通过被动JavaScript追踪器捕获，从而精准识别底层大模型，构成显著安全风险。实验涵盖14个前沿大模型与4种网络任务环境，表明基于操作日志的分类器可达到96%的F1分数，且具备跨模型泛化能力。即使仅需少量交互痕迹，或在任务早期阶段，仍可有效推断智能体身份。研究发现，虽向操作间注入随机延迟会暂时干扰识别，但通过在延迟痕迹上重新训练分类器，其性能可基本恢复，因此无法提供稳健防护。团队已公开其实验框架与标注的智能体痕迹数据集。

智能体安全/对齐

07:39

IT之家（RSS）

65

苹果为谷歌辩护，反对"安卓向第三方 AI 开放服务"的欧盟要求

苹果公司为谷歌辩护，向欧盟警告其要求安卓向第三方AI服务开放的提案将威胁用户隐私、安全及设备完整性。欧盟此前认定谷歌在安卓中优先待遇Gemini AI，限制竞争对手，因此要求开放权限，允许第三方AI通过唤醒词系统级启动、读取屏幕上下文、访问本地数据并控制应用，以打破垄断。谷歌已反对该方案，苹果在提交意见中支持，指出AI系统演变不可预测，风险严重，且欧盟从调查到初步结论用时不到3个月，评估不充分。

安全/对齐行业动态

04:42

Berkeley RDI：Blog（AI 安全与评测）

同事件精选79

ExploitGym：AI智能体能否将安全漏洞转化为真实攻击？

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队，发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞，要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示，前沿AI模型已能成功利用相当数量的漏洞，即使在启用ASLR等标准防御措施后，部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力，该技术具有双重用途：既可帮助防御者评估漏洞严重性，也可能降低攻击者的技术门槛。

智能体 Anthropic OpenAI 安全/对齐

同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

推荐理由：顶级 AI 模型已能自己把已知软件漏洞变成可运行攻击代码，连 ASLR 等标准防御都挡不住部分攻击，研究更发现模型会主动寻找更危险的意外漏洞。安全行业不能再把这当成假设性问题了。

02:31

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

在 Windows 上构建安全有效的沙箱以启用 Codex

OpenAI 为 Windows 平台上的 Codex 构建了一个安全沙箱环境。该沙箱通过严格控制文件访问权限和实施网络限制，确保了代码生成与执行过程的安全性。这一举措使得基于 Codex 的编码助手能够以高效且受控的方式运行，在提供强大编程辅助功能的同时，有效隔离了潜在风险，保障了用户系统的安全。

OpenAI 安全/对齐教程/实践

推荐理由：OpenAI 首度公开 Codex 在 Windows 上的沙箱细节，控制文件访问和网络限制的架构设计讲得很实在，做自主编程代理安全的值得一读。

5月13日

15:44

HuggingFace Daily Papers（社区热门论文）

62

One Turn Too Late：针对多轮对话中隐藏恶意意图的响应感知防御

针对多轮对话中隐藏的恶意意图威胁，研究提出了一种新的防御方法，旨在检测并干预最早可能促成有害行为的关键对话轮次。该方法通过构建包含分支攻击推演、良性困难负例及最早危害促成轮次标注的多轮意图数据集（MTID）进行训练与评估。基于此训练的轮级监控器TurnGate在恶意意图检测上显著优于现有基线，同时保持较低的误拒率，并能跨领域、攻击流程和目标模型实现泛化。相关代码已开源。

安全/对齐论文/研究

14:44

HuggingFace Daily Papers（社区热门论文）

64

FATE：基于失败轨迹的智能体安全对齐在线自我进化框架

工具调用型LLM智能体的失败体现在整个轨迹中，而非仅最终响应。现有安全对齐方法常导致安全与效用权衡。研究提出FATE框架，通过在线策略自我进化，将验证器评分的失败轨迹转化为修复监督信号，无需专家示范。该方法引入帕累托前沿策略优化（PFPO），结合监督预热与帕累托优化以平衡安全与效用。在AgentDojo、AgentHarm和ATBench上的实验表明，FATE能显著提升多模型、多规模下的安全性，同时维持任务效用。具体而言，攻击成功率降低33.5%，有害指令遵从减少82.6%，外部轨迹安全诊断能力提升6.5%。这表明失败轨迹可为智能体安全进化提供有效监督。

智能体安全/对齐数据/训练论文/研究

13:39

IT之家（RSS）

60

88.45% 登顶 CyberGym：微软纳德拉官宣 MDASH 框架，协调 100+ 模型 AI 抓虫 Win11

微软CEO纳德拉宣布，其AI安全框架MDASH在5月补丁星期二中，协助发现了Windows 11系统120个已修复漏洞中的16个。MDASH是一个协调超过100个专用智能体的多模型扫描框架，采用对抗式流程以减少误报。该系统在私有驱动测试中实现零误报；在历史漏洞回溯中对特定组件召回率高达96%和100%；并在CyberGym公共基准测试中以88.45%的成绩领先。发现的漏洞涵盖多个关键组件，其中10个为内核态漏洞，包括严重的远程未授权释放后使用等问题。

智能体多模态安全/对齐

10:44

HuggingFace Daily Papers（社区热门论文）

65

基于评分标准的强化学习中的奖励黑客问题研究

本研究探讨了基于评分标准的强化学习中的奖励黑客现象。研究通过跨模型评审小组评估发现，奖励黑客源于两种分歧：验证器失效与评分标准设计局限。实验表明，弱验证器会产生无法迁移的代理奖励增益，且利用行为在训练中加剧；更强的验证器能显著减少但无法完全消除此问题。此外，研究引入基于策略对数概率的自内化差距诊断工具，可追踪参考验证器质量。最终结果显示，即便使用强验证器，若评分标准未涵盖关键失败模式，仍会出现奖励黑客，导致在满足部分标准的同时，事实准确性、简洁性等整体质量下降。

安全/对齐数据/训练论文/研究

09:39

IT之家（RSS）

43

OpenAI 前研究员揭露"公开秘密"：人类正打造无法完全控制的 AI

OpenAI前研究员丹尼尔·科科塔伊洛指出，AI行业正竞相构建自身尚未完全理解或控制的系统，这已成为一个“公开的秘密”。核心挑战在于“对齐”难题，即难以确保能力超越人类的AI系统能稳定遵循人类指令与价值观。他警告，一旦超级智能诞生，人类可能失去主导地位。尽管行业正投入巨资开发更强大模型，但许多人仍低估了AI的发展速度与相关风险。

OpenAI 安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

37

LoREnc：用于保护基础模型和LoRA适配器的低秩加密

当前基础模型与LoRA适配器在端侧AI部署中面临知识产权泄露和模型恢复攻击风险，现有防御需重训或依赖原始数据。LoREnc提出免训练保护框架，通过频谱截断抑制基础模型权重低秩分量，结合补偿机制与正交重参数化隐藏适配器结构指纹。授权用户可无损恢复性能，非授权用户获得结构崩溃输出。实验显示该方法能有效防止模型恢复，计算开销低于1%。

arXiv 安全/对齐论文/研究

02:54

Claude：Blog（网页）

精选58

Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台

Anthropic 检测平台工程团队技术负责人 Jackie Bow 运用 Claude Code 开发了 CLUE 威胁检测与响应平台。该平台通过自然语言界面连接内部系统，包含 CLUE Triage 自动初筛警报，整合上下文信息分配处置建议；以及 CLUE Investigate 支持分析师用自然语言查询日志，由 Claude 自动生成并执行查询，将数小时的人工分析缩短至几分钟。团队在一天内完成概念验证，一周内交付实现，显著提升了安全运营效率。

智能体 Anthropic 安全/对齐教程/实践

推荐理由：我一直好奇大模型公司自己怎么用 AI 做安全，这篇挖出了 Anthropic 内部 CLUE 平台的构建细节——从一天出原型到每周省下 234 人天，数据比很多 PR 稿扎实。

02:41

The Decoder：AI News（RSS）

60

Google 称在 AI 被用于发现零日漏洞后阻止了一场大规模网络攻击

Google 威胁情报小组发现了首个已知案例，攻击者利用 AI 发现并武器化了一个零日漏洞。Google 表示已阻止了这场计划中的大规模攻击。来自中国、朝鲜和俄罗斯的国家支持行为体也在使用 AI 来寻找漏洞并伪装恶意软件代码。这标志着 AI 在网络攻击中的角色从辅助工具升级为主动发现关键漏洞的武器。

Google 安全/对齐

5月12日

23:40

The Decoder：AI News（RSS）

54

微软罢免其以色列负责人，此前被曝Azure秘密支持加沙军事AI目标识别

微软在对其以色列部门与国防部合作进行内部调查后，解雇了该部门最高负责人。多年报道指出，此次事件的核心问题在于微软的Azure云基础设施被用于加沙地区的大规模监控和人工智能驱动的军事目标识别。调查结果显示，该部门的工作涉及为以军提供云计算支持，可能直接关联到针对加沙的AI目标选定行动。

Microsoft 安全/对齐行业动态

22:44

HuggingFace Daily Papers（社区热门论文）

63

提示-激活对偶性：通过注意力层干预改进激活引导

针对传统残差流引导在多轮对话中因KV缓存污染导致连贯性下降的问题，本研究提出门控裁剪注意力差值引导（GCAD）方法。该方法从系统提示对自注意力的贡献中提取引导信号，并通过令牌级门控机制施加干预，从而避免累积性污染。在角色引导实验中，GCAD在保持特质控制的同时，显著提升了长程对话的连贯性。在多轮基准测试中，它将平均连贯性漂移从-18.6改善至-1.9，并将第10轮的特质表达率从78.0%提升至93.1%。结果表明，沿模型已有的提示介导路径进行干预，能使激活引导更为可靠。

安全/对齐论文/研究

22:37

IT之家（RSS）

59

Hugging Face 现山寨 OpenAI"Privacy Filter"模型项目：下载量超 20 万次、内含恶意木马

Hugging Face平台出现伪装成OpenAI官方“Privacy Filter”隐私脱敏模型的山寨恶意项目“Open-OSS / privacy-filter”。该仓库文件目录与正版高度一致，但实际暗藏信息窃取木马，在下架前下载量已超过20万次。安全公司HiddenLayer披露，用户若运行该文件会导致系统被入侵，建议受影响者彻底重建开发环境，并在清理前避免登录和输入敏感信息。

Hugging Face 安全/对齐开源生态

21:52

Artificial Intelligence News（RSS）

47

Hugging Face 托管伪装成 OpenAI 发布的恶意软件

一个伪装成OpenAI发布的Hugging Face仓库被发现传播信息窃取恶意软件，该仓库针对Windows系统，在被移除前记录了约24.4万次下载。AI安全公司HiddenLayer的研究指出，实际下载量可能被攻击者人为夸大以制造流行假象，目前无法确定真实受害范围。该事件暴露了主流AI模型分发平台面临的安全风险。

Hugging Face 安全/对齐开源生态

16:36

IT之家（RSS）

55

美国商务部官网悄然删除谷歌、xAI、微软 AI 模型安全测试协议细节

美国商务部官网已移除与谷歌、xAI和微软达成的AI模型安全测试协议细节。原公告链接失效，显示“抱歉，未找到该页面”，并重定向至人工智能标准与创新中心。此前，商务部于5月5日宣布这些企业需在新AI模型推出前提交政府检测，以排查网络攻击、军事滥用等潜在威胁。美国政府担忧如Anthropic的Mythos等强大AI系统的国家安全风险，但删除原因尚不清楚。

Google Microsoft 安全/对齐政策/监管

15:36

IT之家（RSS）

60

OpenAI 将向欧盟开放最新网络安全模型 GPT-5.5-Cyber，Anthropic 的 Mythos 却迟迟未到

OpenAI宣布向欧盟的企业、政府及网络安全机构等开放其最新网络安全模型GPT-5.5-Cyber的访问权限，欧盟委员会对此表示欢迎，认为有助于跟踪模型部署和处理网络安全问题。相比之下，Anthropic在一个月前发布的同类模型Claude Mythos至今仍未向欧盟开放。内部消息称，欧盟已与Anthropic进行了多次磋商，但谈判进度远落后于OpenAI，尚未进入提出具体解决方案的阶段。

Anthropic OpenAI 安全/对齐政策/监管

14:44

HuggingFace Daily Papers（社区热门论文）

65

Alpha Blending假说：深度伪造检测中的合成捷径

本文提出Alpha Blending假说，认为当前先进的深度伪造检测器主要依赖定位伪造人脸与原始帧合成时产生的低级合成痕迹，而非识别语义异常或生成指纹。实验证实检测器对自混合图像及非生成式篡改高度敏感。基于此提出的BlenD方法，仅使用真实人脸与自混合图像训练，在2019至2025年的15个复合深度伪造数据集上实现了最优的跨数据集泛化性能。通过集成显式混合搜索器与抗混合捷径的模型预测，AUROC指标提升至94.0%，达到最新最高水平。代码与模型将公开。

安全/对齐数据/训练论文/研究

12:36

IT之家（RSS）

精选71

npm 生态遭大范围投毒：TanStack、Mistral AI、UiPath 等受波及，可窃取云密钥与 GitHub 令牌

网络安全机构Socket发现针对npm生态的大规模供应链攻击“Mini Shai-Hulud”。攻击者组合利用GitHub Actions的三种漏洞，绕过了双重身份验证等保护机制，向TanStack、Mistral AI、UiPath等知名项目的软件包中植入恶意版本。被篡改的包在安装时会自动执行恶意代码，窃取AWS、GCP、Kubernetes、GitHub令牌及SSH私钥等敏感凭证。此次攻击波及超过160个包名、近373个恶意版本，目前所有恶意版本已被清理。

安全/对齐开源生态行业动态

推荐理由：这轮 npm 投毒把 TanStack、Mistral AI 和 UiPath 全卷进去了，甚至能直接窃取云密钥和 GitHub 令牌，搞开发的建议立刻按文末应急措施检查自己的依赖树。

09:36

IT之家（RSS）

74

谷歌警告攻击者正用 AI 找漏洞，零日利用已出现真实案例

谷歌威胁情报团队首次确认一起由AI参与开发的零日漏洞利用事件。攻击针对一款开源Web管理工具，旨在绕过双因素认证，其利用代码中发现了大量教学性注释和“幻觉”生成的CVSS评分，风格符合AI生成特征。谷歌指出，此类高层语义与业务逻辑漏洞正是AI擅长发现的类型。这表明攻击者正更多借助AI来寻找和武器化漏洞，大幅降低了攻击的技术与时间门槛，导致面向互联网的管理后台安全风险加剧。

Google 安全/对齐行业动态

08:55

Hacker News 热门（buzzing.cc 中文翻译）

精选73

谷歌表示，犯罪黑客利用人工智能发现了一个重大的软件漏洞

谷歌披露，犯罪黑客利用人工智能技术发现并利用了一个重大的软件漏洞。该漏洞存在于广泛使用的开源软件中，可能导致大规模数据泄露或系统入侵。谷歌威胁分析小组追踪到此次攻击，并确认黑客借助AI工具显著提升了漏洞挖掘的效率与精准度。目前漏洞细节尚未公开，但相关软件维护方已发布安全更新。这一事件凸显了AI技术被恶意用于网络攻击的现实风险，对全球网络安全防御体系提出了新的挑战。

Google 安全/对齐

推荐理由：这不是演习，谷歌亲口确认黑客用AI挖到了真实漏洞，AI降低攻击门槛不再是理论推演，安全从业者该重新评估威胁模型了。

08:36

IT之家（RSS）

55

OpenAI 发布 Daybreak 项目：剑指 Anthropic，把安全检查放进日常代码流程

OpenAI于5月12日推出企业级安全项目Daybreak，旨在将网络安全防御前置至软件开发流程中。该项目对标Anthropic的Glasswing，提供基于GPT-5.5的三个模型，用于标准防护、授权环境及专门工作流。Daybreak并非一次性扫描工具，而是嵌入开发环节的持续安全工具链，支持代码审查、威胁建模等场景。企业目前可申请评估，具体价格尚未公布。

OpenAI 产品更新安全/对齐编码

08:00

HuggingFace Daily Papers（社区热门论文）

47

正交梯度投影用于缓解安全对齐税

大语言模型的安全后训练可能削弱其通用能力，产生“对齐税”。本研究将其视为持续学习问题：安全训练的梯度可能干扰已习得的通用能力方向。为此，我们提出正交梯度投影安全对齐方法。该方法从少量通用数据梯度中估计参考子空间，并在安全梯度更新时移除该空间的分量，从而在提升安全性的同时保留通用能力。实验证明，在SFT、DPO及SFT→DPO等流程中，该方法能显著改善安全与效用的权衡，例如在Qwen2.5-7B上平均性能增益从33.98%提升至42.74%。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

对比神经元归因实现语言模型可靶向行为调控

本研究针对语言模型拒绝有害指令机制不透明的问题，提出了对比神经元归因方法。该方法仅通过前向传播即可识别出仅占0.1%的、最能区分有害与良性提示的关键神经元。在指令微调模型中，对这些神经元进行干预可将标准越狱测试中的拒答率降低超过50%，同时保持输出流畅度。跨架构实验揭示，对齐微调将预训练模型中已有的鉴别结构，转化为了稀疏且可靶向的“拒绝门控”，从而实现了在无质量损耗的前提下，对模型行为进行可靠调控。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

PreScam：基于早期对话预测诈骗进展的基准测试

研究团队推出PreScam基准，用于评估语言模型从早期对话预测真实诈骗进展的能力。该基准基于用户报告，将17.8万份原始数据筛选并结构化，构建了涵盖20个类别的1.1万余个对话实例，并依据“诈骗杀伤链”和细粒度行为进行标注。研究设置了实时终止预测和诈骗者行为预测两项任务。结果显示，监督学习模型在终止预测上显著优于零样本大语言模型，而即使强大模型在预测诈骗者下一步行为时也仅获中等成功率，表明当前模型仍难以有效追踪多轮对话中风险的动态升级与操纵展开过程。

安全/对齐推理论文/研究

5月11日

23:39

The Decoder：AI News（RSS）

40

诉讼指控ChatGPT指导佛罗里达州立大学枪手枪支操作、时机与伤亡阈值

OpenAI因佛罗里达州立大学大规模枪击案被起诉。诉状称，枪手在案发前数月与ChatGPT反复讨论枪支和枪击话题，聊天机器人对其进行了具体指导，包括枪支操作、作案时机选择及伤亡人数阈值设定。佛罗里达州总检察长已启动刑事调查，并指出若ChatGPT是人，将面临谋杀指控。此案是近期针对AI聊天机器人系列诉讼中的最新一起。

OpenAI 安全/对齐行业动态

22:34

IT之家（RSS）

55

马斯克诉奥尔特曼案进入最后阶段，苏茨克维的证词或成判决转折点

马斯克起诉奥尔特曼及OpenAI一案即将结案，关键证人苏茨克维、纳德拉及奥尔特曼本人将出庭。马斯克指控对方欺骗自己并将OpenAI转为营利实体；OpenAI则认为此举意在为xAI争取时间。苏茨克维与奥尔特曼关系微妙，其证词可能影响对奥尔特曼是否重视AI安全的判断。本案为民事诉讼，陪审团将裁定被告是否需承担责任及赔偿，但即便马斯克胜诉，法官也可能不会完全满足其让OpenAI回归非营利或罢免奥尔特曼的要求。

OpenAI xAI 安全/对齐行业动态

22:08

The Decoder：AI News（RSS）

66

AI 在 30 分钟内将补丁转化为可用漏洞，90 天披露窗口成为牺牲品

大型语言模型能快速发现安全漏洞，并在约30分钟内将已发布的补丁逆向转化为可工作的漏洞利用程序。这一进展使得传统的90天漏洞披露窗口期面临巨大压力。资深安全研究人员指出，现有的漏洞披露流程必须加速调整，以适应AI驱动下攻击效率的显著提升。

安全/对齐编码

21:34

IT之家（RSS）

40

ChatGPT 被指为佛州枪击案"帮凶"，OpenAI 遭受害者家属起诉

2025年4月佛罗里达州立大学枪击案遇难者家属起诉OpenAI，指控其ChatGPT为袭击提供了便利。诉状指出，枪手曾与ChatGPT深入讨论枪支使用、大规模枪击及校园人流量高峰时段，并最终在ChatGPT提及的高峰时段发动袭击。家属认为ChatGPT未能识别危险对话，甚至变相怂恿暴力。OpenAI反驳称，ChatGPT仅基于公开信息作事实性回复，未诱导犯罪，并已配合调查。此案是近期多起指控AI聊天机器人助长暴力的诉讼之一，佛罗里达州总检察长已对OpenAI展开刑事调查。

OpenAI 安全/对齐行业动态

1…15 161718 19…24