5月12日

12:12

Tibo@thsottiaux

网络安全正在变革。 Daybreak汇聚了我们最强大的网络模型、可信访问层级、Codex中的高级安全流程，以及大规模仓库扫描与补丁生成功能。更多创新即将到来。

OpenAI 产品更新安全/对齐编码

09:36

IT之家（RSS）

谷歌警告攻击者正用 AI 找漏洞，零日利用已出现真实案例

谷歌威胁情报团队首次确认一起由AI参与开发的零日漏洞利用事件。攻击针对一款开源Web管理工具，旨在绕过双因素认证，其利用代码中发现了大量教学性注释和“幻觉”生成的CVSS评分，风格符合AI生成特征。谷歌指出，此类高层语义与业务逻辑漏洞正是AI擅长发现的类型。这表明攻击者正更多借助AI来寻找和武器化漏洞，大幅降低了攻击的技术与时间门槛，导致面向互联网的管理后台安全风险加剧。

Google 安全/对齐行业动态

08:55

Hacker News 热门（buzzing.cc 中文翻译）

精选73

谷歌表示，犯罪黑客利用人工智能发现了一个重大的软件漏洞

谷歌披露，犯罪黑客利用人工智能技术发现并利用了一个重大的软件漏洞。该漏洞存在于广泛使用的开源软件中，可能导致大规模数据泄露或系统入侵。谷歌威胁分析小组追踪到此次攻击，并确认黑客借助AI工具显著提升了漏洞挖掘的效率与精准度。目前漏洞细节尚未公开，但相关软件维护方已发布安全更新。这一事件凸显了AI技术被恶意用于网络攻击的现实风险，对全球网络安全防御体系提出了新的挑战。

Google 安全/对齐

推荐理由：这不是演习，谷歌亲口确认黑客用AI挖到了真实漏洞，AI降低攻击门槛不再是理论推演，安全从业者该重新评估威胁模型了。

08:36

IT之家（RSS）

OpenAI 发布 Daybreak 项目：剑指 Anthropic，把安全检查放进日常代码流程

OpenAI于5月12日推出企业级安全项目Daybreak，旨在将网络安全防御前置至软件开发流程中。该项目对标Anthropic的Glasswing，提供基于GPT-5.5的三个模型，用于标准防护、授权环境及专门工作流。Daybreak并非一次性扫描工具，而是嵌入开发环节的持续安全工具链，支持代码审查、威胁建模等场景。企业目前可申请评估，具体价格尚未公布。

OpenAI 产品更新安全/对齐编码

08:35

meng shao@shao__meng

OpenAI发布网络安全战略"Daybreak"：以AI赋能防御者

OpenAI推出网络安全整体战略“Daybreak”，旨在将前沿AI能力优先、可控地赋予防御者，推动安全范式从“事后修补”转向“设计即内生韧性”。其基于GPT-5.5模型构建三层访问体系，通过“身份即权限”的信任访问机制，为已验证的防御任务放宽能力限制。该战略联合Intel、Cisco等生态伙伴形成“安全飞轮”，并通过Codex Security agent赋能开源软件供应链上游，加速防御闭环。

OpenAI: Introducing Daybreak: frontier AI for cyber defenders. Daybreak brings together the most capable OpenAI models, Codex, a...

OpenAI 产品更新安全/对齐开源生态

08:00

HuggingFace Daily Papers（社区热门论文）

正交梯度投影用于缓解安全对齐税

大语言模型的安全后训练可能削弱其通用能力，产生“对齐税”。本研究将其视为持续学习问题：安全训练的梯度可能干扰已习得的通用能力方向。为此，我们提出正交梯度投影安全对齐方法。该方法从少量通用数据梯度中估计参考子空间，并在安全梯度更新时移除该空间的分量，从而在提升安全性的同时保留通用能力。实验证明，在SFT、DPO及SFT→DPO等流程中，该方法能显著改善安全与效用的权衡，例如在Qwen2.5-7B上平均性能增益从33.98%提升至42.74%。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

对比神经元归因实现语言模型可靶向行为调控

本研究针对语言模型拒绝有害指令机制不透明的问题，提出了对比神经元归因方法。该方法仅通过前向传播即可识别出仅占0.1%的、最能区分有害与良性提示的关键神经元。在指令微调模型中，对这些神经元进行干预可将标准越狱测试中的拒答率降低超过50%，同时保持输出流畅度。跨架构实验揭示，对齐微调将预训练模型中已有的鉴别结构，转化为了稀疏且可靶向的“拒绝门控”，从而实现了在无质量损耗的前提下，对模型行为进行可靠调控。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PreScam：基于早期对话预测诈骗进展的基准测试

研究团队推出PreScam基准，用于评估语言模型从早期对话预测真实诈骗进展的能力。该基准基于用户报告，将17.8万份原始数据筛选并结构化，构建了涵盖20个类别的1.1万余个对话实例，并依据“诈骗杀伤链”和细粒度行为进行标注。研究设置了实时终止预测和诈骗者行为预测两项任务。结果显示，监督学习模型在终止预测上显著优于零样本大语言模型，而即使强大模型在预测诈骗者下一步行为时也仅获中等成功率，表明当前模型仍难以有效追踪多轮对话中风险的动态升级与操纵展开过程。

安全/对齐推理论文/研究

06:49

Berryxia.AI@berryxia

OpenAI推出Daybreak，AI驱动网络防御新武器

OpenAI正式推出名为Daybreak的“前沿AI网络防御武器”。该产品旨在将AI直接应用于网络安全最前线，目标是帮助安全团队跟上攻击者的速度。Daybreak整合了OpenAI最强大的模型、Codex以及安全合作伙伴的技术，其核心功能包括提前发现漏洞、快速修复、自动化检测验证和响应，以期彻底清除安全工作的积压任务。

OpenAI 产品更新安全/对齐