6月9日

08:00

HuggingFace Daily Papers（社区热门论文）

提出基于累积FLOPs的计算感知评估框架，以计算压力替代固定查询预算，引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上，使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现：对齐训练对计算空间鲁棒性呈非单调影响；模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限；梯度攻击可跨模型迁移；单个模型内不同危害类别间计算成本差异约5倍；安全对齐的RL增加整体攻击成本，但部分类别仍较易攻破。框架已开源。

安全/对齐开源生态

07:21

IT之家（RSS）

同事件精选75

奥尔特曼宣布 OpenAI 进入第三发展阶段：让 AI 普及、易用且安全

本周一，OpenAI CEO 奥尔特曼与首席科学家帕霍茨基联合发文，宣布公司进入第三发展阶段，目标让 AI 普及、易用且安全。此前第一阶段聚焦通用人工智能技术研发，第二阶段面向全球推出产品。第三阶段三大核心目标是打造自动化人工智能研究员、推动经济提速、为每人配备专属通用人工智能。二人强调智能系统须坚守安全底线，呼吁成立国际机构应对 AI 风险，必要时可暂缓前沿模型研发。同日，OpenAI 秘密提交 IPO 申请，但上市仍需较长时间。上周 Anthropic 研究人员也建议适当放缓前沿 AI 研发。

OpenAI 安全/对齐现象/趋势行业动态

同一事件，精选展示《OpenAI 公布让 AGI 造福所有人的计划》

推荐理由：奥尔特曼亲自给 OpenAI 定调进入第三阶段，同天还秘密提交了 IPO 申请，这篇博客比任何单款产品发布都更能看出他对 AI 经济终局的思考，关注行业走向的人必读。

04:48

OpenRouter：Announcements（RSS）

精选66

EU AI Act 合规：面向 AI 智能体的人工监督

使用智能体 SDK 的人机协作（HITL）工具，可满足 EU AI Act、Colorado AI Act 和 NIST AI RMF 对 AI 智能体的合规要求。

MCP/工具安全/对齐教程/实践

推荐理由：虽然讲的是合规，但直接把监管要求翻译成可落地的代码模式，对做高风险Agent的团队来说是一份照着改就能过审的实操手册。

03:11

MarkTechPost（RSS）

ClawHub Security Signals：AI技能数据集的端到端安全信号分析与判定分类编程指南

该教程使用ClawHub Security Signals数据集分析扫描器如何评估AI技能。从Hugging Face Parquet格式加载数据，检查判定结果、扫描输出和严重性标签，通过Jaccard分数和Cohen's kappa衡量VirusTotal、静态分析和SkillSpector之间的重叠与分歧，最后将SKILL.md文本与扫描信号结合，训练逻辑回归模型预测ClawScan判定。

安全/对齐教程/实践

6月8日

20:39

The Decoder：AI News（RSS）

微软在调查以色列军方使用Azure后收紧冲突地区规则

微软完成对以色列军方使用Azure云服务的调查，并推出新的人权审查措施。但报告未检查军方数据的实际内容，也未提及微软以色列员工的离职情况。事件核心涉及云基础设施、大规模监控和AI辅助的加沙目标选择。

Microsoft 安全/对齐政策/监管

20:39

The Decoder：AI News（RSS）

Meta披露Instagram AI聊天机器人漏洞，超2万个账户受影响

Meta首次披露其Instagram AI客服聊天机器人的安全漏洞——至少20,225个账户遭入侵。系统在近七周内将密码重置链接发送至任意邮箱地址而未验证归属，该机器人此前曾被宣传为账户安全举措。

Meta 安全/对齐行业动态

18:59

Hacker News 热门（buzzing.cc 中文翻译）

精选74

招聘中的算法单一化

一篇来自 algorithmichiring.github.io 的文章指出招聘行业正面临算法单一化风险——多数企业采用少数几种相同的算法模型评估候选人，可能导致系统性偏差和同质化。该文在 Hacker News 获得 102 个点赞。

安全/对齐论文/研究

推荐理由：这项研究用 340 万份真实申请第一次把算法招聘的种族歧视和系统拒绝摆在了台面上，结论是求职者投多家也可能被同一套算法全面筛掉，做招聘产品或关心就业公平的人都该认真读。