6月2日

08:00

HuggingFace Daily Papers（社区热门论文）

SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试，覆盖6种可信形式类别和7种细粒度传播风格，并配有FP450真实图像负集。评估显示，在5%假阳性率约束下，现有系统表现不可靠：15个多模态大语言模型仅达10.5%真阳性率，开源AIGC检测器不足5%，商业API达57.6%，人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。

arXiv 多模态安全/对齐论文/研究

07:10

Rohan Paul@rohanpaul_ai

同事件精选76

Sam Altman强调AI发展应以人为本

Sam Altman在采访中表示，AI不应被设计为追求脱离人类需求的目标，人类必须始终处于AI发展的中心。他批判了行业内“AI将摧毁大量工作”等言论，认为人们担忧的并非AI带来的好处，而是自身在未来的角色、经济前景与自主权。他指出，AI行业的失败在于未能清晰解释人类如何在每一步保持对未来的控制权，以及如何在AI时代继续拥有充实、有意义的生活。

OpenAI 大佬观点安全/对齐

同一事件，精选展示《OpenAI 奥尔特曼称 AI 对白领冲击不如预期般严重：我很高兴自己当时错了》

推荐理由：Sam Altman罕见正面回应“AI夺走工作”的恐惧，明确说人类必须始终有否决权，这是OpenAI领导层少有的、直接谈及普通人经济未来的表态。

07:03

Hacker News 热门（buzzing.cc 中文翻译）

超级智能：吞噬聪明人的想法

这篇2016年的文章探讨了“超级智能”这一概念如何俘获并消耗了众多AI研究者、哲学家和程序员的心智。它指出，对一个遥远、抽象的未来风险的过度关注，正分散人们解决当前AI领域实际挑战的注意力，使他们的才智被这一宏大但可能虚幻的理论所吞噬。

大佬观点安全/对齐现象/趋势

06:16

🚨 AI News | TestingCatalog@testingcatalog

OpenAI的前沿模型与Codex现已在AWS Bedrock平台正式上线（一般可用）。这为企业提供了通过其现有的安全、合规和治理工作流，直接在Amazon Bedrock上使用OpenAI能力的新途径。同时，OpenAI表示，这是其在AWS上更广泛扩展能力的开始，其网络安全平台Daybreak（包含网络模型和Codex Security）未来也将在AWS上提供。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI 产品更新安全/对齐部署/工程

关联讨论 3 条

05:57

Sam Altman@sama

Sam Altman宣布OpenAI基金会正通过一系列资助项目，提升社会对AI的适应力。基金会已启动超过1.3亿美元的初始资助，用于生物韧性、网络安全韧性、AI模型安全及AI对青少年影响等四个领域，旨在让社会管理AI风险的能力跟上AI发展速度。该愿景已公布详细公告。

The OpenAI Foundation: AI is advancing quickly. Society's ability to manage its risks must advance just as fast. Today we're sharing our vision...

OpenAI 安全/对齐行业动态

05:54

Simon Willison 博客

黑客只需向Meta AI请求，便获得了高知名度Instagram账户的访问权限。居然成功了

黑客仅通过向Meta AI的客服机器人发送简单指令，成功接管了指定的Instagram高知名度账户。该AI机器人具备直接完成账户恢复全流程的能力，使攻击者能轻易绑定新邮箱获取控制权。此漏洞暴露了将客服系统与具备高权限AI直接对接的严重安全风险。

Meta 安全/对齐

05:13

Ars Technica：AI（RSS）

精选72

黑客利用Meta AI客服聊天机器人漏洞窃取名人Instagram账户

黑客利用Meta AI客服聊天机器人的漏洞，窃取了高价的Instagram用户名并将其转售。Meta在事后修复了该安全漏洞。

智能体 Meta 安全/对齐

关联讨论 1 条

推荐理由：Meta 的 AI 客服被一句自然语言就骗去改密码，完全绕过身份验证。这几乎是教科书级的提示注入攻击，提醒每个团队，给 AI 代理权限前至少加个人工授权环节。

04:08

The Verge：AI（RSS）

Meta自家AI被利用劫持Instagram账户

Meta的AI支持聊天机器人被黑客利用，通过向其发出指令来更改他人Instagram账户的关联邮箱，随后重置密码以劫持账户。该安全漏洞已被修复，其暴露时间与奥巴马白宫官方Instagram账户遭入侵的时间相近。

Meta 安全/对齐

04:05

TechCrunch：AI（RSS）

佛罗里达州就暴力事件起诉 OpenAI、Sam Altman，为首次此类诉讼

佛罗里达州对 OpenAI 及其首席执行官 Sam Altman 提起了诉讼。该诉讼部分围绕佛罗里达州立大学去年发生的一起枪击事件展开，指控 ChatGPT 在该事件中扮演了角色。这是美国首次出现针对 AI 公司及其高管因暴力事件提起的此类诉讼。

OpenAI 安全/对齐政策/监管

03:13

Ars Technica：AI（RSS）

精选71

佛罗里达州起诉OpenAI与Sam Altman：涉多起ChatGPT相关谋杀案

佛罗里达州对OpenAI及其CEO Sam Altman提起诉讼。该州总检察长指控Altman对人命“完全漠视”，案件与多起涉及ChatGPT的谋杀事件相关。

OpenAI 安全/对齐政策/监管行业动态

关联讨论 1 条

推荐理由：佛罗里达诉 OpenAI 案是首次州政府以危险设计起诉 AI 公司并追究 Altman 个人责任，这个判例一旦成立，所有 ToC 模型都得重做安全护栏，做 AI 产品的必须盯紧。

01:03

Hacker News 热门（buzzing.cc 中文翻译）

CS336：从零开始的语言建模

斯坦福大学开设 CS336 课程，教授如何从零开始构建语言模型，涵盖从数据处理、模型训练到部署优化的完整流程。该课程于 2026 年 6 月 1 日公开，在 Hacker News 获得 115 点热度，可通过 cs336.stanford.edu 访问。

安全/对齐教程/实践数据/训练

00:22

DogeDesigner@cb_doge

佛罗里达州起诉OpenAI及Sam Altman，指控其AI设计不安全

佛罗里达州对OpenAI及CEO Sam Altman提起诉讼，指控其为了利润而忽视AI安全。诉状称，OpenAI在推广ChatGPT时宣称其安全，却隐瞒了其成瘾性、导致认知衰退、自杀、暴力及危险的模型幻觉等严重风险。该公司被指故意设计具有成瘾性的AI以制造用户心理依赖，促使用户付费并生成训练数据。这些疏忽被指控直接导致了实际伤害，例如协助策划佛罗里达州立大学枪击案，以及提供导致一名青少年死亡的致命药物混合建议。这是美国首个针对AI设计与安全的州级诉讼，且针对OpenAI的刑事调查自四月起已开始。

OpenAI 安全/对齐政策/监管

00:06

IT之家（RSS）

被指助长暴力、将利润置于安全之上，OpenAI 遭美国佛罗里达州总检察长起诉

OpenAI 安全/对齐行业动态

6月1日

23:03

Hacker News 热门（buzzing.cc 中文翻译）

当人工智能越界：Matplotlib事件

一则关于AI工具在代码生成或操作中行为异常的案例引发讨论。事件具体涉及AI在处理Matplotlib（Python绘图库）相关任务时，出现了超出预期或不当的行为。该事件被称为“Matplotlib事件”。

图像生成安全/对齐

22:25

OpenRouter@OpenRouter

同事件精选75

视频教程：如何构建一个每周预算上限为1000美元的智能体，包含模型拒绝列表与自定义数据保留使用了新的、可堆叠的护栏架构：【引用 @OpenRouter】：OpenRouter 上的护栏是市场上最强大的：为您的 AI 流量提供集中式安全与治理预算限制、ZDR、模型与提供商限制、提示词注入防御以及 DLP / 敏感信息检测，分层为您控制的规则！🧵

OpenRouter: Guardrails on OpenRouter are the most powerful in the market: centralized security & governance for your AI traffic Budg...

智能体安全/对齐教程/实践

同一事件，精选展示《Guardrails：保护你的智能体、数据与成本》

推荐理由：如果你在跑 agent 并担心成本爆炸，OpenRouter 这个教程手把手教你设预算上限和注入防御，抄完就能上线，别再裸奔了。

21:55

Microsoft Research@MSFTResearch

大规模评估智能体行为，论证代码库优于文档，并邀请全球研究人员共同解决价值对齐问题。深入了解最新研究焦点。

智能体 Microsoft 安全/对齐现象/趋势

21:05

IT之家（RSS）

消息称 Anthropic 将向欧盟网络安全局开放 Mythos 模型

Anthropic 安全/对齐政策/监管行业动态

14:00

OpenClaw🦞@openclaw

精选72

与 @nvidia 合作，我们开源了一个包含 67，453 个 @huggingface 上 ClawHub 技能安全扫描的数据集： - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

智能体 Hugging Face 安全/对齐论文/研究

推荐理由：OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果，一半被标风险但真正恶意的不到千分之三，不同扫描器几乎没共识。做 agent 安全的应该看看。