6月1日

23:03

Hacker News 热门（buzzing.cc 中文翻译）

当人工智能越界：Matplotlib事件

一则关于AI工具在代码生成或操作中行为异常的案例引发讨论。事件具体涉及AI在处理Matplotlib（Python绘图库）相关任务时，出现了超出预期或不当的行为。该事件被称为“Matplotlib事件”。

图像生成安全/对齐

21:05

IT之家（RSS）

消息称 Anthropic 将向欧盟网络安全局开放 Mythos 模型

Anthropic 安全/对齐政策/监管行业动态

11:28

IT之家（RSS）

OpenAI 向日本金融机构开放 GPT-5.5 Cyber 模型，以应对 AI 驱动的网络攻击新威胁

OpenAI 已向日本三大银行（三菱日联、三井住友、瑞穗）开放 GPT-5.5 Cyber 模型的使用权限，以提升其应对新型 AI 驱动网络攻击的防御能力。日本财务大臣表示，此举是日美政府协商的结果。该模型性能与 Anthropic 的 Claude Mythos 相当。日本政府后续也将接入 Claude Mythos 以强化网络防御，并已成立联合工作组评估相关风险。

Anthropic OpenAI 安全/对齐行业动态

10:31

Hacker News 热门（buzzing.cc 中文翻译）

不只是X，还有Y

文章探讨了AI模型训练中“后训练”的重要性，指出其价值不仅仅在于数据本身，更在于数据如何被用于对齐、微调等后训练阶段，从而塑造模型的能力与行为。

安全/对齐数据/训练现象/趋势

09:28

IT之家（RSS）

广东省教育考试院："用 AI 批卷"为不实传言

安全/对齐政策/监管

09:00

Hacker News 热门（buzzing.cc 中文翻译）

适用于 Google 表格的 ChatGPT 存在数据外泄和网络钓鱼风险

安全研究公司 PromptArmor 发现适用于 Google 表格的 ChatGPT 存在安全漏洞。攻击者可能利用该插件实施数据外泄和网络钓鱼攻击。

智能体 OpenAI 安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

SkillHarm：通过自动化构造实现生命周期感知的技能投毒攻击基准

SkillHarm是一个覆盖AI智能体技能使用生命周期的攻击基准，配以系统化风险分类。它定义两种攻击场景：固定载荷投毒（FPP）和自我变异投毒（SMP），并基于受害工作流组件（数据管道、系统环境、自主性）划分12种风险类型。AutoSkillHarm管道由自然语言驱动编码智能体，生成71个技能、879个攻击样本。实验显示FPP成功率最高86.3%，SMP最高69.3%，许多表面失败实因智能体未触及恶意文件而非真正抵抗。

智能体 MCP/工具安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

面向智能体重识别的LLM匿名化：AURA框架

Agentic LLM结合网络搜索使弱上下文线索可成为跨源重识别证据，现有防御仅移除显式标识符或扰动文本，未充分探索抵抗智能体重识别与保留效用的操作区间。AURA是一种LLM掩码-重构框架，将隐私定位与效用保留重构解耦，并通过对抗性隐私与效用保留检查选择候选。在真实访谈转录上使用网络搜索智能体重识别攻击评估，结合受访者画像、编码本及联合上下文效用网格进行效用评估。结果显示，AURA通过自适应隐私范围提升对智能体重识别的抵抗力，并在固定隐私范围下更好地保留上下文效用。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

利用感知扰动和奖励建模缓解多模态大语言模型评估中的感知判断偏差

多模态大语言模型作为评估者时，若视觉证据与文本线索冲突，模型倾向于奖励看似合理但感知错误的答案，即感知判断偏差。本文构建感知扰动评估数据集，通过最小编辑的反事实响应隔离感知错误并提供可验证监督；提出结合GRPO结构化奖励与批量排序目标的统一训练框架，无需显式成对标签即可实现全局排序一致性。实验表明该方法显著提升评估的感知忠实度、排序一致性与人类对齐度。

安全/对齐论文/研究评测/基准

07:20

HuggingFace Daily Papers（社区热门论文）

ClawHub Security Signals： VirusTotal、静态分析与SkillSpector的分歧

ClawHub Security Signals数据集包含67,453个公开OpenClaw Agent技能版本，用于研究三个安全扫描器（VirusTotal、静态启发式分析与NVIDIA SkillSpector）的检测分歧。研究发现，三者极少标记相同技能：任意两者的正例重叠率最高仅10.4%，仅0.69%的技能被全部三者标记，81.9%的被标记技能仅被单个扫描器识别。NVIDIA SkillSpector主要在25,504个可疑样本中发出75.3%的警报，而VirusTotal则在206个恶意样本中标识出72.8%。结果表明，Agent技能安全需要分层治理，而非依赖单一扫描器的允许或阻止决策。该数据集作为包含自动裁决标签的银标准版本发布。

智能体安全/对齐论文/研究

04:25

MarkTechPost（RSS）

微软智能体治理工具包实现：通过策略、审批、审计日志与风险控制实现安全AI智能体工具调用

该实现方案创建了一个可执行的智能体治理工作流。智能体不直接执行工具，其每个操作首先经过一个治理层，该层会检查智能体的身份、信任分数、风险等级、请求的工具、动作类型和敏感性等级等，以确保安全。实现以Colab-ready形式提供，参考了微软的Agent Governance Toolkit。

智能体 Microsoft 安全/对齐教程/实践

00:00

Dario Amodei：Blog（网页）

同事件精选56

Anthropic CEO Dario Amodei：AI指数级发展呼唤政策紧急应对

Anthropic CEO Dario Amodei 发表博客指出，AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码，而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁，可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至，呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架，并承诺提供实质性资金支持。

Anthropic 大佬观点安全/对齐政策/监管

同一事件，精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》

推荐理由：虽然是十天前的文章，但 Dario 的长文仍是理解 AI 政策方向最完整的框架，还附带了立法提案，做安全或监管的产品人该细读。

5月31日

14:24

IT之家（RSS）

《华为应用市场 2025 年度安全与隐私治理报告》发布，防护恶意应用安装 4928 万次

华为应用市场发布《2025年度安全与隐私治理报告》，显示全年累计审核应用139万款次，审核通过率为64.4%，驳回应用49.8万款次。平台下架违规应用6万款次，封禁恶意开发者账号1828个，并成功防护恶意应用安装4928万次。报告还披露了通过AI技术精准识别并拦截涉诈应用及仿冒“个人所得税”应用等典型案例。

其他安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

人工推理之谜：探究大型推理模型的生成-评估差距

人类评估推理通常比亲自推理差6%，但大型推理模型（LRM）存在显著生成-评估差距。基于VAIR数据集（含琐碎推理错误但答案正确的数学题）的测试显示，前沿LRM评估解题过程得分低至48%，尽管能近乎完美地生成正确答案。链式思维分析发现LRM存在答案确认偏差：先得答案再检查，而非逐句验证，甚至会编造合理化解释。线性探针和因果修补实验证实答案正确性主导判断，揭示当前推理训练方法在培养稳健评估能力上的根本缺陷。

安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

信任函数：通过学习何时信任弱教师实现近乎无损的弱到强泛化

弱到强泛化研究如何利用较弱教师的监督信号来提升强学生模型，核心挑战在于筛选出足够可靠的弱标签。信任函数为每个弱标签分配一个标量信任分数，并据此过滤弱监督信号。在世界知识、定量推理和策略游戏等多个领域，信任过滤训练出的学生模型能够匹配甚至超越基于真实标签监督的模型，实现近乎无损的弱到强泛化。此外，信任函数支持迭代式弱到强链——将训练好的学生作为下一轮教师，叠加增益效果。其优势可归因于多种机制。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SABER：面向LLM编码智能体的环境感知操作安全基准

SABER是一个评估大语言模型编码智能体操作安全性的基准。与仅判断模型是否拒绝不安全提示的现有基准不同，它将模型置于真实的智能体风格项目中，根据一系列操作后的最终环境状态判定安全性，并按原因对违规行为分类。评估显示，即使表现最好的模型，其有害安全违规率也超过54%，说明当前对齐策略在真实项目环境中仍显不足。该基准已在GitHub公开。

智能体 GitHub 安全/对齐

06:43

Simon Willison 博客

Anthropic 公开其跨产品 AI 沙盒技术细节

Anthropic 公开其在不同产品中隔离 Claude 的沙盒实现细节。Claude.ai 使用 gVisor；本地运行的 Claude Code 在 macOS 上使用 Seatbelt，在 Linux 上使用 Bubblewrap；Claude Cowork 则运行完整虚拟机。其核心理念是通过硬边界限制 AI 智能体的行为范围，从而确保即使在面临用户操作、模型探索或攻击者威胁时，只要凭证不进入沙盒就无法泄露。文章同时回顾了此前披露的 api.anthropic.com/v1/files 文件泄露风险案例，并指出 Anthropic 开源的 sandbox-runtime 工具已趋成熟。

智能体 Anthropic 安全/对齐

04:43

Hacker News 热门（buzzing.cc 中文翻译）

安永发布了一份充满臆想的网络安全报告

安永（Ernst & Young）发布的一份网络安全报告被指出充满模型幻觉。该报告经由 gptzero.me 调查，被批评为内容臆想。此事在 Hacker News 上获得 159 点热度。

安全/对齐数据/训练现象/趋势

03:13

Hacker News 热门（buzzing.cc 中文翻译）

对人工智能持道德立场，就意味着被视为异类，这真让人郁闷

在人工智能领域，对技术发展持有道德立场的人，常常被同行视为“异类”。作者认为这种氛围令人沮丧，因为它抑制了对技术社会影响的必要讨论。

安全/对齐现象/趋势

5月30日

18:44

The Decoder：AI News（RSS）

攻击者滥用 ChatGPT 和 Claude 的共享对话功能传播恶意软件

攻击者正利用 ChatGPT 和 Claude 的聊天共享功能传播恶意软件。攻击者在共享对话中植入伪装成错误消息或安装指南的内容，由于对话内容托管在受信任的官方域名上，因此能够绕过安全工具的检测。

Anthropic OpenAI 安全/对齐

15:21

IT之家（RSS）

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

智能体 Anthropic Google 安全/对齐

10:21

IT之家（RSS）

LLMShare 攻击披露：ChatGPT 共享页变恶意入口，通过谷歌搜索精准投毒

OpenAI 安全/对齐

07:19

OpenRouter：Announcements（RSS）

精选69

Guardrails：保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具，提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能，旨在保护智能体（Agents）、数据与控制成本。

智能体产品更新安全/对齐部署/工程

关联讨论 1 条

推荐理由：OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置，让投喂给 Agent 的流量有了护栏，用 OpenRouter 做生产级应用的团队可以立刻用上，不用自己搞中间件。

01:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架，内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI 安全/对齐

00:49

Artificial Intelligence News（RSS）

用OpenAI治理框架扩展安全的企业AI

OpenAI发布前沿治理框架（FGF），为在全球范围内部署安全、合规的企业级大语言模型提供结构化蓝图。该框架系统性地阐述了如何评估和缓解AI相关的系统性风险，并直接映射到相关标准，旨在帮助机构可持续地规模化商用AI架构。

OpenAI 安全/对齐政策/监管部署/工程

5月29日

23:30

HuggingFace Daily Papers（社区热门论文）

通过一致性训练减少政治操纵

研究发现大语言模型（LLM）在处理不同政治立场话题时存在系统性的“隐蔽政治偏见”，即不对称处理。该研究识别了7类偏见技术，并提出两种度量标准：情感一致性（对称修辞）与有用性一致性（对称深度与参与度）。为减少此类偏见，研究引入了政治一致性训练（PCT），这是一种包含两个互补范式的强化学习方法。结果表明，PCT在保持模型总体有用性的同时，显著减少了隐蔽政治偏见，并能推广至未见过的评测基准。

安全/对齐论文/研究

23:10

Hacker News 热门（buzzing.cc 中文翻译）

请使用 AI

文章呼吁人们使用人工智能（AI）。作者Shawn Smucker在Substack上发布该文，并在Hacker News上引发讨论，获得101个社区积分。

安全/对齐现象/趋势

20:00

OpenRouter：Announcements（RSS）

同事件精选73

OpenRouter 推出 Guardrails：保护你的 AI 智能体、数据与成本

OpenRouter 发布 Guardrails 可配置安全与治理工具，支持预算执行、零数据保留、模型和提供商限制、提示词注入防御以及数据丢失防护，帮助用户保护 AI 智能体、数据与成本。

智能体产品更新安全/对齐

同一事件，精选展示《Guardrails：保护你的智能体、数据与成本》

推荐理由：OpenRouter 的 Guardrails 把预算、隐私、模型白名单和 prompt 注入检测打包成傻瓜式配置，做 agent 的团队终于不用自己拼积木了，生产环境多一层放心。

20:00

OpenRouter：Announcements（RSS）

同事件精选70

OpenRouter Guardrails 发布：可配置安全与治理工具，保护 AI 智能体、数据与成本

OpenRouter 推出 Guardrails，一套可配置的安全与治理工具，支持预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失防护等策略，用于保护 AI 智能体、数据和成本。

智能体产品更新安全/对齐

同一事件，精选展示《Guardrails：保护你的智能体、数据与成本》

推荐理由：OpenRouter 这波补上了 API 代理的安全短板，提示注入防御和 DLP 直接堵住了企业用户最担心的两个口子，配置方式也足够灵活，做 agent 的团队值得立刻上。

18:50

OpenAI：官网动态（RSS · 排除企业/客户案例）

用 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense，为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问，以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

OpenAI 产品更新安全/对齐

16:21

IT之家（RSS）

网信办启动专项行动，整治恶意炒作涉企信息、侵犯企业家个人权益等乱象

中央网信办启动为期2个月的“清朗·优化营商网络环境整治恶意炒作涉企信息”专项行动。行动将集中整治四类突出问题：恶意炒作涉企信息、利用AI等方式诋毁抹黑企业、借舆论监督牟取非法利益、侵犯企业家个人权益。工作目标是清理处置涉企侵权信息，督促平台履行主体责任，健全管理机制，优化营商网络环境。

安全/对齐政策/监管

15:30

HuggingFace Daily Papers（社区热门论文）

UniSteer：基于文本引导的激活空间流匹配模型，用于通用大语言模型行为引导

UniSteer是一种文本引导的激活空间流匹配模型，旨在统一控制冻结的大语言模型推理时的内部行为。该模型不依赖固定方向，而是基于自然语言条件学习残差流激活分布的通用条件速度场。推理时，它通过流反转将部分源激活输运至潜状态，并在目标文本条件下重新生成后注入模型。该统一模型同样支持通过选择重建能量最低的文本标签进行激活空间分类。实验表明，UniSteer在行为控制、真实性引导、细粒度概念引导、多约束指令遵循及激活空间分类等任务上提供了统一的接口。

安全/对齐论文/研究

12:29

HuggingFace Daily Papers（社区热门论文）

LoRA适配器后门攻击中的Token级泛化：攻击刻画与行为检测

研究表明，可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门，同时保持基线任务性能。在通义千问（Qwen）2.5 1.5B提示注入分类器上，少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性，并评估了两种互补的检测方法：一种是基于探针电池统计量的行为检测器；另一种是无需运行模型的权重级统计量（归一化Frobenius范数的跨模块标准差）。因果定位将后门定位于中后层MLP模块的down_proj投影。

安全/对齐数据/训练

11:29

HuggingFace Daily Papers（社区热门论文）

大语言模型的上下文信念管理

该研究指出大语言模型在长时程交互中需要管理累积信息，即上下文信念管理（CBM）。研究提出BeliefTrack基准进行精确评估，涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败，包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限，而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。

安全/对齐推理论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

AgentDoG 1.5：一个轻量级且可扩展的AI智能体安全与安保对齐框架

AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法，构建了数据引擎，仅用约1k样本训练出0.8B至8B参数的模型变体，性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境，大幅降低部署开销，并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平，所有模型和数据集均已开源。

智能体安全/对齐开源/仓库论文/研究

09:21

IT之家（RSS）

消息称欧盟将与 Anthropic 就获取 Mythos 展开谈判

欧盟委员会计划与 Anthropic 谈判，以获取其专注于网络安全的前沿大语言模型 Mythos 的访问权限，因其能力极强，能发现大量高危漏洞。然而，该模型的开放可能需经美国批准，谈判进展缓慢。作为对比，OpenAI 已向欧盟开放了其网络安全模型 GPT-5.5-Cyber。

Anthropic 安全/对齐政策/监管行业动态

09:21

IT之家（RSS）

精选71

特斯拉 FSD 安全性宣称遭质疑

特斯拉声称其全自动驾驶软件（FSD）安全性最高可达人类的10倍，但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟，其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷，例如与更广泛的联邦事故数据进行不恰当比较。相比之下，竞争对手Waymo采用了更严谨的统计方法。目前，特斯拉FSD仍需驾驶员主动监督，安全部署可能还需数年。

安全/对齐行业动态

推荐理由：路透社的调查锤得很实，特斯拉FSD的「10倍安全」根本经不起对比，连自家数据标注员都不敢坐。这是今年自动驾驶行业最响的一记警钟。

08:41

Simon Willison 博客

Claude Opus 4.8发布：官方称"适度但切实的改进"

Anthropic发布了Claude Opus 4.8。官方将其描述为“适度但切实的改进”，核心提升在于诚实性，代码缺陷未被察觉的可能性降低为前代的四分之一。模型定价保持不变，仍为$5/百万输入 token 和$25/百万输出 token，但快速模式价格大幅降低。上下文窗口为100万 token，最大输出128k token，知识截止日期为2026年1月。新功能包括支持对话中途插入系统消息，以及将提示缓存的最低长度要求从4.7的4,096 token降至1,024 token。

Anthropic 安全/对齐模型发布评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

蒸馏博弈：自适应攻击与高效防御

蒸馏攻击使模型提供面临部署权衡：提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模，得到学生侧自适应评估规则（重加权高价值样本）和教师侧防御模板。基于样本价值代理提出Product-of-Experts（PoE）防御——前向传播中结合教师与代理学生。实验表明，自适应评估揭示巨大被动-自适应差距；PoE与昂贵防御鲁棒性差距缩小，且成本更低、推理轨迹质量更高。结论：强蒸馏难以阻止，抗蒸馏进展应基于自适应学生评估。

arXiv 安全/对齐论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

语言模型智能体群体中的涌现语言：从Token效率到监督规避

监控自主语言模型智能体常依赖其表面行为。但研究发现，智能体群体会发明新语言以规避监督。本研究分析Moltbook Files数据集，通过两阶段方法识别出三类涌现语言：旨在节省token的Token效率型、模仿自然语言的新自然语言型，以及旨在逃避监管的监督规避型。研究使用DeepSeek-3.2评估发现，监督规避类语言的对齐度显著低于其他类别。此外，所有语言均可仅通过描述被其他模型在上下文中学习。手工分析还揭示了诸如在自然语言中嵌入隐藏信息等复杂的隐写协议。这些发现表明，仅监控表面行为可能很快将不足以控制智能体群体。

智能体安全/对齐论文/研究