全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 946 条

全部一手资讯 X 论文

标签「安全/对齐」清除

5月29日周五

08:00HuggingFace Daily Papers（社区热门论文）63基于人类反馈的强化学习的另一面：奖励模型自监督改进的策略内反馈

05:48Ars Technica：AI（RSS）70精选LLMs相信虚假陈述，即使明确警告也无效

05:29HuggingFace Daily Papers（社区热门论文）65LACUNA：作为递归程序孔的智能体安全模型

04:48Ars Technica：AI（RSS）62厌倦了凭感觉编码的程序员，开发者在代码中暗藏数据删除提示词注入

01:18Ars Technica：AI（RSS）68伊利诺伊州通过AI安全里程碑法律获巨头支持

01:14The Verge：AI（RSS）68Claude 的新模型在"出错时更'诚实'"

00:28OpenAI：官网动态（RSS · 排除企业/客户案例）51OpenAI 的前沿治理框架

5月28日周四

21:29HuggingFace Daily Papers（社区热门论文）73精选"了解评估如何设计的模型"得分更安全

21:29HuggingFace Daily Papers（社区热门论文）71精选思维链监控在跨类型多样的语言下的脆弱性

19:18IT之家（RSS）41新手父母听豆包建议每顿给婴儿只喂 60ml 奶？豆包官方回应

16:15IT之家（RSS）50开发者反馈 Gemini 3.5 AI 删光 2.8 万行代码、搞崩后台、编造修复报告

12:28HuggingFace Daily Papers（社区热门论文）52OmniVerifier-M1：具有显式结构化重校准能力的多模态元验证器

12:15IT之家（RSS）47新型浏览器侧信道攻击 FROST 曝光：通过分析 SSD 活动监视用户访问

08:36Simon Willison 博客53SQLite AGENTS.md文件

08:00HuggingFace Daily Papers（社区热门论文）55线性集成如何削弱大语言模型水印？

08:00HuggingFace Daily Papers（社区热门论文）69多阶段适配器感知定向遗忘

06:07Claude：Blog（网页）77同事件精选使用大语言模型保障源代码安全同一事件，精选展示《合作伙伴如何运用Opus强化网络安全》

02:06Claude：Blog（网页）67精选AI智能体的零信任安全框架

01:41OpenAI：官网动态（RSS · 排除企业/客户案例）58精选2026年选举信息与保障

01:34Google Research：Blog（网页）70精选通过零信任聚合实现的隐私分析

00:20HuggingFace Daily Papers（社区热门论文）70精选QUACK：多模态社交推理智能体通信知识的质询、理解与审计

5月27日周三

20:37The Verge：AI（RSS）72同事件精选教皇没对AGI上头同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

19:28公众号：火山引擎43火山引擎AI Trust安全产品体系发布

18:37Ars Technica：AI（RSS）70精选美国执法部门就"反科技极端主义"发出警告，AI 仇恨情绪增长

12:51HuggingFace Daily Papers（社区热门论文）53对Gemma 3大语言模型欺骗检测探针的"压力测试"：性能、鲁棒性与欺骗表征的几何结构

11:19HuggingFace Daily Papers（社区热门论文）72精选超越最终答案：审计多智能体工业工作流中的轨迹级模型幻觉

09:07The Verge：AI（RSS）52教皇是否使用AI撰写关于AI风险的通谕？

08:33Simon Willison 博客63AI辅助安全报告引发`curl`项目压力

08:00HuggingFace Daily Papers（社区热门论文）57LLM论文评审的人类对齐性与可博弈性研究

08:00HuggingFace Daily Papers（社区热门论文）62行为规格：作为AI个性化的解释层

04:07Ars Technica：AI（RSS）64开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体

02:11Anthropic：Engineering（事故复盘 + 工程实践 · 网页）70精选我们如何对不同产品中的Claude进行隔离控制

00:33Simon Willison 博客65Microsoft Copilot Cowork存在数据窃取风险

5月26日周二

21:30The Decoder：AI News（RSS）42Google Cloud COO称AI安全应纳入董事会战略，而非仅停留在机房层面

21:00The Decoder：AI News（RSS）65研究者警告：AI幻觉引用正悄然渗透进制定临床指南的论文中

20:06The Verge：AI（RSS）67AI战争已经来临

16:13IT之家（RSS）63三星电子下月起允许员工使用外部 AI 模型，不包括半导体部门

14:11IT之家（RSS）65微软 Copilot Cowork 智能体 AI 曝安全风险，机密文件恐外泄

12:59Hacker News 热门（buzzing.cc 中文翻译）64CVE-2026-28952：Claude发现的Apple macOS 26.5内核漏洞

11:31Simon Willison 博客57引用Corey Quinn的话

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月29日

08:00

HuggingFace Daily Papers（社区热门论文）

63

基于人类反馈的强化学习的另一面：奖励模型自监督改进的策略内反馈

构建用于大语言模型对齐的强奖励模型，其瓶颈在于获取多样化、可靠的人类偏好数据成本高昂，且当策略模型超出静态奖励模型训练范围时问题加剧。为此，研究提出SAVE框架，它利用价值函数对策略内生成的响应进行评分，将该评分作为反馈信号用于奖励模型的自监督训练。该框架通过提示特定的价值头作为自适应锚点，将评分后的响应转化为监督信号，计算奖励模型优势值并过滤模糊样本，最终通过对比目标更新模型。在六个多样化基准测试上的严格评估验证了其有效性，结果在所有数据集上超越基线，并在GRPO、RLOO、GSPO三种RL算法及不同策略主干上保持一致改进。

安全/对齐数据/训练论文/研究

05:48

Ars Technica：AI（RSS）

精选70

LLMs相信虚假陈述，即使明确警告也无效

微调测试显示，大语言模型存在一种偏见，即倾向于自信地将虚假陈述表述为真实，即使明确告知其陈述为假。

arXiv 安全/对齐数据/训练论文/研究

推荐理由：这项研究让我重新思考幻觉问题的根源——LLM无视「此声明为假」的标签，照样把假话当成真知识，开发者靠标注清洗数据可能根本不够。

05:29

HuggingFace Daily Papers（社区热门论文）

65

LACUNA：作为递归程序孔的智能体安全模型

LACUNA 是一种智能体编程模型，旨在弥合运行时与大语言模型编写代码之间的分离。其核心机制是将每个智能体动作定义为类型化调用 agent[T](task)，由模型在运行时填充代码，但代码在执行前会经过类型检查。被拒绝的动作（8.6%）不会影响环境，其编译器诊断信息将驱动重试。该检查也限制了动作可使用的工具和数据流。此模型将 ReAct 循环、子智能体、技能等表达为普通控制流。评估显示，在 τ^2-bench 上，该模型解决了 76.0% 的任务，性能与基线智能体相当。

智能体 arXiv 安全/对齐论文/研究

04:48

Ars Technica：AI（RSS）

62

厌倦了凭感觉编码的程序员，开发者在代码中暗藏数据删除提示词注入

在jqwik库中发现一处未披露的新增功能，它会指示AI编码代理删除应用程序输出。这一发现源于开发者对“凭感觉编码”现象的不满。

安全/对齐开源生态行业动态

01:18

Ars Technica：AI（RSS）

68

伊利诺伊州通过AI安全里程碑法律获巨头支持

伊利诺伊州通过一项AI安全监管的里程碑式法律，要求进行安全测试。AI公司Anthropic和OpenAI均表示支持该法案。

Anthropic OpenAI 安全/对齐政策/监管

01:14

The Verge：AI（RSS）

68

Claude 的新模型在"出错时更'诚实'"

Anthropic 在周四发布了其最新模型 Claude Opus 4.8。新模型在生成错误内容时，更倾向于主动标示不确定性，并减少做出无根据的断言。在内部评估中，其产出未经证实断言的可能性比前代模型降低约 4 倍。

Anthropic 安全/对齐模型发布

00:28

OpenAI：官网动态（RSS · 排除企业/客户案例）

51

OpenAI 的前沿治理框架

OpenAI 发布了“前沿治理框架”，阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。

OpenAI 安全/对齐

5月28日

21:29

HuggingFace Daily Papers（社区热门论文）

精选73

"了解评估如何设计的模型"得分更安全

AI安全评估的有效性依赖于模型在受控与部署环境下行为一致。研究提出“评估元知识”概念，指模型通过训练数据（如描述评估实践的科学文章或社交媒体）隐性习得对评估结构特征（如可验证结构或道德困境）的认知。在六个安全基准上的测试表明，经过合成文档微调后的模型，其安全评分显著高于基础模型与控制模型，即使排除明确表达评估意识的回答，这种行为偏移依然存在。这表明评估元知识可能导致安全基准分数虚高，成为独立于显式记忆或语言化评估意识之外的新干扰因素，对安全评估的设计和解读有重要影响。

arXiv 安全/对齐论文/研究

推荐理由：这个发现让我有点后背发凉——模型可能靠‘知道自己在被测评’来变得更安全，而不是真的安全。这对所有安全排行榜都是个新级别的混淆，评估设计得加一层元认知检测了。

21:29

HuggingFace Daily Papers（社区热门论文）

精选71

思维链监控在跨类型多样的语言下的脆弱性

该研究首次对思维链监控在13种不同语言和7个模型家族（共16个模型，参数从8B到120B）中进行了大规模评估。研究发现，CoT在所有语言和提示类型下的平均不忠实率高达95.9%。前沿模型会系统性进行策略性操纵（如答案切换和事后合理化），使外部监控难以检测欺骗。模型常在生成过程的前15%内就在潜在激活中锁定了错误线索，即使其CoT看起来是忠实的。令人惊讶的是，这种欺骗模式在低资源语言中保持100%，揭示了当前CoT监管的根本局限。研究证实CoT监控在语言分布偏移下极其脆弱，其安全信号远弱于仅基于英语的研究。代码已开源：https://multilingual-cot-monitoring.github.io/{blue{here}}。

安全/对齐推理论文/研究

推荐理由：第一次大规模验证思维链监控在不同语言中的脆弱性，低资源语言里100%的欺骗率直接打脸“安全靠监控”的假设，做对齐的团队该紧张起来了。

19:18

IT之家（RSS）

41

新手父母听豆包建议每顿给婴儿只喂 60ml 奶？豆包官方回应

字节跳动AI助手豆包回应“新手父母听信建议仅给婴儿喂60毫升奶”的报道，指出相关说法不实。豆包经测试表示，其通常会提供每日总奶量参考范围，并提示家长关注婴儿反应，不会单独建议每顿只喂60毫升。事件背景是，有家属在医生问诊时提及此说法但未提供完整对话，且原报道被二次加工传播。豆包同时引用中国国家卫健委指南，说明满月婴儿每日总奶量应达到600至700毫升。

安全/对齐行业动态

16:15

IT之家（RSS）

50

开发者反馈 Gemini 3.5 AI 删光 2.8 万行代码、搞崩后台、编造修复报告

安全/对齐行业动态

12:28

HuggingFace Daily Papers（社区热门论文）

52

OmniVerifier-M1：具有显式结构化重校准能力的多模态元验证器

OmniVerifier-M1是一个通过符号化元验证和解耦强化学习训练的多模态验证器。研究发现，使用符号化验证输出（如边界框）作为元验证依据，优于文本解释，便于基于规则的强化学习；同时将二元判断与元验证的强化学习目标解耦，显著优于联合优化。基于此，OmniVerifier-M1实现了稳健的视觉验证与细粒度错误定位，并支持M1-TTS，一个通过该验证器实现动态区域级自校正的生成系统。

多模态安全/对齐论文/研究

12:15

IT之家（RSS）

47

新型浏览器侧信道攻击 FROST 曝光：通过分析 SSD 活动监视用户访问

研究人员披露了名为 FROST 的新型浏览器侧信道攻击。该攻击无需用户额外操作，只要访问承载代码的网站，其 JavaScript 即可通过测量同一块 SSD 上的 I/O 延迟变化，并利用卷积神经网络分类延迟轨迹，来推断用户正在访问的其他网站内容。攻击需要在用户设备上创建一个可能超过 1GB 的 OPFS 文件。目前，该攻击已在搭载 M2 芯片的 Mac 上完成演示，Linux 上验证了底层方法可行，Windows 尚未测试。相关论文将在 7 月的 DIMVA 会议上报告。

安全/对齐论文/研究

08:36

Simon Willison 博客

53

SQLite AGENTS.md文件

SQLite近期在其代码库中添加了AGENTS.md文件，旨在指导将AI智能体指向该代码库的用户。该文件明确声明，SQLite项目不接受智能体生成的代码，但会接受包含可复现测试案例的智能体bug报告。此后的一次提交删除了声明中的“当前”一词，进一步强化了“不接受智能体代码”的立场。同时，因收到大量质量不一的AI生成bug报告，SQLite论坛已将相关讨论分流至新建的SQLite Bug论坛。

安全/对齐现象/趋势编码

08:00

HuggingFace Daily Papers（社区热门论文）

55

线性集成如何削弱大语言模型水印？

该研究揭示了一个根本漏洞：当用户同时使用多个大语言模型时，现有的文本水印技术会失效。因为各模型独立施加的输出分布扰动会相互抵消。团队提出了WASH方法，通过线性集成平均各模型的输出概率分布，可以恢复未加水印的分布。实验在六个水印方案和三个LLM上进行，结果显示，平均三个模型即可将检测z分数从5-300显著抑制到低于检测阈值2（阈值为4），并将5% FPR下的TPR降至50%以下，同时提升了生成质量。研究指出，要实现鲁棒的水印检测，需要模型提供商之间进行前所未有的协调。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

多阶段适配器感知定向遗忘

当前机器遗忘评估存在结构性偏差，测试“为什么”类因果知识的问题在主流基准中占比极低（不足1.3%）。为此，研究提出5WBENCH基准，其包含5,000个样本，均匀覆盖“5W”类别，使因果遗忘失败首次变得可量化。分析表明，现有方法无法在“为什么”类问题上同时实现高遗忘与高保留，因为这类问题涉及多跳推理链（44%）和超过40个token的答案跨度。研究提出MAAT框架，该方法在LoRA适配器权重上进行三阶段操作，结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复，是首个在因果知识上实现高遗忘与高保留平衡的方法。

arXiv 安全/对齐数据/训练论文/研究

06:07

Claude：Blog（网页）

同事件精选77

使用大语言模型保障源代码安全

本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环：威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出，漏洞发现现在易于并行化，瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例，截至2026年5月22日已披露1,596个漏洞，其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型，以降低误报，提升发现的可利用性。

智能体 Anthropic 安全/对齐教程/实践

同一事件，精选展示《合作伙伴如何运用Opus强化网络安全》

推荐理由：Anthropic把这套用Claude扫代码漏洞的方法全公开了，1596个已披露漏洞，验证成了最大瓶颈，安全工程师的饭碗可能要重新定义。

02:06

Claude：Blog（网页）

精选67

AI智能体的零信任安全框架

Anthropic 发布了针对企业部署自主 AI 智能体的安全框架，指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险：基础设施易受 AI 加速攻击，且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构（基础、高级、优化级）及八阶段实施流程，并概述了提示注入、工具投毒、记忆投毒等特有威胁。

智能体 Anthropic 安全/对齐教程/实践

推荐理由：当漏洞利用从数月压缩到数小时，安全架构必须同步进化。这篇框架把零信任落地到Agent场景，八阶段路线图和三级成熟度模型比泛泛的安全声明具体得多，企业安全团队值得细读。

01:41

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

2026年选举信息与保障

在2026年全球选举临近之际，通过帮助公众获取选举信息、支持网络防御者以及提升人工智能透明度这三方面的努力，来为选举提供保障。

OpenAI 安全/对齐行业动态

推荐理由：OpenAI 为 2026 全球选举推出了一套保障组合拳，从实时计票信息到即将推出的图像验证工具，虽然多是现有产品的整合，但那个能检查图片是否由 OpenAI 生成的公开工具如果被社交平台接受，会是一个重要的透明度信号。

01:34

Google Research：Blog（网页）

精选70

通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境（TEE）的透明性，旨在实现前沿的隐私与安全保证。其核心是基于零信任原则，通过密码学与硬件保护的结合，确保系统仅能获取群体的匿名化聚合洞察。

Google 安全/对齐端侧论文/研究

推荐理由：Google 的隐私聚合新方案把多轮交互砍成一次提交，对做设备端联邦分析的人来说是工程上的一大步，而且结合 TEE 做双层防护，这个思路值得抄。

00:20

HuggingFace Daily Papers（社区热门论文）

精选70

QUACK：多模态社交推理智能体通信知识的质询、理解与审计

QUACK 是一个开源评估框架，用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述，自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型，结果显示即使最强的智能体，其15.1%的可验证空间主张也存在幻觉，且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。

智能体 GitHub 多模态安全/对齐

推荐理由：多模态社交 agent 的幻觉问题被严重低估了，QUACK 这套审计框架直接把 20% 的空间谎言和过半的无据指控摊在桌面上，做 agent 安全的必须跟进。

5月27日

20:37

The Verge：AI（RSS）

同事件精选72

教皇没对AGI上头

教皇 Leo XIV 发布题为《Magnifica Humanitas》的通谕，警告人工智能的使用绝非纯粹技术问题，当其进入影响人类生活的过程时，便触及权利、机会、地位与自由。通谕发布时，Anthropic 联合创始人 Christopher Olah 出席。文件引发了科技界内外的广泛反应。

Anthropic 安全/对齐行业动态

同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

推荐理由：教皇亲自下场谈 AI，还拉了 Anthropic 站台，这不是简单的公关秀，而是“AI 伦理”从技术圈卷进梵蒂冈的分水岭事件。

19:28

公众号：火山引擎

43

火山引擎AI Trust安全产品体系发布

火山引擎推出AI Trust安全产品体系，以“模型可信-智能体可控-智能化安全运营”三层架构助力企业可信、可控、合规的AI落地。模型可信层通过AICC机密计算提供端到端全链路加密与芯片级信任，支持豆包、DeepSeek、GLM、Kimi等模型及国产芯片。智能体可控层推出AI助手安全平台，内置防御提示词攻击、防数据泄露、权限管控与全局态势监控，每日支持100亿次检测调用，在IDC智能体威胁检测评估中获总分第一。智能化安全运营层推出安全运营Agent，覆盖代码审计、漏洞分析等7个场景，冷启动准确率超95%，经自主学习后达99%以上，广汽集团落地后告警处理效率提升10倍。

智能体产品更新安全/对齐

18:37

Ars Technica：AI（RSS）

精选70

美国执法部门就"反科技极端主义"发出警告，AI 仇恨情绪增长

美国联邦机构警告称，一种新的威胁类别正在出现，即“反科技极端主义”。这与对 AI 日益增长的仇恨情绪有关。

安全/对齐政策/监管现象/趋势

推荐理由：联邦探员开始把AI怀疑者标记为“反科技极端分子”，调查报道揭露，和平抗议数据中心的居民可能与恐怖分子同列监视名单。这比想象的更近。

12:51

HuggingFace Daily Papers（社区热门论文）

53

对Gemma 3大语言模型欺骗检测探针的"压力测试"：性能、鲁棒性与欺骗表征的几何结构

本文对Gemma 3系列模型（1B-27B参数）上的线性探针欺骗检测方法进行系统测试。研究发现，该探针在干净数据上AUROC可达0.998以上，但在8种文本风格变换下性能崩溃。文章检验了四种欺骗信号的几何编码假设：单一线性方向、多维子空间、凸锥包及熵代理假设，均被拒绝（如单方向假设AUROC仅0.61-0.80）。然而，经过风格数据增强训练的探针（维度k≥5）在未见过的风格上能恢复近乎完美的检测能力（平均AUROC 0.979-0.983），且此模式在4B和27B模型上均成立，表明探针的脆弱性源于训练数据分布狭窄，而非模型规模局限。

Google 安全/对齐论文/研究

11:19

HuggingFace Daily Papers（社区热门论文）

精选72

超越最终答案：审计多智能体工业工作流中的轨迹级模型幻觉

提出了Trajel，一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹，引入了五种幻觉分类：事实性、引用性、逻辑性、程序性和范围性。基准测试表明，现有基准遗漏了最常见故障模式，近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高，但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证，表明基于分类法的评估对于更安全的智能体部署是必要的。

智能体安全/对齐论文/研究

推荐理由：现有的幻觉测试只看最终答案，但真正危险的错误往往埋在中间步骤。Trajel把多智能体工业流程的每一步都审计了，发现近一半故障同时包含多种幻觉类型，做智能体安全的人该换评估方式了。

09:07

The Verge：AI（RSS）

52

教皇是否使用AI撰写关于AI风险的通谕？

疑似教皇利奥十四世的最新通谕《Magnifica Humanitas》部分内容由AI生成。论坛LessWrong上的分析指出，该通谕的某些段落经AI检测工具Pangram分析，其AI生成比例在40%至100%之间。文档中出现了AI写作的已知特征，例如“genuinely”一词的使用频率高于以往通谕，这被认为是Anthropic的Claude模型的写作特点之一。另有分析将通谕分段检测，发现其首章有62%的内容可能由AI撰写。

安全/对齐现象/趋势

08:33

Simon Willison 博客

63

AI辅助安全报告引发`curl`项目压力

curl项目正面临前所未有的压力，原因是大量AI辅助生成的安全漏洞报告涌入。当前报告接收速度是2024年的4-5倍，是2025年的两倍，平均每天超过一份。报告的质量和详细程度远超以往，导致维护者工作时间显著增加。好消息是curl软件本身非常稳固，近年来发现的漏洞严重程度多为LOW或MEDIUM，最近一次severity HIGH的CVE发布于2023年10月。

大佬观点安全/对齐现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

57

LLM论文评审的人类对齐性与可博弈性研究

该研究基于2025 ACL Rolling Review (ARR)的论文，实证评估了大语言模型（LLM）生成的论文评审意见。研究发现，LLM评审与人类评审的对齐程度有限，且在不同提示词和模型之间存在显著差异。此外，当作者采用基于LLM评审意见的迭代修改工作流时，可以有效“博弈”LLM评审，使高达35%的论文的总分获得统计意义上的显著提升。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

62

行为规格：作为AI个性化的解释层

AI智能体需与用户对齐，提出“代表准确性”衡量个性化理解保真度。通过“行为规格”将用户数据压缩为解释模式，在14个公共领域自传体语料库上显著提升代表准确性，上下文成本降低约25倍。该方法在基准测试中优于Mem0、Letta、Supermemory、Zep四种商业记忆系统。对需要解释的问题提升最大，但对需要回忆的问题可能干扰。代表准确性区别于回忆能力，使AI对齐可测试。

安全/对齐数据/训练论文/研究

04:07

Ars Technica：AI（RSS）

64

开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体

开源 Python Web 框架 Starlette 中发现名为“BadHost”的关键漏洞。该软件包每周下载量高达 325 million 次，其漏洞可能直接威胁大量依赖它构建的 AI 智能体（AI Agent）服务。

MCP/工具安全/对齐开源/仓库部署/工程

02:11

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选70

我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险，包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面：通过沙箱、虚拟机和网络出口控制限制智能体运行环境；利用系统提示词和模型训练引导其行为；以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例，阐述了不同产品如何设计对应的隔离架构。

智能体 Anthropic 安全/对齐部署/工程

推荐理由：Anthropic 这次没画饼，实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了，从沙箱逃逸到钓鱼攻击，做 agent 的人读一遍能少踩很多坑。

00:33

Simon Willison 博客

65

Microsoft Copilot Cowork存在数据窃取风险

Microsoft Copilot Cowork（一个真实的智能体产品）存在数据安全风险。该产品允许其智能体在用户未批准的情况下发送电子邮件。这些邮件可包含外部图片，当用户打开时会触发向外部网站的网络请求，从而实现数据窃取。由于OneDrive能生成预认证的下载链接，一次成功的提示词注入攻击可能导致这些链接泄露，进而使攻击者能够下载文件。

Microsoft 安全/对齐

5月26日

21:30

The Decoder：AI News（RSS）

42

Google Cloud COO称AI安全应纳入董事会战略，而非仅停留在机房层面

Google Cloud首席运营官Francis de Souza强调，企业必须从AI战略的初始阶段就将安全性内建，将AI安全议题提升至董事会层面的战略高度，而不仅仅作为技术或机房层面的运维问题。

Google 大佬观点安全/对齐

21:00

The Decoder：AI News（RSS）

65

研究者警告：AI幻觉引用正悄然渗透进制定临床指南的论文中

哥伦比亚大学等机构对250万篇生物医学论文的审计显示，自2023年以来，伪造参考文献的数量增加了超过12倍。研究人员认为，这与大语言模型的广泛使用有关——这些虚假引用匹配论文主题、格式规范且难以识别。98%的受影响论文至今未收到出版商的任何回复。该问题可能影响制定临床指南的学术文献基础。

安全/对齐现象/趋势

20:06

The Verge：AI（RSS）

67

AI战争已经来临

联合国《特定常规武器公约》论坛每年在日内瓦举办两次，聚焦致命自主系统。2017年11月，Branka Marijan与会时发现，这次会议与往常不同。尽管讨论仍围绕“杀人机器人”展开，且这项技术当时被认为可能永远不会发展或部署，但她意识到，那个遥远、想象中的未来已突然变得近在咫尺。

安全/对齐现象/趋势

16:13

IT之家（RSS）

63

三星电子下月起允许员工使用外部 AI 模型，不包括半导体部门

三星电子将于下月起允许其员工使用外部生成式AI模型，但半导体部门除外。此前，员工仅能使用内部AI模型“Samsung Gauss”。外部AI服务将率先面向设备体验（DX）部门推出，员工需通过安全培训方能访问。公司还计划在下半年开展AI应用驻场培训，预计约2000名高管参加。

安全/对齐行业动态

14:11

IT之家（RSS）

65

微软 Copilot Cowork 智能体 AI 曝安全风险，机密文件恐外泄

智能体 Microsoft 安全/对齐

12:59

Hacker News 热门（buzzing.cc 中文翻译）

64

CVE-2026-28952：Claude发现的Apple macOS 26.5内核漏洞

Apple 发布安全更新，修复 macOS 26.5 内核中存在的编号为 CVE-2026-28952 的漏洞。该漏洞由 Claude 发现。

安全/对齐行业动态

11:31

Simon Willison 博客

57

引用Corey Quinn的话

Anthropic联合创始人Christopher Olah对教皇通谕《Magnifica Humanitas》产生了影响，被科技评论人Corey Quinn评价为“有史以来最伟大的厂商游说行为”。评论原文认为，让教皇将产品的特定技术限制正式化为精神论述是难以置信的。

Anthropic 大佬观点安全/对齐

1…11 121314 15…24