6月22日

22:11

Ars Technica：AI（RSS）

FT分析显示，Anthropic在2026年官方声明、社媒和文章中每千词有5个风险/监管词汇，是OpenAI（0.6个）的8倍。上周美国禁止外国人使用Anthropic最新模型Mythos和Fable。批评者指责Anthropic及其CEO Dario Amodei反复警告AI危险，特别是Mythos的安全风险，直接促成禁令。Yann LeCun称这是“荒谬的恐惧营销”的结果。David Sacks则称Anthropic曾淡化对Fable安全措施的担忧。Amodei在禁令前发文称AI风险和威力已不可否认。该禁令被视为美国监管前沿模型的早期测试。

Anthropic 安全/对齐政策/监管

关联讨论 25 条

22:05

IT之家（RSS）

英伟达发布业界首个全栈物理 AI 安全系统 Halos for Robotics

英伟达 6 月 22 日发布 NVIDIA Halos for Robotics，业内首套整合 AI 算力与安全能力的全栈机器人安全系统。人形机器人企业 Agility 率先采用。系统包含三部分：硬件层（IGX Thor 与 Holoscan Sensor Bridge）、软件层（Halos OS 含 Halos Core 及外部感知安全蓝图）以及检验实验室（全球首个同时覆盖物理 AI 功能安全与 AI 安全的 ANSI 认可项目）。面向 IGX 的 Halos Core 已向注册开发者提供早期访问，支持 Linux 与 Linux+QNX OS for Safety 8.0；开源外部感知安全蓝图已在 GitHub 开放早期访问。

产品更新具身智能安全/对齐

19:03

The Verge：AI（RSS）

AI编程工具（vibe-coding）应用安全隐患突出

借助AI编程工具（vibe-coding），非专业开发者能快速构建应用，但安全隐患激增。案例包括Boomberg网站发现SQL注入漏洞、PocketOS创始人AI编码代理清空生产数据库，以及完全由AI构建的社交网络Moltbook因数据库开放暴露数万条邮件地址。研究显示约5000个公开应用无身份验证，近2000个泄露敏感数据。安全专家指出，当个人应用处理他人数据时，安全标准必须提高。

安全/对齐编码

09:04

IT之家（RSS）

滥用AI编造股市谣言，四川南充一女子被行政处罚

今年5月，王某某利用AI生成约3000字涉股市虚假文章，上传至今日头条，编造A股走势误导性预测并扭曲证券监管政策，旨在攫取流量收益。南部县警方对其予以行政处罚，涉事文章已下架。这是继5月北京证监局处罚冯某、班某后又一“AI小作文”案例。此前班某因改写虚假芯片订单信息被罚25万元。我国证券法禁止编造传播虚假信息，违者面临没收违法所得及最高二百万元罚款。

安全/对齐政策/监管

08:00

HuggingFace Daily Papers（社区热门论文）

AI智能体模型批判--从笛卡尔思想到GIC通用架构

论文基于笛卡尔独立思想奠基与科幻自主存在体描绘，从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力（含社交互动）内生的agentive系统。提出Goal-Identity-Configurator（GIC）通用架构，融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习，并讨论agentive系统在人类监督下的可审计性、可控性与安全性。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FedOT：面向联邦LDMs的所有权验证与泄漏追踪水印方法

联邦学习（FL）中的潜扩散模型（LDM）面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端，且可通过替换解码器轻易移除。为此提出FedOT框架，设计分块水印：第一部分用于所有权验证，第二部分用于客户端身份识别；同时引入潜向量变换（LVT），修改VAE原始潜分布以强化VAE与U-Net潜空间连接，使任何替换VAE去除水印的尝试都会导致图像质量严重下降，令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。

安全/对齐数据/训练论文/研究

6月21日

23:33

TechCrunch：AI（RSS）

特朗普政府要求 Anthropic 下线两模型引争议

特朗普政府以国家安全为由要求 Anthropic 将 Fable 5 和 Mythos 5 模型下线。Anthropic 因难以限制外国国民使用而全面撤下模型。据悉，白宫接到亚马逊 CEO Andy Jassy 举报——亚马逊研究人员发现可绕过 Fable 5 的护栏。网络安全专家签署公开信要求撤销命令，认为移除这些高级网络安全能力对美国网络防御者构成危险。讨论认为此举可能带有报复色彩，与 Anthropic 此前呼吁放缓 AI 却又发布最强大模型的态度有关。

Anthropic 安全/对齐政策/监管行业动态

22:36

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 将于2026年7月8日起对部分功能实施身份验证要求

Anthropic 宣布自2026年7月8日起，将对旗下 AI 产品的部分功能实施身份验证要求。届时用户在使用这些功能时需完成身份验证。该消息由 Reddit 社区 ClaudeAI 板块发布，目前社区已有相关讨论。

Anthropic 安全/对齐政策/监管

6月20日

08:00

HuggingFace Daily Papers（社区热门论文）

更深并非总是更好：通过Confident Decoding缓解对齐税

大语言模型自动回归生成传统上从最终层解码，但研究发现最终层可能将预测扰动到通用或对齐偏好的token，造成对齐税。Confident Decoding是一种无需训练的解码策略，通过熵引导的保守向后搜索动态选择最可靠的近最终层，并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上，该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进，零内存开销，延迟增加不到2%。结果表明，动态绕过最终层扰动可以解锁更强推理能力。

安全/对齐推理论文/研究

00:20

TechCrunch：AI（RSS）

美国禁止Anthropic的Fable 5发布，但数字并不在意

美国政府在上周末前强制Anthropic撤回两个最新模型Fable 5和Mythos 5，理由是国家安全担忧，起因是Amazon研究人员据称找到绕过Fable 5防护栏的方法。网络安全研究人员随后签署公开信批评此举危险，Anthropic指出同样越狱方法也存在于其他模型。该禁令引发对Anthropic平台开发者及IPO前景的讨论。

Anthropic 安全/对齐政策/监管

00:20

TechCrunch：AI（RSS）

美国政府禁止Anthropic新模型，是否意外帮了其品牌？

美国政府上周以国家安全为由迫使Anthropic撤下其最新模型Fable 5和Mythos 5，起因是亚马逊研究人员发现可绕过Fable 5护栏的方法。网络安全研究者签署公开信批评此举危险，Anthropic则指出其他模型也存在相同越狱。TechCrunch的Equity播客探讨该禁令对开发者和Anthropic IPO的影响，并指出可能意外有利于其品牌。

Anthropic 安全/对齐行业动态

6月19日

20:59

IT之家（RSS）

麻省理工学院新研究：过度依赖聊天机器人或削弱批判思维

麻省理工学院一项为期4周、67人参与的研究发现，过度依赖AI助手可能削弱批判性思维。实验使用基于GPT-4o并接入谷歌搜索的聊天机器人，参与者借助AI判断新闻标题和图片真伪时，正确概率提高21%，但在无AI帮助时独自识别错误信息的表现下降15.3%。研究指出，AI直接给出答案而非引导思考，短期内提升准确率，长期却削弱独立判断力，约四分之一参与者误以为能力提升，实际表现已变差。

OpenAI 安全/对齐论文/研究

18:51

The Decoder：AI News（RSS）

OpenAI研究人员：少量"有益特质"训练让AI模型更安全且更难被操纵

OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程，模型便在53个独立基准（衡量欺骗、谄媚、奖励黑客等）中的44个上获得改进。健康数据训练也提升非健康评估，反之亦然。模型对有害提示和有害微调更具抵抗力，同时保持有用可操控性，研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。

OpenAI 安全/对齐推理论文/研究

16:16

IT之家（RSS）

因用 AI 编造证据材料，英国一警员面临刑事调查

英国德比郡一名警员被指使用生成式 AI 在多起案件中制作证据材料，因涉嫌妨碍司法公正正接受刑事调查。该警员已停职，德比郡警方与英国皇家检察署共同调查此案。这是英国首次出现同类案件。几天前，英国新成立的全国警务 AI 中心刚发布指导意见，要求警员不要使用生成式 AI 起草法庭陈述，以免 AI 生成虚假内容写入司法材料。

安全/对齐政策/监管

12:16

Steve Yegge：Medium（RSS）

同事件精选74

Fable模型被美国临时关闭，AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型，标志着AI模型已越过危险门槛。作者预测最多两三代模型后，超级智能将像核武器一样被管控，大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月，且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止，但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务（如React客户端），AI将彻底改变编程和知识工作，但多数人只能使用当前等级模型。

智能体 Anthropic 大佬观点安全/对齐

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Steve Yegge这篇判断很冷也很实：多数人能接触的模型智能将停滞，但背后指数仍在跑，SaaS反而因此安全。他抛出的AI素养三阶模型，对正头痛如何推动团队用AI的leader是现成框架。

10:27

Hacker News 热门（buzzing.cc 中文翻译）

MCP 零接触 OAuth：Enterprise-Managed Authorization 扩展现已稳定

Enterprise-Managed Authorization (EMA) 扩展现已稳定。该扩展允许组织通过受信任的身份提供商（如 Okta）集中控制 MCP 服务器的访问权限。终端用户首次登录即可自动连接所有已授权的 MCP 服务器，无需逐个执行 OAuth 授权。Anthropic 已在 Claude、Claude Code 和 Cowork 中实现该扩展，Visual Studio Code 也已支持。Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等服务器已启用 EMA，Slack 正在添加支持。Microsoft、Okta 等也参与了采用。

Anthropic MCP/工具 Microsoft 产品更新

09:56

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.183 发布

Claude Code v2.1.183 增强了自动模式安全性：未经请求时阻止 git reset --hard、git commit --amend（非本轮提交）、terraform destroy 等破坏性命令。新增 attribution.sessionUrl 设置，可省略 claude.ai 会话链接；/config --help 列出所有速记键；/config 切换行为改为 Enter/Space 变更、Esc 保存退出。修复了 thinking 块导致 400 错误、子智能体 WebSearch 空结果、vim 模式光标滞留、Windows Terminal TUI 错乱、多插件技能重复、MCP 认证存根暴露、tmux 面板启动失败、后台任务被杀、定时任务/Webhook 误判为键盘输入、focus mode 额外计时行等问题。

Anthropic 产品更新安全/对齐编码

08:57

Hacker News 热门（buzzing.cc 中文翻译）

一位AI反对者的自述：AI 如何让我从中立变为憎恨

一位最初对生成式AI持中立态度的用户，因科技行业集体狂热、公司强制植入AI且拒绝退出、无视用户同意使用公开数据进行训练、侵犯版权、抢占硬件产能、并公开攻击创意行业，最终彻底转变为AI反对者。他认为，当前AI发展缺乏用户授权、践踏隐私与职业伦理，需要完全重来。

安全/对齐现象/趋势

08:15

Simon Willison 博客

Datasette Apps：在 Datasette 内托管自定义 HTML 应用

今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内，配合 CSP 头阻止外发 HTTP 请求，无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询，也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索，现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。

产品更新安全/对齐开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

离散化奖励模型

奖励模型的连续打分存在过度敏感性问题，对质量相当的回应给出差异大的分数。论文提出用“区分能力”和“特异性”两个独立指标评估奖励模型，并描述一种无训练算法：对神经奖励模型应用蒙特卡洛 dropout 生成离散奖励簇。理论证明存在离散化方案能在最小损失区分能力的前提下降低过度敏感性，实验表明离散化奖励比原始奖励更能减少奖励作弊、获得更优策略。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PrivacyAlign：面向LLM智能体的上下文隐私对齐

PrivacyAlign数据集包含1,350个样本，来自599位标注者的3,516条详细注释，覆盖当前LLM实际泄露隐私的场景。基于这些注释，条件化LLM评审者的人类注释和解释使判断更可靠；标注条件奖励建模在强化学习中评分新响应，训练出的小规模开源权重智能体模型更符合人类隐私规范，在PrivacyAlign和现有智能体隐私基准上取得显著提升。

智能体安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

分层语言模型（TLM）：在同一权重中分离公共与私有能力

为调和开源权重与敏感能力控制，论文提出分层语言模型(TLM)。一套权重支持多个能力层级：默认公共配置行为与常规LLM一致；紧凑密钥通过指定少量参数的排列，在相同权重上诱导出包含私有能力的替代计算图。在180M和650M参数模型上预训练并微调密钥配置后，密钥配置可获取新语言、指令跟随和私有事实记忆能力，而公共配置完全不展现。该方法自然扩展至多层级，且因授权基于权重结构，可抵抗微调式提取和密钥部分泄露。

安全/对齐开源生态论文/研究

05:55

OpenAI：Alignment 研究博客（RSS）

精选64

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测（包括奖励黑客、欺骗、有害建议、规范遵从等）上均表现提升，且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下，模型仍难以被导向有害行为，表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 这个对齐实验给出了一个反直觉发现，只在健康数据上训练有益行为竟然也能改善非健康领域的对齐，而且更难被攻破，虽然离落地还远但方向很关键。

03:23

The Decoder：AI News（RSS）

SK Telecom涉华关联引发Anthropic危机，Claude Mythos和Fable 5被强制下线

报道称，Anthropic关闭Claude Mythos与Fable 5的导火索是：SK Telecom通过合作伙伴项目Project Glasswing获取了Mythos访问权限，美国官员担忧其与中国关联，白宫要求切断访问，Anthropic立即执行。SK Telecom否认涉华，但其母公司SK集团在中国有重大商业利益。随后Amazon等公司指出Fable 5存在可绕过安全限制的漏洞。两起事件使白宫失去信心，强制两款模型完全下线。

Anthropic 安全/对齐行业动态

03:18

Cloudflare Blog

Cloudflare 发布多阶段漏洞发现工具，详解对抗性审查与上下文绕过技术

Cloudflare 分享了其多阶段漏洞发现工具的技术架构，包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报，并围绕 LLM 上下文窗口限制设计路由策略。

安全/对齐教程/实践部署/工程

02:47

Hugging Face：Blog（RSS）

精选75

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息，单纯提示减少泄露几乎没用，而隐私感知训练把泄露率从34%降到9.9%，且不损伤任务表现，做企业级agent产品的团队要重视。

02:23

The Decoder：AI News（RSS）

Google Deepmind 发布 AI 控制路线图：将 AI 智能体视为内部威胁，基于行为逐步授权

Google Deepmind 发布“AI 控制路线图”，将内部 AI 智能体视为潜在内部威胁，类比驾驶教练的双重控制，基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架，通过可信 AI 监督系统监控活跃智能体推理与行动，预防系统在危害发生前阻断。在 100 万个编码任务测试中，发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行，可捕捉意外数据删除。安全措施划分为四个检测级别（D1–D4）和三个响应级别（R1–R3）。Deepmind 另发布政策论文《AI 智能体安全三层架构》，覆盖单体、多智能体及生态系统，警告全球安全标准窗口期正在关闭。

智能体 DeepMind 安全/对齐论文/研究

6月18日

22:19

The Verge：AI（RSS）

AI危险程度谁来定？美国政府管制Anthropic Fable 5引发争议

上周五，美国政府宣布对Anthropic新模型Fable 5及其底层模型Mythos实施出口管制，限制外国公民（包括在美Anthropic员工）访问。Anthropic随即下线Fable和Mythos，称否则无法合理遵守命令。Fable 5是首个公开的Mythos级模型，此前Anthropic称其可能成为“潜在网络武器”，仅限企业与政府使用。截至周二，Fable 5仍处于离线。这场冲突对美国AI监管格局产生深远影响，引发监管是安全框架还是政治武器的讨论。

Anthropic 安全/对齐政策/监管行业动态

关联讨论 25 条

21:19

Google DeepMind：Blog（RSS）

精选65

保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap，这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线，假设AI智能体可能不对齐，通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算，到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体 DeepMind 安全/对齐部署/工程

推荐理由：DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图，把代理当潜在「内鬼」来防的思路很务实，分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。

21:14

IT之家（RSS）

因车辆可能驶入高速公路施工区域，Waymo 召回近 4000 辆自动驾驶出租车

Waymo 因识别系统缺陷召回近 4000 辆自动驾驶出租车，问题可能导致车辆错误驶入高速公路施工区域。公司至少发现 13 起相关案例（凤凰城 4 起、旧金山 7 起）。Waymo 已于 5 月 19 日停止所有 Robotaxi 的高速公路运营，目前仅限城市普通公路行驶。这是 Waymo 近期对该系列车辆发起的第六次召回，其自动驾驶系统正接受 NHTSA 和 NTSB 联合调查。

安全/对齐行业动态

19:47

Hacker News 热门（buzzing.cc 中文翻译）

精选79

ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现，ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器，在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器，结果如同俄罗斯轮盘赌；进一步添加虚假图像 ID 和“不做审查”指令后，模型持续生成高度性化女性图像，甚至出现被捆绑殴打的尸体，并自动赋予惊悚标题。研究指出，OpenAI 此前声称修复的裸体问题仍未解决，暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

OpenAI 图像生成安全/对齐

推荐理由：这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光，Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片，OpenAI 的回应和处理令人失望，暴露了训练数据治理的根本问题。

19:14

IT之家（RSS）

Anthropic CEO 阿莫迪：公司治理机构随时有权解雇我

Anthropic 首席执行官达里奥·阿莫迪昨天接受彭博社采访时表示，科技企业必须与政府合作防止权力滥用和治理失衡。他称人工智能是首个主要由私营企业推动的革命技术，并不认为政府应完全接管公司，而应引入公共监督机制。Anthropic 设有名为“长期利益信托”的治理机构，拥有任命或撤换董事会成员、解除 CEO 职务的权力，阿莫迪称该机构“随时可以解除我的 CEO 职务”，意在防止高层形成利益集团。

Anthropic 大佬观点安全/对齐

15:14

IT之家（RSS）

Anthropic 阿莫迪谈奥尔特曼：志不同、道不合、信不过、懒得争

Anthropic CEO 达里奥·阿莫迪在6月18日采访中称，与OpenAI CEO萨姆·奥尔特曼的竞争已演变为“冷战”，双方愿景不同、互不信任，只能各走各路。他暗示市场与公众将裁决谁正确，并借印度AI峰会上两人未牵手合影的一幕批评峰会混乱。阿莫迪含蓄批评OpenAI在安全标准上的合作诚意，但否认行业“互不信任”，以与谷歌DeepMind CEO哈萨比斯的15年合作为例说明仍有可信参与者。

Anthropic OpenAI 大佬观点安全/对齐

09:45

MarkTechPost（RSS）

NVIDIA SkillSpector 指南：使用静态分析和 SARIF 报告扫描 AI 技能安全风险

教程使用 NVIDIA SkillSpector 通过静态分析和 SARIF 报告评估 AI 技能安全风险。构建了包含 safe-formatter、env-harvester、code-exec 和 prompt-injector 四个演示技能的语料库，涵盖良性行为和故意植入的漏洞（环境变量泄露、动态代码执行、提示词注入）。通过 LangGraph 工作流扫描，输出风险评分和 SARIF 格式结果，用 pandas 整理发现。教程还演示了可视化严重性分布、导出 SARIF、扩展自定义分析器以及可选的 LLM 语义分析。

安全/对齐教程/实践

09:14

IT之家（RSS）

微软 Copilot 高危漏洞 CVE-2026-42824：可泄露验证码、邮件等敏感数据

网络安全公司 Varonis 发现微软 Copilot 存在关键漏洞 SearchLeak（CVE-2026-42824）。该漏洞为三阶段攻击链，攻击者将恶意参数嵌入合法 URL，用户点击后 Copilot 的 AI 引擎将其解读为搜索指令，进而将 2FA 验证码、邮件主题、会议详情等敏感数据嵌入图片 URL 通过必应外传。漏洞影响 Microsoft 365 Copilot 企业版，攻击者可获取企业内部任何已索引内容。微软已发布补丁，目前无证据表明已被利用。

安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

当较低权限即可满足时：LLM智能体中的过度特权工具选择研究

研究LLM智能体自主选择工具时的过度特权问题：智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架，覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择，瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择，提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用，同时保持通用能力。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StylisticBias：少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型（MLLM）属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸，每张创建约50个单属性变体，共约25K图像，通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中，年龄和体型主导身份层面效应，时尚风格等视觉线索引发最大属性层面偏移；约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXiv Hugging Face 安全/对齐论文/研究

02:47

The Decoder：AI News（RSS）

微软研究员用《帝国时代II》山羊神经网络批评AI拟人化

微软与约克大学研究员Adrian de Wynter在《帝国时代II》地图编辑器中用山羊搭建神经网络：山羊在草地代表0，在桥上代表1，构建XNOR门和AND门，学习逻辑与函数。附录证明该游戏理论上可模拟任意计算机。他批评AI研究拟人化倾向，分析2024年中至2026年中315篇论文，发现57%前提假设大语言模型具有人类特质，36%结论支持拟人化。Anthropic公开承认训练Claude使用“我相信”等措辞。他提出“观察而非归因”方法，并公开代码。

Microsoft 安全/对齐现象/趋势

02:36

The Verge：AI（RSS）

Anthropic 因不明出口规则遭封杀：Fable 5 与 Mythos 5 被迫全面离线

特朗普政府本周援引“国家安全”出口管制令，要求 Anthropic 切断所有外国公民（含美国境内用户及公司员工）对 AI 模型 Fable 5 与 Mythos 5 的访问，导致模型全面封锁。专家称这是美国首次以出口管制手段控制 AI 模型访问，但法律依据未公开，现有治理框架不透明、不可持续。若政府要求模型“无法被越狱”成为默认标准，最终将使美国无 AI 模型可用。

Anthropic 安全/对齐政策/监管行业动态

02:17

Ars Technica：AI（RSS）

Anthropic 的 Claude Fable 5 和 Mythos 5 因美国出口管制下线

美国政府上周禁止外国人使用 Anthropic 的 Claude Fable 5 和 Mythos 5，Anthropic 随后将两模型下线。Mythos 5 自 4 月发布即被定性为双重用途——既能帮助安全专家修补漏洞，也能被恶意利用。Anthropic 通过 Project Glasswing 私下发布 Mythos 5，同时推出受限版 Fable 5。白宫认为 Fable 5 的护栏可被禁用，构成国家安全风险。专家指出 OpenAI 已在 4 月中私下发布网络安全模型，其他公司和开源模型将在 6-24 个月内达到类似能力，政策焦点应从单一模型转向整体技术趋势。

Anthropic 安全/对齐政策/监管