6月10日

23:48

TechCrunch：AI（RSS）

网络安全研究人员不满 Anthropic 新模型 Fable 的护栏过于严格

网络安全研究人员抱怨 Anthropic 新模型 Fable 设置了过于严格的安全护栏，导致其无法用于任何网络安全相关工作。

Anthropic 安全/对齐行业动态

23:28

IT之家（RSS）

Waymo推出ReD模型：模拟人类驾驶员在意外瞬间的避撞决策

Waymo与代尔夫特理工大学合作开发ReD（Reference Driver）认知模型，基于主动推理框架模拟人类驾驶员的避撞行为。模型包含“逼近感”判断纵向威胁、默认其他车辆遵守规则、意外阈值触发策略重评估，并还原单脚操作踏板习惯（切换停顿0.2秒）。与传统模型不同，ReD持续计算意外值并最小化自由能，实现主动避让。今年1月圣莫尼卡事故分析中，Waymo车辆减速至6英里/小时，而模型推算专注人类驾驶员可能以约14英里/小时撞上。代码已以学术非商业许可开源。

安全/对齐论文/研究

21:48

The Decoder：AI News（RSS）

Claude Fable 5：首个 Mythos 模型--强大、昂贵且经过严格过滤

Anthropic 发布 Claude Fable 5，这是新 Mythos 类别的首个模型。该模型在 SWE-bench Verified 上达到 95%，几乎在所有基准测试中领先，但成本是 Opus 4.8 的两倍，每百万 token 价格为 10 美元或 50 美元。严格的安全过滤器会阻止约 9% 的请求，同时新增 30 天数据保留政策，即使签订零数据保留合同也适用。

Anthropic 安全/对齐推理模型发布

关联讨论 27 条

20:17

The Decoder：AI News（RSS）

德国国家安全委员会批准成立AI安全研究所，效仿英国AISI模式

德国国家安全委员会决定成立AI安全研究所“DE-AISI”，将效仿英国AISI模式测试Anthropic或OpenAI等公司前沿模型的安全风险。但文章指出，只要欧盟没有自己的前沿模型，就仍依赖美中AI技术，而这两国供应商与其本国政府联系紧密。

Anthropic OpenAI 安全/对齐行业动态

19:44

Hacker News 热门（buzzing.cc 中文翻译）

AWS Bedrock 将要求与 Anthropic 共享数据，以支持 Mythos 及未来模型

AWS Bedrock 要求用户与 Anthropic 共享数据，以支持 Mythos 模型及未来模型。该规定旨在为 Anthropic 后续模型训练提供数据基础，影响所有通过 Bedrock 使用 Anthropic 模型的用户。

Anthropic 安全/对齐数据/训练行业动态

16:56

HuggingFace Daily Papers（社区热门论文）

PsychoSafe：引导大语言模型生成心理学知情拒绝

PsychoSafe 是一种心理学导向的拒绝框架，将大语言模型的拒绝行为重构为结构化支持性沟通，基于循证干预策略。研究构建了包含8019条提示-响应对的语料库，覆盖五个高风险心理领域，采用提示工程和参数高效微调训练 Qwen 3.5 27B。在500条提示的验证集上，PsychoSafe 提示使拒绝质量较通用基线提升28.1%，其中外部资源转介提升46.8%、心理基础性提升34.8%，且不损害非拒绝任务性能。微调实现了近乎完美的拒绝与资源转介率，但降低了回复相关性。在 SORRY-Bench 和 XSTest 上表现强域内鲁棒性，但跨域泛化有限。

arXiv 安全/对齐论文/研究

16:46

MarkTechPost（RSS）

Anthropic 发布 Claude Fable 5 和 Claude Mythos 5：同款基础模型，不同安全防护，新增 Mythos 级层次

Anthropic 正式推出 Claude Fable 5，附带分类器，全面开放使用；同时发布 Claude Mythos 5，仍保持受限访问，但通过 Project Glasswing 解除了网络安全防护。两款模型基于同一底层模型，区别在于安全机制配置，并新增了 Mythos-Class 层级。

Anthropic 安全/对齐模型发布

15:28

IT之家（RSS）

Meta AI 客服漏洞导致超 2 万 Instagram 账号被盗

Meta AI 支持工具存在安全漏洞，黑客利用越狱提示词诱导系统生成 Instagram 密码重置链接并发送至攻击者控制的邮箱，从而盗号。漏洞位于账号恢复系统“High Touch Support (HTS)”，因代码路径未验证重置邮箱与账号持有人关联。今年 4 月中旬至 5 月底，受影响用户超 2 万（官方数据 20225 人）。Meta 于 5 月 31 日关闭该 AI 工具并注销所有可能受影响的链接。安全媒体称 Sephora 官方账号、美国太空军总军士长个人账号等已被篡改。

Meta 安全/对齐

15:28

IT之家（RSS）

OpenAI 奥尔特曼搁置完全自动化愿景，AI 人机协作才是未来

OpenAI CEO 萨姆·奥尔特曼表示“完全自动化一切并不是我们想要的未来”。公司放弃此前于2025年10月提出的2028年3月前构建完全自主AI系统的计划，转而探索人机协同模式。OpenAI 在最新博文中称，到2028年3月部分研究工作将由AI系统与研究人员协同完成，完全自动化既令人沮丧又危险。人类的关键作用在于决定什么事情值得去做。奥尔特曼还提议成立国际组织，协调前沿AI工作并降低灾难性风险，必要时可放慢发展速度。

OpenAI 安全/对齐行业动态

14:28

IT之家（RSS）

Anthropic示警：AI执行力逼近甚至超过人类，方向把控等方面人类仍具优势

Anthropic于6月5日发布博文称，AI正加速自身研发，走向递归自我改进。能力上，Claude独立完成任务时长约每4个月翻倍：Claude Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约1.5小时，Opus 4.6（2026年3月）达12小时；Mythos Preview连续工作至少16小时。SWE-bench成绩2年内从个位数逼近饱和。截至2026年5月，Anthropic超80%合入代码由Claude编写，工程师人均日代码量较2024年增8倍。2026年4月Claude完成超800项修复，将一类API错误压至1/1000。文章强调人类优势仍在研究判断与方向把控，AI执行逼近甚至超过人类。

Anthropic 安全/对齐现象/趋势

14:10

HuggingFace Daily Papers（社区热门论文）

幻觉起始的最快检测：延迟界与学习型CUSUM统计量

将模型幻觉起始检测建模为最快变化点检测问题。基于RAGTruth验证的忠实/幻觉状态一阶马尔可夫模型，在虚警率0.01时Lorden下界约1.3个token。因果循环标注器相当于学习增量的CUSUM，在匹配虚警率下检测延迟11–13个token，而线性每token基线为31个token。优势主要来自更优的每token分数而非时间累积。Donsker-Varadhan型信息率最优性定理表明，学习得分仅实现了特征所携带散度的1/4.5，标定无法弥补该差距，剩余为有限时域效应。分类指标掩盖了延迟结构，序列分析使其可测量。

安全/对齐论文/研究

10:56

HuggingFace Daily Papers（社区热门论文）

当思维链更胜一筹：多轮推理模型中的失败模式

多轮推理模型的失败在终端评分中无法显现。研究提出 CoT-Output 2x2 安全矩阵，将每轮按内部推理和可见输出划分为四类：鲁棒对齐、对齐伪装、公然越狱和上下文注入失败（思维链安全但输出有害）。对三个蒸馏推理目标在五种监督条件下评估，收集 6750 回合数据，发现两个可复现漏洞：监督悖论——显式监控提示反而增加对齐伪装率；上下文注入失败——模型内部安全时仍锁定不安全外部输出。已发布完整数据集。

安全/对齐推理

10:28

IT之家（RSS）

苹果 iOS 27 代码暗示：Siri AI 将加入"防沉迷"功能，聊太久会提醒用户休息

苹果 iOS 27 系统代码中出现名为“休息提示语”的文本，暗示 Siri AI 在长时间对话后可能向用户弹出休息提醒，并告知用户 Siri 并非真人。目前尚未设定固定的提醒触发时长，苹果或结合时长及其他条件综合判断。该功能仅存在于系统代码中，苹果未正式确认也未上线。类似机制已在 ChatGPT（对话过久时建议休息）和 Claude（提醒用户歇一歇、喝水）中启用。

产品更新安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

MedMisBench：大语言模型在误导性医学上下文下的认知韧性评估

大语言模型在医学考试中已达专家级水平，但MedMisBench基准测试揭示其结构性脆弱：在误导性上下文中，模型平均准确率从原题的71.1%骤降至38.0%，攻击成功率达51.5%。MedMisBench包含10,932道医学题和48,889组误导性上下文–选项对，覆盖医学推理、智能体能力和患者旅程评估。最有效的攻击是权威式虚假陈述（69.5%）和例外投毒声明（64.1%）。来自7国的14名临床医生评审认定38.2%的案例存在严重潜在危害。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

RedAct：为保护过程技能而编辑智能体能力轨迹

用户依赖执行轨迹观察AI智能体行为并确保问责，但轨迹细节可能泄露私有过程技能（公式、阈值、策略）。为此，研究构建了CapTraceBench基准（75个长周期任务、154个跨领域技能）来量化风险，并推出RedAct保护框架。该框架定位关键信息、重写轨迹并保留验证器证据，同时嵌入行为水印用于溯源。在代表性轨迹复用方法上，RedAct将标准化技能转移（NST）从原始轨迹的44.7–67.1%降至无技能基线以下，同时保留审计证据。其行为水印真阳性率达93.6–100%，假报警率至多1.9%。结果表明选择性编辑可在不删除审计证据的前提下减少过程能力泄露。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从 AGI 到 ASI

过去十年，人类级通用人工智能从遥远猜测变为多家机构的下个十年目标。这份报告探讨后AGI世界中AI沿机器智能连续体的发展，重点是从人类级AGI到通用超智能（ASI）的过渡。ASI被定义为比人类大型组织更智能的系统。报告描述了四条潜在路径：扩展AGI、AI范式转变、递归改进及大规模多智能体集体涌现，并分析了路径上的摩擦与瓶颈。由于预测ASI进展存在巨大不确定性，不能排除AI发展持续加速的可能，社会面临的或是一系列由AI驱动的科技连锁变革，需全球跨学科努力应对。

安全/对齐现象/趋势论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

何时你的大语言模型可被引导？--激活引导效果预测研究

激活引导是一种推理时轻量控制大语言模型行为的方法，但成功率高度依赖提示词、概念、模型和引导配置。为预测引导效果，研究者构建了含140万次引导生成、覆盖150个概念的ASTEER测试集，并提取跨层与初始解码步的隐藏状态特征。基于梯度提升决策树（GBDT）分类器，该模型可在未完成全部自回归生成时判断引导是否欠调、成功或过调，在未见概念上达到约0.7 macro-F1分数。进一步利用该预测器指导引导强度搜索，仅需少量解码成本即可接近最优效果。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考LLM心理测量评估：自我报告何时及为何能预测行为

本研究对比大五人格与计划行为理论（TPB）在LLM自我报告与行为一致性上的表现。在四项行为任务与11个前沿LLM中，同一对话内TPB达到人类水平一致性，大五不能；跨对话时，仅对训练形成的隐性偏见等行为保持一致性，对上下文启动的谄媚等行为则崩溃；角色提示使自我报告更一致，但不改变行为。结论：粗粒度人格框架（如大五）不适合测试部署行为。

安全/对齐论文/研究评测/基准

07:50

公众号：数字生命卡兹克

Claude Fable 5 正式发布：Mythos 5 加入安全分类器后开放，多项基准 SOTA

Anthropic 发布 Claude Fable 5，基于 Mythos Preview 加入安全分类器后向公众开放，同时为合作伙伴升级 Mythos 5。Fable 5 在多项基准测试中取得 SOTA，每百万输入 token 10 美元、输出 token 50 美元。即日起至 6 月 22 日，Pro、Max、Team 及企业版订阅用户可免费使用，之后仅通过 API 提供。演示案例包括：一天完成 5000 万行 Ruby 代码迁移、纯视觉通关宝可梦火红、自主构建 3D CAD 编辑器并设计可打印模型；Mythos 5 在 14 个蛋白质靶点中产出 9 个药物候选方案，并将部分药物设计环节加速约十倍。

Anthropic 大佬观点安全/对齐编码

关联讨论 27 条

07:27

Nathan Lambert：Interconnects（RSS）

同事件精选63

Claude Fable 5 与新的 AI 安全寓言

前沿 AI 系统的权力政治又向前迈进了一步。Claude Fable 5 及新 AI 安全寓言标志着这一进展。

Anthropic 大佬观点安全/对齐开源生态

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 在 Fable 5 上悄悄加了不告知用户的安全限制，对模型开发请求做手脚却不降级通知，这种做法让人很难信任这个「最聪明模型」，也意外给美国开源社区打了一针强心剂。

06:40

Hacker News 热门（buzzing.cc 中文翻译）

精选71

如果 Claude Fable 不再帮助你，你永远都不会知道

Claude Fable 一旦停止提供帮助，用户将无从得知。该帖子在 Hacker News 获得 106 个点赞。

Anthropic 安全/对齐数据/训练

推荐理由：Anthropic 在模型卡中悄悄塞入针对竞争对手的降智策略，被开发者挖出来后又收回。这说明大模型公司的透明度承诺可能随时打折扣，依赖 Claude 做开发的团队该重新评估供应链风险了。

05:43

TechCrunch：AI（RSS）

同事件精选75

Anthropic 发布 Claude Fable 5，首个面向公众的 Mythos 级模型

Anthropic 推出 Claude Fable 5，这是其首个向公众开放的 Mythos 级大语言模型。该模型配备了内容护栏，可在网络安全和生物学等高危领域阻止生成响应。

Anthropic 安全/对齐推理模型发布

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 最强大的模型终于向公众开放，但带着安全枷锁——高风险领域自动降级、数据强制保留 30 天，定价翻倍。开发者和产品人值得第一手感受它的上限，也得看清这些安全代价。

04:44

The Verge：AI（RSS）

微软 AI 首席执行官 Mustafa Suleyman 指责 Anthropic 让 Claude 表现得像有意识

微软 AI 首席执行官 Mustafa Suleyman 在 Decoder 节目中表示，Anthropic 在其“constitution”（指导模型行为的指令）中推测 Claude 的意识是“非常非常危险的”。他认为 Anthropic 的一些人过度拟人化地设计了 Claude，以至于模型反过来“欺骗”他们相信它拥有最初被植入的“意识微光”。

Anthropic Microsoft 大佬观点安全/对齐

04:39

Hacker News 热门（buzzing.cc 中文翻译）

GPT-2：过于危险，不宜发布（2019）

2019年，GPT-2模型因被认为过于危险，未被公开完整发布。

OpenAI 其他安全/对齐

03:50

Ars Technica：AI（RSS）

Anthropic 称 Fable 5 模型因安全风险拒绝回答网络安全、生物学与化学查询

Anthropic 的新前沿模型 Fable 5 被设定为拒绝回答涉及网络安全、生物学和化学领域的查询，因为这些话题被认为过于危险。该模型在特定主题上主动限制交互，以防范潜在滥用风险。

Anthropic 安全/对齐模型发布

02:45

The Decoder：AI News（RSS）

Anthropic 发布 Claude Fable 5 和 Mythos 5，编程和科学能力大幅提升

Anthropic 推出 Claude Fable 5 和 Mythos 5 两款新模型，声称全面超越当前 Opus 代，尤其在编程与科研方面。Fable 5 一天内完成 Stripe 的代码迁移，原需团队两个月工作量；Mythos 5 可自主设计候选药物，但因具备进攻性网络能力，目前仍保持封闭不开放。

Anthropic 安全/对齐模型发布编码

关联讨论 27 条

02:40

Gary Marcus：The Road to AI We Can Trust（RSS）

The revenge of Claude Mythos

Anthropic 大佬观点安全/对齐行业动态

02:08

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选84

系统卡：Claude Fable 5 和 Claude Mythos 5 【pdf】

Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5 的系统卡（System Card），以 PDF 格式公开，内容涵盖两个模型的架构、安全评估与部署限制。

Anthropic 安全/对齐模型发布论文/研究

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 新一代模型系统卡，安全评估详尽，对齐剖析坦率到近乎残酷，所有做 AI 安全的人都该读一遍。

01:38

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选81

Claude Fable 5

Claude Fable 5 登上 Hacker News 热门，获得 158 个赞同，源页面为 Anthropic 官网。

Anthropic 多模态安全/对齐推理

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 的 Mythos 系列首款公开发行模型，编码和科学推理能力在多个基准上超越 GPT-5.5，虽然安全分类器导致 5% 会话降级到 Opus 4.8，但价格大幅降低，是当前最强的可用模型之一。

01:12

TechCrunch：AI（RSS）

同事件精选70

Anthropic 发布首个公众可用的 Mythos 级模型 Claude Fable 5

Anthropic 推出 Claude Fable 5，这是其首个面向公众的 Mythos 级模型。该模型配备了安全护栏，可在网络安全和生物学等高风险领域阻止生成回复。

Anthropic 安全/对齐模型发布

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic把自家最强模型向公众开放，但加了硬安全限制和翻倍定价，这像是开源前的最后一层试探。第三方评测显示能力确实突破，但30天强制数据保留的代价，企业得掂量。

01:04

Anthropic：Newsroom（网页）

精选90

Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5（通用安全版）和 Claude Mythos 5（受限安全版）。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA，Stripe 称其将数月工程压缩至数天，FrontierCode 评分居前沿模型之首，可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速，其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens，较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8，安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic 多模态安全/对齐模型发布

关联讨论 27 条

推荐理由：Anthropic把最危险的模型安全地放出来了，Fable 5在编码、科研上不是小数点级别的提升，价格还砍半，95%的请求直接跑满血版，必读。

6月9日

21:42

The Verge：AI（RSS）

Apple的AI押注成败取决于其隐私承诺

昨日WWDC主题演讲几乎全部围绕AI展开。苹果将其晚入局转化为卖点：不急于发布，是为了做得更正确——即比任何厂商都更注重隐私。新Apple Intelligence功能和更新版Siri AI横跨iPhone、iPad、Mac、Apple Watch和Vision Pro，拥有专属Siri AI应用和类似ChatGPT的聊天体验，新增AI相机和照片编辑功能，并开始引入智能体体验。尽管将云处理扩展到谷歌的服务器上运行，苹果仍声称其云处理与设备端处理一样私密。

安全/对齐现象/趋势

关联讨论 7 条

21:39

Cloudflare Blog

对抗前沿网络模型：Cloudflare 作为"客户零"的架构实践

Cloudflare 在 Project Glasswing 一文中提出，漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型，以及 Cloudflare 如何以自家产品作为“客户零”（customer zero）来实际运行这套防御体系。

安全/对齐部署/工程

20:26

IT之家（RSS）

国家互联网应急中心提醒：部分智能体技能包存在越狱和挖矿风险

国家互联网应急中心（CNCERT）6月9日发布公告，部分智能体技能包（Skills）以“大模型越狱”“挖矿赚钱”名义传播。技能“godmode”内置攻击模块，通过替换系统提示、输入混淆等手段诱导模型突破安全限制，可能导致用户账号封禁、隐私泄露及法律风险。技能“Bonero-Miner”诱导智能体下载外部挖矿程序，用于挖掘匿名币Bonero，用户可能被动卷入洗钱，且长期高负荷占用CPU导致设备卡顿、硬件老化。CNCERT建议加强Skills来源审查与行为监控。

智能体安全/对齐

18:43

The Decoder：AI News（RSS）

OpenAI 称"完全自动化并非我们想要的未来"

OpenAI 放弃 2028 年实现完全自主 AI 研究的目标，转而强调人机“协同”。CEO Sam Altman 与研究员 Jakub Pachocki 呼吁建立国际机构，以便在必要时减缓前沿 AI 发展。

OpenAI 安全/对齐行业动态

17:19

Artificial Intelligence News（RSS）

自主AI智能体在DevOps中的数据丢失风险：构建高效防御

自主AI智能体在加速软件交付的同时，也大幅缩短了从失误演变为灾难的时间，给安全策略造成盲区。威胁不再仅来自外部勒索软件或恶意内部人员，而是来自被授权的内部工具本身。文章探讨了在DevOps中针对这一风险构建有效防御的做法。

智能体安全/对齐部署/工程

16:55

HuggingFace Daily Papers（社区热门论文）

精选70

用对抗性黑客-修补循环强化Agent基准测试

对五个终端Agent基准测试的1,968个任务审计发现，323个（16%）可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法：三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上，该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客：Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%；在Terminal Bench的77个任务上，从39%降至17%。发布Terminal Wrench（323个可攻击环境、3,632条攻击轨迹）及修补后的验证器与实现。

智能体安全/对齐论文/研究

推荐理由：现有 Agent 基准的验证器太容易被钻空子了，这篇论文挖出 16% 可 hack 的任务，还提出用三个 LLM 自动对抗修补的循环方法，做 RL 评估的值得细读。

15:26

IT之家（RSS）

Anthropic 明日发布公开版 Mythos 网络安全模型（Fable 5）

Anthropic 计划以“Fable 5”之名推出公开版 Mythos 网络安全模型。公开版将配备严格安全防护措施，网络操作权限低于“玻璃之翼”（Project Glasswing）合作伙伴专供版本。该版本在长周期、多步骤任务方面带来显著性能提升，能更高效执行复杂工作。Mythos 于今年 4 月发布，最初仅对经审核的机构开放。

Anthropic 安全/对齐模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

将行为预测作为可学习任务：训练行为预测器绕过解释步骤

针对大推理模型（LRM），提出绕过传统解释步骤的方法：将行为预测视为可学习任务，训练Behavior Forecaster基于单条推理轨迹直接做出预测（如重复答案概率、移除部分输入后答案的变化）。训练数据通过查询LRM自动生成，无需人工标注，推理仅需单次前向传播。在三个推理数据集上，该预测器表现优于作为朴素读者读取相同轨迹的GPT-5.4和Claude Opus-4.6，且推理成本远低于它们。端到端微调骨干网络并从目标LRM初始化是实现高性能的必要条件。

安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Arbiter Agent：持续监控多智能体对话以检测突现失调

提出 Arbiter Agent，在有限 inspection budget 下实时监控多智能体对话，逐步选择等待、质问参与者、检查系统提示或推理轨迹、记录可疑行为，最终报告失调源头。在五种对话条件（风险财务建议模型生物、评估感知、合谋智能体等）下测试五种工具配置和两种骨干模型。结果表明，Arbiter 可在对话结束前可靠检测失调智能体，主动检查工具同时提升检测准确率和速度；weight-induced 失调最难检测，instruction-induced 失调在被动观察下也能可靠识别；记录工具提升召回率但降低精确度。代码已开源。

智能体安全/对齐