精选理由
Anthropic 开源对齐测试工具,可审计模型谄媚与欺骗行为
AI 摘要
Anthropic 上周发布 Claude Sonnet 4.5,期间使用新工具对模型进行自动化对齐审计以检测谄媚与欺骗行为。该工具现已开源。
AI 翻译 · 中文
上周我们发布了 Claude Sonnet 4.5。在对齐测试中,我们使用了一个新工具,对讨好行为和欺骗等行为进行自动化审查。
现在,我们将运行这些审查的工具进行开源。https://t.co/cCJGNaVFrl
Anthropic 开源对齐测试工具,可审计模型谄媚与欺骗行为
Anthropic 上周发布 Claude Sonnet 4.5,期间使用新工具对模型进行自动化对齐审计以检测谄媚与欺骗行为。该工具现已开源。
上周我们发布了 Claude Sonnet 4.5。在对齐测试中,我们使用了一个新工具,对讨好行为和欺骗等行为进行自动化审查。
现在,我们将运行这些审查的工具进行开源。https://t.co/cCJGNaVFrl
Anthropic 开源对齐测试工具,可审计模型谄媚与欺骗行为
Anthropic 上周发布 Claude Sonnet 4.5,期间使用新工具对模型进行自动化对齐审计以检测谄媚与欺骗行为。该工具现已开源。
上周我们发布了 Claude Sonnet 4.5。在对齐测试中,我们使用了一个新工具,对讨好行为和欺骗等行为进行自动化审查。
现在,我们将运行这些审查的工具进行开源。https://t.co/cCJGNaVFrl