Claude Sonnet 4.5 发布，自动化对齐审计工具开源

Anthropic@AnthropicAI · X

精选导出 Markdown

2025-10-07 01:15·269天前

在 X 看原推· x.com

精选理由

Anthropic 开源对齐测试工具，可审计模型谄媚与欺骗行为

AI 摘要

Anthropic 上周发布 Claude Sonnet 4.5，期间使用新工具对模型进行自动化对齐审计以检测谄媚与欺骗行为。该工具现已开源。

AI 翻译 · 中文

上周我们发布了 Claude Sonnet 4.5。在对齐测试中，我们使用了一个新工具，对讨好行为和欺骗等行为进行自动化审查。

现在，我们将运行这些审查的工具进行开源。https://t.co/cCJGNaVFrl