# Claude Sonnet 4.5 发布，自动化对齐审计工具开源

- 来源：Anthropic (@AnthropicAI)
- 发布时间：2025-10-07 01:15
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1yoz200n8slc3to1r17gv
- 原文链接：https://x.com/AnthropicAI/status/1975248654609875208

## 精选理由

Anthropic 开源对齐测试工具，可审计模型谄媚与欺骗行为

## AI 摘要

Anthropic 上周发布 Claude Sonnet 4.5，期间使用新工具对模型进行自动化对齐审计以检测谄媚与欺骗行为。该工具现已开源。

## 正文

上周我们发布了 Claude Sonnet 4.5。在对齐测试中，我们使用了一个新工具，对讨好行为和欺骗等行为进行自动化审查。

现在，我们将运行这些审查的工具进行开源。https://t.co/cCJGNaVFrl
