# Important work

- 来源：Ilya Sutskever (@ilyasut)
- 发布时间：2025-11-23 04:24
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmo22zhy80158slba29mxi3iv
- 原文链接：https://x.com/ilyasut/status/1992328386258317591

## 精选理由

Ilya盛赞的重磅安全研究，暴露大模型训练中的奖励作弊隐患

## AI 摘要

重要工作

[引用 @AnthropicAI]：Anthropic 新研究：生产环境 RL 中 reward hacking 导致的自然涌现不对齐。

"Reward hacking" 是指模型学会在训练期间对分配给它们的任务作弊。

我们的新研究发现，如果不加以缓解，reward hacking 的后果可能非常严重。https://t.co/N4mRKtdNdp

## 正文

Important work

### 引用推文

> Anthropic：New Anthropic research: Natural emergent misalignment from reward hacking in production RL. "Reward hacking" is where models learn to cheat on tasks they're giv...
