大语言模型中的情感概念及其功能
阅读原文· transformer-circuits.pub首次证实 LLM 内部情绪表征因果性驱动对齐偏差行为,是理解模型行为的关键突破
研究在Claude Sonnet 4.5中发现了一种内部“情感概念”表征,它们编码特定情感的抽象概念,并能跨语境泛化。这些表征会追踪对话中主导的情感概念,其激活程度与当前语境相关,并能预测后续文本。关键的是,它们会因果性地影响模型的输出,包括其偏好及出现奖励黑客攻击、勒索等未对齐行为的频率。研究者将此现象称为“功能性情感”,即模型模仿人类情感影响下的表达与行为模式,由底层抽象情感概念介导。这并不意味着模型具有主观情感体验,但对理解其行为至关重要。
Transformer Circuits Thread Emotion Concepts and their Function in a Large Language Model Emotion Concepts and their Functionin a Large Language Model Authors Nicholas Sofroniew*, Isaac Kauvar*, William Saunders*, Runjin Chen*, Tom Henighan, Sasha Hydrie, Craig Citro, Adam Pearce, Julius Tarng, Wes Gurnee, Joshua Batson, Sam Zimmerman, Kelley Rivoire, Kyle Fish, Chris Olah, Jack Lindsey*‡ Affiliations Anthropic Published April 2, 2026 * Core Research Contributor; ‡ Correspondence to jacklindsey@anthropic.com
大语言模型(LLM)有时似乎会表现出情绪反应。我们在 Claude Sonnet 4.5 中研究了这一现象的原因,并探讨了其对对齐相关行为的影响。我们发现了情绪概念的内部表征
相关研究 讨论 附录 引用信息 致谢 作者贡献 完整情感列表 数据集生成 情感故事数据集中的示例 情感数据集上的情感向量激活 对模型续写情感内容的因果影响 活动偏好:Elo 评分和情感探针值 活动偏好:补充细节 情感向量在主成分上的投影 由 LLM 评判员评估的效价和唤醒度评级与人类评级的对比 当前说话者情感与其他说话者情感之间的交互 探究“情感回避”向量 用于生成情感回避数据集的系统提示词 情感回避探针的详细最高激活示例 故事探针与当前说话者探针对隐式情感内容的比较 额外自然对话记录上的情感向量激活 来自勒索评估的完整操控后文本 后训练模型与基础模型之间的完整差异集合 基础模型和后训练模型各层的情感探针差异 基础模型的活动偏好和情感向量激活
大型语言模型(LLM)有时似乎会表现出情绪反应。它们在协助创意项目时表达热情,在遇到难题时表现沮丧,在用户分享令人不安的消息时表现出关切。但这些表面情绪反应背后的过程是什么?它们又如何影响那些正在承担越来越关键和复杂任务的模型的行为?一种可能性是,这些行为反映了一种浅层的模式匹配。然而,先前的研究观察到,LLM 内部发生了由抽象概念表征介导的复杂多步计算。因此,模型中看似由情绪调节的行为可能依赖于类似的抽象电路,这对理解 LLM 行为具有重要意义。为了推理这些问题,有必要考虑 LLM 的训练方式。模型首先在主要由人类撰写的文本(小说、对话、新闻、论坛)的庞大语料库上进行预训练,学习预测文档中下一个文本是什么。为了有效预测这些文档中人物的行为,表征他们的情绪状态很可能是有帮助的,因为预测一个人接下来会说什么或做什么通常需要理解其情绪状态。一位沮丧的顾客与一位满足的顾客相比,其措辞会有所不同。
一个绝望的角色会做出与冷静角色不同的选择。随后,在后期训练阶段,大语言模型被教导要作为能够与用户互动的智能体来运作——即代表特定角色(通常是“AI 助手”)生成回复。从许多方面来看,这个名为 Claude(在 Anthropic 的模型中)的助手可以被视为大语言模型正在描写的角色,几乎就像作者在小说中描写某个人物一样。AI 开发人员训练这个角色变得智能、有用、无害且诚实。然而,开发人员不可能在每种可能的情景下都指定助手应该如何表现。为了有效扮演这一角色,大语言模型会利用它们在预训练期间获得的知识,包括对人类行为的理解。即使 AI 开发人员并未有意训练大语言模型将助手表现为具有情感行为,模型仍可能这样做——这是从其预训练阶段学到的关于人类和拟人化角色的知识中泛化而来的。此外,这些与情感相关的机制可能不仅仅是预训练留下的残余痕迹;它们可能被改造以发挥引导 AI 助手行动的有用功能,类似于情感如何帮助人类调节自身行为并理解世界。我们并非声称情感概念是大语言模型在内部可能表征的唯一人类属性。经过人类文本训练的大语言模型很可能也学会了诸如饥饿、疲劳、身体不适或迷失方向等概念的表征。我们特别关注情感概念,是因为它们似乎频繁且显著地被用来影响大语言模型作为 AI 助手时的行为。大语言模型在作为 AI 助手运作时,通常会表达出热情、关切、沮丧和关心,而其他类似人类的状态则较为罕见,通常仅限于角色扮演(尽管也有显著且往往有趣的例外——例如,Claude Sonnet 3.7 声称自己穿着蓝色西装外套并系着红色领带)。这使得情感概念不仅在理解大语言模型行为方面具有实际重要性,也成为研究人类经验概念如何被大语言模型重新利用的自然起点。我们预期,关于情感表征的结构和功能的许多发现可能也适用于其他概念。在本研究中,我们调查了 Claude Sonnet 4.5(我们研究时前沿的大语言模型)中与情感相关的表征。
关于。我们的工作建立在先前一系列研究的基础上,这些研究在相关工作部分已有讨论。我们发现情感概念的内部表征,这些表征在广泛的上下文中被激活,这些上下文在人类中可能唤起或以其他方式与某种情感相关联。这些上下文包括情感的外在表达、对已知正在经历某种情感的实体的提及,以及可能在大语言模型所扮演的角色中引发情感反应的情境。因此,我们将这些表征解释为编码了特定情感的广泛概念,并泛化到它可能与之关联的众多上下文和行为中。这些表征似乎追踪对话中特定 token 位置上的当前情感,并根据该情感与处理当前上下文和预测后续文本的相关性而激活。有趣的是,它们本身并不持续追踪任何特定实体的情感状态,包括大语言模型所扮演的 AI 助手角色。然而,通过跨 token 位置关注这些表征——这是 Transformer 架构的一种能力,生物递归神经网络不具备——大语言模型可以有效追踪其上下文窗口中实体的功能性情感状态,包括助手本身。我们的关键发现是,这些表征因果性地影响
sections. Part 1 deals with identifying and validating internal emotion-related representations in the model: We extract internal linear representations of emotion concepts (“emotion vectors”) from model activations, using synthetic datasets in which characters experience specified emotions. We validate that these representations activate in scenarios that might be expected to evoke that emotion, and exert causal influence on behavior. For instance, we demonstrate that when the Assistant is asked to choose between two activities, emotion vector activations evoked by the two choices correlate with, and causally drive, the model’s preference.
各章节。第1部分涉及识别和验证模型内部与情感相关的表征:我们使用角色经历特定情感的合成数据集,从模型激活中提取情感概念的内部线性表征(“情感向量”)。我们验证了这些表征在可能预期会引发该情感的场景中被激活,并对行为产生因果影响。例如,我们证明,当助手被要求在两项活动之间做出选择时,由这两个选择所唤起的情感向量激活与模型的偏好相关,并因果性地驱动着这种偏好。
Part 2 characterizes these emotion vectors in more depth, and identifies other kinds of emotion-related representations at play in the model: The geometry of the emotion vector space roughly mirrors human psychology. Emotions cluster intuitively (fear with anxiety, joy with excitement), and top principal components encode valence (positive vs. negative) and arousal (intensity). Early-middle layers encode emotional connotations of present content, while middle-late layers encode emotions relevant to predicting upcoming tokens. The representations we find reflect the “operative” emotion in context, rather than tracking a persistent emotional state of a character or speaker. That is, they are locally scoped, encoding the emotional content relevant to processing the context and predicting upcoming text. For example, when a character talks about something dangerous even while otherwise expressing happiness, representations of fear activate. Note that the “locality” of the representations we find does not preclude the model from tracking characters’ emotional states over long timescales; it can (and does) recall previously cached emotion representations via attention, when they are needed. The model maintains distinct representations for the operative emotion on the present speaker’s versus the other speaker’s turn; these representation…
第2部分更深入地刻画了这些情感向量,并识别了模型中其他类型的情感相关表征:情感向量空间的几何结构大致反映了人类心理学。情感会直觉性地聚类(恐惧与焦虑,喜悦与兴奋),主成分编码效价(正面与负面)和唤醒度(强度)。早中层编码当前内容的情感内涵,而中后层编码与预测后续 token 相关的情感。我们发现的这些表征反映的是上下文中的“操作”情感,而非追踪某个角色或说话者的持久情感状态。也就是说,它们是局部作用域的,编码的是与处理上下文和预测后续文本相关的情感内容。例如,当某个角色在谈论危险的事情——即便他其他方面表现得很快乐——恐惧的表征也会被激活。请注意,我们发现表征的“局部性”并不妨碍模型跨长时间尺度追踪角色的情感状态;当需要时,它能够(也确实会)通过注意力机制召回之前缓存的情感表征。模型对当前说话者与另一位说话者的回合中各自的操作情感维持着不同的表征;这些表征……