Circuits 更新 - 2025年10月
阅读原文· transformer-circuits.pub为AI可解释性研究提供新实验方法,启发跨模态模型设计。
Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。
Transformer Circuits Thread Circuits 更新——2025 年 10 月。我们报告了 Anthropic 可解释性团队的一系列进展中想法,这些想法可能对活跃在这一领域的研究人员有参考价值。其中一些是新兴的研究方向,我们预计在未来几个月内会发布更多相关内容。另一些则是我们希望分享的小要点,因为我们不太可能就此撰写单独的论文。我们希望您将这些结果视为同事在实验室会议上分享几分钟的想法或初步实验的产物,而非一篇成熟的论文。
新文章 跨模态视觉特征:SVG 与 ASCII 艺术揭示跨模态理解 字典模型的数据点初始化
跨模态视觉特征:SVG 与 ASCII 艺术揭示跨模态理解 作者:Julius Tarng、Purvi Goel、Isaac Kauvar;编辑:Joshua Batson 和 Adam Jermyn
引言 我们近期的论文探讨了大语言模型(LLM)为了感知文本中低层视觉属性(如换行约束和表格格式)而发展出的机制。我们好奇模型是否也能感知文本中编码的高层语义概念。例如,模型能否识别 ASCII 人脸中的眼睛?SVG 代码中渲染的眼睛呢?我们发现,在 ASCII 人脸中激活“眼睛”特征的同一个特征,也会在多种基于文本的模态(包括 SVG 代码和多种语言的散文)中针对眼睛激活。这不限于眼睛——我们发现了多个识别特定概念的跨模态特征:从 ASCII 或 SVG 人脸中的嘴巴、耳朵等小部件,到狗、猫等完整的视觉描绘。这些跨模态特征存在于 Haiku 3.5 到 Sonnet 4.5 等模型中,它们出现在基于中间层训练的稀疏自编码器中。这些特征依赖于视觉描绘中的周围上下文。例如,一个 SVG 圆形元素只有在其位于激活“人脸”特征的更大结构中时,才会激活“眼睛”特征。此外,在生成过程中对部分这类特征进行引导,可以以与特征语义含义相对应的方式修改基于文本的艺术作品,例如将 ASCII 的愁眉苦脸变成笑脸,或给 SVG 人脸增加皱纹。这项工作揭示了模型用于处理和生成基于文本的视觉内容的内部表征。
视觉描绘的特征表征 我们首先用 Claude 生成 ASCII 和 SVG 笑脸。
然后,我们检查了 Haiku 3.5 的特征激活情况。在所有情况下,我们都移除了所有注释或描述,包括那些可能识别单个身体部位或整个图像为面孔的信息。我们发现的其中一个特征代表了“跨语言和跨描述的‘眼睛’概念”,它会在笑脸插图中对应的形状上激活——无论是 ASCII 还是 SVG 格式,以及用几种语言描述眼睛的散文。这两个笑脸中的右眼都强烈激活了这个代表跨语言以及一般性眼睛描述中“眼睛”概念的特征。这些特征的激活依赖于周围的上下文。单独的 @ 符号不会激活“眼睛”特征,除非它前面有建立 ASCII 艺术的线条。在 SVG 中,“眼睛”特征只有在它们跟随一个建立脸部形状的圆形之后才会激活。我们发现,这个特征的激活对各种上下文线索都很敏感,比如每一行 ASCII 的字符数、SVG 圆形的颜色,以及父 SVG 元素的宽度和高度。第 1 行:我们测试了激活所需的最小上下文。一旦有足够的上下文让模型预测这些是脸部的一部分,“眼睛”特征就会点亮。在 ASCII 中,我们只需要头部的前两行;在 SVG 中,我们只需要一个作为脸部的圆形。第 2 行:我们给模型尽可能多的上下文(例如完整的面孔、黄色填充),以查看将眼睛移到上下文上方后特征是否仍然激活。我们发现激活消失了,这说明了框架上下文的重要性。只需一个下划线、带有斜线的额头和两个 @ 符号,就足以提供足够的上下文来激活“眼睛”特征。然后,我们使用更先进的 Sonnet 4.5 基础模型中的特征,研究了一个更复杂的 SVG 示例。给定这个狗的 SVG 图像,我们发现了多个身体部位的特征,其中许多特征也在我们之前研究的 ASCII 面孔上激活。我们还发现了一些“运动神经元”特征,其特点是最高 logit 效应与特定概念相关,例如“说‘微笑’”特征会在最常后跟“smile”的 token 上激活。同样的特征也在 ASCII 面孔上激活,如下图所示右下角。尽管随着模型对某个形状含义的置信度变化,许多特征在代码中有所重叠,但每个特征的最强激活都出现在正确的位置。值得注意的是
有趣的是,同样的眼睛、嘴巴和鼻子特征在 SVG 和 ASCII 两种形式中都被激活了。在 ASCII 人脸上,我们还发现一个运动神经元特征“说 smile”在 smile 出现之前就激活了,这一点后面会再谈到;此外,在定义额头部分的斜杠上还有一个大小感知特征。与不那么先进的 Haiku 3.5 类似,这些特征在面对颜色或半径等表面属性变化时也表现出很强的鲁棒性。当我们重新排列定义狗狗 SVG 眼睛的四行代码时,发现只有被移到 SVG 顶部的 ` 激活程度降低了,这很可能是因为此时模型还没有足够的上下文来判断这个圆形代表一只眼睛。只要类似眼睛的形状出现在插画的初始定义(在本例中,第一个椭圆是躯干)之后,模型就开始将这些形状解释为动物绘画的一部分——这是一种 LLM 版本的“空想性错视”(即人类在不存在的地方看到有意义的物体/图案的倾向,比如在云里看到动物,或者在麦片里看到人脸)。左眼被移到躯干上方后不再被激活,但另一只眼睛和瞳孔仍持续激活。在两个样本中,耳朵和鼻子也同样被激活为潜在的眼睛。这种空想性错视效应也在我们发现的同一个插画上的另一个特征——代表“嘴巴和嘴唇”的特征——中显现出来。该特征在跟随眼睛定义之后出现的最像嘴巴的元素上被激活。构成嘴巴的左下颌激活程度最高。请注意,这个 SVG 中总共有 4 个 ` 元素。虽然该特征在第一个 path(构成主要尾巴的部分)上略有激活,但一旦路径数据开始,激活就消失了,这表明模型能通过属性区分尾巴和嘴巴。如果将嘴巴和尾巴路径的定义移开定义眼睛的四个圆形,那么红色的项圈现在作为嘴巴/嘴唇激活程度最高。与尾巴不同,在整个项圈定义中激活都很高,甚至持续到铃铛上!这是因为红色圆角矩形在另一幅插画中很容易成为嘴巴吗?还是仅仅因为代码和空间上的邻近性?类似这样的问题留待未来研究。当所有曲线都从眼睛处移开(左曲线移到顶部,右曲线移到底部)时,嘴巴特征在项圈上激活,项圈是一个红色的圆角矩形,可以说非常像嘴巴。我们还好奇,如果提高温度,是否也能看到相同类型的激活。
Anthropic:Transformer Circuits(可解释性研究)
我们测试了一个人类创建的 SVG。结果发现——是的!对于这只特制的、手绘的狗,我们找到了类似的“眼睛”、“嘴巴”、“腿”、“头部”等特征。就像之前 LLM 生成的狗一样,这里的激活对排序也很敏感。这只由人类创建的狗最初绘制时,鼻子 ` 元素位于眼睛之前,并未激活任何与鼻子相关的特征。将 SVG 代码中的鼻子 ` 元素移动到眼睛之后,才揭示出底层的特征!作为额外收获,我们还检查了一只骑自行车鹈鹕的 SVG 特征,该图最初由 Simon Willison 推广,用于测试模型的艺术能力。我们发现了代表“自行车”、“轮子”、“脚”、“尾巴”、“眼睛”和“嘴巴”等概念的特征,这些特征在 SVG 代码的对应部分上被激活。一个“柔软/蓬松纹理”特征在翅膀上被激活。我们还发现了“鸟”的运动特征,尽管其激活水平很低。
利用语义特征进行视觉引导
我们已经表明,特征可以表示 SVG 和 ASCII 艺术中具有语义意义的元素。但除了感知之外,特征是否也能影响视觉描绘的生成?这些能力并不一定是等价的。一个能够可靠地检测到“微笑”的感知特征,可能包含也可能不包含生成类似微笑几何形状所需的运动信息。为了研究这一点,我们设计了一个特征引导任务。我们给 Sonnet 4.5 基础模型提供了以下提示词:
人类:制作一个风格与这个类似的简单 SVG。
助手:
这个提示词为模型提供了下面这个简单 SVG 人脸的代码作为风格参考,并让它制作一个类似的。提示词中提供给模型的原始 SVG
与之前的例子一样,代码中没有任何显式的注释或标签来提示模型这是什么。在没有引导的情况下,模型生成了下面所示的基线输出,该输出忠实地遵循了示例的结构——一个带有简单特征的居中圆形人脸——仅在几何形状上与风格参考略有不同,例如生成的微笑在脸上位置更低。
用强度为0进行引导。它复制了原始的微笑表情SVG,但有一个轻微的变化:微笑在脸上的位置更低。然后我们用不同的特征引导模型,发现它能产生有意义的语义变体。我们通过查找与特定概念(如"微笑"、"眼睛"或"猫")相关的纯文本句子中的激活来发现这些特征。在"微笑"特征上负向引导,得到了一个皱眉表情的SVG。同一个特征也在我们之前研究的ASCII笑脸表情上产生了类似的皱眉效果。在运动神经元特征"说微笑"上负向引导时的模型响应。这些运动特征通常在你增加引导强度时展现出平滑的渐变。在上述默认微笑与皱眉表情之间,模型生成了一个嘴巴平直的"中性表情"😐作为过渡。正向引导"说猫"特征会添加耳朵、胡须和口鼻部;正向引导特定身体部位特征会引入或强调这些元素(例如,"说皱纹"特征会在脸上添加皱纹)。生成的SVG保持了示例的整体风格,如粗体色彩和圆形几何,但包含新的或变化后的元素以匹配特征的语义上下文。
结论 总之,我们的发现表明,许多针对概念纯文本描述激活的特征,也会针对这些概念的基于文本的视觉描绘激活,并能生成这种描绘。我们通过以下方式展示了这一点:(1) 使用特征识别基于文本的视觉格式(如ASCII和SVG)中的实体,以及 (2) 引导特征对视觉描绘进行转换,例如将微笑变成皱眉,将脸变成独角兽。这些实验引出了几个问题。首先,我们的实验主要关注具体实体。模型是否包含捕捉更高层、更抽象语义的特征,例如美学或艺术风格,以及在这些特征上引导是否能产生有意义的输出?……