Goodfire AI提出“神经几何”概念,揭示神经网络内部并非离散特征,而是由丰富、弯曲的几何结构构成。例如,星期几在激活空间中呈现为圆形流形,“mountain car”世界模型中的位置则编码为弯曲路径。沿这些几何结构操作能实现连贯、可控的模型行为,而传统线性插值会导致输出混乱。该研究将其视为理解、调试和精准控制AI模型的关键前沿,并指出当前流行的SAE方法因碎片化处理而难以捕捉整体语义。相关系列研究已开始发布。
神经网络居然"说的是英语,想的却是形状"。
Goodfire AI今天直接把这个被忽略已久的真相摆了出来:
模型内部不是一堆离散特征,而是一堆丰富、弯曲的几何结构:时间、空间、数字、颜色、生命树……
全都在激活空间里沿着曲线和曲面排列。
他们正在发布一系列研究,把"神经几何"当作理解、调试和精准控制模型的新前沿。
最直观的例子就是星期几:在模型激活里,它不是一条直线,而是一个完美的圆。 线性插值会让输出彻底混乱,但沿着这个圆形流形走,就能干净地从周一滑到周五。
另一个例子是"mountain car"世界模型,位置被编码成一条意大利面一样的弯曲路径。沿着路径操作,模型行为连贯;线性操作则直接让小车瞬移和崩溃。
这才是真正能把AI从黑箱拉到可控的关键。
他们还顺手对比了当前流行的SAE方法--那些方法往往把完整的几何结构打成碎片,反而看不清整体语义。
第一篇和第二篇研究已经放出,值得立刻看完。