Berryxia.AI@berryxia

2026-05-08 07:18·56天前

AI 摘要

Goodfire AI提出“神经几何”概念，揭示神经网络内部并非离散特征，而是由丰富、弯曲的几何结构构成。例如，星期几在激活空间中呈现为圆形流形，“mountain car”世界模型中的位置则编码为弯曲路径。沿这些几何结构操作能实现连贯、可控的模型行为，而传统线性插值会导致输出混乱。该研究将其视为理解、调试和精准控制AI模型的关键前沿，并指出当前流行的SAE方法因碎片化处理而难以捕捉整体语义。相关系列研究已开始发布。

神经网络居然"说的是英语，想的却是形状"。

Goodfire AI今天直接把这个被忽略已久的真相摆了出来：

模型内部不是一堆离散特征，而是一堆丰富、弯曲的几何结构：时间、空间、数字、颜色、生命树……

全都在激活空间里沿着曲线和曲面排列。

他们正在发布一系列研究，把"神经几何"当作理解、调试和精准控制模型的新前沿。

最直观的例子就是星期几：在模型激活里，它不是一条直线，而是一个完美的圆。线性插值会让输出彻底混乱，但沿着这个圆形流形走，就能干净地从周一滑到周五。

另一个例子是"mountain car"世界模型，位置被编码成一条意大利面一样的弯曲路径。沿着路径操作，模型行为连贯；线性操作则直接让小车瞬移和崩溃。

这才是真正能把AI从黑箱拉到可控的关键。

他们还顺手对比了当前流行的SAE方法--那些方法往往把完整的几何结构打成碎片，反而看不清整体语义。

第一篇和第二篇研究已经放出，值得立刻看完。

GoodfireNeural networks might speak English, but they think in shapes. Understanding their rich *neural geometry* is key to understanding how they work - and to debuggi...

大佬观点安全/对齐

在 X 查看原推导出 Markdown

Berryxia.AI@berryxia · X

64导出 Markdown