菲尔兹奖得主陶哲轩指出,当前大语言模型(LLM)的数学基础(线性代数、矩阵乘法、微积分)其实很简单,本科生即可掌握。我们清楚如何构建和运行这些模型。真正的核心谜题在于,我们无法可靠预测它们为何在某些任务上表现出色,却在另一些任务上失败。关键在于现实世界的数据(如自然语言)处于“中间地带”——既非纯噪声,也非完全结构化,而是部分有序、部分随机。目前数学界对此类中间状态的理论非常薄弱,导致我们能描述模型机制,却无法解释其能力跃升或给出可靠的任务级预测。这种“简单机制”与“难以预测的行为”之间的矛盾,是当前AI领域的核心难题。
讲真,这种言论只有真正牛的人才敢说啊! 本科生就可以来完成LLM的数学训练!
Terence Tao 最近在访谈里把 LLM 最核心的谜题直接说透了。
这位 Fields Medal 得主、数学界最高荣誉,被称作数学界诺贝尔奖,当代最顶尖的数学家之一,说:
今天大模型背后的数学其实非常简单。
线性代数、矩阵乘法,再加一点微积分,本科生就能完全掌握。
我们清楚知道怎么训练、怎么运行它们。
但真正让人困惑的是:为什么它们在某些任务上表现惊人,在另一些任务上却突然翻车,而且我们完全无法提前预测。
核心原因在于现实世界的数据,自然语言文本。
它既不是纯噪声,也不是完全结构化的数据,而是坐在"中间地带":部分有序、部分随机。目前数学界对这个中间区域的理论还非常薄弱。
所以我们能造出强大的模型,却没法可靠预测它的能力边界。
这个"简单机制 vs 不可预测行为"的矛盾,才是当前 AI 最核心的 puzzle。