文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。
今天看到一条容易被刷掉的消息,但越想越觉得有意思。
LMArena 文本榜最新更新,文心 5.1 Preview 拿下 1476 分,国内第一,全球前十五唯一国产模型,排在 GPT-5.5 和 DeepSeek-V4-Pro 前面。
这事本身已经够新闻了。但真正让我多看一眼的,是另一个被忽略的细节。
DeepSeek V4 发了,文心 5.1 Preview 也发了。 两家最受瞩目的国产旗舰,主战场都还是文本模型。
这一年 AI 圈的声量几乎全在 Agent、多模态、视频生成、推理链。
文本?文本好像已经是上个时代的故事。
但为什么最强的旗舰,发出来还是文本?
因为文本能力是大模型的地基。代码、推理、多模态,全都从文本「长出来」的啊。
代码是受限语法的文本,推理是语言层面的符号演算,多模态对齐相当大一部分工作是把信号映射回语言空间。
地基差一节,上面所有能力都跟着差一节。
这不是行业落伍,是在告诉你一件事,文本依旧是模型拉开差距的分水岭。