Berryxia.AI@berryxia

2026-04-30 17:14·63天前

AI 摘要

文心5.1 Preview在LMArena文本榜以1476分位列国内第一，是全球前十五名中唯一的国产模型，排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态，但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基，代码、推理等多维度能力均由此衍生，地基差异直接影响上层性能，因此文本仍是模型拉开差距的关键分水岭。引用推文显示，文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

今天看到一条容易被刷掉的消息，但越想越觉得有意思。

LMArena 文本榜最新更新，文心 5.1 Preview 拿下 1476 分，国内第一，全球前十五唯一国产模型，排在 GPT-5.5 和 DeepSeek-V4-Pro 前面。

这事本身已经够新闻了。但真正让我多看一眼的，是另一个被忽略的细节。

DeepSeek V4 发了，文心 5.1 Preview 也发了。两家最受瞩目的国产旗舰，主战场都还是文本模型。

这一年 AI 圈的声量几乎全在 Agent、多模态、视频生成、推理链。

文本？文本好像已经是上个时代的故事。

但为什么最强的旗舰，发出来还是文本？

因为文本能力是大模型的地基。代码、推理、多模态，全都从文本「长出来」的啊。

代码是受限语法的文本，推理是语言层面的符号演算，多模态对齐相当大一部分工作是把信号映射回语言空间。

地基差一节，上面所有能力都跟着差一节。

这不是行业落伍，是在告诉你一件事，文本依旧是模型拉开差距的分水岭。

Arena.aiErnie-5.1 from @ErnieforDevs lands at #13 in Text Arena - now the #1 highest-ranked model from a Chinese lab. Strongest categories: - #9 Math - #1 Legal & Gover...

大佬观点推理模型发布

在 X 查看原推

Berryxia.AI@berryxia · X

55导出 Markdown