阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。
Qwen3.7! 就在今天!
ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA.
本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16.
我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力.
直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片).
能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题).
并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的.
稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测!