karminski-牙医@karminski3

2026-05-19 02:36·45天前

AI 摘要

阿里千问今日推出Qwen3.7-Max-Preview，在ArenAI（原LMArena）内测中排名第13，为国内模型最高水平。模型数学能力显著提升，位列总榜第7；编程能力排名第10；视觉能力测试升至第16。作者实测显示，在前端代码生成场景中，Qwen3.7的空间理解与指令遵循能力进步明显，元素轴向一致性优于DeepSeek-V4-Pro等模型。此外，ArenaAI给Meta新模型Muse Spark的异常高评分引发关注，但该评分仅供参考。

Qwen3.7！就在今天！

ArenAI （就是之前的 LMArena），刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13，处于目前版本国模SOTA.

本次提升最高的是数学能力，达到了总榜第7，编程水平在第10. 另外视觉能力测试也来到了第16.

我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview，题目是一个使用 three.js 画一个软盘蓝图的场景，主要考察大模型的前端+空间理解+建模能力.

直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比（注意这个图上的元素完全是代码绘制的，不是大模型生成的图片）.

能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升，能保持所有元素都在同一轴向上（能完成这一点是巨大的进步，目前 DeepSeek-V4-Pro 还有这方面的问题）.

并且摆放顺序和每个标签的标记也是准确的，以及背景的网点效果也还原了（这就是指令遵循的提升体现）. 当然不足的地方也有很多，比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的.

稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测！

（另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.）

#阿里千问 #qwen37 #qwen37max

多模态推理编码评测/基准

在 X 查看原推

karminski-牙医@karminski3 · X

53导出 Markdown