# Qwen3.7内测跑分出炉，空间理解与指令遵循大幅提升

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-05-19 03:33
- AIHOT 分数：54
- AIHOT 链接：https://aihot.virxact.com/items/cmpbmjj5b18khslnzns7kn1vn
- 原文链接：https://x.com/karminski3/status/2056458246236639606

## AI 摘要

Qwen3.7-Max-Preview在ArenaAI内测中排名第13，为当前版本国产模型最佳。其数学能力（第7）与编程能力（第10）提升显著。实测显示，在前端代码生成任务中，Qwen3.7在空间理解和指令遵循上较前代（Qwen3.6）有巨大进步，能更准确地维持元素轴向与标记。文章同时指出，ArenaAI评分仅供参考，其为Meta新模型Muse Spark给出的高排名（第5）与社区现状不符。

## 正文

Qwen3.7！ 就在今天！

ArenAI （就是之前的 LMArena）， 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13， 处于目前版本国模SOTA.

本次提升最高的是数学能力， 达到了总榜第7， 编程水平在第10. 另外视觉能力测试也来到了第16.

我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview， 题目是一个使用 three.js 画一个软盘蓝图的场景， 主要考察大模型的前端+空间理解+建模能力.

直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 （注意这个图上的元素完全是代码绘制的， 不是大模型生成的图片）.

能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升， 能保持所有元素都在同一轴向上（能完成这一点是巨大的进步， 目前 DeepSeek-V4-Pro 还有这方面的问题）.

并且摆放顺序和每个标签的标记也是准确的， 以及背景的网点效果也还原了（这就是指令遵循的提升体现）. 当然不足的地方也有很多， 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的.

稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测！

（另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.）

#阿里千问 #qwen37 #qwen37max
