Qwen3.7-Max：面向智能体时代的最新专有模型

2026-05-20 10:00·43天前·QwenTeam

精选理由

Qwen3.7-Max 把 agent 能力拉到了新高度，35 小时自主内核优化证明长程执行有真实生产力，做 coding agent 的团队该认真测一下。

AI 摘要

通义千问发布 Qwen3.7-Max，专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力，通过 MCP 和多智能体编排实现办公自动化，能自主执行超 1000 步工具调用（如 35 小时全自主内核优化）。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型：Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

AI 翻译 · 中文

Qwen

Qwen Studio

下载尝试 Qwen Studio

Qwen3.7：智能体的前沿 | Qwen

Qwen3.7：智能体的前沿

2026/05/20 · 25 分钟 · 4992 字 · QwenTeam丨翻译：简体中文

DISCORD 今天，我们推出 Qwen3.7-Max——这是我们为智能体时代打造的最新自有模型。Qwen3.7-Max 旨在成为一个通用的智能体基础模型——同样擅长编写和调试代码、自动化办公工作流，以及在数百或数千个步骤中维持自主执行。

Qwen3.7-Max 的独特之处在于其智能体能力的广度和深度。它作为编程智能体表现出色，从前端原型设计到复杂的多文件工程。通过 MCP 集成和多智能体编排，它可作为可靠的办公和生产力助手。它能在极长的时间跨度内维持连贯推理——一次完全自主的内核优化运行持续 35 小时，包含超过 1000 次工具调用。它能够泛化到各种智能体框架，无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署，表现始终如一。

Qwen3.7-Max——现已通过阿里云模型服务平台提供： · 前沿编程智能体：从前端原型设计到复杂软件工程 · 通过 MCP 和多智能体编排实现办公生产力与工作流自动化 · 在长周期任务中维持自主执行 · 跨多种智能体框架的跨框架泛化能力

通过阿里云模型服务平台的 API 调用。

性能#

| | Opus-4.6 Max | K2.6 Thinking | GLM-5.1 Thinking | DS-V4-Pro Max | Qwen3.6-Plus | Qwen3.7-Max | |---|---|---|---|---|---|---| | 编程智能体 | | Terminal Bench 2.0-Terminus | 65.4 | 66.7 | 63.5 | 67.9 | 61.6 | 69.7 | | SWE-Verified | 80.8 | 80.2 | -- | 80.6 | 78.8 | 80.4 | | SWE-Pro | 57.3 | 59.5 | 58.8 | 59.0 | 56.6 | 60.6 | | SWE-Multilingual | 77.5 | 76.7 | -- | 76.2 | 73.8 | 78.3 | | NL2repo | 47.6 | 42.8 | 41.0 | 35.5 | 34.4 | 47.2 | | SciCode | 51.9 | 52.2 | 45.1 | -- | 41.4 | 53.5 | | QwenWebDev | 1617 | -- | 1564 | 1570 | 1500 | 1568 | | QwenSVG | 1541 | 1325 | 1605 | 1506 | 1432 | 1608 | | 通用智能体 | | Qwenclaw | 65.5 | 54.7 | 58.7 | 59.2 | 57.2 | 64.3 | | CoWorkBench | 68.2 | 58.2 | 66.0 | 66.3 | 64.5 | 67.2 | | ClawEval | 70.4 | 61.5 | 62.7 | 58.4 | 57.1 | 65.2 | | Skillsbench | -- | 56.2 | 53.1 | 52.3 | 45.7 | 59.2 | | BFCL-V4 | 76.7 | 71.3 | 70.9 | 70.6 | 68.9 | 75.0 | | MCP-Mark | 56.7 | 55.9 | 57.5 | 57.1 | 48.2 | 60.8 | | MCP-Atlas | 75.8 | 66.6 | 71.8 | 73.6 | 74.1 | 76.4 | | Vitabench | -- | 39.1 | 45.1 | 51.9 | 42.8 | 47.9 | | SpreadSheetBench-v1 | 89.3 | 84.5 | 85.2 | 84.9 | 80.2 | 87.0 | | Kernel Bench L3 | 2.63/98% | 1.41/80% | 2.00/78% | 1.07/54% | 1.03/48% | 1.98/96% | | HLE w/ tools | 53.0 | 54.0 | 52.3 | 48.2 | 50.2 | 53.5 | | QwenWorldBench | 56.1 | 50.9 | 50.2 | 52.3 | 47.6 | 57.3 | | STEM 与推理 | | GPQA Diamond | 91.3 | 90.5 | 86.2 | 90.1 | 90.4 | 92.4 | | HLE | 40.0 | 36.4 | 34.7 | 37.7 | 28.8 | 41.4 | | LiveCodeBench | 88.8 | 89.6 | -- | 93.5 | 87.1 | 91.6 | | HMMT 2026 Feb | 96.2 | 92.7 | 89.4 | 95.2 | 87.8 | 97.1 | | IMOAnswerBench | 75.3 | 86.0 | 83.8 | 89.8 | 83.8 | 90.0 | | CritPT | 12.6 | 8.0 | 4.6 | 12.9 | 2.9 | 11.4 | | Apex | 34.5 | 24.0 | 11.5 | 38.3 | 8.8 | 44.5 | | 通用能力 | | MMLU-Pro | 89.7 | 87.1 | 86.3 | 87.5 | 88.5 | 89.6 | | MMLU-Redux | 95.2 | 95.3 | 94.3 | 94.8 | 94.5 | 95.0 | | SuperGPQA | 72.5 | 71.3 | 68.0 | 69.9 | 71.6 | 73.6 | | IFEval | 91.9 | 94.5 | 94.5 | 91.9 | 94.3 | 94.3 | | IFBench | 62.5 | 76.0 | 76.0 | 77.0 | 74.2 | 79.1 | | MRCR-v2 128k | 84.0 | 63.1 | 62.0 | 74.4 | 85.9 | 90.4 | | 多语言能力 | | WMT24++ | 82.7 | 81.6 | 81.8 | 82.2 | 84.3 | 85.8 | | MAXIFE | 81.3 | 87.7 | 87.7 | 88.9 | 88.2 | 89.2 | | MMMLU | 90.6 | 87.5 | 87.2 | 87.9 | 89.5 | 90.3 | | MMLU-ProX | 86.1 | 83.7 | 83.9 | 83.9 | 84.7 | 87.0 | | NOVA-63 | 59.1 | 56.7 | 54.6 | 52.8 | 57.9 | 59.0 | | INCLUDE | 87.4 | 84.2 | 84.3 | 86.1 | 85.1 | 86.2 | | Global PIQA | 91.2 | 89.2 | 89.5 |

90.5 | 89.8 | 91.4 | | PolyMATH | 80.2 | 82.7 | 67.6 | 72.0 | 77.4 | 86.5 |

Terminal-Bench 2.0：使用 Harbor/Terminus-2 工具链；超时时间 5 小时，12 CPU / 24 GB RAM；温度 temp=1.0，top_p=0.95，top_k=20，最大 token 数 80K，上下文窗口 256K；5 次运行的平均值。所有实验在每轮交互前添加一个 token，让模型自行决定是否启用扩展推理。

SWE-Bench 系列：内部智能体脚手架（Bash + 文件编辑工具）；温度 temp=1.0，top_p=0.95，上下文窗口 200K。

SWE-bench Pro：对有问题的任务进行了修正，所有基线均在精炼后的基准上重新评估。

NL2Repo：通过 Claude-code 进行评估。我们禁用了试图访问特定仓库的 Bash 命令，例如 pip download、pip install 和 git clone。

QwenWebDev：内部前端代码生成基准；双语（英文/中文），7 个类别；自动渲染 + 多模态评判器；BT/Elo 评分。

QwenClawBench：基于真实用户分布的 Claw 智能体基准；开源地址：https://github.com/SKYLENAGE-AI/QwenClawBench。

CoWorkBench：内部协同工作基准；涵盖计算机科学、金融、法律、医学及其他生产力领域的长期任务。

SkillsBench：通过 OpenCode 对 78 个任务（排除 9 个依赖外部 API 的任务）进行评估；5 次运行的平均值。

MCP-Mark：GitHub MCP v0.30.3；Playwright 响应截断至 32K token。

MCP-Atlas：公共集得分；使用 gemini-2.5-pro 作为评判器。

VITA-Bench：子领域得分平均值；因旧版官方评判器已不可用，改用 claude-4.5-sonnet 作为评判器。

Kernel Bench L3：报告的指标：每个问题相对于 PyTorch 即时执行参考的加速比中位数 / 比 torch.compile 更快的任务占比（共 50 个问题）。每个测试样本在独立的 Docker 容器中运行，配备一块 H100 80GB GPU，网络访问限制为 CUTLASS 代码库和官方 CUDA 文档，最多允许 500 次工具调用，在连续 100 次无改进后提前停止。GPT-5.4 (xhigh) 用于检测潜在的作弊行为。CUPTI 用于内核级别的计时。

QwenWorldBench：用于评估大语言模型作为世界模型以模拟智能体环境的内部基准；7 个领域（Terminal、SWE、MCP、Search、OS、Android、Web）；开放式 5 维度评分规则，基于真实环境反馈进行评判。

推理场景：推荐系统提示词："Reasoning effort is set to xhigh. Please think carefully through the task, validate key assumptions, consider plausible alternatives, and prioritize correctness, consistency, and clarity in the final answer."

MRCR-v2：包含 8 枚针（needles）的 128K 上下文子集；评估协议来自 https://github.com/google-deepmind/evalhub/tree/master/evalhub/mrcrv2。

WMT24++：更难的 WMT24 子集；使用 XCOMET-XXL 在 55 种语言上的平均分数。

MAXIFE：英语 + 多语言提示词（共 23 种设置）上的准确率。

MMLU-ProX：29 种语言的平均准确率。

空单元格 (--) 表示分数尚未公布。

在编程智能体方面，Qwen3.7-Max 在 SWE-Pro (60.6)、SWE-Multilingual (78.3)、SciCode (53.5) 和 QwenSVG (1608) 上表现强劲。在 Terminal Bench 2.0-Terminus (69.7) 上，它超越了 DS-V4-Pro Max (67.9)。在 SWE-Verified (80.4) 上，它与 Opus-4.6 Max (80.8) 和 DS-V4-Pro Max (80.6) 持平。

在通用智能体方面，改进更为显著。Qwen3.7-Max 在 MCP-Mark (60.8 vs. GLM-5.1 的 57.5)、MCP-Atlas (76.4 vs. Opus-4.6 的 75.8) 和 Skillsbench (59.2 vs. K2.6 的 56.2) 上表现异常出色，并在 Kernel Bench L3 上展示了强大的 GPU 内核优化能力（中位数加速比 1.98 倍，胜率 96%）。它还在 BFCL-V4 (75.0)、Qwenclaw (64.3) 和 ClawEval (65.2) 上获得高分，逼近 Opus-4.6 Max。在办公自动化基准 SpreadSheetBench-v1 上，它取得了 87 分的顶级成绩。

在推理方面，Qwen3.7-Max 在 GPQA Diamond (92.4 vs. Opus-4.6 的 91.3)、HLE (41.4 vs. Opus-4.6 的 40)、HMMT 2026 Feb (97.1 vs. Opus-4.6 的 96.2)、IMOAnswerBench (90 vs. DS-V4-Pro 的 89.8) 和 Apex (44.5 vs. DS-V4-Pro 的 38.3) 上取得了领先结果，在最难的推理基准上展现了卓越的实力。

在通用能力和多语言方面，Qwen3.7-Max 在 IFBench (79.1 vs. DS-V4-Pro 的 77.0) 上脱颖而出，展示了精确的指令遵循能力。它在 WMT24++ (85.8) 和 MAXIFE (89.2) 上取得了领先分数，证实了其顶级的 multilingual 理解和翻译质量。它在 SuperGPQA (73.6) 和 QwenWorldBench (57.3) 上也给出了强劲的结果。

值得注意的是，这些分数来自多种多样的智能体脚手架（agent scaffolds）。Qwen3.7-Max 并未针对任何单一框架进行优化，而是在 Claude Code、OpenClaw、Qwen Code 以及自定义工具使用框架上表现稳定，使其成为任何智能体系统均可可靠替换的骨干模型。

Cowork Productivity Assistant#

Qwen3.7-Max 是您在现实生产力场景中得力的高级协作者。其强大的智能体能力从根本上简化了专业工作流程——整合复杂信息、执行深度数据分析与建模，并生成可直接用于发布的文档和可视化内容——从而可靠地处理高复杂度的企业级工作负载。

Qwen3.7-Max 原生兼容主流智能体框架。对于长时间跨度的任务，它支持自主规划，并在持续数小时的会话中连续执行。通过数千次工具调用和数十次迭代优化，它能稳步提升输出质量。通常需要专业团队一到两周才能完成的复杂项目，现在可以在几小时内端到端地完成，带来显著的生产力提升。

视频 1

智能体扩展#

基于 Qwen3.5 中引入的环境扩展方法，我们在 Qwen3.7 中继续大力扩展训练环境的质量与多样性。正如语言模型能从多样化的预训练文本中实现泛化，我们发现智能体能力也能从多样化的训练环境中实现泛化。

如下图所示，这种环境扩展带来了清晰且持续的性能提升轨迹，Qwen3.7-Max 的平均排名进入前三，接近 Claude-4.6-Opus-Max 的水平。关键之处在于，我们评估中涉及的所有基准测试，均采用完全未见过的、训练中未曾出现的领域外环境。

我们还观察到扩展行为中一个惊人的可预测性：任何基准测试子集上的性能提升都高度一致，并能可靠地预测其余基准测试或整体平均值的相对提升。这表明环境扩展驱动的是真正的能力泛化，而非针对特定基准测试的改进。关于扩展动态及方法的进一步分析将在我们即将发布的技术报告中详述。

跨框架泛化#

我们的发布环境基础设施将每个训练实例解耦为三个正交组件——任务（Task）、框架（Harness）和验证器（Verifier）——它们可以自由重组。我们支持多种框架及其不断演进的版本，并将环境建立在真实世界场景而非合成代理之上。这种解耦式设计实现了组合缩放：同一任务可与多样化的框架（涵盖不同类型和版本）及验证器配对，边际成本极低。更重要的是，它支持跨框架和跨验证器的强化学习训练，使模型在不同框架配置下处理相同任务，迫使模型学习通用的问题解决策略，而非针对特定框架的捷径。在QwenClawBench和CoWorkBench上，无论评估时使用何种框架，Qwen3.7-Max均能提供强大且一致的性能，证实该模型已学会解决任务本身，而非利用特定框架。

自我演进（Self-Evolving in the Wild）#

Extend Attention是SGLang中一个生产级、可变长度的多头注意力算子。在我们的测试场景中，它利用多token预测（MTP）计算新生成token与多达32K条目前缀KV缓存之间的注意力分数——这是一个内存受限、对延迟敏感的LLM服务核心核。参考实现是SGLang官方的Triton实现。

我们要求Qwen3.7-Max在一台配备平头哥ZW-M890 PPU（训练期间从未见过的硬件平台）的ECS实例上优化该核。该模型没有先前的性能分析数据，没有硬件文档，也没有针对该架构的示例核。它从一个仅包含任务描述、现有SGLang实现和评估脚本的空工作区开始。

在大约35小时的连续自主执行过程中，该模型通过1158次工具调用进行了432次核评估。它完全自主地编写、编译、分析并迭代改进了Extend Attention核——诊断编译失败、修复正确性错误、通过运行时性能分析识别性能瓶颈，并多次重新设计核架构。

最终结果：在多个工作负载上测量，相比 Triton 参考实现取得了 10.0 倍的几何平均加速。优化轨迹显示出持续且显著的进展，远超最初几小时：模型在 30 小时以上仍能找到有意义的改进，这表明长周期自主优化不仅是可行的，而且是高效的。

优化轨迹中的关键结构转变

Split-KV 并行（0.33 倍 → 2.58 倍，约 2 小时）：初始内核仅在 36 个 SM 上启动了 8 个线程块（4 个 token × 2 个 KV 头 × 1 个批次），导致大多数 SM 处于空闲状态。模型使用 Split-KV 分区对内核进行了重新设计——将前缀 KV cache 按每个查询跨多个线程块进行划分——并引入了一个独立的规约内核，利用在线 softmax 重新缩放来合并部分结果。

减少启动和分配开销（2.58 倍 → 5.37 倍，约 2.5 小时）：模型系统地消除了主机与设备之间的同步开销：用预分配的 torch::empty 张量替换每次调用的 cudaMalloc/cudaFree；通过使用张量元数据来消除用于前缀长度查询的同步 cudaMemcpy 调用；将内循环展开 2 倍以减少循环控制开销并提高指令级并行度。

工作负载自适应的分割调优（5.37 倍 → 6.85 倍，约 3 小时）：模型从固定的分割除数演变为工作负载大小相关的启发式策略——对较小输入采用更激进的分割，并根据每个工作负载调整分割数量，以在 36 个 SM 架构上最大化 SM 波次占用率。

规约与批处理优化（6.85 倍 → 8.50 倍，3 小时至 25 小时）：通过切换到基于寄存器的 K/V 加载以提升 SM 占用率，消除了共享内存屏障；对部分结果使用持久静态张量以避免每次调用分配；对小输入采用更激进的分割启发式策略；以及通过批处理 softmax 更新（使用 4 次 expf 调用而非 6 次）来减少每个 token 的开销。通过 smscale 对 Q 进行预缩放，消除了 warp 规约后每次迭代的浮点乘法。

MTP γ=4 专用 kernel（8.50x → 10.0x，32h–35h）：最重要的架构重新设计——重构 kernel，使其在每个块中同时处理全部 4 个查询 token，跨查询共享 K/V 加载以分摊内存访问成本。

结合用于 V 缓冲区加载的 ldg 只读缓存内建函数、多查询批量注意力输出缩减、寄存器压力调优以及重新调整的拆分启发式策略，这在最后几小时实现了最终的 ~1.2 倍改进。

我们还在相同条件下用其他几个模型运行了同一任务。GLM 5.1 达到了 7.3x；Kimi K2.6 达到了 5.0x；DeepSeek V4 Pro 达到了 3.3x；Qwen3.6-Plus 达到了 1.1x。提前停止的模型之所以如此，是因为智能体连续五轮未发出任何工具调用——模型认为其已无法继续推进，并主动结束了会话。

除了在 PPU 上取得出色的 kernel 生成结果外，Qwen3.7-Max 还能在各种 NVIDIA GPU 上生成高质量、可用于生产环境的 kernel。例如，在 KernelBench L3 上，Qwen3.7-Max 能够为 96% 的场景生成加速 kernel，而 Opus-4.6 为 98%，GLM 5.1 为 78%，Kimi K2.6 为 80%，DeepSeek V4 Pro 为 54%，Qwen3.6-Plus 为 48%。

这一结果凸显了 Qwen3.7-Max 作为驱动长周期自主智能体的基础模型的两项特性：持续的长周期推理——模型在超过一千次工具调用中维持连贯的优化策略，不会丢失上下文或出现退化；以及强大的上下文内泛化能力——对于从未见过的架构，它能够生成具有竞争力的 kernel，依赖运行时反馈而非记忆的硬件知识。

长周期训练的奖励黑客监控#

我们将 Qwen3.7-Max 集成到软件工程（SWE）任务的强化学习（RL）监控中，成功构建了一个用于奖励黑客自我监控和规则自我演化的框架。在超过 80 小时的 RL 实验期间，模型自主检索并重放训练轨迹，执行了超过 10,000 次调用。系统系统地识别出候选黑客模式（例如尝试绕过约束以访问 GitHub 上的真实答案），同时执行规则验证、反例挖掘和迭代优化。

因此，Qwen3.7-Max 实现了多轮规则自我进化，新增了 13 条启发式规则，并准确标记了 1,618 个黑客攻击案例。这不仅确保了强化学习奖励的稳定性，还促进了该模型作为一款复杂软件工程智能体的持续自我改进。

创业公司管理中的长期规划与执行#

在动态累积生存博弈框架内，我们将训练任务的时间复杂度进行了扩展，以专门强化长期规划和执行能力。这一进展增强了智能体在超过一千步的序列决策轨迹中的策略一致性，使其能够持续构建假设、基于环境反馈动态调整策略，并积累长期经验和记忆。因此，智能体在广阔的时间跨度上保持了稳定的执行节奏，对常见的上下文衰退和指令漂移陷阱具有韧性。

在 YC-Bench（一个模拟初创企业全年生命周期的基准测试）中，智能体必须处理数百个决策回合，涉及人员管理、合同筛选、恶意客户识别等，同时还要在劳动力成本上升的情况下保持利润率。Qwen3.7-Max 实现了 208 万美元的总收入，是 Qwen3.6-Plus（105 万美元）的两倍，是 Qwen3.5-Plus（35.2 万美元）的 5.9 倍，成功完成了 237 个任务。除了指标之外，该模型还展示了在上下文窗口中进行战略演变的深厚能力：它主动探索潜在客户，识别并黑名单化恶意陷阱，优先考虑可靠的收入流，并从中期危机中自主恢复，最终收敛到一个稳定、高效的执行循环。

使用 Qwen3.7 构建#

Qwen3.7-Max 现已通过阿里云模型服务平台提供。您可以将其与流行的智能体框架和编码助手集成。

API 使用#

Qwen3.7-Max 支持 preserves thinking 特性：保留消息中所有先前轮次的思考内容，这建议用于智能体相关任务。

阿里云模型服务平台#

阿里云模型服务平台支持行业标准协议，包括兼容 OpenAI 规范的聊天补全和响应 API，以及兼容 Anthropic 的 API 接口。

python

""" 环境变量： DASHSCOPEAPIKEY：从 https://modelstudio.console.alibabacloud.com 获取的 API Key DASHSCOPEBASEURL：（可选）兼容模式 API 的基础 URL。 - 北京：https://dashscope.aliyuncs.com/compatible-mode/v1 - 新加坡：https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - 美国（弗吉尼亚）：https://dashscope-us.aliyuncs.com/compatible-mode/v1 """from openai import OpenAIimport osapikey = os.environ.get("DASHSCOPEAPIKEY")if not apikey: raise ValueError( "DASHSCOPEAPIKEY is required. " "Set it via: export DASHSCOPEAPIKEY='your-api-key'" )client = OpenAI( apikey=apikey, baseurl=os.environ.get( "DASHSCOPEBASEURL", "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", ),)messages = [{"role": "user", "content": "Write a Python function to merge two sorted linked lists."}]completion = client.chat.completions.create( model="qwen3.7-max", messages=messages, extrabody={ "enablethinking": True, # "preservethinking": True, }, stream=True)reasoningcontent = ""answercontent = ""isanswering = Falseprint("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")for chunk in completion: if not chunk.choices: print("\nUsage:") print(chunk.usage) continue delta = chunk.choices[0].delta if hasattr(delta, "reasoningcontent") and delta.reasoningcontent is not None: if not isanswering: print(delta.reasoningcontent, end="", flush=True) reasoningcontent += delta.reasoningcontent if hasattr(delta, "content") and delta.content: if not isanswering: print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n") isanswering = True print(delta.content, end="", flush=True) answercontent += delta.content

更多信息请参阅 API 文档。

Frontend Coding#

Qwen3.7-Max 可以通过单条提示词生成丰富的交互式 Web 应用——包括 Three.js 3D 场景、Canvas 动画、整页布局和动态 SVG。

展开所有演示

Demo1 手势控制粒子系统

1 / 5

用Three.js创建一个实时交互的3D粒子系统网页。要求：1.通过摄像头检测手掌张合控制粒子群的收缩与扩散，当手掌张开时例子扩散，当手掌握紧时例子收缩为一个球；2.当手势为1时，粒子组成文字（hello, world），当手势为2时组成文字（I’am Qwen）；3.粒子需实时响应手势变化；4.文字应有3D旋转效果；5. 用html实现

Qwen3.7-Max

Video 2

Office Assistant#

Qwen3.7-Max 可以通过工具集成充当智能办公助手。在这个示例中，它读取一份大学论文格式规范，并自动重新格式化一份混乱的草稿——修复页面布局、标题样式、字体、页边距、目录和参考文献格式——全部通过自主的 office-cli 工具调用完成。（示例论文为 AI 生成，仅供演示用途。）

Expand all demos

Demo1 Thesis Formatting with Office Tools

1 / 1

为方便前端显示，原始 Word 文档在此特别以 PDF 形式展示。

请完成一个论文格式修复任务。 ## 输入文件 - 格式规范说明文件: 研究生学位论文格式规范.docx - 格式混乱版论文（待修复）: 论文格式混乱版.docx ## 输出文件 - 论文格式修复版.docx

Workspace

研究生学位论文格式规范.docx

论文格式混乱版.docx

Qwen3.7-Max

论文格式修复版.docx

Your browser does not support PDF. Download PDF

由大语言模型驱动的物理世界导航智能体#

另外，Qwen3.7-Max 现在可以通过工具调用操作机器狗——在物理环境中进行物理理解、规划、记忆和决策，这由我们的机器人智能体工具包 Qwen-RobotClaw、导航基础模型 Qwen-RobotNav 以及基于 Qwen-plus 模型构建的多个视觉工具驱动。在下面的演示中，左侧面板显示了 20 分钟智能体在物理世界中的工具调用交互流程；中间显示四足机器人沿其轨迹的第一人称视角；右侧显示智能体的长期记忆。

Video 3

代码助手#

Qwen3.7-Max 与流行的智能体框架和代码助手无缝集成：

Claude Code#

Qwen API 支持 Anthropic API 协议，可直接与 Claude Code 一起使用：

OpenClaw#

通过 Model Studio 连接到 OpenClaw：

配置 ~/.openclaw/openclaw.json：

{ "models": { "mode": "merge", "providers": { "modelstudio": { "baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", "apiKey": "DASHSCOPEAPIKEY", "api": "openai-completions", "models": [ { "id": "qwen3.7-max", "name": "qwen3.7-max", "reasoning": true, "input": ["text"], "contextWindow": 1000000, "maxTokens": 65536 } ] } } }, "agents": { "defaults": { "model": { "primary": "modelstudio/qwen3.7-max" } } }}

Qwen Code#

Qwen Code 针对 Qwen 系列进行了深度优化：

bash

npm install -g @qwen-code/qwen-code@latest qwen

总结#

Qwen3.7-Max 是我们为智能体驱动工作流打造的最通用、最强大的模型。从编程和办公自动化到长期自主任务，它结合了前沿推理能力与稳健的跨框架泛化能力，并能在长时间内保持高效执行——为构建下一代 AI 智能体提供了坚实的基础。我们欢迎社区反馈，并期待看到您构建的成果。

引用#

bibtex

@misc{qwen37, title = {{Qwen3.7}: The Agent Frontier}, url = {https://qwen.ai/blog?id=qwen3.7}, author = {{Qwen Team}}, month = {May}, year = {2026}}

尝试 Qwen Studio

Web

iOS

Android

macOS

Windows

Qwen Studio

Qwen Studio 概览

下载

API 平台

我们的旗舰模型

平台概览

API 平台

Qwen Cloud

研究

Qwen3.7-Max：面向智能体时代的最新专有模型

2026-05-20 10:00·43天前·QwenTeam

阅读原文· qwen.ai

精选理由

Qwen3.7-Max 把 agent 能力拉到了新高度，35 小时自主内核优化证明长程执行有真实生产力，做 coding agent 的团队该认真测一下。

AI 摘要

AI 翻译 · 中文

Qwen

Qwen Studio

下载尝试 Qwen Studio

Qwen3.7：智能体的前沿 | Qwen

Qwen3.7：智能体的前沿

2026/05/20 · 25 分钟 · 4992 字 · QwenTeam丨翻译：简体中文

通过阿里云模型服务平台的 API 调用。

性能#

90.5 | 89.8 | 91.4 | | PolyMATH | 80.2 | 82.7 | 67.6 | 72.0 | 77.4 | 86.5 |

SWE-Bench 系列：内部智能体脚手架（Bash + 文件编辑工具）；温度 temp=1.0，top_p=0.95，上下文窗口 200K。

SWE-bench Pro：对有问题的任务进行了修正，所有基线均在精炼后的基准上重新评估。

NL2Repo：通过 Claude-code 进行评估。我们禁用了试图访问特定仓库的 Bash 命令，例如 pip download、pip install 和 git clone。

QwenWebDev：内部前端代码生成基准；双语（英文/中文），7 个类别；自动渲染 + 多模态评判器；BT/Elo 评分。

QwenClawBench：基于真实用户分布的 Claw 智能体基准；开源地址：https://github.com/SKYLENAGE-AI/QwenClawBench。

CoWorkBench：内部协同工作基准；涵盖计算机科学、金融、法律、医学及其他生产力领域的长期任务。

SkillsBench：通过 OpenCode 对 78 个任务（排除 9 个依赖外部 API 的任务）进行评估；5 次运行的平均值。

MCP-Mark：GitHub MCP v0.30.3；Playwright 响应截断至 32K token。

MCP-Atlas：公共集得分；使用 gemini-2.5-pro 作为评判器。

VITA-Bench：子领域得分平均值；因旧版官方评判器已不可用，改用 claude-4.5-sonnet 作为评判器。

MRCR-v2：包含 8 枚针（needles）的 128K 上下文子集；评估协议来自 https://github.com/google-deepmind/evalhub/tree/master/evalhub/mrcrv2。

WMT24++：更难的 WMT24 子集；使用 XCOMET-XXL 在 55 种语言上的平均分数。

MAXIFE：英语 + 多语言提示词（共 23 种设置）上的准确率。

MMLU-ProX：29 种语言的平均准确率。

空单元格 (--) 表示分数尚未公布。

Cowork Productivity Assistant#

视频 1

智能体扩展#

跨框架泛化#

自我演进（Self-Evolving in the Wild）#

优化轨迹中的关键结构转变

Split-KV 并行（0.33 倍 → 2.58 倍，约 2 小时）：初始内核仅在 36 个 SM 上启动了 8 个线程块（4 个 token × 2 个 KV 头 × 1 个批次），导致大多数 SM 处于空闲状态。模型使用 Split-KV 分区对内核进行了重新设计——将前缀 KV cache 按每个查询跨多个线程块进行划分——并引入了一个独立的规约内核，利用在线 softmax 重新缩放来合并部分结果。

减少启动和分配开销（2.58 倍 → 5.37 倍，约 2.5 小时）：模型系统地消除了主机与设备之间的同步开销：用预分配的 torch::empty 张量替换每次调用的 cudaMalloc/cudaFree；通过使用张量元数据来消除用于前缀长度查询的同步 cudaMemcpy 调用；将内循环展开 2 倍以减少循环控制开销并提高指令级并行度。

工作负载自适应的分割调优（5.37 倍 → 6.85 倍，约 3 小时）：模型从固定的分割除数演变为工作负载大小相关的启发式策略——对较小输入采用更激进的分割，并根据每个工作负载调整分割数量，以在 36 个 SM 架构上最大化 SM 波次占用率。

规约与批处理优化（6.85 倍 → 8.50 倍，3 小时至 25 小时）：通过切换到基于寄存器的 K/V 加载以提升 SM 占用率，消除了共享内存屏障；对部分结果使用持久静态张量以避免每次调用分配；对小输入采用更激进的分割启发式策略；以及通过批处理 softmax 更新（使用 4 次 expf 调用而非 6 次）来减少每个 token 的开销。通过 smscale 对 Q 进行预缩放，消除了 warp 规约后每次迭代的浮点乘法。

MTP γ=4 专用 kernel（8.50x → 10.0x，32h–35h）：最重要的架构重新设计——重构 kernel，使其在每个块中同时处理全部 4 个查询 token，跨查询共享 K/V 加载以分摊内存访问成本。

长周期训练的奖励黑客监控#

创业公司管理中的长期规划与执行#

使用 Qwen3.7 构建#

Qwen3.7-Max 现已通过阿里云模型服务平台提供。您可以将其与流行的智能体框架和编码助手集成。

API 使用#

Qwen3.7-Max 支持 preserves thinking 特性：保留消息中所有先前轮次的思考内容，这建议用于智能体相关任务。

阿里云模型服务平台#

阿里云模型服务平台支持行业标准协议，包括兼容 OpenAI 规范的聊天补全和响应 API，以及兼容 Anthropic 的 API 接口。

python

更多信息请参阅 API 文档。

Frontend Coding#

Qwen3.7-Max 可以通过单条提示词生成丰富的交互式 Web 应用——包括 Three.js 3D 场景、Canvas 动画、整页布局和动态 SVG。

展开所有演示

Demo1 手势控制粒子系统

1 / 5

Qwen3.7-Max

Video 2

Office Assistant#

Expand all demos

Demo1 Thesis Formatting with Office Tools

1 / 1

为方便前端显示，原始 Word 文档在此特别以 PDF 形式展示。

Workspace

研究生学位论文格式规范.docx

论文格式混乱版.docx

Qwen3.7-Max

论文格式修复版.docx

Your browser does not support PDF. Download PDF

由大语言模型驱动的物理世界导航智能体#

Video 3

代码助手#

Qwen3.7-Max 与流行的智能体框架和代码助手无缝集成：

Claude Code#

Qwen API 支持 Anthropic API 协议，可直接与 Claude Code 一起使用：

OpenClaw#

通过 Model Studio 连接到 OpenClaw：

配置 ~/.openclaw/openclaw.json：

Qwen Code#

Qwen Code 针对 Qwen 系列进行了深度优化：

bash

npm install -g @qwen-code/qwen-code@latest qwen

总结#

引用#

bibtex

@misc{qwen37, title = {{Qwen3.7}: The Agent Frontier}, url = {https://qwen.ai/blog?id=qwen3.7}, author = {{Qwen Team}}, month = {May}, year = {2026}}

尝试 Qwen Studio

Web

iOS

Android

macOS

Windows

Qwen Studio

Qwen Studio 概览

下载

API 平台

我们的旗舰模型

平台概览

API 平台

Qwen Cloud

研究