Qwen3.7-Plus:多模态智能体模型发布
阅读原文· qwen.aiQwen3.7-Plus 把视觉感知、GUI 操作和编码能力整合进同一个 agent 模型,在 ScreenSpot 和浏览器操作上的提升很实在,做自动化的开发者值得上手试试。
阿里云通义千问推出 Qwen3.7-Plus,基于 Qwen3.7 文本骨干,增强视觉语言能力,保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题,融合 GUI 与 CLI 交互,跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3,SWE-Verified 77.7,QwenWorldBench 62.1,GPQA Diamond 90.3,MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。
Qwen
Qwen Studio
更多
EN
下载 试用 Qwen Studio
Qwen3.7-Plus:多模态智能体智能 | Qwen
Qwen3.7-Plus:多模态智能体智能
2026/06/01 · 36 分钟 · 7284 字 · QwenTeam丨翻译:简体中文
DISCORD
今天我们介绍 Qwen3.7-Plus——一个多模态智能体模型,它将视觉和语言统一到一个单一、通用的智能体基础之上。基于 Qwen3.7 强大的文本主干,Qwen3.7-Plus 在视觉语言能力上实现了全面升级,同时保留了在编码、工具使用和生产力工作流程中的全部智能体能力。
让 Qwen3.7-Plus 与众不同的是它作为多模态交互式混合智能体的能力。它感知真实世界场景、读取屏幕并操作图形用户界面、根据视觉参考编写代码、端到端地导航移动应用,并回答基于网络知识的视觉问题——在单个智能体循环中无缝融合 GUI 和 CLI 交互。作为一个通用编码智能体和生产力助手,它处理从前端原型设计到复杂软件工程以及多步骤工作流自动化的全范围任务,输入支持全模态。它能够在不同的智能体框架上泛化,无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,都能保持一致的性能。
Qwen3.7-Plus——现可通过阿里云百炼使用: 多模态交互式混合智能体:跨视觉和文本任务的统一 GUI 和 CLI 操作 支持全模态输入的通用编码智能体和生产力助手 视觉智能体:感知、推理、定位和搜索增强型问答 跨多种智能体框架的泛化能力
通过阿里云百炼的 API 调用。
性能#
文本基准测试#
| | Opus-4.6 Max | K2.6 Thinking | GLM-5.1 Thinking | DeepSeek-V4-Pro Max | Qwen3.6-Plus | Qwen3.7-Plus | | --- | --- | --- | --- | --- | --- | --- | | 编程AI智能体 | | Terminal Bench 2.0-Terminus | 65.4 | 66.7 | 63.5 | 67.9 | 61.6 | 70.3 | | SWE-Verified | 80.8 | 80.2 | -- | 80.6 | 78.8 | 77.7 | | SWE-Pro | 57.3 | 59.5 | 58.8 | 59.0 | 56.6 | 57.6 | | SWE-Multilingual | 77.5 | 76.7 | -- | 76.2 | 73.8 | 75.8 | | NL2repo | 47.6 | 42.8 | 41.0 | 35.5 | 34.4 | 41.1 | | SciCode | 51.9 | 52.2 | 45.1 | -- | 41.4 | 51.3 | | QwenWebDev | 1617 | -- | 1564 | 1570 | 1500 | 1536 | | QwenSVG | 1541 | 1325 | 1605 | 1506 | 1432 | 1588 | | 通用AI智能体 | | Qwenclaw | 65.5 | 54.7 | 58.7 | 59.2 | 57.2 | 61.8 | | CoWorkBench | 68.2 | 58.2 | 66.0 | 66.3 | 64.5 | 65.1 | | ClawEval | 70.4 | 61.5 | 62.7 | 58.4 | 57.1 | 62.7 | | Skillsbench | -- | 56.2 | 53.1 | 52.3 | 45.7 | 54.9 | | BFCL-V4 | 76.7 | 71.3 | 70.9 | 70.6 | 68.9 | 72.9 | | MCP-Mark | 56.7 | 55.9 | 57.5 | 57.1 | 48.2 | 58.7 | | MCP-Atlas | 75.8 | 66.6 | 71.8 | 73.6 | 74.1 | 73.2 | | Vitabench | -- | 39.1 | 45.1 | 51.9 | 42.8 | 45.6 | | Deep-Planning | 58.9 | 42.3 | 34.1 | 44.6 | 40.9 | 62.3 | | SpreadSheetBench-v1 | 89.3 | 84.5 | 85.2 | 84.9 | 80.2 | 86.3 | | Kernel Bench L3 | 2.63/98% | 1.41/80% | 2.00/78% | 1.07/54% | 1.03/48% | 2.06/98% | | QwenWorldBench | 56.1 | 50.9 | 50.2 | 52.3 | 47.6 | 62.1 | | STEM与推理 | | GPQA Diamond | 91.3 | 90.5 | 86.2 | 90.1 | 90.4 | 90.3 | | HLE | 40.0 | 36.4 | 34.7 | 37.7 | 28.8 | 34.7 | | LiveCodeBench | 88.8 | 89.6 | -- | 93.5 | 87.1 | 89.6 | | HMMT 2026 Feb | 96.2 | 92.7 | 89.4 | 95.2 | 87.8 | 92.9 | | IMOAnswerBench | 75.3 | 86.0 | 83.8 | 89.8 | 83.8 | 86.0 | | CritPT | 12.6 | 8.0 | 4.6 | 12.9 | 2.9 | 6.0 | | Apex | 34.5 | 24.0 | 11.5 | 38.3 | 8.8 | 22.7 | | 通用能力 | | MMLU-Pro | 89.7 | 87.1 | 86.3 | 87.5 | 88.5 | 88.5 | | MMLU-Redux | 95.2 | 95.3 | 94.3 | 94.8 | 94.5 | 94.5 | | SuperGPQA | 72.5 | 71.3 | 68.0 | 69.9 | 71.6 | 71.4 | | IFEval | 91.9 | 94.5 | 94.5 | 91.9 | 94.3 | 94.6 | | IFBench | 62.5 | 76.0 | 76.0 | 77.0 | 74.2 | 79.1 | | MRCR-v2 128k | 84.0 | 63.1 | 62.0 | 74.4 | 85.9 | 91.7 | | 多语言能力 | | WMT24++ | 82.7 | 81.6 | 81.8 | 82.2 | 84.3 | 84.6 | | MAXIFE | 81.3 | 87.7 | 87.7 | 88.9 | 88.2 | 88.8 | | MMMLU | 90.6 | 87.5 | 87.2 | 87.9 | 89.5 | 89.0 | | MMLU-ProX | 86.1 | 83.7 | 83.9 | 83.9 | 84.7 | 85.4 | | NOVA-63 | 59.1 | 56.7 | 54.6 | 52.8 | 57.9 | 58.8 | | INCLUDE | 87.4 | 84.2 | 84.3 | 86.1 | 85.1 | 83.0 | | Global PIQA | 91.2 | 89.2 |
89.5 | 90.5 | 89.8 | 90.3 | | PolyMATH | 80.2 | 82.7 | 67.6 | 72.0 | 77.4 | 84.0 |
Terminal-Bench 2.0:Harbor/Terminus-2 测试框架;5小时超时,12 CPU/24 GB 内存;temp=1.0,topp=0.95,topk=20,maxtokens=80K,256K 上下文窗口;5次运行的平均值。所有实验在每一轮对话前添加 `` token,让模型自行决定是否启动扩展推理。
SWE-Bench 系列:内部智能体脚手架(bash + 文件编辑工具);temp=1.0,topp=0.95,200K 上下文窗口。
SWE-bench Pro:对有问题的任务进行了修正,并在优化后的基准上评估了所有基线。
QwenClawBench:基于真实用户分布的 Claw 智能体基准;开源地址:https://github.com/SKYLENAGE-AI/QwenClawBench。
CoWorkBench:内部协作基准;涵盖计算机科学、金融、法律、医疗及其他生产力领域的长期任务。
SkillsBench:通过 OpenCode 在 78 个任务上评估(排除 9 个依赖外部 API 的任务);5次运行的平均值。
MCP-Mark:GitHub MCP v0.30.3;Playwright 响应截断至 32K token。
MCP-Atlas:公开集评分;使用 gemini-2.5-pro 作为评判器。
VITA-Bench:各子领域得分平均值;使用 claude-4.5-sonnet 作为评判器,因为旧的官方评判器已不再可用。
Kernel Bench L3:报告的指标:在 50 个问题上,每个问题相对于 PyTorch eager 参考实现的加速中位数 / 比 torch.compile 更快的问题比例。每个测试样本在隔离的 Docker 容器中运行,配备一块 H100 80GB GPU,网络访问限制为 CUTLASS 代码库和官方 CUDA 文档,最多允许 500 次工具调用,在连续 100 次未改进后提前停止。GPT-5.4 (xhigh) 用于检测潜在的作弊行为。CUPTI 用于内核级计时。
推理场景:推荐系统提示词:"推理力度设置为 xhigh。请仔细思考任务,验证关键假设,考虑合理的替代方案,并在最终答案中优先确保正确性、一致性和清晰度。"
WMT24++:更难的 WMT24 子集;通过 XCOMET-XXL 在 55 种语言上的平均得分。
MAXIFE:英语 + 多语言提示词(共 23 种设置)上的准确率。
MMLU-ProX:在 29 种语言上的平均准确率。
空单元格 (--) 表示得分尚未公布。
Qwen3.7-Plus 提供了具有竞争力的文本性能,全面接近 Max 级别模型。
在编程智能体方面,它在 Terminal Bench 2.0、SWE-bench 系列和 SciCode 上表现强劲,能够有效处理现实世界中的软件工程和科学编程任务。
在通用智能体方面,它在 MCP-Mark、Deep-Planning 和 Kernel Bench L3 上展示了强大的工具使用和规划能力,在复杂多步规划和 GPU 内核优化方面尤为突出。
它在 GPQA Diamond、HMMT 和 IMOAnswerBench 上的推理性能使其跻身于硬核 STEM 基准测试中最强的 Plus 级别模型之列。
在指令遵循和多语言任务方面,它在 IFBench、WMT24++ 和 PolyMATH 上提供了一致的质量,对多种语言覆盖良好。
多模态基准测试#
| | GPT-5.4 (xhigh) | Opus-4.6 Max | Gemini-3.1 Pro | Qwen3.6-Plus | Qwen3.7-Plus | | --- | --- | --- | --- | --- | --- | | 多模态推理 | | MMMU-Pro | 81.2 | 73.9 | 81.8 | 78.8 | 79.0 | | MathVision | 91.0 | 65.5 | 87.4 | 88.0 | 90.3 | | BabyVision | 53.1 | 12.6 | 55.9 | 37.4 | 70.4 / 64.7 | | CharXiv(RQ) | 84.5 | 66.0 | 84.4 | 81.5 | 85.9 / 84.4 | | HiPhO | 65.0 | 40.8 | 85.4 | 80.4 | 84.1 | | ERQA | 67.8 | 40.8 | 68.0 | 65.7 | 69.8 | | VisFactor | 40.8 | 24.4 | 39.8 | 36.0 | 42.8 | | MedXpertQA-MM | 77.3 | 64.4 | 80.7 | 68.7 | 71.0 | | 视觉智能体与编程 | | ScreenSpot Pro | 67.4 | 49.5 | 68.1 | 68.2 | 79.0 | | OSWorld-Verified | 75.0 | 72.7 | -- | 62.5 | 73.3 | | AndroidWorld | -- | 62.0 | 70.7 | 67.2 | 81.0 | | QwenVision2Code | 1884.0 | 1518.0 | 1632.0 | 1522.0 | 1772.0 | | ClawEval-MM | 54.4 | 54.7 | 45.7 | 49.1 | 55.7 | | 多模态搜索与知识问答 | | SimpleVQA | 69.4 | 79.6 | 76.9 | 69.4 | 81.7 | | WorldVQA | 45.9 | 65.4 | 56.1 | 33.6 | 61.1 | | MMSearchPlus | 19.7 | 38.9 | 42.0 | 19.6 | 41.4 | | BC-VL | 48.1 | 51.5 | 49.9 | 26.1 | 51.1 | | MMBC | 18.8 | 46.3 | 28.2 | 18.3 | 46.3 | | 通用视觉理解 | | RealWorldQA | 83.8 | 73.9 | 83.5 | 85.4 | 86.9 | | CountQA | 58.4 | 32.5 | 72.8 | 71.7 | 77.0 | | OmniDocBench1.5 | 85.5 | 86.6 | 90.0 | 91.2 | 91.4 | | OCR-Bench-V2(EN) | 59.1 | 54.3 | 64.6 | 67.0 | 70.7 | | OCR-Bench-V2(ZH) | 57.7 | 54.9 | 58.2 | 63.6 | 67.1 | | ODinW13 | -- | -- | -- | 51.8 | 51.1 | | 自动驾驶 | | LingoQA | 78.2 | 77.6 | 66.8 | 76.0 | 83.4 | | Ego3D-Bench↓ | 6.9 | 8.1 | 10.4 | 6.1 | 5.9 | | SURDS | 64.6 | 58.3 | 64.0 | 73.2 | 77.2 | | VLADBench | 77.1 | 48.0 | 73.1 | 75.6 | 77.2 | | 视频理解 | | VideoMME (w/ sub.) | 89.5 | 86.1 | 88.4 | 87.8 | 88.0 | | VideoMMMU | 82.4 | 85.2 | 85.3 | 84.0 | 85.4 | | MLVU (M-Avg) | 86.1 | 81.7 | 84.7 | 86.7 | 87.4 | | TVBench | 82.5 | 69.8 | 73.0 | 76.0 | 78.2 | | LVBench | 77.4 | 63.0 | 75.1 | 74.8 | 76.2 |
多模态搜索与知识问答:所有模型均在启用搜索增强的情况下进行评估。
BabyVision 和 CharXiv(RQ):分数报告为“带 CI / 不带 CI”。
VideoMME (w/ sub.):分数报告时带有字幕。
BC-VL 和 MMBC:分数报告时在 BC 任务中使用推荐的 presence penalty 1.5。
ScreenSpot Pro 和 OSWorld-Verified:分数报告时使用 "enablethinking=False"。
空单元格 (--) 表示分数暂未公布。
Qwen3.7-Plus 的多模态改进并不局限于视觉理解方面的孤立提升。相反,它们反映了对多模态智能体所需核心能力的系统性增强:理解复杂视觉输入、基于视觉信息进行推理、使用工具解决问题,以及最终在代码或 GUI 环境中执行任务。
在多模态推理方面,Qwen3.7-Plus 在 BabyVision、MathVision、HiPhO、ERQA 和 VisFactor 等极具挑战性的视觉推理基准测试中表现出色。这些结果证明了该模型整合细粒度视觉感知、空间关系、物理常识和多步骤逻辑推理的能力。特别是,与 Qwen3.6-Plus 相比,它在 BabyVision 上的显著提升表明,该模型在与早期人类视觉认知和空间推理更接近的任务上具有更强的泛化能力。
在视觉智能体与编码方面,Qwen3.7-Plus 在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上显示出显著提升。这表明该模型不仅能识别屏幕内容,还能定位关键 UI 元素、理解任务意图并完成多步骤交互。在 QwenVision2Code 上,该模型还展示了强大的视觉到代码生成能力,可将图像、视频和设计参考转换为可执行代码。这些能力为多模态智能体从“理解界面”走向“操作界面”甚至“构建界面”奠定了基础。
在多模态搜索与知识问答方面,Qwen3.7-Plus 在 SimpleVQA、WorldVQA、MMSearchPlus、BC-VL 和 MMBC 上取得了明显提升。该模型能够将视觉输入与外部知识检索相结合,回答那些仅靠图像内容无法解决的问题。这使得它更适合实际应用场景——用户并非简单询问“图像中有什么”,而是期望模型结合视觉证据、常识和最新知识来提供可靠的答案。
在通用视觉理解方面,Qwen3.7-Plus 在现实场景、文档解析、图表理解、OCR、计数和空间定位等任务上保持了强劲性能。它在 RealWorldQA、CountQA、OmniDocBench、CharXiv 和 OCR-Bench-V2 等任务上表现优异。这些能力对于稳健处理真实的业务输入至关重要,包括截图、收据、表格、报告、海报、产品图像以及复杂的 UI 页面。
Beyond images, Qwen3.7-Plus further strengthens video understanding and driving-scene understanding. 在图像之外,Qwen3.7-Plus 进一步增强了视频理解与驾驶场景理解的能力。
On video benchmarks such as VideoMMMU, MLVU, TVBench, and LVBench, it can reason over events, actions, temporal dynamics, and semantic relationships in both short and long videos. 在 VideoMMMU、MLVU、TVBench、LVBench 等视频评测基准上,它能够对短片段和长视频中的事件、动作、时间动态以及语义关系进行推理。
On driving-related evaluations such as LingoQA, Ego3D-Bench, SURDS, and VLADBench, it also demonstrates strong understanding of dynamic scenes, traffic participants, and spatial relationships. 在 LingoQA、Ego3D-Bench、SURDS、VLADBench 等驾驶相关评测中,它还展现出对动态场景、交通参与者以及空间关系的强大理解能力。
These capabilities lay an important foundation for real-world multimodal agents, autonomous driving understanding, and embodied AI scenarios. 这些能力为现实世界中的多模态智能体、自动驾驶理解以及具身 AI 场景奠定了重要基础。
Build with Qwen3.7-Plus# 使用 Qwen3.7-Plus 构建
Qwen3.7-Plus is now available through Alibaba Cloud Model Studio. Qwen3.7-Plus 现已通过阿里云百炼平台提供。
API Usage# API 用法
As a multimodal model, Qwen3.7-Plus accepts both text and image/video inputs. 作为多模态模型,Qwen3.7-Plus 同时接受文本、图像/视频输入。
It also supports the preservethinking feature: preserving thinking content from all preceding turns in messages, which is recommended for agentic tasks. 它还支持 preservethinking 功能:保留消息中此前所有轮次的思考内容,推荐用于智能体类任务。
Alibaba Cloud Model Studio# 阿里云百炼平台
Alibaba Cloud Model Studio supports industry-standard protocols, including chat completions and responses APIs compatible with OpenAI’s specification. 阿里云百炼平台支持行业标准协议,包括兼容 OpenAI 规范的 chat completions 和 responses API。
python python
环境变量: DASHSCOPEAPIKEY:你来自 https://modelstudio.console.alibabacloud.com 的 API 密钥 DASHSCOPEBASEURL:(可选)兼容模式 API 的基础 URL。 - 北京:https://dashscope.aliyuncs.com/compatible-mode/v1 - 新加坡:https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - 美国(弗吉尼亚):https://dashscope-us.aliyuncs.com/compatible-mode/v1
apikey = os.environ.get("DASHSCOPEAPIKEY") if not apikey: raise ValueError( "DASHSCOPEAPIKEY is required. " "Set it via: export DASHSCOPEAPIKEY='your-api-key'" )
client = OpenAI( apikey=apikey, baseurl=os.environ.get( "DASHSCOPEBASEURL", "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", ), )
messages = [{"role": "user", "content": "Write a Python function to merge two sorted linked lists."}]
completion = client.chat.completions.create( model="qwen3.7-plus", messages=messages, extrabody={ "enablethinking": True, # "preservethinking": True, }, stream=True )
reasoningcontent = "" answercontent = "" isanswering = False
print("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")
for chunk in completion: if not chunk.choices: print("\nUsage:") print(chunk.usage) continue delta = chunk.choices[0].delta if hasattr(delta, "reasoningcontent") and delta.reasoningcontent is not None: if not isanswering: print(delta.reasoningcontent, end="", flush=True) reasoningcontent += delta.reasoningcontent if hasattr(delta, "content") and delta.content: if not isanswering: print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n") isanswering = True print(delta.content, end="", flush=True) answercontent += delta.content ```
更多信息请参阅 API 文档。
多模态交互式混合智能体#
Qwen3.7-Plus 具备多模态混合智能体能力,专为真实世界任务的闭环执行而设计。它不仅能理解视觉界面、感知屏幕内容、执行 GUI 交互和 CLI 操作,还能利用环境反馈进行代码生成、应用操作、测试、验证和迭代优化。通过将“看、想、写、做、验”的完整工作流整合到统一的智能体循环中,它能够实现从初始理解到最终交付的端到端自动化复杂软件任务。
我们基于 Qwen3.7 构建了 Hybrid-Agent 智能智能体系统,深度融合了大语言模型的代码生成能力与 GUI 自动化执行,实现了从需求分析到版本迭代的全链路 APP 开发。该智能体持续稳定运行超过 11 小时,完全自动化完成了一个英语词汇学习 APP 的完整研发周期。它生成了超过 10,000+ 行代码,触发了 1,000+ 次智能体调用,覆盖了整个软件开发生命周期的核心阶段:需求文档生成、自动化编码、安装部署、测试用例创建、基于 GUI 的自动化测试、多场景并行测试、产品文档自动更新以及自主版本演进。
Video 1
针对专业桌面应用场景,Hybrid-Agent 系统深度融合了模型的 GUI 感知与代码生成能力,实现了专业桌面应用的一键自主复制。该智能体自主完成了原生 macOS Stocks 应用的高保真复制,覆盖从需求理解到交付验证的全流程:自主与原生应用交互以理解 UI 布局和功能细节,从交互记录生成 SwiftUI 源代码,接入 LongBridge 真实市场 API 获取实时数据,自动编译并启动复制的应用,最后自主执行了 10 项功能验证测试——包括实时报价加载、股票选择和切换、多周期视图切换、搜索过滤以及详细统计面板展示——全部通过。交付的应用忠实地还原了原生 Stocks 应用的深色主题、分栏布局、实时市场数据和完整的交互性。
Video 2
Visual Agent#
Qwen3.7-Plus 可以作为一个强大的视觉智能体,结合视觉理解与工具使用来解决复杂的视觉任务。通过与代码解释器的集成,它可以分析图像以发现差异、完成缺失的拼图块、解决滑动块谜题、导航迷宫以及组装拼图——所有这些都通过自主生成和执行代码来实现。借助搜索增强功能,它还可以利用网络知识对真实世界的视觉问题进行推理,并在单图、多图和视频输入中提供多模态答案。
下面我们展示几个示例,演示 Qwen3.7-Plus 的多模态智能体能力。
多模态推理#
对于多模态推理,我们引入代码执行,以进一步增强模型的问题解决能力。模型首先理解视觉输入中的结构和约束,然后将视觉任务转化为可计算的表示,最后编写并执行代码来求解、搜索或验证答案。
在找不同、补全缺失块、滑块拼图、迷宫和拼图等任务中,模型不仅需要识别视觉内容,还必须进行空间建模、路径搜索、状态模拟和结果验证。这些示例凸显了 Qwen3.7-Plus 从视觉感知到程序化问题解决的能力。
展开所有演示
演示1 找不同
1 / 5
Video 3
多模态搜索#
在搜索增强的视觉问答中,Qwen3.7-Plus 可以将图像、视频或多图像输入与网络搜索相结合,回答现实世界的知识性问题。模型首先从视觉输入中提取关键实体、场景、文本和上下文线索,然后通过搜索检索外部知识,最后将视觉证据与检索到的信息进行综合,生成答案。
这使得模型能够处理各种开放世界问题,例如识别地点、理解事件背景、分析产品或物体,以及回答依赖最新知识的视觉问题。
展开所有演示
演示1 现实世界 VQA
1 / 4
Video 4
视觉编码#
Qwen3.7-Plus 展示了强大的视觉到代码生成能力。它可以将图像、视频、UI 截图和设计参考转化为可执行代码,涵盖从 SVG 重构到完整网页生成的广泛场景。
图像/视频转 SVG#
在图像/视频转 SVG 任务中,模型需要理解几何结构、颜色、布局、层级关系以及视觉内容中的动态变化,然后用代码精确表达这些元素。这不仅需要视觉理解能力,还需要结构化表示和代码生成能力。
对于图标、插图、动画、图形设计和信息可视化,这一能力可以显著降低将视觉参考转化为可编辑代码资产的成本。
展开所有演示
演示1 视觉转 SVG
1 / 5
请根据图片生成 SVG 代码。
Qwen3.7
视频 5
视觉驱动的网页设计#
在视觉驱动的网页设计中,Qwen3.7-Plus 能够根据视觉参考、视频素材或设计意图生成完整的交互式网页。该模型还可以使用生成工具为网页设计制作素材。
它不仅复现参考页面的视觉风格,还能组织布局、编写前端代码、处理交互逻辑,并将多模态素材整合到最终页面中。这展示了 Qwen3.7-Plus 作为视觉编码助手的潜力:从“给定参考图像”到“生成可运行的网页原型”。
展开所有演示
演示 1 结合视频生成的网页设计
1 / 3
视频 6
浏览器智能体#
基于 Qwen3.7-Plus 构建的浏览器智能体,通过 Qwen for Chrome(嵌入 Chrome 浏览器的扩展程序)进行演示和录制。用户可以直接在浏览器侧边栏中与 Qwen 交互,并在授权后将其切换为智能体模式。在此模式下,Qwen 能够感知当前网页、理解用户任务、规划后续步骤,并以浏览器智能体的方式直接在真实的浏览器环境中执行点击、输入、导航、配置和验证等操作。
通过这种设置,Qwen3.7 浏览器智能体将页面理解、任务规划和图形用户界面(GUI)自动化整合在一起,在真实的网页工作环境中运行。当非技术用户提出购买最便宜 ECS 服务器的请求时,该智能体可以导航云控制台、比较实例选项、选择低成本配置、设置镜像、存储、安全组和订单详情,同时在价格变动、库存不足或购买限制出现时动态调整策略。在后续任务中,该智能体进一步处理实例扩缩容和维护,完成关机、配置更新、磁盘扩展、服务恢复和最终验证。该场景涵盖了从服务器购买到升级的真实云工作流,将复杂的控制台操作流程转变为连续、高效、可交付的浏览器自动化任务。
视频 7
现实世界感知与推理#
Qwen3.7-Plus 在现实世界感知和多模态推理方面也展现出强劲性能。
现实世界场景通常比标准视觉问答复杂得多。
它们可能涉及遮挡、杂乱的背景、小物体、多实体之间的关系、跨图像比较以及隐含的物理常识。
为了可靠地回答这些问题,模型必须首先稳健地识别视觉细节,然后将它们与空间关系、常识知识和逻辑推理结合起来。
展开所有演示
演示1 现实世界计数
1 / 4
视频8
编程助手
Qwen3.7-Plus 与流行的智能体框架和编程助手无缝集成:
Claude Code#
Qwen API 支持 Anthropic API 协议,可直接与 Claude Code 配合使用:
bash
npm install -g @anthropic-ai/claude-code export ANTHROPICMODEL="qwen3.7-plus"export ANTHROPICSMALLFASTMODEL="qwen3.7-plus"export ANTHROPICBASEURL=https://dashscope-intl.aliyuncs.com/apps/anthropic export ANTHROPICAUTHTOKEN= claude
OpenClaw#
通过 Model Studio 连接到 OpenClaw:
bash
curl -fsSL https://molt.bot/install.sh | bash export DASHSCOPEAPIKEY= openclaw dashboard
配置 ~/.openclaw/openclaw.json:
json
{ "models": { "mode": "merge", "providers": { "modelstudio": { "baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", "apiKey": "DASHSCOPEAPIKEY", "api": "openai-completions", "models": [ { "id": "qwen3.7-plus", "name": "qwen3.7-plus", "reasoning": true, "input": ["text"], "contextWindow": 1000000, "maxTokens": 65536 } ] } } }, "agents": { "defaults": { "model": { "primary": "modelstudio/qwen3.7-plus" } } }}
Qwen Code#
Qwen Code 针对 Qwen 系列进行了深度优化:
bash
npm install -g @qwen-code/qwen-code@latest qwen
总结
Qwen3.7-Plus 是我们能力最强的多模态智能体模型,它将视觉理解与语言推理统一为通用的智能体基础能力。它作为一个多模态交互式混合智能体运行——能够感知真实世界场景、操作图形界面、根据视觉参考编写代码,并在 GUI 和 CLI 环境中完成端到端任务。作为一款全能的编码智能体和生产力助手,它能够处理从前端原型设计到复杂软件工程及多步骤工作流自动化的全范围任务。它能够跨智能体框架泛化,无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架进行部署,都能保持一致的性能表现。我们欢迎社区反馈,并期待看到大家基于它构建出怎样的成果。