# DeepSWE 基准测试发布，GLM-5.2 与 Kimi-K2.7-Code 分别成为国产编程 SOTA 与性价比 SOTA

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-22 14:27
- AIHOT 分数：54
- AIHOT 链接：https://aihot.virxact.com/items/cmqoujtmv04g6slx6h63zrhaw
- 原文链接：https://x.com/karminski3/status/2068943914552463540

## AI 摘要

DeepSWE 基准测试发布榜单，GLM-5.2 为国产编程大模型 SOTA，Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同：问题由人工针对开源项目制造，可避免数据泄露；每个问题需修改上百行代码，考验模型规划能力，且不提供工具指引，更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言，而非仅 Python。榜单于 5 月发布。

## 正文

国产模型最近这一波打得太精准了

DeepSWE benchmark 放出了榜单， 从分数上看， GLM-5.2 无疑是国产编程大模型SOTA了， 而 Kimi-K2.7-Code 则是性价比SOTA. 图上几个折线是对应模型的不同推理程度的得分情况.

DeepSWE 我觉得是最近非常值得的关注的的榜单了， 这个虽然也叫xxSWE， 但是它用的不是像SWE那种github上爬取的PR或者issue， 而是完全根据开源项目人工制造的问题， 然后让大模型修改. 能最大限度避免大模型提前炼这些问题（起码需要一段时间了， 5月份刚出的）

并且修改范围也很大，SWE-Bench-verified 通常一个提交也就几十行代码， 而 DeepSWE 每个问题都要上百行提交才能解决问题， 并且很考验模型的规划能力， SWE-Bench-Verified 通常会把所有需要的工具给到错误日志啥的也有， 并且提示词也写好告诉模型该怎么用. 而 DeepSWE 纯靠模型自己摸索， 非常像现实中修改项目代码的过程. 我觉得是涵盖了一部分工程能力测试的.

另外 SWE-Bench-verified 测得大部分都是 Python， 而 DeepSWE 则涵盖了TypeScript、Go、Python、JavaScript、Rust. 所以我强烈建议关注大模型编程能力测试的同学过关注一波这个测试.

#DeepSWE #SWEBench #glm #kimi