6月17日

10:33

HuggingFace Daily Papers（社区热门论文）

GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准，包含15个游戏家族的140项任务，要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心，通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示，最强智能体仅取得41.46%的成绩，多数低于40%。智能体虽能实现可识别游戏机制，但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。

智能体编码论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

LoopCoder-v2：仅循环一次实现高效测试时计算扩展

LoopCoder-v2 是一族 7B 参数的并行循环 Transformer（PLT）代码模型，从零在 18T tokens 上预训练。与无循环基线相比，两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升，SWE-bench Verified 从 43.0 到 64.4，Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降，揭示循环计数的非单调效应：循环 2 提供主要改进，后续循环产生递减振荡更新，而 CLP 引入的位置偏移代价固定，导致两循环饱和。

arXiv 推理编码论文/研究

10:03

IT之家（RSS）

智谱开源GLM-5.2模型：1M无损上下文，Code Arena全球可用模型第一

智谱今日开源GLM-5.2模型，稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一，主流编程基准保持开源SOTA，与Claude Opus 4.8可比。通过极致Infra优化，1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台，预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。

开源生态模型发布编码

09:59

小互@xiaohu

Cursor CEO Michael Truell：目标是发明一种新型编程

Cursor CEO Michael Truell提出目标：发明一种新型编程，让人用最简洁的方式描述意图，其余交给模型。他反对两种主流设想——“一切照旧”派（继续用TypeScript/Go等正式语言）和“纯聊天机器人”派（对bot说句话就改代码），认为前者低估模型进步，后者缺乏精确控制。他的设想是“代码之后”的世界：用类似英文伪代码表达软件逻辑，能在高层级编辑、精准指向修改，让难懂的符号变成可读可改的形式。

大佬观点编码

09:20

公众号：智谱（GLM）

GLM-5.2上线并开源：专注Coding与长程任务

智谱今日发布并开源GLM-5.2，在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计，实现1M无损上下文，支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%，超过GPT-5.5（1%）和Opus 4.7（11%）；Terminal-Bench 2.1上比Opus 4.8低4%，较GLM-5.1提升17.5%。引入思考档位控制，Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍，改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源，API已上线并纳入GLM Coding Plan。

智能体 Hugging Face 模型发布编码

关联讨论 10 条

09:05

AYi@AYi_AInotes

Cursor 推出 Origin：面向 AI 智能体的代码托管平台

Cursor 发布新产品 Origin，定位为 AI 原生时代的 GitHub。Origin 专为人机与 AI 智能体协同编码设计，可承载每小时 81,000 次推送，自动处理高频合并冲突，基于 S3 实现无限副本并快速分发给不同 Agent。它原生兼容 Git，现有工作流无需改动，形成从 IDE 编辑器、代码托管到智能评审的全链路闭环。Origin 将于 2025 年秋季上线，现已开放候补名单。

Cursor: We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...

智能体产品更新编码

08:36

meng shao@shao__meng

Cursor 发布 Origin：要做 Agent 时代的 GitHub

刚被 SpaceX 收购的 Cursor 宣布推出代码托管与 Git 协作平台 Origin，目标是将自身从 AI Editor 升级为端到端开发平台，打通写、存、审、合全链路。Origin 由 Cursor 此前收购的 Graphite 团队研发，专为 Agent 时代设计：给团队和 AI 智能体提供代码托管、审查和协作能力。目前官网已开放 waitlist，预计今年秋季正式上线。

Cursor: We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...

智能体产品更新编码

08:35

Berryxia.AI@berryxia

GLM-5.2 开源发布：MIT 协议、1M 上下文、强化长程 Agent 能力

GLM-5.2 以 MIT 协议开源权重，支持 1M 上下文窗口。相比 GLM-5.1，在 Coding、Tool use、Reasoning 上明显提升，尤其在长程 Agent 任务（大规模代码实现、自动化研究、性能优化、复杂调试）中更稳定。提供 Max 和 High 两种推理模式，分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外，Slide 生成、长文档处理和角色扮演等任务也有进步。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体 Hugging Face 开源/仓库模型发布

07:36

SemiAnalysis@SemiAnalysis_

分析SemiAnalysis内部使用情况，Claude在编码和深度研究方面仍然碾压。尽管Codex的桌面应用UI更好，但Claude的采用率仍然更高。

Anthropic 现象/趋势编码

05:56

Chubby♨️@kimmonismus

GLM-5.2 以 Elo 1360 在 Design Arena 代码类别中跃居第一，超越现已下架的 Claude Fable 5，且权重开放。这是自该榜单启动以来代码类别的最高 Elo 分数之一，较之前提升了 4 个名次和 27 Elo 分。 Open Source is so back. Let's freaking go

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准

05:04

Emad@EMostaque

SpaceX 已行使期权，以全股交易收购 @cursor_ai，目标是打造世界上最有用的 AI 模型。过去几个月，SpaceXAI 与 Cursor 联合训练了一款模型，即将在 Cursor 和 Grok Build 中发布。Emad Mostaque 发文问："他们会把它改名为 CodeX 吗？"

SpaceX: SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...

编码行业动态

关联讨论 7 条