GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准,包含15个游戏家族的140项任务,要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心,通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示,最强智能体仅取得41.46%的成绩,多数低于40%。智能体虽能实现可识别游戏机制,但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。
GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准,包含15个游戏家族的140项任务,要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心,通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示,最强智能体仅取得41.46%的成绩,多数低于40%。智能体虽能实现可识别游戏机制,但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。
LoopCoder-v2 是一族 7B 参数的并行循环 Transformer(PLT)代码模型,从零在 18T tokens 上预训练。与无循环基线相比,两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升,SWE-bench Verified 从 43.0 到 64.4,Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降,揭示循环计数的非单调效应:循环 2 提供主要改进,后续循环产生递减振荡更新,而 CLP 引入的位置偏移代价固定,导致两循环饱和。
智谱今日开源GLM-5.2模型,稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一,主流编程基准保持开源SOTA,与Claude Opus 4.8可比。通过极致Infra优化,1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台,预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。
Cursor CEO Michael Truell提出目标:发明一种新型编程,让人用最简洁的方式描述意图,其余交给模型。他反对两种主流设想——“一切照旧”派(继续用TypeScript/Go等正式语言)和“纯聊天机器人”派(对bot说句话就改代码),认为前者低估模型进步,后者缺乏精确控制。他的设想是“代码之后”的世界:用类似英文伪代码表达软件逻辑,能在高层级编辑、精准指向修改,让难懂的符号变成可读可改的形式。
智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。
关联讨论 10 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)公众号:智谱(GLM)Hugging Face:Blog(RSS)Cursor 发布新产品 Origin,定位为 AI 原生时代的 GitHub。Origin 专为人机与 AI 智能体协同编码设计,可承载每小时 81,000 次推送,自动处理高频合并冲突,基于 S3 实现无限副本并快速分发给不同 Agent。它原生兼容 Git,现有工作流无需改动,形成从 IDE 编辑器、代码托管到智能评审的全链路闭环。Origin 将于 2025 年秋季上线,现已开放候补名单。
We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...
刚被 SpaceX 收购的 Cursor 宣布推出代码托管与 Git 协作平台 Origin,目标是将自身从 AI Editor 升级为端到端开发平台,打通写、存、审、合全链路。Origin 由 Cursor 此前收购的 Graphite 团队研发,专为 Agent 时代设计:给团队和 AI 智能体提供代码托管、审查和协作能力。目前官网已开放 waitlist,预计今年秋季正式上线。
We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...
GLM-5.2 以 MIT 协议开源权重,支持 1M 上下文窗口。相比 GLM-5.1,在 Coding、Tool use、Reasoning 上明显提升,尤其在长程 Agent 任务(大规模代码实现、自动化研究、性能优化、复杂调试)中更稳定。提供 Max 和 High 两种推理模式,分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外,Slide 生成、长文档处理和角色扮演等任务也有进步。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...
关联讨论 7 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)本次次要版本修复了多项问题:流式连接中断后保留部分响应并修复 spinner 卡死;修复 WSL2(Windows Terminal / VS Code)中鼠标滚轮失效(v2.1.172 引入的回归);修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用;修复反馈调查在单次回复后立即捕获评分;修复欢迎界面每会话最多显示一个促销横幅;修复查看子 agent 时 Ctrl+O 不显示其对话记录;修复点击输入框无法从子 agent/底栏面板恢复焦点;修复远程会话后台任务轮次间显示“正在运行”但实际卡住;改进了远程会话中插件加载性能。
SpaceX周二盘中估值一度达到2.9万亿美元,短暂超越亚马逊成为全球第五大公司,随后回落至约2.6万亿美元。公司宣布以600亿美元股票收购AI编码公司Cursor,并与Anthropic和Google签署非约束性算力租赁协议。上周五IPO后公司市值已增加约1万亿美元,IPO筹资近860亿美元,仅发行约4%股份。尽管去年亏损49亿美元(营收187亿美元),投资者仍看好其AI业务前景。
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Cursor/Graphite's @TomasReimers just announced Origin @cursor_ai's long awaited Git competitor, scalable for agent workl...
Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Oy. We are aware that some Codex users are experiencing high error rates with "model at capacity" and are working to bri...
6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。
同一事件,精选展示《Meta万人重组:裁员与AI转型并举》Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
智谱(Z.ai)正式发布GLM-5.2,采用MIT开源协议开放模型权重。相比前代,在编码和智能体任务上有显著提升,支持1M上下文窗口。提供两种推理努力级别:GLM-5.2(max)追求极致性能,GLM-5.2(high)在效果与token效率间取得平衡。API定价与GLM-5.1保持一致。技术博客、权重及API文档均已上线。
Space X 用股票交易,600 亿美元收购了 Cursor 考虑到 Cursor 只有几十个人这个人效太猛了,同时 Cursor 除了软件也还有自己基于开源模型训练的编码模型 感觉新的 Grok 有戏了啊
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...
同一事件,精选展示《AI 编程独角兽 Cursor 欧洲总部落子伦敦,SpaceX 手握 600 亿美元收购选择权》SpaceX 宣布以 600 亿美元全股票交易收购 AI 编码工具 Cursor,预计第三季度完成。收购发生在 SpaceX 史无前例的 IPO 两天后及 SpaceX 与 xAI 合并数月后。Cursor 曾最早将大语言模型深度集成到 Visual Studio Code 分支 IDE,但市场份额因 Anthropic 的 Claude Code 主导而下滑,且难以收支平衡。此前 Cursor 增长受限于算力,xAI 曾向其提供算力并共同训练编码模型 Grok Build。此次收购被视为两家在 AI 竞赛中落后公司的抱团——SpaceX 有算力但缺产品,Cursor 有产品但缺算力。
同一事件,精选展示《AI 编程独角兽 Cursor 欧洲总部落子伦敦,SpaceX 手握 600 亿美元收购选择权》Georgi Gerganov 在 Hacker News 评论中表示,Qwen3.6-27B 是 100% 胜任的本地编码模型。过去一个半月他几乎每天在 M2 Ultra 或 RTX 5090 上使用该模型处理 ggml-org 的日常小任务。目前他采用轻量级 harness —— 精简版 pi agent(pi -nc --offline),配合简短系统提示来对齐个人编码风格。
SpaceX 宣布以 600 亿美元全股票收购 AI 代码编辑器 Cursor 母公司 Anysphere,这是其上市数天后的首笔大型收购。此前 4 月 SpaceX 已获选择权:100 亿美元合作或 600 亿美元直接收购。过去数月,SpaceXAI 团队与 Cursor 在 xAI 超算 Colossus 上联合训练模型,近期将同时上线 Cursor 和 Grok Build。Cursor 2022 年成立,年化收入 26 亿美元,此前估值 293 亿美元,此次溢价一倍。交易仅稀释 IPO 估值 3.4%,消息后 SpaceX 股价涨约 16%。收购旨在补齐 Grok 在开发者工具短板,进入 AI 编程工具赛道(当前 Anthropic Claude Code 和 OpenAI Codex 两强格局)。交易预计 Q3 完成,分手费含 15 亿美元现金及 85 亿美元算力资源。
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...
关联讨论 7 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)SpaceX 以 600 亿美元(股票支付)收购 AI 编码助手 Cursor 的母公司 Anysphere,预计 2026 年第三季度完成。此举旨在帮助其 AI 部门 xAI 在 AI 辅助编码领域追赶 OpenAI 和 Anthropic。Cursor 年化收入已达 30 亿美元,拥有超 3000 名年付费至少 10 万美元的企业客户。收购后 Cursor 可获得 SpaceX 的芯片库存,xAI 则获得 Anysphere 旗下招聘公司的人才资源。SpaceX 2025 年净亏损 49.4 亿美元,资本支出翻倍至 207 亿美元,大部分投向 AI。
关联讨论 7 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)Factory AI CEO 在播客中分享观点:约80%-90%的任务可用开源模型完成,顶级模型更适合规划与决策;AI工具对高杠杆人群提升更大,低杠杆者受益有限;未来最值钱的工程师是能端到端拥有业务结果的人,而非仅写代码者;预计三年内Token支出中位数将与薪资处于同一数量级。
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...
关联讨论 1 条X:Elon Musk (@elonmusk, xAI)I built a @threejs game director skill system for Codex & Claude Code to help agents create more polished playable brows...
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...