Opus 4.5 发布后,AI 能生成与中位数软件工程师同等质量的代码,且更快更便宜。2025 年,智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时,代码变得可丢弃和可重新生成。软件团队真正产品是共享理解,而非代码本身。作者认为,面对 AI 带来的变革,需要更多而非更少的工程纪律,以维持对系统的可控和共识。
Opus 4.5 发布后,AI 能生成与中位数软件工程师同等质量的代码,且更快更便宜。2025 年,智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时,代码变得可丢弃和可重新生成。软件团队真正产品是共享理解,而非代码本身。作者认为,面对 AI 带来的变革,需要更多而非更少的工程纪律,以维持对系统的可控和共识。
三位软件工程师来信询问AI是否会全面接管编程。作者回答最早今年底、最迟后年。以珍妮纺织机为喻,学会用新工具只是缓刑;美团宣布30%–50%裁员印证趋势。作者提出“终端思维”:意图即实现(PRD is Code),中间步骤注定消失。最终问题:当执行被机器接管,人类站在哪里?
Qt Creator 20 开源跨平台 IDE 于 6 月 17 日发布,引入全新 ACP(Agent Client Protocol)框架,兼容 Claude Code、OpenAI Codex 等主流大语言模型和 AI 助手,以及其他支持 ACP 协议的 AI 服务。开发者可在应用内聊天面板直接与 AI 智能体交互。此前 Qt Creator 19 已引入 MCP 协议,本次更新进一步扩展 AI 生态。同时新增“禅模式”(Zen Mode),开启后使编辑器界面更沉浸,减少视觉干扰。
智谱发布新一代开源旗舰模型GLM-5.2,百度智能云同步实现Day0全栈适配。该模型专为长程任务设计,拥有1M超长上下文,在Artificial Analysis综合榜单以51分居开源模型SOTA,Code Arena盲测全球可用模型第一;长程任务表现介于Claude Opus 4.7与4.8之间。百度百舸基于昆仑芯硬件完成适配,实现KV缓存命中率超90%,64K序列TTFT下降6.2倍,已建成3.2万卡昆仑芯P800集群。千帆以预置服务形式开放API,视频云和Comate同步接入,覆盖长视频创作、多模态互动及工程开发等场景。
Anthropic 近日发布创业行动指南,将生命周期分为 Idea、MVP、Launch、Scale 四阶段,每阶段附目标、退出标准、常见失败模式及基于 Claude 的 AI 实践。指南覆盖:用 Claude 验证问题假设、绘制竞争图谱、开展客户发现;通过架构设计避免 AI 生成 MVP 代码的技术债务;区分真正产品市场契合与早期热度的衡量框架;用智能体工作流替代创始人注意力的 Launch 阶段操作系统;以及 Chat、Claude Cowork、Claude Code 各阶段使用矩阵。还收录了 Ambral、Anything、Carta Healthcare 等创始人的实际案例。
GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。
关联讨论 8 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)公众号:智谱(GLM)GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。
关联讨论 8 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)公众号:智谱(GLM)Anthropic 6月16日发布博文,分析2025年10月至2026年4月约23.5万用户的40万次Claude Code会话。用户平均每周使用20小时,其中代码修改占26%,代码编写占25%,合计超半数。典型会话中人类负责约70%规划决策,Claude完成约80%执行决策。新手(1级)每次提示产生约5个操作和600个单词输出,专家(5级)产生2倍操作和5倍输出(约3200个单词)。
英伟达推出RTX Remix 1.5,新增RTX IO压缩技术,将《半条命2:光追版》安装包从80GB压缩至50GB(降幅37.5%),《Portal with RTX》从25GB降至17GB。新版本还引入Smooth Normals功能自动为旧版几何体生成平滑法线,消除棱角感;同时推出RTX Remix Skills,通过文本指令文件让AI编码助手辅助完成创建分支、单元测试、合并请求等任务,无需C++或Python基础即可引导AI生成代码,降低Mod制作门槛。
Hacker News 讨论揭示:Qwen 3.6 35B-A3B 模型提及率 33% 领先,27B 变体以 20% 紧随其后,DeepSeek Pro 与 Gemma4 31B 位列前四。Agent 工具中 Pi (49%) 与 OpenCode (45%) 占主导。用户对比称,Claude Opus 可带来 15 倍加速,而本地离线 Qwen 提供 5 倍加速,且完全免费、保护隐私。SWE-bench Verified 基准测试显示,Qwen 3.6 27B 得分 77.2%,35B-A3B 得分 73.4%,接近 Claude Sonnet 4.6 的 79.6%。MoE 架构使大模型在消费级硬件上高效运行。
作者为优化 AI 生成 Python 代码的 lint 效率,发现 ast.walk 遍历 AST 是性能瓶颈。通过逐步去除生成器 yield、内联 iter_child_nodes 和 iter_fields、用 getattr(node, field, None) 替代异常处理,实现了约 2 倍提速。随后用 Rust 通过 PyO3 重写遍历逻辑,并直接读取 __dict__ 及预缓存 AST 子类类型信息,最终将 ast.walk 速度提升约 220 倍。
GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准,包含15个游戏家族的140项任务,要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心,通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示,最强智能体仅取得41.46%的成绩,多数低于40%。智能体虽能实现可识别游戏机制,但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。
LoopCoder-v2 是一族 7B 参数的并行循环 Transformer(PLT)代码模型,从零在 18T tokens 上预训练。与无循环基线相比,两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升,SWE-bench Verified 从 43.0 到 64.4,Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降,揭示循环计数的非单调效应:循环 2 提供主要改进,后续循环产生递减振荡更新,而 CLP 引入的位置偏移代价固定,导致两循环饱和。
智谱今日开源GLM-5.2模型,稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一,主流编程基准保持开源SOTA,与Claude Opus 4.8可比。通过极致Infra优化,1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台,预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。
智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。
关联讨论 8 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)公众号:智谱(GLM)本次次要版本修复了多项问题:流式连接中断后保留部分响应并修复 spinner 卡死;修复 WSL2(Windows Terminal / VS Code)中鼠标滚轮失效(v2.1.172 引入的回归);修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用;修复反馈调查在单次回复后立即捕获评分;修复欢迎界面每会话最多显示一个促销横幅;修复查看子 agent 时 Ctrl+O 不显示其对话记录;修复点击输入框无法从子 agent/底栏面板恢复焦点;修复远程会话后台任务轮次间显示“正在运行”但实际卡住;改进了远程会话中插件加载性能。
SpaceX周二盘中估值一度达到2.9万亿美元,短暂超越亚马逊成为全球第五大公司,随后回落至约2.6万亿美元。公司宣布以600亿美元股票收购AI编码公司Cursor,并与Anthropic和Google签署非约束性算力租赁协议。上周五IPO后公司市值已增加约1万亿美元,IPO筹资近860亿美元,仅发行约4%股份。尽管去年亏损49亿美元(营收187亿美元),投资者仍看好其AI业务前景。
Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。
同一事件,精选展示《Meta万人重组:裁员与AI转型并举》SpaceX 宣布以 600 亿美元全股票交易收购 AI 编码工具 Cursor,预计第三季度完成。收购发生在 SpaceX 史无前例的 IPO 两天后及 SpaceX 与 xAI 合并数月后。Cursor 曾最早将大语言模型深度集成到 Visual Studio Code 分支 IDE,但市场份额因 Anthropic 的 Claude Code 主导而下滑,且难以收支平衡。此前 Cursor 增长受限于算力,xAI 曾向其提供算力并共同训练编码模型 Grok Build。此次收购被视为两家在 AI 竞赛中落后公司的抱团——SpaceX 有算力但缺产品,Cursor 有产品但缺算力。
同一事件,精选展示《AI 编程独角兽 Cursor 欧洲总部落子伦敦,SpaceX 手握 600 亿美元收购选择权》Georgi Gerganov 在 Hacker News 评论中表示,Qwen3.6-27B 是 100% 胜任的本地编码模型。过去一个半月他几乎每天在 M2 Ultra 或 RTX 5090 上使用该模型处理 ggml-org 的日常小任务。目前他采用轻量级 harness —— 精简版 pi agent(pi -nc --offline),配合简短系统提示来对齐个人编码风格。
SpaceX 以 600 亿美元(股票支付)收购 AI 编码助手 Cursor 的母公司 Anysphere,预计 2026 年第三季度完成。此举旨在帮助其 AI 部门 xAI 在 AI 辅助编码领域追赶 OpenAI 和 Anthropic。Cursor 年化收入已达 30 亿美元,拥有超 3000 名年付费至少 10 万美元的企业客户。收购后 Cursor 可获得 SpaceX 的芯片库存,xAI 则获得 Anysphere 旗下招聘公司的人才资源。SpaceX 2025 年净亏损 49.4 亿美元,资本支出翻倍至 207 亿美元,大部分投向 AI。
关联讨论 7 条X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)X:宝玉 (@dotey)IT之家(RSS)X:歸藏 (@op7418)X:Emad Mostaque (@EMostaque)SpaceX 正在收购 Cursor。该消息由 BBC 报道,在 Hacker News 上获得 118 个点赞。
SpaceX以600亿美元收购编程代理Cursor AI的运营商Anysphere。Anysphere是Cursor AI的开发商,Cursor AI提供AI编程辅助工具。交易金额为600亿美元。
关联讨论 7 条X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)X:宝玉 (@dotey)IT之家(RSS)X:歸藏 (@op7418)X:Emad Mostaque (@EMostaque)SpaceX 同意收购 AI 编程初创 Cursor,隐含股权价值 600 亿美元,合并预计 2026 年第三季度完成,Cursor 投资者将获 SpaceX 股票。Cursor 于 2023 年推出 AI 编程助手,曾计划以超 500 亿美元投前估值融资约 20 亿美元,后放弃融资,算力需求由 xAI 接手。马斯克借此补齐 AI 编程工具短板。SpaceX 去年净亏损 49.4 亿美元,资本开支翻番至 207 亿美元,最大支出投向 AI。
关联讨论 7 条X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)X:宝玉 (@dotey)IT之家(RSS)X:歸藏 (@op7418)X:Emad Mostaque (@EMostaque)SpaceX 在历史性 IPO 数天后,同意以 600 亿美元股票收购 AI 编程初创公司 Cursor,旨在帮助其围绕 xAI 构建的 AI 部门追赶主要 AI 实验室。此前 Cursor 正接近完成一轮 20 亿美元融资,估值 500 亿美元,投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。SpaceX 在 IPO 期间向投资者表示,其 AI 产品可寻址市场达 26 万亿美元。交易预计于今年第三季度完成。
同一事件,精选展示《AI 编程独角兽 Cursor 欧洲总部落子伦敦,SpaceX 手握 600 亿美元收购选择权》SpaceX在完成巨额IPO数日后,宣布以600亿美元收购AI编程平台Cursor。此举旨在帮助Elon Musk旗下xAI的编程产品追赶Anthropic Claude Code、OpenAI Codex等主流工具,争夺企业客户。此前SpaceX于4月达成特殊协议,承诺以600亿美元收购Cursor,否则需支付100亿美元分手费。SEC文件显示交易预计2026年第三季度完成。Cursor近年因“氛围编程”趋势和高效编程工具需求激增而快速增长。
关联讨论 7 条X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)X:宝玉 (@dotey)IT之家(RSS)X:歸藏 (@op7418)X:Emad Mostaque (@EMostaque)微软正从其云服务最大竞争对手亚马逊 AWS 处为 GitHub 购买更多算力。GitHub 首席运营官 Kyle Daigle 今年 4 月指出,GitHub 上的代码提交今年有望达到 140 亿次,是 2025 年的 14 倍。微软原计划到 2027 年以自家 Azure 云提供 GitHub 全部算力,但代理式开发迅猛增长考验了基础设施极限,迫使微软调整策略,同时探索多元云战略以提升容错能力。微软和亚马逊未对具体交易置评。
谷歌更新Android Bench榜单,GPT-5.5以74分居首,GPT-5.4与Gemini 3.1 Pro Preview并列第二(72.4分),Claude Opus 4.7(68.7分)和Opus 4.6(66.6分)分列第四、第五。谷歌自家Gemini 3.5 Flash仅获63.7分排第六,平均Token消耗3.559亿,单次运行成本147.1美元,为榜单最贵模型。成本仅为其约1/3的Gemini 3.1 Pro Preview性价比更高。DeepSeek V4 Flash以52.7分排第12,单次运行成本仅8.4美元,后者成本仅为前者的1/17.5。
微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。
HuggingFace社区热门论文发布VibeThinker-3B技术报告。该3B参数模型基于Spectrum-to-Signal后训练范式,经课程监督微调、多域强化学习和离线知识蒸馏优化。在AIME26上得分94.3(借助claim-level test-time scaling提升至97.1),LiveCodeBench v6 Pass@1达80.2,最近LeetCode未见题接受率96.1%,性能匹敌DeepSeek V3.2、GLM-5、Gemini 3 Pro等更大旗舰模型。IFEval得分93.4,表明极端推理增强未损害指令可控性。论文提出参数压缩-覆盖假说。
微软为Windows 11推出实验性命令行工具Intelligent Terminal,基于Windows Terminal分支,在专用窗格中集成AI智能体。智能体可查看shell上下文、实时捕获错误、解释失败原因、生成命令或处理多步任务。用户需手动从微软商店下载,可用winget install Microsoft.IntelligentTerminal安装。支持ACP协议,默认识别GitHub Copilot。提供智能体聊天(Ctrl+Shift+.)和智能体管理(Ctrl+Shift+/)两种交互,可开启自动错误检测与跨终端会话管理。
蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。
本次更新新增 Tool(param:value) 语法用于权限规则匹配工具输入参数;嵌套 skills 目录中的技能自动加载,名称冲突时以 <dir>:<name> 形式保留;嵌套 agent、workflow、output-style 冲突时取最近目录。改进自动模式下子 agent 生成前的分类器评估;/doctor 采用扁平树布局;工作流提示词高亮为紫色闪烁,仅触发显式短语;/bug 提交前需填写描述。修复了 CLI 继承过期 WebSocket/OAuth 文件描述符导致的崩溃、Chrome 中 OAuth token 账号不匹配导致连接失败、子 agent 转录显示工具结果、后台恢复不从头重启、compaction 未使用 --fallback-model 等问题。
GitHub Copilot CLI 为初学者提供了常用斜杠命令的概述,帮助用户通过命令控制终端中的 AI 智能体。
06月15日,Hacker News 上有用户发起讨论:是否有人已用本地模型取代了 Claude 或 GPT 用于日常编码工作,并希望分享实际经验。
xAI 为 Grok Build 推出 Agent Dashboard,提供单一屏幕管理多个编码会话。仪表板按状态分组(等待输入、工作中、空闲),每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复,等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话,支持设置模型、启动计划模式或自动批准编辑。通过 grok dashboard、/dashboard 或 Ctrl+\ 打开,关闭后会话继续运行,重新打开即可恢复。
Kimi K2.7 Code 模型高速版上线,面向 Kimi Code Beta 计划成员、Kimi API 开发者及 Kimi Business 用户开放。高速版与普通版为相同模型,输出速度约普通版的 5‑6 倍,常规编程场景约 180 Tokens/s,短上下文可达 260 Tokens/s。价格为普通版两倍:1M tokens 标准输入 13 元、输出 54 元,命中缓存输入 2.6 元。该模型基于 6 月 12 日发布的 K2.7 Code,相比 K2.6 提升长上下文指令遵循与长程编程性能,平均 token 消耗减少 30%。
关联讨论 3 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:Kimi.ai (@Kimi_Moonshot)Hacker News 热门(buzzing.cc 中文翻译)Kimi K2.7 Code 高速版上线,与普通版为同一模型,输出速度约 5-6 倍,常规编程场景约 180 Token/s,短上下文可达 260 Token/s。API 定价为普通版 2 倍,模型 ID:kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用,用量消耗为普通版 3 倍。使用须开启思考模式,关闭会报错或回退至 K2.6。庆祝发布,Kimi API 开放平台推出为期三周充赠活动,充值 500 元及以上享 20%-30% 代金券。相比 K2.6,K2.7 Code 在长上下文编程指令遵循、长程任务性能提升,平均 token 消耗减少 30%,内部基准测试显著提升。普通版输入 6.5 元/百万 token、输出 27 元,缓存输入 1.3 元。非编程任务推荐 K2.6。
关联讨论 3 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:Kimi.ai (@Kimi_Moonshot)Hacker News 热门(buzzing.cc 中文翻译)