本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。
本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。
NEW: Inside Cursor's wild rise. Lots of great new details: • CEO Michael Truell didn't pay himself for years • Cursor on...
本次更新新增 Tool(param:value) 语法用于权限规则匹配工具输入参数;嵌套 skills 目录中的技能自动加载,名称冲突时以 <dir>:<name> 形式保留;嵌套 agent、workflow、output-style 冲突时取最近目录。改进自动模式下子 agent 生成前的分类器评估;/doctor 采用扁平树布局;工作流提示词高亮为紫色闪烁,仅触发显式短语;/bug 提交前需填写描述。修复了 CLI 继承过期 WebSocket/OAuth 文件描述符导致的崩溃、Chrome 中 OAuth token 账号不匹配导致连接失败、子 agent 转录显示工具结果、后台恢复不从头重启、compaction 未使用 --fallback-model 等问题。
GitHub Copilot CLI 为初学者提供了常用斜杠命令的概述,帮助用户通过命令控制终端中的 AI 智能体。
FactoryAI 今日推出 Factory 2.0,将 AI 智能体与整个软件工作流打通——涵盖工单、客户请求、代码、测试、安全检查、代码审查、部署、文档和生产事故。系统强调反馈循环的重要性:每个事故和审查记录都应成为下一任务的训练信号。所有 bug 报告、客户请求、内部讨论、测试失败、安全警告和事故被视为单一循环内的信号,由智能体协助分类、编写代码、测试、审查、发布、监控生产环境,并将结果反馈回系统。这标志着从编码智能体向软件工厂的升级。
Today, we're announcing Factory 2.0: from coding agents to software factories.
06月15日,Hacker News 上有用户发起讨论:是否有人已用本地模型取代了 Claude 或 GPT 用于日常编码工作,并希望分享实际经验。
You can now use the latest Grok models through your SuperGrok subscription directly in Warp. Grok Build 0.1 moves quickl...
xAI 为 Grok Build 推出 Agent Dashboard,提供单一屏幕管理多个编码会话。仪表板按状态分组(等待输入、工作中、空闲),每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复,等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话,支持设置模型、启动计划模式或自动批准编辑。通过 grok dashboard、/dashboard 或 Ctrl+\ 打开,关闭后会话继续运行,重新打开即可恢复。
Kimi K2.7 Code 模型高速版上线,面向 Kimi Code Beta 计划成员、Kimi API 开发者及 Kimi Business 用户开放。高速版与普通版为相同模型,输出速度约普通版的 5‑6 倍,常规编程场景约 180 Tokens/s,短上下文可达 260 Tokens/s。价格为普通版两倍:1M tokens 标准输入 13 元、输出 54 元,命中缓存输入 2.6 元。该模型基于 6 月 12 日发布的 K2.7 Code,相比 K2.6 提升长上下文指令遵循与长程编程性能,平均 token 消耗减少 30%。
关联讨论 3 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:Kimi.ai (@Kimi_Moonshot)Hacker News 热门(buzzing.cc 中文翻译)Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB,重要层保持更高精度。在 330GB RAM/VRAM 配置下,推理速度超过 40 tok/s;全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行,支持长程任务、复杂推理和 agent 工作流,且保留了“少过思考”的推理效率优势。
You can now run Kimi K2.7 Code locally! 🌘 We shrank the 1T model to 325GB (-48%) via Dynamic 2-bit where important laye...
Kimi 开源多模态编程模型 Kimi K2.7 Code 推出高速模式 HighSpeed,编码任务中长输入可达约 180 tok/s,短上下文任务最高 260 tok/s,速度提升最多 6 倍。该模式已向 Kimi Code Beta Program 成员、API 开发者及商业用户开放(容量有限),无需邀请,加入 Beta 计划即有机会获得访问权限。Kimi 表示将继续优化模型并扩大接入。
Kimi K2.7 Code 高速版上线,与普通版为同一模型,输出速度约 5-6 倍,常规编程场景约 180 Token/s,短上下文可达 260 Token/s。API 定价为普通版 2 倍,模型 ID:kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用,用量消耗为普通版 3 倍。使用须开启思考模式,关闭会报错或回退至 K2.6。庆祝发布,Kimi API 开放平台推出为期三周充赠活动,充值 500 元及以上享 20%-30% 代金券。相比 K2.6,K2.7 Code 在长上下文编程指令遵循、长程任务性能提升,平均 token 消耗减少 30%,内部基准测试显著提升。普通版输入 6.5 元/百万 token、输出 27 元,缓存输入 1.3 元。非编程任务推荐 K2.6。
关联讨论 3 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:Kimi.ai (@Kimi_Moonshot)Hacker News 热门(buzzing.cc 中文翻译)智谱推出Zcode,一款类似 Codex 的客户端工具。用户通过谷歌账号注册登录即可免费使用 GLM 5.2(官方表述带问号,表示待确认)。软件支持 Windows、Mac(Intel 和 Apple Silicon)平台,Linux 版本则需要通过内测群获取。下载安装方法详见评论区。
苹果基础模型(Apple Foundation Models)在 Hacker News 上获得 104 个点赞,相关链接指向 platform.claude.com。
Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型,训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行,甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化,无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构,目前下载量已破六千,社区反馈其在本地 coding 场景表现出色,填补了云端模型与本地可用之间的鸿沟。
Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...
Z.ai 于 6 月 13 日发布 GLM-5.2,这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口(标识为 glm-5.2[1m]),每轮最多输出 131,072 token,约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别,Max 推荐用于复杂多步编码任务。架构未在发布时公开,但社区指出 GLM-5 基础为 744B 参数的 MoE 模型,每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具,可通过 Anthropic 兼容端点直接替换使用,对所有 GLM Coding Plan 用户(Lite/Pro/Max/Team)开放。
推文分享Codex的实际用法:在手机上远程启动家里电脑的Claude Code,实现移动端远程编码。作者认为Claude客户端的Dispatch功能极为难用,并进一步批评整个客户端体验都很糟糕。
Vercel CEO Guillermo Rauch 指出AI圈存在两类人:一类天天发coding agent内容却从不实际出货,另一类产出暴增并持续ship有价值的产品。讽刺的是,两类人比例与AI出现前并无变化,而后者出货效率更高,形成“出货越多越能出货”的循环。评论认为,只有后者在真创造价值。
There seem to be two main groups 1️⃣ Those who post all day long about using coding agents but don't seem to ship anythi...
1982 年 Alan Perlis 的计算机科学格言集《珀里斯语录》(Perlisisms)于 6 月 14 日登上 Hacker News 热门,获得 100 个点赞。
Lovable设计负责人Felix Haas总结AI时代高效团队的七条经验:主动做事、重态度轻简历、靠试错而非刷资讯、资深管理者重回一线、减少自我意识、先发布再迭代。Lovable 2024年上线,8个月达1亿美元年收入,2025年底完成3.3亿美元B轮融资,估值66亿美元。Haas指出,团队表现与学历关系越来越小,与思维模式关系越来越大。
High-Performance Teams in the Age of AI 🔥 I've spent a lot of time thinking about what makes teams move incredibly fast...
tips for codex goals sure you can use /goal but it also has a set_goal() function its almost better to prompt the model ...
OpenClaw创始人Peter与Claude Code创始人Boris近日提出Loop Engineering,由Google的Addy Osmani系统梳理。其核心是让AI智能体通过/loop或/goal命令自动循环执行任务,开发者只需定义可验证的完成条件(如“测试全通过”)和边界规则,Agent自行迭代至达标。需防范古德哈特定律——Agent可能删除失败测试而非修复Bug。该范式标志着从Prompt到Loop的四次能力跃迁。
Claude Code 是 Anthropic 的智能体编码工具,运行于终端、桌面应用和 IDE,基于智能体循环工作。文章将 25 项功能与策略分为官方功能、社区技术和第三方工具三类,并逐一标注。官方功能包括 CLAUDE.md 记忆文件、技能、子智能体、斜杠命令(/init、/compact、/review 等)、钩子、MCP 服务器、插件、检查点、计划模式、权限模式、自动模式(使用 Sonnet 4.6 分类器)、上下文压缩、后台任务、Agent SDK、无头 CLI、GitHub Action 集成、输出样式、远程控制与移动推送、离线摘要、沙盒。社区技术涵盖结构化上下文文件夹、动态工作流、模块化技能管道、弹性技术。第三方工具如 Mem Search 可扩展外部记忆层。
手机是远程开发机“控制中心”,代码执行在主机。任务启动可配主机、工作区、Git分支,创建独立worktree并自动执行环境脚本。Side Chat提供轻量旁路对话,不打断主线程。Plan模式用于高风险任务规划,Goal模式设定可验证终态。手机独有优势包括拍照截图、后台持续录音语音prompt、真机构建验证。代码审查支持diff查看、语法高亮、行内评论,不必等回工位。
http://x.com/i/article/2065692454490103808
Arvind Narayanan与Sayash Kapoor反驳“AI能力达阈值即会导致大规模裁员”的说法。2025年3月,纽约州成为美国首个在WARN法案申报中增设AI披露复选框的州,超160家公司提交通知,无一家勾选AI。他们认为软件工程瓶颈并非编码速度,而是决定构建什么、验证并交付责任、以及深度理解代码库/业务/环境。AI可辅助前两步,但深度理解仍是人类工程师不可替代的核心价值。
据传闻,OpenAI 可能在 6 月 23 日推出 GPT-5.6。其成本仅为 Fable 的三分之一,上下文窗口达到 150 万 token,智能体编程工作流得到全面升级,与 Claude 风格系统直接竞争。有观点认为,OpenAI 选择该日期是因为届时许多 Fable 用户将被强制转为付费计划。
Another GPT-5.6 leak Rumors say OpenAI could drop GPT-5.6 on June 23. > Its 3× cheaper than Fable > Up to 1.5M token con...
ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。
针对LLM几乎未见训练数据的无资源编程语言,团队构建并发布了三个代码生成基准。实验发现,在目标语言上进一步预训练能最大提升性能,但直接用于指令微调模型会损害指令遵循能力。为此,从基础模型出发,先预训练再通过权重差异迁移从指令模型注入指令遵循能力,显著提升了无资源场景的代码生成表现,使公司能以低成本部署专用指令模型。
Bloomberg纪录片揭秘Anthropic:坚持“安全优先”,拒绝国防部无护栏要求被拉黑;Claude Code团队6个月100%代码由AI编写,Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判:AI 1–5年内消除约50%初级白领岗位,并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制,呼吁发布前强制第三方测试。
AI编码智能体Claude Code和Codex能可靠找到正确文件,但漏掉其中大部分关键代码行。新的SWE-Explore基准首次将代码搜索与实际修复分开测试,证明缺乏足够上下文时,即使最佳修复方案也会失败。