GitHub自6月1日将Copilot从包月制改为按量计费后,用户使用量大幅激增,6月成为其成立以来业绩最佳月份。首席技术官费多罗夫在员工会议上透露上述信息,但未披露具体数据。GitHub正面临Cursor、OpenAI Codex、Anthropic Claude Code等竞品竞争。费多罗夫认为无需大幅涨价,但未确认调价方案。受使用量暴涨影响,GitHub在2026年已发生数十次大规模服务中断,微软正求助亚马逊解决算力承载问题。
GitHub自6月1日将Copilot从包月制改为按量计费后,用户使用量大幅激增,6月成为其成立以来业绩最佳月份。首席技术官费多罗夫在员工会议上透露上述信息,但未披露具体数据。GitHub正面临Cursor、OpenAI Codex、Anthropic Claude Code等竞品竞争。费多罗夫认为无需大幅涨价,但未确认调价方案。受使用量暴涨影响,GitHub在2026年已发生数十次大规模服务中断,微软正求助亚马逊解决算力承载问题。
基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。
本研究分析了SWE-bench排行榜上7,745个代理轨迹,并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示:代码执行平均每任务8.8次测试运行,频率2-19,后期成功率更高;对商用SOTA代理,禁止执行与无限制执行间修复成功率差距仅1.25个百分点(无统计显著性),但禁止执行显著节省token与墙钟时间;执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行,应将其视为有明确成本收益权衡的资源。
PostHog工程师使用多个并行的长时Claude Code会话重写了公司的SQL解析器,将解析速度提升约70倍。新解析器包含16K行解析器代码和5K行工具代码。原始解析器基于ANTLR生成,采用图遍历解释器,性能受限;新解析器采用手动编写的递归下降解析器配合Pratt表达式循环,仅在必要时引入前瞻与回溯。开发过程中通过属性测试(Hypothesis)确保与原始C++解析器在真实查询上的等价性。
Challenger 数据显示 5 月科技行业裁员创单月新高,AI 是主因。但 SignalFire 追踪 8000 万企业员工轨迹后发布报告称,大型科技企业整体招聘量较 2019 年下降 25%,工程岗位降幅仅 11%;2025 年新入职员工中工程师占比达 55%,高于 2019 年的 46%。初创企业工程师总人数较 2019 年增长 7%。Anthropic 首席执行官曾警示 AI 或淘汰半数入门级白领,但其首席经济学家表示尚未观测到显著冲击。英伟达 CEO 黄仁勋称工程师使用 AI 后更忙碌,印证杰文斯悖论。
Hang Ten Systems是一家企业AI服务公司,由前Infosys CEO Vishal Sikka创立,旨在通过AI驱动的开发和自动化帮助企业持续构建、修改和运营软件。公司完成3200万美元种子轮融资,由Mayfield领投,Aramco Ventures战略投资,雅虎联合创始人Jerry Yang担任董事会成员。Hang Ten已与Siemens Gamesa Renewable Energy和Fresenius合作进行AI原生项目交付,围绕智能体代码生成、可复用AI技能和领域专业知识构建服务。公司总部位于湾区,正在全球多地招聘。
Claude Code v2.1.191 新增 /rewind 命令,支持从 /clear 前恢复对话。修复流式响应时滚动位置跳到底部、后台智能体停止后复活等问题。改进 MCP 服务器可靠性,对 tools/list 等请求增加短暂退避重试;优化 OAuth 流程,无头环境直接跳过浏览器弹窗。流式响应 CPU 使用率降低约 37%(通过合并文本更新间隔至 100ms),并减少终端输出缓存带来的内存增长。
风投机构SignalFire追踪8000万家公司数百万员工数据发现,工程是2025年最具韧性的岗位。大型科技公司总招聘较2019年下降25%,工程岗仅降11%;工程岗占Alphabet、Meta等12家“Tech Majors”新招员工的55%(2019年为46%)。早期初创公司2025年工程师招聘比2019年增长7%。Anthropic CEO警告AI可能消灭一半入门级白领,但该公司经济主管称尚未看到显著影响。NVIDIA CEO黄仁勋表示AI让工程师更忙碌,是杰文斯悖论的典型例证。
Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务,Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架,Notion 的讨论串对应一个 Cursor 智能体,每条消息对应一次智能体运行;结果通过 SSE 流式传输,支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持,让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体,并设置自动触发规则。
Snowflake 内部基准测试显示,在每项任务三次尝试下,GLM-5.2 解决 66% 的编程问题,Anthropic 的 Opus 4.7 解决 67%,两者几乎持平。首次尝试准确率 Opus 为 53.7%,GLM 为 47.6%;GLM 每任务平均迭代 99 次、消耗 8.6 亿 token,Opus 则为 80 次、4.39 亿 token。成本方面,GLM-5.2 输出 token 价格为 $4.40/百万,远低于 Opus 的 $25 和 GPT-5.5 的 $30;输入 token 仅 $1.40/百万。GLM 存在过早放弃和过度检查等弱点,但其定价优势可能对西方 AI 公司的高估值构成压力。
Figma在Config 2026将设计画布扩展至代码、动画、3D深度和着色器效果,并集成去年收购的Weave工作流系统。新功能包括Code Layers(代码与设计并存)、Motion动画、深度层、Shader及Generative Plugins。协作方面,团队可搜索复用AI提示词、保存工作流为技能、共享插件。Figma的AI功能依赖Anthropic、OpenAI和Google等外部模型,推理成本挤压利润率。同时,Anthropic等公司的竞争产品可直接生成界面,构成威胁。
Figma在年度Config大会上发布多项设计及编码更新。核心亮点:Code layers允许在设计画布内直接操作代码、克隆仓库并通过Agent生成新方向;Motion功能支持通过提示词生成动画和过渡效果,可应用预设样式或手动调整时间线;Shaders借助WebGPU实现抖动、像素化、多种模糊等着色器效果。Figma Weave工作流集成20余种工具,将复杂AI流程简化为画布上的简易操作。此外,Agent技能支持第三方连接器和文件附件上下文,生成式插件允许无代码创建可共享的自定义工具。
Figma本周三发布更新,直接在协作画布中加入代码层,支持团队克隆仓库并将代码流程提取为设计图层。新增对动画、转场和3D变换的支持,并允许用AI生成着色器效果和填充。用户可通过文本提示创建可重复使用的技能供AI智能体使用,还能连接Notion、Granola、Excel、GitHub等工具。Figma计划今年晚些时候深度整合去年收购的节点工具Weavy,支持直接在Figma内生成Weavy工作流。
RubyLLM 是一个统一的 Ruby 框架,以相同接口对接 OpenAI、xAI、Anthropic、Gemini、DeepSeek、Mistral、Ollama 等十余家 AI 提供商的 API。支持聊天、图像/视频/音频分析、PDF/CSV/JSON 文档处理、图像生成、嵌入向量、内容审核、工具调用与 Agent 定义,并提供结构化输出(JSON Schema)和流式响应。仅依赖 Faraday、Zeitwerk 和 Marcel 三个库。内置 800+ 模型注册表,包含能力检测与定价信息。可与 Rails 集成(acts_as_chat),支持异步 Fiber 并发。
OpenAI 正紧急修复 Codex CLI 日志过量写入缺陷。开发者 Rui Fan 报告称,其机器运行约 21 天后主 SSD 写入约 37TB SQLite 日志,推算每年约 640TB;对于 1TB、额定 600TBW 的消费级 SSD,不到一年可能耗尽质保写入耐久度。另一开发者引用 Codex 自估,该缺陷在 3 月至 6 月可能造成全体用户低位数百万美元 SSD 写入耐久度损失。问题源于 2026 年 2 月将服务器 SQLite 日志输出级别改为 TRACE,且本地诊断日志默认开启。OpenAI 确认工程师正在修复,部分修复已实装,但用户仍持续报告。
在火山引擎Force大会,字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年,字节AI代码贡献率增长6倍,tokens消耗增长5倍,但过度关注单一指标可能失真——TRAE团队代码超90%由AI生成,人均需求吞吐率仅提升60%。900次实验显示,主流Coding模型组合代码正确率超80%,但可交付性仅40-60分;结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协作。字节探索原型驱动开发,能力沉淀至TRAE(日均Token消耗5.6万亿,增长50倍),并推出TRAE Work。
OpenAI 部署负责人 Arnaud Fournier 在采访中透露,DeployCo 团队正通过派驻自家工程师将 AI 深度嵌入大型企业。他称 Codex 正经历爆发式增长,客户反馈已直接回传至模型开发环节,并指出 AI 智能价格已大幅下降。
Anthropic 推出 Claude Tag,允许团队在 Slack 任意频道中通过 @Claude 标记并分配任务。该公司表示,其内部产品团队已有 65% 的代码由该工具生成。
生成式AI已重塑软件开发,从逐行自动补全扩展到全应用生成、多智能体构建管道和自然语言代码库交互。文章对比了16个最佳工具:Atoms*支持自然语言生成可部署应用并并行运行多模型;GitHub Copilot提供IDE内智能补全与代理模式;Tabnine主打本地化私密代码补全;Replit为云端IDE与AI代理;Warp增强终端AI;Hugging Face提供开源模型平台;Codacy自动化代码质量分析;Metabob基于图神经网络检测深层缺陷;aiXcoder可本地运行开源代码模型;Bloop将代码搜索转向AI智能体基础设施;Mintlify等覆盖IDE插件、云部署到代码质量管理多种场景。
随着基础模型推理能力与工程框架增强,生成长代码方案已不困难,可靠验证反成瓶颈。验证器仅为人类意图的代理,意图天然欠指定,优化会拉大代理与意图差距(奖励破解或信号饱和)。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量,研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论:无固定奖励函数能随策略能力增长保持有效,验证必须与生成协同进化。
Claude Code v2.1.187 新增 sandbox.credentials 设置,可阻止沙箱化命令读取凭证和秘密环境变量;模型选择器及相关参数现已支持组织配置的模型限制,选中受限模型时显示“受组织设置限制”提示。全屏模式下选择菜单支持鼠标点击。修复多项问题:--resume 在 -p 无模型回合时失败、--json-schema 和工作流智能体结构化输出循环、远程 MCP 工具调用 5 分钟无响应后阻塞、Remote 会话启动延迟约 2.7 秒、韩文/中日韩文本粘贴乱码、子智能体深度追踪不准确、被杀智能体工作树注册残留未清理等。
Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启“环境”行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。
关联讨论 3 条X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)Claude:Blog(网页)多模式旅行平台 Omio 将 OpenAI Codex 嵌入软件开发生命周期,涵盖研究、架构、编码、测试、代码审查及维护。内部分析显示,特定产品的开发工作量降至原来的 20%,原需多名工程师一整个季度的项目现由单人一月完成。Omio 在 2023 年推出基于 OpenAI 模型和实时交通数据的对话式预订界面,用户可用自然语言查询复杂多模式路线。公司强调人类保留最终责任,AI 仅作为加速引擎。
UC Berkeley研究人员发现,近2000个GitHub Pages站点(18000+页面,累计530K+星标)仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.(现更名Triad Nexus)运营,2024年被出售后开始条件性注入恶意载荷,劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io,1191个加载其他Funnull CDN。更严峻的是,所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL,包括CyC2018/CS-Notes(184K⭐)、microsoft/AirSim(18K⭐)等知名项目及多所大学课程页面。
自 lucumr.pocoo.org 发布题为《The Coming Loop》的文章,在 Hacker News 上获得 103 个点赞。
Cursor 公布了其首个完全内部训练的 AI 模型的详细信息,并同步推出了一款新 Git 平台和一款移动应用。
火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。
DeepSeek Harness团队负责人崔添翼6月21日发文称,新成立的Harness团队目标宏大、工作繁重,人员紧缺,正招聘Harness研究员、工程师、产品经理三个岗位。针对网友“不招外国人”的评论,崔添翼回应称,公司招人需要能用中文工作,如同美国公司要求能用英语,并无不招外国人的规定。知情人士透露,DeepSeek已在内部组建Harness团队,主攻代码智能体产品,内部对标Anthropic的Claude Code。
火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎Chrome 推出新 API window.showDirectoryPicker(),允许网页请求用户授权读写本地目录中的文件。作者利用 Claude 生成了模仿 Apple Aperture 界面的照片管理原型,支持在浏览器内查看、创建文件夹、移动照片,所有操作直接作用于用户文件系统。还基于 Claude 创建了受 Apple Shake 启发的节点式合成应用,可绘制多边形并叠加到源图片上。整个过程无需手写一行代码。
字节跳动在火山引擎上线豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 两个深度思考版本,以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型,在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级;Turbo 版本面向规模化生产,效果比肩 Pro
Moebius 0.2B轻量级图像修补模型(自称10B级性能)原依赖PyTorch与NVIDIA CUDA。Simon Willison使用Claude Code将其转换为ONNX格式,通过WebGPU后端在浏览器中运行。用户可上传图片、标记待修复区域,点击按钮等待模型修补。移植后的1.24 GB ONNX模型权重发布至Hugging Face,前端代码托管于GitHub Pages并启用自动部署。整个移植过程(含环境准备、模型转换、UI构建、部署)在Claude Code辅助下完成,作者还使用Claude.ai进行可行性调研。
提出检索增强搜索(RAS)方法,通过束搜索优化候选程序,每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法,将训练示例分解为原子编辑以提高可解释性。在C++程序优化上,RAS比先前最先进黑盒适应策略性能提升2.06倍,AEGIS提升1.37倍且编辑量更小。对于Python程序,RAS使平均运行时间百分位提升10.27。
新增 claude mcp login/logout 命令,支持从 CLI 认证 MCP 服务器并完成 SSH 无浏览器重定向。新增 /workflows 状态过滤、/plugin Skills 部分及 teammateMode: "iterm2" 设置。! bash 命令改为自动触发 Claude 响应,可通过 respondToBashCommands 恢复原行为。修复了机器唤醒后流请求失败、子 agent 滚动错位、后台预览闪烁、Chrome 标签组隔离、重复会话摘要、权限提示编号错位等问题。改进了服务器名输入提示和记忆压缩提醒。CLAUDE_CODE_MAX_RETRIES 上限改为 15;后台子 agent 权限提示改为主会话显示并支持 Esc 拒绝。
Oak 是开源版本控制系统,专为 AI 智能体(Claude Code、Codex、Cursor)设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型,可选 SQLite 和 git 后端。以分支-会话为基本工作单元,用分支描述替代逐次提交,通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0,支持 macOS(Apple Silicon)、Linux(x86_64)及 Windows,可通过 curl 或 cargo 安装,Apache-2.0 开源。
Claude Code创建者Boris Cherny在Meta @Scale大会上表示,AI智能体循环(loops)是真实且重要的趋势。他描述自己工作中一个agent持续改进代码架构,另一个寻找重复抽象并提交PR,循环永不停歇。这种循环类似递归函数,由子agent决定何时停止;一种实现是Ralph Loop,检查已完成工作是否达成目标。Loops本质是增加test-time compute,通过持续投入计算资源直到任务完成,但token消耗无上限、成本高昂。若设置得当,收益可能远超成本。
xAI 在终端编码智能体 Grok Build 中新增 /goal 模式。用户输入一条目标指令后,Grok Build 自动规划步骤、生成进度清单,逐一执行并验证(审查代码、检查网页或运行脚本)直至完成。期间可用 /goal status、/goal pause、/goal resume、/goal clear 命令监控与操控运行。该模式面向多文件迁移、重构、依赖升级等长周期任务,需 SuperGrok 或 X Premium Plus 订阅。与 Claude Code、OpenAI Codex CLI、Cursor Agent Mode 相比,/goal 的核心差异在于显式的可操控目标对象和内置验证步骤。