Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。
Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。
6月3日,中国信通院宣布中国电信、中国移动、中国联通的“词元产品”服务正式登陆中国算力平台。词元是大模型最小信息单元,具有可计量、可定价、可交易特征。天翼云Token Plan分开发者/中小企业版(基于GLM-5)和个人/家庭版(基于DeepSeek V3.2);移动云Coding Plan(基于MiniMax-2.5)支持Claude Code等编程工具;联通云推出Coding Plan(整合DeepSeek V4、GLM-5、MiniMax M2.5)和Token Plan(个人版支持DeepSeek V4-Flash、MiniMax M2.5,团队版采用Credits弹性计费)。服务已在中国算力平台·算力超市上架。
SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准,覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表,ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开,发现这些指标与下游修复行为高度相关。结果显示,智能体探索器整体明显优于传统检索方法,但文件级定位已足够强,行级覆盖率和高效排名才是区分前沿探索器能力的关键。
研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块,通过开放编码建立AI辅助开发活动分类法,并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息,追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示,开发者主要用LLM进行代码实现,其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移,AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。
Socratic-SWE 提出闭环自我进化框架,将代码智能体历史解决轨迹提炼为结构化技能,总结失败与修复模式,并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后,保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹,使任务课程自适应调整。在 SWE-bench Verified 等基准上,相同计算预算下持续优于自我进化基线,三轮迭代后 SWE-bench Verified 达 50.40%。
新增 requiredMinimumVersion 和 requiredMaximumVersion 托管设置,版本超范围时拒绝启动并引导用户使用经批准版本。新增 /plugin list 命令及 --enabled/--disabled 筛选;/btw 添加 "c to copy" 快捷键,复制原始 markdown 答案到剪贴板。Hooks 方面,Stop 和 SubagentStop 可返回 additionalContext 给 Claude 反馈并保持对话。Skills 新增 \$ 转义语法,支持在命令中数字前使用字面 $。stdio MCP 服务器在 --resume 时接收与 hooks/Bash 相同的 CLAUDE_CODE_SESSION_ID。修复了 claude -p 永久挂起、$TMPDIR 被覆盖、Windows 上 session-env 目录 EEXIST 错误、后台 agent 会话在更新后自动升级等多处问题。
Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。
谷歌员工在内部渠道分享多张梗图,直指公司AI产品表现不佳。这些图片在员工间广泛传播,反映了团队内部对谷歌AI研发进度的普遍失望与自嘲。
Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。
5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间,AI 智能体负责处理重复性任务,从而在企业内部构建 AI 原生文化。
AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。
Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。
Lovable 与 Google Cloud 签署了一项扩大的多年期协议,将 Lovable 在 Google Cloud 上的使用量扩大 5 倍,并增加对 Anthropic Claude 的访问权限。
Claude Code v2.1.162 发布,主要包含 Bug 修复和体验优化。claude agents --json 新增 waitingFor 字段,/effort 命令确认级别持久化,远程控制固定底部显示,/ide 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 workspaceSymbol 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。
Cursor Enterprise 正式推出 Organizations 结构,允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合,用于分段管理模型访问、花销上限和智能体权限,不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能,再向全公司推送;也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费,支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置,成员自动同步。该功能现已全面开放给所有 Enterprise 客户。
优步将 AI 工具每月使用上限定为 1500 美元,这一做法为行业 AI 工具定价提供了有价值的参考信号。
月之暗面今日宣布,Kimi Work Beta 版随最新版 Mac 和 Windows 客户端开启内测。Kimi Work 是基于 Kimi Code 的通用型本地 Agent,支持安装使用技能、运行定时任务,并继承在线版的专业技能与数据库,内置可调用浏览器的 Kimi WebBridge。用户用自然语言描述目标即可自动拆解任务、并行执行并交付产物。支持 Agent 集群,最高可创建含 300 个子 Agent 的团队。官方透露,Kimi Work 自身由 Kimi Code 写成,工程师一周内完成客户端开发,累计产出超 5 万行有效代码,其中 92% 由 AI 自主生成。
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》优步(Uber)将员工使用AI编程工具(如Cursor和Claude Code)的每月token支出限制为每工具1,500美元,不同工具预算互不影响。按工程师平均使用两种工具计,年人均AI支出上限为36,000美元,约占美国软件工程师中位数年薪330,000美元的11%。该限额是2026年AI预算四个月内超支后的理性调整。作者Simon Willison个人每月token用量约1,000美元(个人订阅补贴后仅100美元),若在优步工作仍有约500美元/工具的余额。
豆包通过官方公众号宣布,计划推出面向专业人群的豆包专业版,涵盖软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等服务。日常使用的搜索问答、写作生图、语音和视频对话等基础功能保持免费,专业版也在一定额度内免费。专业版目前处于测试阶段,正式上线时间待定。同时辟谣称,近期不实信息称豆包将降低基础功能体验以推动会员购买,该说法完全不实。
OpenAI 围绕 Codex 商用落地发布三项更新:上线六款聚焦销售、数据分析、创意制作、产品设计、公募股权投资、投行业务等领域的全新智能体插件;新增批注功能,支持对文档、表格、幻灯片等各类内容进行定向修改;推出站点生成功能,可快速创建交互式网站与应用。此外,OpenAI 计划未来数周内在所有版本 ChatGPT 应用中集成 Codex 智能体能力,旨在直观展示两款工具的协同关系。
一个名为 Mfw 的智能体工具发布了其官方网站 agenticmotherfucking.website。由于原文未提供功能、性能、参数等技术细节,摘要仅能基于现有信息进行陈述。
据IT之家报道,谷歌正联系安卓应用开发者,希望付费获取其私有代码库的访问权。此举旨在获取“高质量、真实世界代码库”,用于改进Gemini、Antigravity 2.0等开发者工具。邮件强调授权为非独占方式,开发者保留100%知识产权。谷歌表示,真实代码包含生产环境中的复杂逻辑与业务背景,比公开仓库更利于训练面向真实工程场景的AI编程工具。报道指出,该计划反映了谷歌在编程AI领域面临来自GitHub Copilot和Anthropic Claude Code等产品的竞争压力。
GitHub Copilot App 已发布。这是一个预览版应用,可通过 github.com 访问。
OpenAI 为 Codex 推出 Sites 功能,目前以预览版形式向 Business 和 Enterprise 订阅用户开放。该功能可将用户的工作、想法与计划转化为仪表盘、规划器、项目看板等交互式托管网站和应用程序,并可通过 URL 分享给团队指定用户,以实现协作与共享决策。
关联讨论 5 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Rohan Paul (@rohanpaul_ai)X:OpenAI (@OpenAI)X:Sam Altman (@sama)X:OpenAI Developers (@OpenAIDevs)Claude Code v2.1.161 发布了多项功能改进与问题修复。功能方面,现在可将 OTEL_RESOURCE_ATTRIBUTES 的值作为指标数据点的标签,支持按团队或代码库等维度查看使用情况;claude agents 命令在分发任务时会显示“已完成/总数”;/mcp 改进了连接器列表的展示;并行工具调用时,单个 Bash 命令的失败不再取消同批次的其他调用;全屏模式在 Linux 上优化了剪贴板支持。本次更新还修复了包括管理策略阻止第三方会话、后台子智能体输出损坏以及终端渲染性能在内的多个问题。
微软发布了MAI-Thinking-1与MAI-Code-1-Flash两款新大语言模型。MAI-Thinking-1为35B参数的推理模型,目前向部分早期合作伙伴开放,官方称其在盲测中优于Sonnet 4.6。MAI-Code-1-Flash为5B参数模型,专为GitHub Copilot和VS Code优化,将逐步向VS Code的Copilot个人用户推出。两款模型均强调使用清洁、商业授权的数据从零开始进行端到端训练,未使用第三方模型进行蒸馏。
微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布,并出现在相关技术社区中。
Claude Code 新增动态工作流功能,允许模型在运行时即兴创建和协调多智能体框架来处理复杂任务。该功能通过执行特定的 JavaScript 文件来生成和协调拥有独立上下文窗口的子代理,可解决单一上下文窗口中长时间执行任务可能出现的智能惰性等问题。工作流适用于研究、安全分析、代码审查等场景,通常消耗更多 token,更适合高价值复杂任务,其最佳实践仍在发展中。
同一事件,精选展示《在Claude Code中引入动态工作流》微软推出 MAI-Code-1-Flash 模型,仅使用 50 亿个活动参数(5B Active Params),在 SWE-Bench Pro 基准测试中获得了 51% 的成绩,展示了高参数效率。
微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,且完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据。同时,微软还推出了 MAI-Image 2.5(文生图/图像编辑)、MAI-Transcribe-1.5(语音转写,速度达竞争对手五倍)、MAI-Voice-2(语音合成,新增15种语言支持)和 MAI-Code-1(编程辅助,已集成至 GitHub Copilot 和 VS Code)等多款新模型。
OpenAI 正在为旗下编程工具 Codex 扩展功能,新增针对数据分析、销售和投资银行业务的角色专用插件。该公司表示,Codex 每周有500万用户,其中五分之一并非开发者。非开发者用户群体的增长速度是开发者群体的三倍,这表明 OpenAI 正将 Codex 定位为面向所有人的通用工作应用。
微软推出了基于 Windows Terminal 的开源实验性分支“智能终端”(Intelligent Terminal)0.1 版本,现已通过微软商店和 WinGet 开放下载。该终端将 AI 编程能力直接集成到命令行环境,默认使用 GitHub Copilot CLI,其核心是一个可停靠的 Agent 窗格,能感知 Shell 输出上下文。当命令执行失败时,终端会自动检测错误并在状态栏显示图标,用户点击即可打开加载了错误上下文的 Agent 窗格,由智能体解释问题并建议修复方案。此版本发布后,微软将弃用 Canary 通道中的 Terminal Chat 功能。
在微软 Build 2026 大会上,GitHub 发布了新的工具和更新,并将 Copilot 应用定位为“智能体原生的桌面体验”。其核心目标是让 AI 智能体能够以用户已经习惯的方式进行工作。
关联讨论 1 条The Verge:AI(RSS)GitHub Copilot从今年4月起宣布的计费方式变更已开始实施,由固定月度订阅制转为按token使用量计费。变更刚启动一天,用户已普遍反映成本上涨。新的计费模式使得大语言模型服务的实际成本更直接地反映使用量,给企业和个人用户带来了不同的财务影响。
The Next Era of Knowledge Work报告指出,Codex正通过AI增强的研究、数据分析、工作流自动化与内容创作,变革知识工作的生产力。
多名用户发现,OpenAI将Codex平台针对免费账号和Go订阅账户的额度重置周期从7天延长至30天。Plus、Pro、Business、Edu和Enterprise等付费订阅用户的额度仍维持每周重置。这一调整意味着免费用户每月可用额度次数从约4次减少为1次,而单次配额数值未变。Codex是OpenAI开发的AI代码生成与智能体平台。
JetBrains 开源了面向软件工程的模型 Mellum2。该模型总规模为 12B 参数,采用稀疏 Mixture-of-Experts 框架,激活参数量为 2.5B。上下文窗口扩展至 131072 Token。Mellum2 支持生成编辑代码、调用外部工具及执行多步骤智能体式工作流。模型基础版、指令版和思考版均以 Apache 2.0 许可证开源。