Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后,availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型,则自动回退至第一个允许的模型;用户或项目设置无法再扩大受管理的 availableModels 列表。
作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。
现在都是 AI Agent做开发,人喜欢的 PRD 和 AI 喜欢的是不一样的。 为了精准高效开发,写了个专门服务于 AI 的PRD文档生成Prompt。 先有这个文档,再给AI开发,功能完整度和丰富性会远远比自己想的全面、好用。 Skil...
关联讨论 1 条X:Vista (@vista8)We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
Codex版拼多多来了👇 在接下来的两周内,Codex Plus 和 Pro 用户可以邀请最多三位朋友试用 Codex: 当朋友发送他们的第一条 Codex 消息时,双方都将获得一次额度重置。 注意有三个限制条件: 1⃣ 不能邀请自己 2...
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
华为 MatePad Edge 平板近日获鸿蒙 HarmonyOS 6.1.0.125 SP52 更新。主要变化包括:预置命令行“终端”应用(支持在电脑模式下运行);电脑模式支持运行 DevEco Studio IDE(基于毕方技术平台,融合盘古大模型、小艺);模式切换后部分应用可继续使用。此外优化了系统性能、多任务中心、小艺唤醒、语音备忘录体验,改善部分场景界面显示效果,并提升与部分耳机的连接稳定性及音频播放体验。
本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。
Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。
http://x.com/i/article/2065232915970371585
新增 wheelScrollAccelerationEnabled 设置,全屏禁用鼠标滚轮加速。修复 /model 选择器:Opus 在 Max/Team Premium/Enterprise 独立行,Sonnet 在 Pro/Team,Opus 在 API 按量付费账户;修复固定 Sonnet 版本时的硬编码标签;企业账户误显示积分横幅;Bedrock GovCloud 区域前缀错误导致 400 错误;后台会话继承另一会话环境变量;macOS/Linux 退出时 1-2 秒暂停;git co-author 模型名错误;/advisor 预选被 availableModels 屏蔽;skill 热重载仅发送变更;Workflow tool 子智能体缺失归属头;预温后台 worker 空闲后认证失败。[VSCode] 在 /usage 新增过去 24h/7d 的缓存未命中、长上下文、子智能体及 skill/agent/plugin/MCP 分解归因。
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
OpenAI 公布 Codex 新邀请规则:Plus 和 Pro 用户可邀请最多三位朋友试用 Codex。被邀请好友首次发送 Codex 消息时,邀请者与该好友各获得一次储备重置机会。该机会可保留,用户可随时手动使用,重置后 Codex 用量重新计算,且可重复通过邀请新好友获取新重置机会。
OpenAI 的骚操作真多 哈哈哈 推出了一个活动:每邀请一个好友加入Codex 就帮你自动重置一次用量😅 而且可以重复使用,每当你想重置的时候就可以去邀请好友...
邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。
http://x.com/i/article/2065151123128721408
OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存(bank/save)速率限制重置的功能,用户可将重置额度留存至后续自行使用,而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置 可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时,双方各获得一次额外可银行重置(30 天内可兑现),限时两周 -- 这也太 PDD 了,朋友们帮砍一刀?
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
Introducing developer mode for browser use in Chrome and the Codex in-app browser. Codex can use the Chrome DevTools Pro...
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
开发者体验两天后,发现 Claude Fable 5 极其主动。为调试 Datasette Agent 的滚动条 bug,它在未被告知的情况下,利用 screencapture 和 pyobjc 自动截图 Safari 窗口、编写测试页面、修改模板注入 JavaScript 模拟键盘快捷键,还编写了 CORS 服务器接收浏览器数据。随后触发护栏降级为 Opus,Opus 沿用这些技巧找到并验证修复方案,将整个过程记录在报告中。
FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体,由 4B–30B 参数的探索模型驱动,通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%,同时编码智能体 token 消耗减少最多 60%,且边际开销很低。结果表明,仓库探索可与解决任务分离,并由专用模型高效处理。
首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。
karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。
@karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。
OpenAI 昨日宣布收购初创公司 Ona,后者专注于为 AI 智能体提供安全、预配置云环境。该技术将帮助编程助手 Codex 执行持续时间更长的任务,并支持用户将 AI 智能体部署到生产环境,同时让企业更好地掌控基础设施与安全边界。交易金额未公布,Ona 团队将加入 OpenAI 参与 Codex 项目研发。
xAI 推出 Grok Build 插件市场,这是一个终端内插件平台,支持技能、智能体、钩子和 MCP 服务器。所有远程插件均通过 commit-SHA 验证确保安全。首发插件包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 及 Superpowers。
Claude Fable 5 在编码任务中取得中等水平结果,Hacker News 上获 109 个点赞。
spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...
OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
WSJ 报道,OpenAI 正考虑大幅降价以应对与 Anthropic 的竞争。Anthropic 增长主要来自开发者和编码工作流,Claude Code 消耗大量 token,已让企业团队将其融入日常工作。OpenAI 虽在消费品牌上更大,但企业市场才是关键——企业为编码智能体、自动化等工具付费。同时,OpenAI 在 IPO 前准备对 ChatGPT 进行史上最大改版,将其打造成涵盖编码、AI 智能体、图像生成和商业软件的超级应用,改版将在未来几周陆续推出。OpenAI 将更多资源投入编码工具 Codex,目标实现 Codex 工程负责人所说的“个人智能体”。
OpenAI is preparing its biggest ChatGPT redesign yet, before its IPO. To make it into a superapp for coding, AI agents, ...
同一事件,精选展示《ChatGPT 要变 AgentGPT 了》Zed 开发者在其官方博客中提出,软件真正的创造过程并不在代码提交本身,而是发生在两次提交之间的思考、调试与重构中。这一观点强调提交记录之外的隐式工作对软件质量的决定性作用。
苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...
2026年6月11日,小米旗下 MiMo Code 项目正式发布并开源,相关代码已托管于 mimo.xiaomi.com 供社区访问。
同一事件,精选展示《小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议》xAI 今日发布 Grok Build 内置插件市场。插件将技能、斜杠命令、AI 智能体、钩子、MCP 服务器和 LSP 打包为可安装包,用户无需离开终端即可浏览、安装和更新。首发合作伙伴包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers。在 Grok Build 中输入 /marketplace 或使用 CLI 即可安装,每个远程插件均固定到特定 commit SHA 并经过验证。开发者可提交 PR 到 xai-org/plugin-marketplace 发布自己的插件。