We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。
作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。
现在都是 AI Agent做开发,人喜欢的 PRD 和 AI 喜欢的是不一样的。 为了精准高效开发,写了个专门服务于 AI 的PRD文档生成Prompt。 先有这个文档,再给AI开发,功能完整度和丰富性会远远比自己想的全面、好用。 Skil...
关联讨论 1 条X:Vista (@vista8)We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
Codex版拼多多来了👇 在接下来的两周内,Codex Plus 和 Pro 用户可以邀请最多三位朋友试用 Codex: 当朋友发送他们的第一条 Codex 消息时,双方都将获得一次额度重置。 注意有三个限制条件: 1⃣ 不能邀请自己 2...
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。
Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。
http://x.com/i/article/2065232915970371585
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
OpenAI 公布 Codex 新邀请规则:Plus 和 Pro 用户可邀请最多三位朋友试用 Codex。被邀请好友首次发送 Codex 消息时,邀请者与该好友各获得一次储备重置机会。该机会可保留,用户可随时手动使用,重置后 Codex 用量重新计算,且可重复通过邀请新好友获取新重置机会。
OpenAI 的骚操作真多 哈哈哈 推出了一个活动:每邀请一个好友加入Codex 就帮你自动重置一次用量😅 而且可以重复使用,每当你想重置的时候就可以去邀请好友...
邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。
http://x.com/i/article/2065151123128721408
OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存(bank/save)速率限制重置的功能,用户可将重置额度留存至后续自行使用,而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置 可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时,双方各获得一次额外可银行重置(30 天内可兑现),限时两周 -- 这也太 PDD 了,朋友们帮砍一刀?
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
Introducing developer mode for browser use in Chrome and the Codex in-app browser. Codex can use the Chrome DevTools Pro...
We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...
karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。
@karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。
spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...
OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
WSJ 报道,OpenAI 正考虑大幅降价以应对与 Anthropic 的竞争。Anthropic 增长主要来自开发者和编码工作流,Claude Code 消耗大量 token,已让企业团队将其融入日常工作。OpenAI 虽在消费品牌上更大,但企业市场才是关键——企业为编码智能体、自动化等工具付费。同时,OpenAI 在 IPO 前准备对 ChatGPT 进行史上最大改版,将其打造成涵盖编码、AI 智能体、图像生成和商业软件的超级应用,改版将在未来几周陆续推出。OpenAI 将更多资源投入编码工具 Codex,目标实现 Codex 工程负责人所说的“个人智能体”。
OpenAI is preparing its biggest ChatGPT redesign yet, before its IPO. To make it into a superapp for coding, AI agents, ...
同一事件,精选展示《ChatGPT 要变 AgentGPT 了》苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...
苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...
针对如何给Codex写Goal指令的问题,作者发布了一个Skill,可将一句话需求自动转化为目标,实现“睡前写指令、模型自动开发、第二天收菜”。安装命令:npx skills add joeseesun/qiaomu-goal-meta-skill。源码免费开源(见评论区),旨在简化4w字文档的阅读负担。
Cursor 正用当前版 Composer 训练下一代 Composer,形成递归自我改进循环。训练大型模型需要大量 RL 数据(模型通过“游戏”提升能力),新模型能自动配置开发环境(如自动安装依赖、修复故障)。Composer 2 在环境配置能力上显著优于版本 1,模型越强,越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境,使下一代专注于解决更难题,每一代都解锁先前版本不具备的能力。
We use previous generations of Composer to train future ones. Our autoinstall system has earlier Composer models set up ...
该论文认为,AI智能体可能使软件从固定代码转变为按需规划和构建的系统,代码不再是核心产物。传统软件预先固化规则,而智能体在运行时将意图转化为行动,把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”,系统随条件变化不断解读目标。但这也带来新风险:静态程序在可检查边界内失效,智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹,并辨别流利回复与可靠系统的区别。
最近把小米的MiMo 2.5 的模型接到Bloome 中当Agent 来使用! 发现把技能配置好,自主执行任务也是不错的!关键是真的便宜啊! 这不又来整活儿了? 他们把MiMo-Code直接开源,这终端原生AI coding助手带跨会话永久...
关联讨论 3 条公众号:小米 MiMoHacker News 热门(buzzing.cc 中文翻译)X:小米 MiMo (@XiaomiMiMo)阿里云宣布Qwen模型上线欧洲AI网关Eden AI。Eden AI拥有超20万开发者,企业可通过其统一API访问Qwen开放权重模型(用于推理、编程和AI应用),构建多模型工作流并避免供应商锁定。庆祝上线期间,所有Qwen模型享35%折扣。下周VivaTech阿里云AI创新峰会(7.3区Workshop A)将举办特别见面会,Eden AI CEO与CPTO出席。