I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
baoyu-design skill 现已支持导入 Design System,新建项目时可直接使用已导入的设计系统。功能保留了 Claude Design 原有的导入与编译方式,通过提问即可让用户选择已导入的 Design System。开发者表示实现过程比预期复杂,但效果不错。安装命令:npx skills add JimLiu/baoyu-design。另据 @dotey 介绍,该工具为本地运行的 Claude Design 风格工具,可描述屏幕生成 HTML,在预览中点击元素说出修改指令,最佳搭配 Opus 4.8。
Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...
关联讨论 1 条X:宝玉 (@dotey)开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。
洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。
1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...
Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
Code with Claude, our developer conference, returns next week. Whether you're just getting started with Claude Code or y...
本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。
Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。
Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...
Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
OpenAI Developers 五月发布多项更新:Codex 用户突破 500 万;新增 ChatGPT 移动端持续运行、Mac 后台运行、跨 Mac 应用电脑使用、Chrome 插件支持网页测试与 DevTools;⌘+⌘ 快捷键截图直达 Codex;Windows 版也支持电脑使用。Realtime API 推出新模型 Realtime-2,用于语音智能体、实时翻译与转录,并提供提示词指南。Agents SDK 新增 TypeScript 支持、沙箱智能体和开源 harness。私有 MCP 服务器可通过 HTTPS 连接 OpenAI 产品。
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
holy shit - codex can start its own chats for you and they show up in your sidebar this is so nice for when you find an ...
Hivemind发布面向AI编程智能体的持续学习功能,即日起开放。该工具收集团队运行的每个智能体(Claude Code、Codex、Cursor、Hermes、Pi)的轨迹,转化为可复用技能并推送到所有智能体,数据存储在用户自己的云存储中。内置SkillOpt使技能持续训练:Claude Code准确率提升+19.1分,Codex提升+24.8分,在全部52个测试设置中最佳或持平。开源,一行命令安装。
Coding agents that actually get better the more your team uses them. Introducing Hivemind: continual learning for AI cod...
Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...
剪映翻译效果不佳,作者尝试自建了一个本地视频剪辑应用,主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能,并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果,可用于微信视频号内容创作。
Claude 现在写了 Anthropic 大部分代码 截至 2026 年 5 月,合并进 Anthropic 代码库的代码里,超过 80% 是 Claude 写的。 而在 2025 年 2 月 Claude Code 发布前,这个比例还只有个位数...
http://x.com/i/article/2063076298592051200
多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。
Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...
论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。
http://x.com/i/article/2063647807437705216
Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
How do you use coding agents right now?
宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。
http://x.com/i/article/2063275048157458432
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex
今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。
http://x.com/i/article/2063761613795270656
OpenAI 发布 Codex 应用场景新页面,展示各团队已委托编码代理执行的七大类任务:工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。
OpenAI just published a new Codex use-case page, and it's basically a catalog of what teams are already handing over to ...
麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。
FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...
未来几周将有超强AI模型发布,模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为,当前最大的错误是从成本或工程角度锁定单一供应商,建议开始利用模型组合(包括开源模型),保持“模型无关”,以便随时切换模型以发挥其各自优势。对于编程智能体,开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略,高效分配任务/工作给不同模型,这是一项高回报的AI工程投入。