猎豹移动董事长兼CEO傅盛今日接受访谈,总结了用AI改造组织体系的四个步骤:一把手自己得懂;全员思想变革;所有人都要用AI写代码,包括行政;建立以年轻人为核心的“特区”。傅盛早在2019年就表示人工智能业务走在正确道路上,并相信未来10到20年AI会把人从繁重工作中解放出来,让人有时间阅读、提升、寻找自我。
猎豹移动董事长兼CEO傅盛今日接受访谈,总结了用AI改造组织体系的四个步骤:一把手自己得懂;全员思想变革;所有人都要用AI写代码,包括行政;建立以年轻人为核心的“特区”。傅盛早在2019年就表示人工智能业务走在正确道路上,并相信未来10到20年AI会把人从繁重工作中解放出来,让人有时间阅读、提升、寻找自我。
Claude 现在写了 Anthropic 大部分代码 截至 2026 年 5 月,合并进 Anthropic 代码库的代码里,超过 80% 是 Claude 写的。 而在 2025 年 2 月 Claude Code 发布前,这个比例还只有个位数...
http://x.com/i/article/2063076298592051200
多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务(如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器)。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧:使用自动权限模式避免审批;用动态工作流协调数百/数千个智能体;用 /goal 或 /loop 推动持续执行;在云端使用 Claude Code(桌面/移动端)以便关闭笔记本;确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。
Can coding agents stay coherent over a 1 billion token budget? Can they build Slack from scratch? Rewrite a JAX codebase...
论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。
http://x.com/i/article/2063647807437705216
Anthropic Claude Code 负责人 Boris Cherny 表示,他不再手动写提示词,而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快,一个 Goals 可能耗尽 5 小时用量,企业仍需严格审查 Token 消耗的 ROI,因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...
How do you use coding agents right now?
宝玉不认同“选HTML而非React”的观点。首先,设计稿需要动态数据交互,HTML难以胜任,而Claude Design是UX交互工具。其次,复杂UI必须拆分为小组件,React能实现重用与低上下文修改,大型HTML则维护困难。再者,React天然形成结构化树形设计,方便coding agent开发,HTML结构割裂、难以与设计映射。至于文章说模型注意力需放在React运行准确率上,宝玉认为当前大模型能力已使此问题不复存在。
http://x.com/i/article/2063275048157458432
I have a new kind of big button that I can press for Codex. Over the next 100 days, we will select one person per day wh...
BestBlogs早报06-08聚焦三篇AI工程实践精讲:iPod之父Tony Fadell系统阐述“知情直觉”与“三代法则”,警告AI时代的“认知投降”和“快时尚软件”;OpenAI工程团队分享使用Codex
今日早报聚焦AI产品与工程前沿:iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据,并总结“三代法则”;OpenAI内部用Codex全程零人工代码交付约100万行代码,合并1500个PR,效率为手写代码10倍;Thoughtworks专家梳理Coding Agent范式转移,指出Context Engineering是双向放大器,并强调Harness Engineering构建安全网;Anthropic首次公开内部Claude Code Skills经验;OpenAI计划将Codex并入ChatGPT打造超级应用。
http://x.com/i/article/2063761613795270656
OpenAI 发布 Codex 应用场景新页面,展示各团队已委托编码代理执行的七大类任务:工程开发、产品开发、质量测试、安全检查、数据分析、内部工具及生命科学工作流程。具体案例包括审查 GitHub PR 并理解大型代码库、将截图转为响应式 UI、模拟真实用户操作进行 QA 测试、重构老旧代码与数据迁移、修复安全漏洞、撰写 PRD、分析数据集、开发内部应用及辅助生命科学研究。页面表明编码代理正从演示阶段融入日常工作。
OpenAI just published a new Codex use-case page, and it's basically a catalog of what teams are already handing over to ...
麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。
FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...
未来几周将有超强AI模型发布,模型能力可能迎来阶段性提升。DAIR.AI创始人Elvis Saravia认为,当前最大的错误是从成本或工程角度锁定单一供应商,建议开始利用模型组合(包括开源模型),保持“模型无关”,以便随时切换模型以发挥其各自优势。对于编程智能体,开源模型表现已媲美前沿模型。他建议将“AI模型路由”作为核心策略,高效分配任务/工作给不同模型,这是一项高回报的AI工程投入。
lol heard a 2nd startup today that has made sales and evals based on this podcast its fun to be "just an interviewer", b...
受《神奇数字马戏团》启发,作者尝试用 Nemotron 30b 构建一个数字宠物,自动生成以 Three.js 实现的冒险游戏,起初作为过度工程化的待办列表,后转向纯冒险生成。长提示、技能卡及 RAG 方案均未产出可运行游戏(常出现空白屏幕)。项目最终转型为简单的 HTML 玩具制作器,能一次生成时钟、待办列表、贪吃蛇、打砖块,但俄罗斯方块等复杂项目仍会崩溃。作者正寻求新方向。
OpenAI just published dozens of real-world workflows showing how teams are using it to automate work. > Manage your inbo...
Lathe(车床)是一个基于大型语言模型(LLMs)的工具,核心理念是使用LLMs帮助用户逐步学习一个陌生领域,而非直接替代学习过程。项目托管在 GitHub 上。
宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。
最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt
一位软件工程师在个人博客中直言,大型语言模型(LLM)正逐步侵蚀其软件工程职业生涯,令其感到无所适从。文章标题为“LLMs are eroding my software engineering career and I don‘t know what to do”,在Hacker News上引发关注,获得125个点赞。作者通过亲身经历表达了对AI取代开发工作的忧虑,但未提出明确解决方案。
OpenAI 正筹备其 ChatGPT 迄今最大规模的改版,目标将其打造成集编码、AI 智能体、图像生成和企业软件于一体的超级应用。改版将在未来几周内开始推出,重点加强编码工具 Codex,使 ChatGPT 成为企业软件、自动任务和编码工作的主要入口,以推动更高利润的企业收入,为潜在 IPO 做准备。此举显示 OpenAI 策略向 Anthropic 靠拢,后者凭借企业产品快速增长并将在今年 IPO 路演中突出这一方向。Codex 工程负责人 Thibault Sottiaux 表示:“它将超越当前界面……我们正在构建的是每个人都拥有自己的个人智能体,能在生活与工作中提供帮助。”
Symbolica 2.0 发布,这是一款可编程符号系统,支持 Python 和 Rust 语言。该版本在 Hacker News 上获得 100 点热度。
Her(हेर)是专为 Claude Code 设计的会话分析工具。用户上传 .jsonl 文件后,Her 用自然语言重建每轮交互,标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器,并结合 Anthropic 与社区最佳实践给出改进建议(仅在有明确可修复模式时)。内置“Ask Her”问答功能,支持单会话与跨会话项目分析。工具不调用第三方 AI API,使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行,评估引擎完全确定,模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库,自动识别会话中使用的工具,并对部署工具、数据库客户端等执行活动进行标记提醒。
一篇arXiv论文提出Tokenomics框架,量化分析模型token在智能体软件工程各环节的使用分布,揭示不同任务对token消耗的差异。
Jane Street 博客上的一篇文章中,作者表示如今自己使用 Claude 进行设计的时间已经超过了使用 Figma。该观点引发了 Hacker News 上的讨论,原文标题即为“现在我用Claude进行设计的时间比用Figma还要多”。
据英国《金融时报》报道,OpenAI 计划对 ChatGPT 进行最大规模升级,打造超级应用,新增 Codex 代码工具和 AI 智能体功能。界面将重新设计并搭配新提示词,引导用户使用代码、图像生成及 Canva、Booking.com 等第三方服务。Codex 功能未来数周在网页端和移动端上线。目前有 200 万企业客户贡献四成营收,预计年底升至 50%。ChatGPT 周活跃用户超 9 亿,付费用户超 5000 万。OpenAI 计划数周内向美监管机构秘密提交 IPO 申请。
据英国金融时报报道,OpenAI正在准备对ChatGPT进行推出以来最大规模的一次改版。该公司计划将ChatGPT转型为结合编码工具和AI智能体的“超级应用”,并添加高管们认为能够创造更多收入的产品。
Harness 工程在智能体优先的世界中利用 OpenAI Codex 的实践文章,6月6日发布于 openai.com,在 Hacker News 上获得 102 点热度。
With Design Mode, you can now point, draw, or talk to update your UI.
With Design Mode, you can now point, draw, or talk to update your UI.
Grok Build update just released v0.2.31 Release Notes: Bug Fixes: • Marketplace skills without proper descriptions are n...
本期聚焦三大Agent工程议题:1)Emergent通过多智能体编排+定制容器,6个月实现1亿美元ARR,覆盖190国850万无编程背景用户;2)Chrome DevTools团队为MCP设计Agent接口,提出Token燃油效率、错误自愈、工具Schema设计和三层信任边界;3)OpenClacky创始人指出每个Agent功能都是一个缓存失效面,第一代RAG架构因90%召回率不足和嵌入成本高而失效。
We gave the same code audit to Claude Opus 4.8 and MiniMax M3. Same codebase. Same prompt. 17 known bugs planted in adva...
"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write ...