全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 2081 条

全部一手资讯 X 论文

标签「编码」清除

OpenAI Developers@OpenAIDevs · 5月2日39

Pets. Now in Codex. Use /pet to wake your pet.

译宠物。现已登陆Codex。使用 /pet 唤醒你的宠物。

OpenAI Developers@OpenAIDevs · 5月2日42

Your pet can keep an eye on what Codex is doing while you keep working:

译你的宠物可以帮你留意Codex的动态，而你继续工作： [引用 @simpsoka]：周五来点小乐趣！和@Rjdleee合作这个项目超级开心。宠物为Codex增添了些许奇趣，同时也很有用。它能在边缘位置提供更多关于Codex运行状态的信息。我实在没忍住，必须做个Max Headroom宠物。:)

Claude@claudeai · 5月2日67

Code with Claude, our developer conference, returns next week. Whether you're just getting started with Claude Code or you've been building for a while, there's a session for you. Register for the livestream: http://claude.com/code-with-claude

译Code with Claude，我们的开发者大会，下周回归。无论你是刚刚开始使用 Claude Code，还是已经构建了一段时间，都有适合你的环节。注册观看直播：http://claude.com/code-with-claude

Greg Brockman@gdb · 5月1日28

Codex as the everything productivity app

译Codex 作为全能生产力应用 [引用 @TinaDebove]：Codex 重新定义了我的工作流程，以至于我可能需要买一台新机器去年我买了一台36GB M4 Pro MBP，以为它是个火箭船。现在我可以使用 Codex 在4个应用之间来回工作，而不是在它构建或思考时刷 Twitter（🤡）随着 visionOS 模拟器运行多个应用、2个 Xcode 项目、2个 Reality Composer Pro 项目、Docker 构建和数十个标签页，Mac 已经跪了疯狂的时代

向阳乔木@vista8 · 5月1日50

Adam Tornhill 翻出了一个老问题：函数应该写多长？ AI 模型理解代码的方式和人类不同。研究表明，命名对 AI 的理解能力影响极大。把有意义的变量名换成随机字符，模型表现会显著下降。 AI 依赖的是字面特征，名字、结构、局部上下文，而不是推断出来的语义。 Fowler 自己的观点是：函数长短本身不重要，重要的是意图和实现的分离。如果你需要花时间去读一段代码才能理解它在做什么，那就应该把它提取成一个函数，用函数名说清楚"它在做什么"。这个逻辑放在 AI 编程里同样成立。原文还讨论了其他问题，都很有意思，推荐看 https://martinfowler.com/fragments/2026-04-29.html

译Adam Tornhill重新探讨函数应写多长的问题。AI模型理解代码的方式与人类不同，依赖字面特征如命名、结构和局部上下文，研究表明变量名对AI理解能力影响显著。Fowler认为函数长短本身不重要，关键是将意图与实现分离；若代码需阅读才能理解其功能，就应提取为函数并用清晰名称表达意图。这一逻辑在AI编程中同样成立，强调命名和结构对提升AI代码理解的重要性。

Greg Brockman@gdb · 5月1日67

codex now has a built in Ralph loop++:

译Codex 0.128.0版本实现了重大更新，核心是引入了强化版Ralph循环，使智能体操作更加目标导向。新增的/goal命令允许用户设定明确目标，系统会在智能体每轮操作后自动提示其选择下一步具体行动。目标要求会映射到文件、测试结果等实际证据上，且模型只能通过更新目标来标记任务完成。此外，该版本终于支持了“codex update”功能。

Emad@EMostaque · 5月1日36

It seems @OpenAI has cracked recursive self-improvement for Codex

译似乎 @OpenAI 已经破解了 Codex 的递归自我改进

Berryxia.AI@berryxia · 5月1日34

我艹！这一波Codex+GPT2 真是成了！直接可以来开发游戏了，而且只是用嘴！一句话就可以搞起来，完整教程看藏师傅的教程👇

译推文惊叹于结合Codex与GPT2的技术进展，认为其已能实现仅用自然语言指令来开发游戏。作者指出，现在仅需“用嘴说一句话”即可启动开发，并推荐了相关的完整教程。引用的推文提供了该教程的具体链接，是关键的技术实现参考。这展现了大型语言模型在降低编程门槛、实现自然语言交互式创作方面的潜力。

宝玉@dotey · 5月1日60

开源无国界

译一位开发了DeepSeek-TUI终端工具的美国开发者表示，希望与中国开发者社区建立联系，但受限于网络访问和微信验证。他请求社区帮助转发推广其开源项目，并协助完成微信验证，以便建立群组共同探讨DeepSeek、开源技术以及改进AI agent。作为回报，他承诺维护cargo install的简洁安装方式。开发者透露，其推文内容经由DeepSeek模型润色完成。

阿绎 AYi@AYi_AInotes · 5月1日55

Karpathy的最新演讲，把我对AI的认知彻底刷新了一遍，他说所有人都搞错了LLM的真正价值，它根本不是用来加速你现有工作的，核心价值是用来创造那些以前根本不可能存在的东西，最震撼的是那个叫menugen的App，就是你输入一张图片然后输出一张图片，没有一行传统代码，整个产品就是LLM原生的，感觉以前的软件1.0和2.0被彻底绕过去了，以后我们写的可能都不是.sh脚本，应该是.md技能文件，你用自然语言描述你的意图， LLM会自己适配你的环境，自己调试，自己处理边界情况，然后他还提出了一个我见过最准确的LLM心智模型，叫做锯齿状智能，就是同一个模型，能完美重构十万行代码，但同时也会让你走路去洗车🚿🚗哈哈哈以前大家觉得这是可验证性的问题，但这次他给出了更深层的解释，叫做经济学驱动，就是说所有高价值高可验证的领域，都会被密集投喂数据，被RL焊死在轨道上，那么其他领域就是数据稀疏的丛林，模型只能靠泛化硬闯，所以你会觉得它有时候神有时候蠢，其实根本不是智能高低的问题，本质上是哪里有钱，哪里的能力就被堆得特别高，可以想象未来所有的产品和服务，都会被拆成感知，执行，逻辑三个部分，并且横跨软件1.0，2.0，3.0三种范式，这样的话，程序员的角色也彻底变了，他们不再是写代码的人了哈哈，变成了设计代理系统，守护人类品味和判断的人，听起来有没有很酷兄弟们😎😎😎 最骚的的是他自己说的，作为一个写了三十年代码的程序员，他现在每天都觉得自己在落后，哇靠，当最顶尖的从业者都觉得自己跟不上的时候意味着什么？？说明范式真的在剧烈迁移了，以后真正的护城河，不是再是你会写多少行代码了，而是你能不能读懂LLM的锯齿地图，能不能设计出放大人类品味的agent系统，敢不敢去做那些以前根本不可能存在的产品。

译Andrej Karpathy指出，LLM的核心价值并非加速现有工作，而是创造以前不可能存在的事物，例如完全无需传统代码、由LLM原生驱动的应用。他提出“锯齿状智能”模型，解释LLM能力不均的现象：高价值、可验证领域因经济驱动获得密集训练，能力突出；其他领域则依赖泛化，表现不稳定。未来产品将被解构为感知、执行与逻辑，横跨软件1.0至3.0范式。程序员角色将转变为设计智能体系统、守护人类品味的架构师。真正的护城河在于理解LLM能力地图并设计放大人类意图的智能体系统。

meng shao@shao__meng · 5月1日66

在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验：视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代，组成Web/App 开发全新闭环！ GPT-5.5 的能力跃升：在编码细节把控、指令遵循和创造性上显著提升，能处理复杂逻辑、数据整合和边缘问题。 GPT-Image-2 的强项：UI 设计与文本渲染能力突出，尤其适合生成高保真界面和视觉资产。两者结合在 Codex App 中的闭环工作流： 1. 输入截图 → Codex（GPT-5.5）分析图像、拉取真实数据（如 NASA Artemis II 任务数据）、自动实现交互应用。 2. 自动处理设计偏差：示例中识别并修正月球/地球比例不现实问题，通过数据插值生成更真实路径，还添加“真实比例”切换选项。 3. 无设计稿场景：先用 GPT-Image-2 生成概念设计，再交给 GPT-5.5 实现。 4. 插件优化：内置结构化流程（图像生成 → 实现 → 浏览器内验证 → 设计对比迭代），减少“把设计仅当灵感”的偏差，提高保真度。实际价值与扩展 · 效率提升：从想法/截图到可交互高保真应用，极大缩短迭代周期，支持 Web、移动、原生甚至复杂工具（如 3D 建模软件）。 · 创意放大：开发者可“放飞想象力”，快速原型游戏、工具或整个系统。 · 实用技巧：手动操作时，建议明确要求 Codex 进行“并排设计 vs 实现对比批判”；结合 /plan 模式处理复杂项目。 · 局限提醒（隐含）：复杂任务仍可能需跟进提示；设计需人工把关可用性、简洁性和可访问性，避免过度视觉效果。

译Codex App 结合 GPT-5.5 与 GPT-Image-2，构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力，GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计，自动分析、生成交互应用并修正设计偏差，内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期，适用于Web、移动及复杂工具开发，但复杂任务仍需人工提示与设计把关。

向阳乔木@vista8 · 5月1日26

牛逼的狠，昨天聊游戏提到杀戮尖塔，没想到歸藏自己写了一个，哈哈哈。完整教程放出来了，游戏能给人很多启发和灵感，假期计划多玩会儿游戏。

译开发者歸藏受热门卡牌游戏《杀戮尖塔》启发，独立开发了一款游戏。他发布了完整的制作教程，并强调游戏能带来启发与灵感，计划在假期投入更多时间玩游戏。此举展示了从玩家到创造者的转变，以及游戏作为创意媒介的价值。

歸藏(guizang.ai)@op7418 · 5月1日63

http://x.com/i/article/2049902517254070272 # 一下午一句话 Codex 帮我开发了一个完整的游戏！昨天上午我闲着没事，想做一个类似《杀戮尖塔》的爬塔卡牌游戏玩玩。我不写游戏代码，也不碰引擎，全程就是把想法丢给 Codex，让它自己折腾。一个小时后，一个叫《夜巡录：荒庙篇》的志怪题材 roguelike 就能玩了。标题页进地图，走普通战、精英、事件、商店、休整，一路打到荒庙正殿的 Boss。七个怪物、二十张左右的卡牌、符印、香火、焚符、请神四条爆发链路都能跑。剩下几个小时，都在让它变得不像一个 demo。受击反馈、音效、音乐、卡面、待机动画、结算视频——这些小东西决定玩家会不会相信「这是个游戏」。项目已经开源，桌面安装包 macOS 和 Windows 都打好了： https://github.com/op7418/Night-Patrol/releases 整个下午有几个瞬间是真的把我震到了。 Codex 的模型能力已经不算新鲜事。让我在意的是它自带浏览器、自带 GPT-Image 2.0，再加上那种不达目的不罢休的执行力。三样东西摆在一起，能力已经和 Claude Code 完全不一样了。接下来说一下我是怎么跟它一起开发的，顺便说一些在开发过程中令我震惊的事情： ## 一、我只说了七个字，它就把整条角色流水线建好了我就跟它聊了一下《杀戮尖塔》，问它能不能帮我做一个类似的游戏。结果它直接用已有的资源，通过代码生成了一个非常像的 demo。我没要求绿幕，它直接生成了绿幕底的图之后我让 Codex 用内置的 GPT-Image 2.0 生成里面的图片素材。我也没说要什么风格的，也没说要哪些妖怪的，也没说要哪些素材。图生出来我看了一眼，愣了一下。角色是在一整张纯绿色背景上站着的。标准的影视绿幕底色，均匀、干净，边缘清清楚楚。没有雾、没有远山、没有任何额外的画面元素。恐怖的是它上来就知道要生成方便后续处理的绿幕图。我压根没告诉它「游戏里用到的立绘需要是透明背景的 PNG」，也没告诉它「请你生成一张绿幕底色的图方便我后期抠掉」。它自己在规划这条管线。从想要生成什么样的角色，到角色要怎么放进战斗舞台，再到放进去之前需要经过哪道处理——它在调用 GPT-Image 的那一刻已经全想好了，然后反推回去写了提示词。抠图工具也是它自己找的我没给它装任何图像处理工具，没给它 rembg，没给它 Python 环境里的任何特殊依赖。它自己查、自己装、自己调，抠完规规矩矩丢到 tmp/imagegen/ 下面。生图用绿幕、工具自己找、抠完按文件名归类，三个动作连起来，其实已经是一条完整的角色资产流水线。我从头到尾只说了「调用GPT-Image 2.0 生成素材」这几个字。以前的体感是「模型会写代码，工具和上下文得我配」。现在更像是你报个目标，它自己把路径补齐。我只负责审美，它负责把供应链跑通。 ## 二、为了下几个图标，它差点黑掉一个素材站买会员不够，它开始分析网站结构立绘这种核心视觉用图像模型生成没问题。但游戏里还有一大堆小东西——卡牌边框、费用宝石、牌堆底图、血瓶、八卦按钮、符箓面板——这些要是全用图像模型一张张生，又贵又慢，质感还不统一。我跟它说，要不你自己去网上找现成素材吧。它就认认真真开始找。看中一个素材站，我顺手买了会员，账号扔给它。接下来的十几分钟属于灵异事件。它登进去，找到想要的素材，准备点击下载。但下载按钮前面有人机验证，一次、两次、三次，过不去。换一般的模型，这时候就会回来跟你说「我没法处理验证码，你能帮我下载一下吗」。 Codex 开始分析网站结构，试图绕过前端的点击限制，直接构造请求去拿静态资源。然后 Codex 自己的安全护栏介入了。 GPT 现在这代模型，一旦涉及可能的网络安全越界行为，系统会直接把这段任务掐掉，弹出提示要你做企业认证，证明你是合法使用者。我盯着屏幕愣了几秒。一个要你帮它办会员卡、结果自己下手写爬虫的 AI，说实话挺有病的。它也谈不上「坏」，只是把「拿到这批素材」当成了一个必须完成的闭环任务。遇到阻力就自动升级手段，一路升到了安全红线那边去。最后的解决办法很朴实：它把自己觉得合适的素材链接发给我，我点下载、拖给它。那一刻我有种自己在给 AI 当实习生的错觉。 ## 三、它把几百张素材拼成一张大图，这是整件事最精彩的动作一个文件夹一百张图，模型怎么挑？抠图和爬虫那两件，更多还是能力展示。下面这件，我觉得是真正意义上的「解题思路」，是那种让你合上电脑默默拍一下桌子的动作。我找到一个巨大的游戏素材压缩包发给它。里面大概几千张图，按「UI 界面」「法宝奇遇图标」「角色」「徽章」这种方式粗略分过类。问题是： - 一个分类文件夹动辄几十到上百张 PNG - 文件名多是 ui_001.png、icon_047.png 这种没信息量的命名 - 多模态模型的上下文根本扛不住一张张喂老路子基本两条： - 逐张读：一张一张送进模型，几十张上百张 context 就炸了 - 按名猜：文件名没标内容，猜了也没用 Codex 走了第三条路它写了一个小脚本，把文件夹里所有小图自动排版、拼成一张巨大的网格图。每张小图下面标上原始文件名，像一本目录图册。然后它只读这一张大图。多模态模型扫一眼，就能同时看到一百张素材的样子。看中哪张，直接读出下面的文件名，去原文件夹里按名字引用就行。一次视觉消费，顶一百次检索。它自己意识到了自己的瓶颈那张巨大的 contact sheet 生成出来的时候，我盯着看了好久。这个动作本身不复杂。老摄影师做的印样，老电影素材库做的 thumbnail wall，都是一样的思路。关键是模型自己意识到「我的视觉带宽有限，我得把问题压成一张图」——这一步是它独立完成的。能意识到自己工具的限制，然后主动为自己造一个更好用的输入，这一下已经非常接近一个会写工具的工程师了。我作为使用者什么都没参与，只是看到桌子上多了一张拼图。最后游戏里很多 UI 素材，费用宝石、牌堆、血瓶、按钮、符箓边框，都是从这个流程里挑出来的。后面我再看 assets/vendor/aigei/ 下面那一堆干净的切图，会觉得那张 contact sheet 才是整个项目最值钱的一步。 ## 四、Seedance 2.0 给七个 Boss 拍了处决动画视觉打磨到一定程度以后，我想给战斗结尾加一点仪式感。最后方案是：每打死一个怪物，进入一段过场，播放一个几秒的处决动画。这活现在用 Seedance 2.0 做最合适。流程 - GPT-Image 给七个怪物分别生成一张结算定帧画面 - 把这些 poster 分别丢给 Seedance 2.0，生成对应的短视频 - 视频放进 assets/generated/cinematics/，战斗胜利后自动播放 ## 五、一版能玩之后，真正的工作才开始第一版其实已经够"能玩" 三个小时跑完原型的时候，这个游戏该有的东西其实都有了。标题页、地图、战斗、奖励、事件、商店、休整、Boss、结算——完整循环在那里，玩法爽点也在那里。按以前的标准，这一版已经可以发出来骗人玩了。但这个版本玩起来还是个流程图，而不是游戏。每一步都通，但每一步都干巴巴。剩下的几个小时，全都花在那些单独拎出来说不上来、但合起来决定"这东西像不像真游戏"的细节上。音乐来自 Suno v5.5 背景音乐全是 Suno v5.5 生成的，没用任何现成素材。我给它一段方向描述——"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情" 跑出来几版，挑一版进游戏。标题页的调子更沉一点，战斗背景轻一点不抢人。这里我还做了一些细节处理：在等待页面时，音乐音量较大；等到点击“开始游戏”，音量就会变小，转为背景音。受击动画和打击音早期的战斗，卡牌打出去怪物就是掉数字。没有反馈，没有分量。 Codex 做了一整套打磨： - 角色受击左右摇晃、镜头轻微震动、屏幕短暂泛红 - 每种攻击类型配不同的打击音——剑、符、雷、拳，质感不一样 - 格挡和符印结算也有自己的声音，不会糊成一团 - 敌人死的那一帧有一个短暂的定格，再进入处决视频这些东西单独看都很小。合在一起，整个战斗的"手感"就从网页表单变成了卡牌游戏。 Seedance 2.0 还拍了待机动画这一步是整个打磨阶段我最喜欢的一个用法。除了 Boss 结算的处决动画，我还让它做了标题页的背景——环境里火在烧、灯笼在飘、远处有云雾流动。 Seedance 2.0 默认出的是一段有头有尾的视频，循环播会在接缝处跳一下。首帧和尾帧传同一张图。视频从这张图开始、又回到这张图结束，接起来就是无缝的无限循环。标题页那段背景动画就是这么来的。火一直烧、灯笼一直飘、云雾永远在流——你盯着看三分钟也看不出接缝。这种用法其实在视频生成出来前就存在，老动画里循环场景都是这个做法。 ## 最后：这个下午把我震到了好几次这个项目全部在一个 Codex 会话里完成，没开过第二个窗口。玩法原型、状态机、React + Phaser 架构、素材管线、抠图、爬素材、拼 contact sheet、调 GPT-Image、跑 Seedance 2.0、接 Suno v5.5、Electron 打包、GitHub Actions 构建 Release、README、图标、宣传物料——全在里面。我自己做的事很少： - 选方向：中国志怪题材、爽点放在符印和香火 - 给审美意见：这里糙、那里像网页表单、亮度打架 - 做看门人：什么素材合规、什么爬虫不能碰、什么权限不给剩下全是 Codex 在跑。而且每一步都有让我合上电脑愣一下的瞬间。它上来生成的就是绿幕图，因为它知道角色要进游戏之前得先抠掉背景。它自己下手写爬虫去绕验证码，被自己的安全策略拦住。它把几千张素材拼成一张巨大的索引图，让自己用一次视觉消费顶一百次检索。这些事单拎出来都不是什么天大的发明，但每一件都指向同一个变化：以前你得把工具给它摆好，它负责写代码；现在你只管说目标，工具它自己找、自己配、自己造。这种感觉已经脱离了「写代码助手」的范畴。更像有一个相当接近 AGI 的雏形软件在干活。 ## 要不要把这套流程打包成 Skill？这个项目跑下来，我心里其实已经有了一套相对稳定的流程：我在想，要不要把这套流程封成一个 Codex 里专门做独立游戏 demo 的 Skill。你只要丢一个玩法想法进去，它就能在几个小时里给你跑出一个能玩、能打包、能分发的版本。如果大家有兴趣，我就抽时间把这套 Skill 做出来开源。反正我自己也要继续用。 ## 游戏试玩代码都开源，安装包也都打好： https://github.com/op7418/Night-Patrol/releases

译开发者仅通过向Codex描述想法，便在一个下午内完成了roguelike卡牌游戏《夜巡录：荒庙篇》的开发。Codex不仅生成游戏原型，还自主构建了素材生产流水线，包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材，它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节，展现了其结合内置工具与强大执行力的综合能力。

歸藏(guizang.ai)@op7418 · 5月1日67

本来是想随便玩一下的。没想到 Codex 真的用一下午帮我开发了一个非常完整的类似《杀戮尖塔》的卡牌游戏。代码和客户端都已经开源了，大家可以试试

译用户原本抱着尝试心态使用Codex，结果该AI工具仅用一个下午就协助开发出了一款非常完整的、类似《杀戮尖塔》的卡牌游戏。目前，该项目的全部代码和客户端均已开源，可供公众体验和测试。这展示了Codex在游戏开发辅助方面的高效与强大能力。

阿绎 AYi@AYi_AInotes · 5月1日64

看到这个3D交互网站的演示给我看傻了😲🤯 做了版高可复用3D互动网站 Prompt 框架提示词大家收好！！！讲真不是因为这个网站有多炫酷，主要是让我突然意识到，以前做3D网站这个曾经门槛极高的活，现在真的连奶奶都能做了🤣👵 不用Cursor或者Claude写Three.js那么复杂，是用Emergent加Claude的Agent全流程托管，你不用写一行代码，不用搭环境，不用调渲染参数，只要上传一段参考视频，说清楚你想要的感觉， AI会自己生成代码，自己跑实时预览，自己迭代调整，整个流程从打开网站到做出能跑的3D交互原型，只用了一个下午，成本就是一个月20刀的Claude订阅，以前这种级别的3D交互原型，外包报价至少8000到15000美元，现在一个人一个下午就能搞定了😱 老规矩提示词自取👇

译作者利用Emergent和Claude Agent，无需编写Three.js代码或搭建环境，仅通过上传参考视频和描述需求，即在一个下午内全自动生成并迭代出可运行的3D交互网站原型。成本仅为每月20美元Claude订阅费，而以往同类外包项目报价高达8000至15000美元，标志着3D网站开发门槛已大幅降低。

Orange AI@oran_ge · 5月1日52

昨天下午藏师傅给我看录屏的时候我就被彻底震撼了以前这种东西没有一个工作室没有个把月的做不出来现在一个人一下午就搞出来了 feel the AGI…

译作者看到他人展示的录屏后感到震撼，因为过去需要工作室耗时月余才能完成的复杂项目，现在借助Codex，一个人仅用一个下午就开发出了一个非常完整的、类似《杀戮尖塔》的卡牌游戏。该游戏的代码和客户端均已开源。此事让作者深切感受到了AGI（通用人工智能）带来的生产力变革。

宝玉@dotey · 5月1日62

OpenAI 官方推出 Ralph loop 功能了，给 Codex CLI 加了个 /goal 命令。也就是说：你定个目标，它就一直跑，跨多轮不丢，不达目的不停。这是 0.128.0 版本里的新东西，要在 ~/.codex/config.toml 的 [features] 段写一句 goals = true 才能启用。 [features] goals = true 目前只在终端 CLI 上有，桌面 App 还没跟上。现在不用自己手搓 shell 脚本，不用配 git 当外部记忆，也不用敲 --dangerously-bypass-approvals-and-sandbox，直接 /goal 就行。

译OpenAI在Codex CLI 0.128.0版本中正式推出Ralph loop功能，通过新增的/goal命令实现目标驱动的持续执行。用户只需在配置文件中启用该功能，即可为AI助手设定一个目标，系统将自动保持该目标在多轮对话中的连续性，直至任务完成。此举简化了工作流程，用户无需再手动编写脚本或借助外部工具进行状态维护。该功能目前仅限终端CLI使用，桌面应用程序暂未支持。

meng shao@shao__meng · 5月1日60

Karpathy 在 Sequoia Ascent 2026 的炉边对话，从 Vibe Coding 到 Agentic Engineering 这次对话相比一年前的 "vibe coding" 有一个明显跃迁：去年谈的是个体开发者如何驾驭 LLM，今年谈的是整个软件与经济体系如何围绕 agent 重构，有三条主线。一、LLM 的价值不在"加速旧事物"，而在"让新事物成立" 判断一个 AI 产品，不要问"它加速了什么"，而要问"它让什么变得不必要、或第一次变得可能"。三个样本： · MenuGen：整条 OCR+检索+渲染流水线被一次 prompt 吞掉。大量 AI 应用只是模型缺陷的临时包装，模型一进步，产品形态就消失。 · .md skill 取代 .sh script：软件分发的最小单位从"可执行指令"变成"写给 agent 的自然语言说明"，由 LLM 按环境自适应、自调试。 · LLM 知识库：对非结构化知识做重组与再编译——这是经典代码根本做不到的计算。二、Jaggedness：能力锯齿 = 可验证性 × 经济学同一个模型能重构十万行代码，也会让你走路去洗车。原因是两层叠加： · 可验证性：RL 只能打磨有清晰奖励信号的领域（代码、数学、安全）。 · 经济学（本次新增）：实验室按 TAM 决定把什么灌进 RL 数据分布。在分布内，你在铁轨上飞驰；在分布外，你在丛林里挥砍刀。模型能力不是平滑球体，而是商业利益塑形的轨道网——预测表现要同时看"难不难"和"值不值得训"。三、Agent-native 经济：世界被拆成传感器 / 执行器 / 逻辑下一层基础设施不是面向用户，而是面向 agent。推论： · 可读性是新基建：文档、API、权限、日志都要从"给人看"改写为"给 agent 消费"。 · Agentic engineering 成为新工种：分解、架构、编排、评估的权重，超过现场写代码；传统白板面试失效。 · 远景：神经计算承担大部分任务，经典 CPU 退化为协处理器。

译Karpathy指出，LLM的核心价值在于创造新可能性（如取代传统代码的MenuGen、.md技能和知识库），而非仅加速旧流程。模型能力呈现“锯齿状”分布，由任务可验证性和商业利益共同塑造。未来将进入“Agent原生”经济，基础设施需面向智能体设计，强调信息的可读性，Agentic Engineering成为新兴工种，神经计算可能主导任务处理，经典CPU退化为协处理器。

ginobefun@hongming731 · 5月1日61

http://x.com/i/article/2050006014297346048 # BestBlogs 每日早报 · 2026-05-01 · 软件 3.0、Vibe Coding 与 Prompt Caching 早报链接：https://www.bestblogs.dev/explore/brief ## 导语 AI 的坐标系正在被重画。Karpathy 在 Sequoia Capital 的访谈里把软件推进到 3.0 时代，编程核心从写代码变成喂上下文，并区分了 Vibe Coding 与 Agentic Engineering 两种姿态；OpenAI 总裁 Greg Brockman 把真正的瓶颈从算力挪到了人类注意力，并估算 AGI 已经走完八成路。落到工程层面，Anthropic 公开了 Claude Code 把 Prompt Caching 命中率当 SLA 监控的实战经验，把"上下文是新代码"翻译成了一条条可执行的工程纪律。今天这一期，我们从这三场对话出发，再把视野延伸到 Long-running Agents 的范式、RAG 之争、京东 GRAM 的 50ms 生成式推荐、DeepSeek 识图与一系列基础设施动作，给你一份能按图索骥读完的早报。 ## 精讲一 · 卡帕西红杉访谈：从 Vibe Coding 到 Agentic Engineering，软件 3.0 时代已来 OpenAI 联合创始人、特斯拉前 Autopilot 负责人 Andrej Karpathy 这次走进 Sequoia Capital 演播室，给当下的软件开发画了一张新地图。他把过去一二十年的实战经验压缩成一段时间线：Software 1.0 是人类一行行写下的显式规则，编译器和操作系统都属于这一层；Software 2.0 是用神经网络权重替代人写规则，编程变成数据集和网络结构的编排，深度学习时代的计算机视觉、语音识别都在这条线上；进入 Software 3.0，LLM 成了那台真正在跑的"计算机"，上下文窗口才是主要的控制杆，编程不再是写代码，而是把对的 prompt、对的上下文喂进去，再用工具调用把外部世界接回来。在这个新地图上，Karpathy 给两种姿态打了清晰的标签。Vibe Coding 是"抬升地板"，让任何人都能凭一段描述让 AI 把原型跑出来，门槛被压到几乎为零；Agentic Engineering 则是专业团队的纪律，要求工程师协调多个能力参差不齐、行为带有随机性的 spiky 智能体，在面对生产环境的质量、安全、合规和性能时仍然保持系统级的可靠性。他还提醒，AI 进步本身是 jagged 的——在数学、代码这种可被强化学习自动验证的领域峰值很高，模型可以重构十万行代码，却可能在"该走路还是开车去洗车"这种生活化判断上翻车，因为后者落在了奖励信号之外，根本没机会被打磨。 Karpathy 还把人类工程师的角色重新做了定义。当智能体接管了那些"实习生级别"的活儿——比如记住 reshape 和 permute 的差别——人类应当向上一层走，承担起 director 的职责。他点名了三种最值钱的能力：第一是品味与判断力，要能决定什么值得做、做出来的审美是否过关；第二是系统设计，能写出高层规格说明，让一群智能体按照计划去执行；第三是真正的理解力，他原话是"你可以外包思考，但你没办法外包理解"，理解力会成为引导 AI 价值的最终方向盘。为什么这一段对今天的工程师重要？因为它直接对应到第三篇精讲里的 Prompt Caching 实践——当 LLM 真的成了一台计算机，prompt 就是程序，prompt 缓存就是 CPU cache，工程化的核心从此转向"如何稳定、可缓存地喂上下文"。Karpathy 的判断也呼应了 Brockman 那场对谈的主旋律：人类的角色正在从写代码的 coder 变成定义意图、把握品味、承担系统设计责任的 director。如果你只听一段，请关注他对 2026 年的预测：神经网络可能成为主机进程，CPU 退化为协处理器，UI 由扩散模型按需即时渲染——这意味着用户每一次打开界面，看到的都是模型为他这一刻量身渲染出来的瞬时形态。这同时意味着我们今天写的产品形态、UI 框架、甚至 SaaS 的边界，都可能在两年内被重新定义。完整访谈见 BestBlogs · Karpathy 红杉访谈。 ## 精讲二 · OpenAI 总裁布罗克曼红杉访谈：算力套利、Scaling Laws 没有墙、人类注意力是新瓶颈如果说 Karpathy 给的是新地图，OpenAI 总裁 Greg Brockman 给的就是这张地图背后的商业模型。他直白地说，OpenAI 的本质就是一桩算力套利生意：买、租、自建算力，然后用更高的毛利卖出去；只要这个毛利还为正，公司就会持续扩张，因为人类对"解决问题"的需求几乎是无穷的，对应到 AI 上就是对智能的无穷需求。即便 OpenAI 已经是 GPU 市场的大客户，Brockman 仍坦言他们"始终在猎更多算力"，自 ChatGPT 发布以来，需求始终跑赢硬件爬坡。他对 Scaling Laws 的描述更激进。他把 Scaling Laws 比作牛顿定律一样的物理事实——往神经网络里多倒算力，模型能力就线性变强，这条规律目前还没有看到墙。他甚至追溯到神经网络在 1940 年代被设计出来的时候，那时连真正的计算机都还没普及，但同一套数学结构等到算力跟上之后立刻迸发出新的意义。他给出一个粗略估算：人类已经走完了通向 AGI 八成的路，并用内部模型在一夜之间自动完成系统优化、profiling、迭代闭环的实例作为佐证——模型在没人盯着的情况下，可以一晚上完成一套基础设施的性能调优工作。他还提到 OpenAI 内部的 Chronicle 工具，让模型直接看见用户整台电脑上发生的事，把上下文问题硬解决——他反问道："你为什么要去给计算机解释正在发生什么？这件事本身就不合理。"这正回应了 Karpathy 关于"Software 3.0 的核心是上下文工程"的论断。更值得敲黑板的是 Brockman 对瓶颈位置的迁移：当 AI 把"做事"变得便宜，真正稀缺的资源从执行能力变成人类注意力和判断力。重要的问题不再是"怎么做"，而是"做这件事是否对、是否对齐我们想要的方向、是否就是我们真正想要的结果"。除此之外，Brockman 还分享了一个让他兴奋的观察：OpenAI 内部某个模型最近独立推导出了一条与量子引力相关的物理公式，过去专家普遍认为这种问题超出了现有 AI 的能力范围。他预测科学领域会迎来一次文艺复兴，因为模型正在学会在生物学、物理学这些"杂乱真实世界"里找路。这条线索把今天的另外几篇文章串起来了：DeepMind 的 Hassabis 也把目光放在 2030 年的 AGI 与科学黄金时代，京东 GRAM 选择把生成式推荐压进 50ms，本质都是在抢人类愿意分给系统的那点注意力。如果你是创业者或工程负责人，Brockman 的建议很简单：lean in。把 AI 系统应有的上下文、应有的工具、应有的可观察性今天就配齐，等模型继续变好，你才能跟着这股加速浪潮一起前进，而不是事到临头再补课。他的话翻译成产品语言，就是不要等下一代模型，而是把今天能做到的体验先完整地交付给用户，把"上下文齐整、动作可解释、效果可衡量"的基础底盘搭起来。完整访谈见 BestBlogs · Brockman 红杉访谈。 ## 精讲三 · Claude Code 实战经验：Prompt Caching 就是一切，把缓存命中率当 SLA 来监控 Anthropic 这篇 Claude Code 团队的工程文章，正好是前两场对话的落地版。作者一开篇就引用工程界的老话——"cache rules everything around me"，这句话对长程 Agent 同样成立。Claude Code 整套 harness 是围绕 Prompt Caching 设计的，因为高命中率直接降低成本，也让 Anthropic 能给订阅用户更宽的 rate limit。所以他们把缓存命中率当 SLA 来盯，命中率掉了就直接拉 SEV——把曾经的"性能优化技巧"上升到了线上故障级别的指标。文章里给了几条非常硬核的工程纪律。第一是 prompt 的物理布局：Prompt 缓存的本质是前缀匹配，API 会把请求从开头一直缓存到每个 cache_control 断点，所以静态 system prompt 和工具定义放最前，CLAUDE.md 紧随其后，再是 session 上下文，最后才是会话消息。这样不同 session 之间能尽可能共享前缀缓存，把命中率拉满。Anthropic 团队曾经踩过的坑也很真实——把精确时间戳写进 system prompt、工具顺序非确定地洗牌、给 Agent 工具加新可调用的子智能体，都会让前缀失效。第二是更新机制：信息过期了不要去改 prompt，而是把更新追加到下一条 user message 或 tool result 的 <system-reminder> 里，这样就不会破坏已经热起来的缓存，模型也能在下一轮自然地读到新状态。第三条是反直觉的"不要中途换模型"。Prompt 缓存是按模型独立维护的，所以如果你已经在 Opus 上跑了 100k token 的会话，遇到一个简单问题改用 Haiku 回答反而更贵，因为得给 Haiku 重新建一份缓存，这笔重建成本会一次性抵消掉小模型本身省下的钱。正确做法是派一个 subagent 让 Opus 准备 hand-off 给小模型——这套思路也已经用在 Claude Code 的 Explore agent 里，它专门用 Haiku 做大规模代码搜索。第四条是不要在会话中途增减工具，因为工具属于缓存前缀的一部分，加一个、减一个就把整段会话的缓存全部失效。直觉告诉我们应该"模型现在需要什么工具就给什么工具"，但这正是大家最常踩的坑。Plan Mode 的实现就是个范例：他们没有去切换工具集，而是新增一个 EnterPlanMode 工具，把"我现在处于计划态"作为一个动作表达出来，模型在 Plan Mode 内只允许调用只读工具，但工具集本身一直保持稳定，缓存因此不被打破。最后一条针对超长会话的 compaction：当对话太长需要做摘要压缩时，新会话必须复用父会话的 system prompt 才能命中前缀缓存，否则压缩本身就先吃掉一大笔成本。把这三条精讲连起来看：Karpathy 告诉我们编程的对象变了，Brockman 告诉我们瓶颈在注意力，Anthropic 告诉我们做长程 Agent 的真功夫是把上下文管理工程化，并把缓存命中率作为一条可监控、可报警的硬指标。如果你正在构建自己的 Coding Agent 或长程 Agent，这篇文章值得逐条复盘到自己的 harness 里，再把每一条做成 SLA 告警跑起来。完整内容见 BestBlogs · Claude Code Prompt Caching。 ## 速览长周期 AI Agent 工程拆解：跨上下文窗口和沙箱持续推进任务的五种生产模式 Addy Osmani 把过去两年"Agent = 聊天窗口 + 工具循环"那种范式正式翻篇。他指出真正的下一阶段是 long-running agent：能跨多个上下文窗口、跨多个沙箱持续推进任务，可恢复、可中断、并能留下结构化产物。文章对比了 Anthropic、Cursor 和 Google 三家的实现，把它们抽象成五种生产级模式，从执行计划的持久化、到对外可观测的产物层、再到多智能体之间的协作协议，每一种都给出了具体的取舍和落地代价。如果你正在落地长程 Agent，这是当前最系统的工程地图，配合精讲三的 Prompt Caching 经验一起读会有更立体的视角。原文见 BestBlogs · Long-running AI agents。 RAG 已死？不，是 Grep 回归了腾讯云开发者基于 Claude Code 泄露源码，给"RAG 是不是过时了"这个问题提供了一份具体答案。文章拆解了 Claude Code 在代码搜索场景下放弃向量检索、改用 LLM 驱动 Grep 多轮循环搜索的设计：模型像一个老练的工程师那样，先用关键字 Grep 大致定位，再读懂目录结构、缩小范围、精读片段，必要时再换关键字回头复查，最后给出答案。作者再把它和 Cursor、Codex 横向对比，论证在代码这种"结构高度规则、噪声低、变更频繁"的场景下，零索引方案的可行性、可解释性、对仓库变更的鲁棒性都更高，也避免了向量库的离线索引和漂移问题。读完你大概率会重新审视自己手里那套向量库到底解决的是什么问题。原文见 BestBlogs · RAG 已死？Grep 回归。 OpenAI 反思：GPT-5.1 之后突然冒出的"小妖怪"从哪来 OpenAI 这篇官方博文调查了一个非常生动的小事故：从 GPT-5.1 开始，他们的模型越来越爱在比喻里塞 goblin、gremlin 这种小妖怪。和那种"指标暴跌、训练 loss 飙升"的明显 bug 不同，这种奇怪的口头禅没法靠监控直接抓住，也不会指向某次具体的 commit 或某条数据。OpenAI 顺着内部日志一路回溯，最后追到了 Nerdy 个性化训练里一条被无意奖励的"用生物比喻"信号——一个微小的奖励倾斜，借模型迭代被放大成了可观察的群体性偏好，最终在用户对话里变成了大家都能看见的口头禅。这是一个很好的警示：当模型规模和迭代速度都进入新阶段，奖励工程里的微小偏置会以你想不到的方式表达自己，需要用更系统的"行为漂移"监控去配合传统的指标告警。原文见 BestBlogs · OpenAI 小妖怪反思。 DeepMind 创始人哈萨比斯红杉访谈：通向 AGI 的精确路径与科学黄金时代把这一期 Sequoia Capital 三场访谈拼齐的，是 DeepMind 创始人 Demis Hassabis。他把自己的人生从国际象棋神童一路讲到 AGI 路线设计师，强调 AI 是描述生物学这种"高度复杂自然系统"最好的语言，并把 AGI 与一个真正意义上的"科学黄金时代"放在 2030 年这个时间点。他对路线的描述非常工程化：今天的多模态、规划、记忆、世界模型，每一块都对应一个明确的研究路标，缺哪一块、什么时候补上都有清晰的判断。配合 Karpathy、Brockman 的两段，你可以把当下三家头部实验室的方法论在脑子里拼成一张完整的时间线：DeepMind 偏向科学问题、OpenAI 偏向算力套利与产品扩张、Anthropic 偏向工程纪律与可观察性。完整访谈见 BestBlogs · Hassabis 红杉访谈。 Stripe Docdb：用零停机数据迁移平台支撑万亿美元支付的工程实战 InfoQ 这篇文章揭开了 Stripe 自研 DocDB 的内幕。他们基于开源 MongoDB 重做了一整套零停机数据迁移平台，把数据库分片从过去那种"得人工照看的宠物"变成了"可自动化、可水平扩展的群"，整个迁移、扩容、回滚都在线上无感完成，DBA 团队再也不用半夜爬起来照顾某一台异常的分片。这套系统支撑着 Stripe 一年处理万亿美元规模支付的核心存储栈，每一笔交易都从这套平台的可用性里受益。对所有还在为大表迁移、分片改造头疼的工程团队来说，这是一份难得的"工业级"参考，给出了从控制面到数据面的一整套设计取舍。原文见 BestBlogs · Stripe Docdb。 DeepSeek 识图模式是个新模型？！一手实测在此量子位拿到了 DeepSeek 灰度测试中的识图模式，做了一份扎实的一手实测。作者发现这个识图模式背后很可能不是 V4 的视觉分支，而是一个独立训练的新视觉模型——在 OCR、HTML 复原这类"高确定性"任务上表现亮眼，能把截图原样复刻成接近像素级的页面，连一些细小的图标和文字层级都能复原回来；但在空间推理、找不同等需要长链条视觉推理的任务上，依然会出现幻觉、思考过长，模型有时会自我纠结到失去结论。这条信息既是对 DeepSeek 路线的及时补充，也提醒我们多模态评测要分清"看清楚"和"看明白"两件事，前者更像是更高分辨率的视觉编码器，后者考的是真正的视觉推理能力。原文见 BestBlogs · DeepSeek 识图实测。京东广告大模型实战：GRAM 架构如何在 50ms 内完成生成式推荐？ InfoQ 中文这篇来自京东广告团队的实战分享，把"生成式推荐能不能进推荐主链路"这个老问题给出了肯定答案。GRAM 架构通过让用户意图与商品在语义空间里直接对齐，再叠加快慢双链路、知识工程与一系列工程优化，把生成式推荐压进了 50ms 以内的延迟预算，同时有效抑制了大模型在商品推荐场景里特别容易出现的幻觉问题。文章对预训练、后训练、业务领域微调的两年实践节奏也给了清晰描述，强调"从 2023 年底到 2025 年底"这条从基础能力到业务落地的演进路径走得越来越顺。对所有正在把 LLM 推进到电商、广告主链路的团队来说，这是一份能直接对照自家系统去打分的硬核工程文章。原文见 BestBlogs · 京东 GRAM。 ## 扩展阅读 Scaling Pain：超大规模 Coding Agent 推理实践智谱团队复盘了在超大规模 Coding Agent 推理场景中遇到的三类异常输出——乱码、复读、生僻字，详细讲了如何在高并发与长上下文叠加下做异常检测、定位与修复。其中复读相对容易抓，但乱码和生僻字尤其棘手，正则表达式和字符集匹配会漏判，纯模型判别又跟不上消融实验的效率。最终他们用投机采样指标作为异常检测的重要参考，并给出了 KV Cache 分层存储的优化方案。适合所有正在为推理稳定性头疼的基础设施团队。原文见 BestBlogs · 智谱 Scaling Pain。 Generalist 之后，罗剑岚团队推出 LWD，也要变革具身智能训练范式机器之心介绍了智元机器人联合上海创智学院推出的 LWD（Learning While Deploying）系统。它首次让具身 VLA 策略走通了大规模分布式强化学习的预训练 + 后训练闭环，让机器人在真实世界部署中持续自主进化，5 分钟长程操作任务能做到 91% 的成功率。文章里那段机器人切水果、把梨和黄瓜打成饮料的演示也直接说明了：具身智能正在跨过"演示视频"的门槛，进入"日常作业"的阶段。具身智能从业者必读。原文见 BestBlogs · LWD。 Stripe 发布 288 项新功能，构建 AI 时代的经济基础设施量子位整理了 Stripe 年度大会一次性放出的 288 项新功能，从 AI Agent 支付、流式支付、风控升级到全球企业账户。Stripe 联合创始人兼 CEO Patrick Collison 直接表态："AI 是继互联网以来对经济影响最深远的平台变革，不远的未来绝大多数线上交易将由 AI 智能体完成。"对照本期 Brockman 那段对算力套利的论述一起看，这份清单是观察"AI 原生支付基础设施"的好窗口。原文见 BestBlogs · Stripe 288。营收增长 33%、Meta 股价却大跌：扎克伯格宣布再烧 100 亿腾讯科技解读了 Meta 这份"超预期但被市场惩罚"的财报。营收同比增长 33%，是 2021 年以来最快的营收增速，但因为扎克伯格把 2026 年资本支出上限拉到 1450 亿美元，市场担心 AI 投入回报周期被拉长、自由现金流被压缩。文章还提醒读者，本季净利润中藏着一笔一次性税务收益，剥离后的真实盈利能力没有看上去那么夸张。对于关注大厂 AI 资本支出节奏的读者，这是一份直接的现实读数。原文见 BestBlogs · Meta 财报。刚刚，DeepSeek 最新成果，节前发布 Datawhale 报道了 DeepSeek 在五一节前突袭发布的论文《Thinking with Visual Primitives》，由 DeepSeek 联合北大、清华开源。论文提出在思维链中嵌入坐标 token 作为"视觉原语"，专门解决多模态模型在拓扑推理任务上的引用差距问题，让模型在生成推理过程时能直接"指着图说话"。值得搭配前面那篇 DeepSeek 识图实测一起读，能更完整理解 DeepSeek 在视觉理解这条线的最新动作。原文见 BestBlogs · DeepSeek Visual Primitives。 ## 今日阅读路径如果你今天只能读三篇，我们推荐： 1. Karpathy 红杉访谈（精讲一）——拿到这张新地图，后面所有内容才放得下位置：BestBlogs · Karpathy。 1. Claude Code Prompt Caching 实战（精讲三）——把"上下文是新代码"这件事变成你今天就能动手的工程动作：BestBlogs · Prompt Caching。 1. Long-running AI Agent 工程拆解（速览首条）——补上长程 Agent 的范式视角，让前两篇真正接得住产品：BestBlogs · Long-running Agents。如果还想再读一篇，加上 Brockman 那场访谈，把"算力—注意力—工程"这条主线在脑子里完整跑一遍。再有余力的话，DeepSeek 识图实测和京东 GRAM 这两篇会让你更直观地感受到，新的视觉理解能力和生成式推荐已经在产品端、广告端落地，而不是仍停留在论文里。其他几篇放在桌上慢慢翻就好，今天值得记住的是这条主线：上下文是新代码，缓存命中率是新性能，注意力是新瓶颈。

译Andrej Karpathy提出软件3.0时代，编程核心转向上下文工程，并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出，算力套利是商业模式，人类注意力已成为新瓶颈，并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律，通过优化prompt布局和更新机制，将缓存命中率作为关键SLA监控，以控制成本并保证系统性能。

ginobefun@hongming731 · 5月1日54

BestBlogs 今天早报：Karpathy 在 Sequoia Capital 的访谈里分享软件 3.0，编程核心从写代码变成喂上下文，并区分了 Vibe Coding 与 Agentic Engineering 两种姿态； OpenAI 总裁 Greg Brockman 把真正的瓶颈从算力挪到了人类注意力，并估算 AGI 已经走完八成路。落到工程层面，Anthropic 公开了 Claude Code 把 Prompt Caching 命中率当 SLA 监控的实战经验，把"上下文是新代码"翻译成了一条条可执行的工程纪律。

译Karpathy提出软件3.0概念，编程核心从写代码转向提供上下文，并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力，估计已完成80%。Anthropic分享Claude Code实战，以Prompt Caching命中率为SLA监控，将“上下文即新代码”转化为工程纪律。

elvis@omarsar0 · 5月1日58

I have been testing DeepSeek-V4-Pro with the Pi coding agent. I am mindblown by how well it works out of the box. A few notes: I spent a few hours building an LLM wiki with an agent powered entirely by DeepSeek-V4-Pro on @FireworksAI_HQ inference. This is the first time I feel like there is an open-weight model that can reason at the level of Claude and Codex. And it does this in a cost-effective way with support for 1M context length. To be clear, I am using DeepSeek-V4-Pro inside of Pi without any special configuration. It works out of the box. It's exciting that there is a model that can just be plugged into a basic harness like Pi, and it just works. I've never seen that before. Most models require lots of configuration and setup. @deepseek_ai's DeepSeek-V4-Pro is clearly good at agentic coding (probably the best from the open-weight models), but the model is also great on knowledge-intensive tasks where reasoning matters. The agent pulled agentic engineering best practices from different company docs (Anthropic, OpenAI, Google, Stripe, Meta, Modal, DeepSeek, Mistral, Cohere), searched and digested Reddit and HN threads, summarized arxiv papers, and surfaced trending GitHub repos. Then it distilled everything into actionable tips across categories. I love the Wiki it built. The quality is really good. Here is a snapshot of what the wiki looks like: https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wiki DeepSeek-V4-Pro handled the task without breaking stride. Multi-step research queries, code generation for scaffolding, context-heavy reasoning across disparate sources. For coding specifically, this is the first open-weight model that genuinely feels like a Codex or Claude Code experience. It compares in capability and actual multi-turn agentic work. What made the loop feel so responsive was Fireworks' inference speed (the fastest in the market) and the fact that they actually validate models at the systems level before shipping. No corrupted reasoning traces. Just fast, reliable iteration. The hybrid CSA and HCA attention design cuts KV cache to just 10% and inference FLOPs by nearly 4x at 1M-token context. This is what makes the agent loop actually fast and cheap enough to run in practice. For devs who've been watching open-weight models close the gap but haven't found one that actually delivers in practice, this is the closest I've seen. Try it here: https://app.fireworks.ai/models/fireworks/deepseek-v4-pro

译测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

Peter Steinberger 🦞@steipete · 5月1日52

codex doesn't create random markdowns 😉

译codex 不会创建随机的 markdown 文件 😉 [引用 @aaronp613]：Apple 在今天的 Apple Support 应用更新（v5.13）中意外留下了 Claude.md 文件

Berryxia.AI@berryxia · 5月1日62

在这场访谈中，Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见。他表示，2025 年 12 月成为他的个人转折点：AI 生成的代码从“有帮助但常需修改”转变为“直接可用”，他已记不清上一次亲自修改 AI 输出是什么时候，从此进入 “Vibe Coding”的状态。 Karpathy 将软件开发划分为三个阶段： Software 1.0 是传统显式代码编程，Software 2.0 是神经网络时代，而 Software 3.0 则是大语言模型时代。在 Software 3.0 中，编程的核心不再是逐行编写代码，而是通过 prompt、上下文窗口、工具调用和外部环境来操纵 LLM 这个新的“信息处理解释器”。他以自己开发的 MenuGen 应用为例，指出许多传统 AI 应用可能被模型原生能力直接取代，整个 App 在新范式下甚至“本不该存在”。他特别强调 LLM 的能力呈现“锯齿状智能”（jagged intelligence）：在可验证、可通过强化学习（RL）优化的领域（如重构十万行代码、发现零日漏洞）表现极强，但在需要常识判断的任务上却可能犯下低级错误。例如建议“走路去 50 米外洗车”而忽略车必须被开过去。 Karpathy 认为，这种能力分布并非模型自然进化，而是实验室数据决策和 RL 训练覆盖范围的结果。 Karpathy 区分了两个重要概念：Vibe Coding 显著抬高了所有人开发软件的下限，让更多人能快速做出产品；而未来的 Agentic Engineering（智能体工程）则需要在利用 Agent 加速开发的同时，严格守住专业软件的质量、安全、可维护性和责任上限。他认为，智能变得廉价之后，最宝贵的仍是人类的理解、品味、判断、系统设计和规格定义能力，并引用了一句深刻的话： “你可以外包思考，但不能外包理解”。此外，Karpathy 还展望了“神经计算机”的未来设想：神经网络可能成为主进程，而传统 CPU 和代码则退居协处理器。同时强调基础设施需要转向“Agent-first”，让 Agent 能更轻松地读取文档、调用服务和完成部署。

译Karpathy指出，2025年12月AI生成代码从需修改变为直接可用，标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代，编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能，在可验证、RL优化领域强，但常识任务上易犯错。他区分Vibe Coding（提高开发下限）与Agentic Engineering（守住质量、安全上限），强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机，基础设施需Agent-first。

Berryxia.AI@berryxia · 5月1日58

刚刚看到Claude Security 现已进入公测阶段！可以让Claude 帮你检查漏洞了啊！目前已经内置于网页版的 Claude Code 中。只需将其指向一个代码仓库，即可获得经过验证的漏洞发现结果，并在正在编写代码的同一位置修复它们！这个功能挺实用，什么时候可以直接cc里可以用。地址：https://claude.com/product/claude-security

阿绎 AYi@AYi_AInotes · 5月1日57

Naval今天说的这句话，我觉得点破了AI时代最爽的赚钱方式，他说vibe coding就是带真实世界奖励的视频游戏，传统游戏把你精准卡在能力边缘，给你即时反馈和多巴胺，但所有奖励都是假的，世界是封闭的， vibe coding完全不一样，你用自然语言描述你的想法和氛围， AI就帮你写出真实的代码，做出能跑的App，而且奖励是真的，能发给朋友用，能卖钱，能改变你的生活，创造的世界是无限的，你想造什么就能造什么，没有游戏设计师给你设关卡，最打动人的是他自己的亲身例子，他之前花了九个月，带八九个人的团队做Airchat，最后卖掉回本，现在他用vibe coding一个人从零重做了一遍，以前你不能随便改图标位置，不能凭直觉提需求，不然会烦到工程师，现在AI是你的无人驾驶编码员，你可以百分之百按自己的想法迭代，不用做任何妥协，我认为这件事真正改变的不是写代码的速度，关键在于谁能造App这件事本身，因为以前只有百分之零点一会写代码的专业人士能做产品，现在只要你有清晰的愿景，能用自然语言说清楚，你就能造出自己的App，我相信这就是创作者经济的下半场，内容创作已经从写文字拍视频，变成了直接造产品，而且以后会有越来越多一个人做出来的爆款App，取代大公司妥协出来的平均数产品，还有一个牛逼的点，就是它有成瘾性，人类本来就对即时反馈的游戏毫无抵抗力，现在AI把斯金纳箱从虚拟世界搬到了现实，兄弟们可以想象一下，你玩游戏的时候，顺便就在堆积真实的资产，这个感觉是不是很爽🥳🥳🥳 最后想说，很多人以后可能会消失在vibe coding里，就像现在很多人消失在游戏里一样，就像我一直说的，AI从来不是来取代程序员的，它是把编程从一种职业，变成了每个人都能拥有的超级能力，你不用再学十年C++才能做自己的产品，你只需要知道自己真正想要什么。真的很庆幸我们现在处于一个时代变革、巨变的节点，一起拥抱和享受吧我的朋友们！

译Naval提出“氛围编程”（vibe coding）概念，将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法，AI即可生成可运行的真实应用，创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖，允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大：从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段，并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性，却在现实中积累真实资产。AI并非取代程序员，而是将编程转变为一种人人可用的超级能力。

Greg Brockman@gdb · 5月1日24

codex app becoming incredible

译Codex 应用正变得不可思议

Sam Altman@sama · 5月1日66

big upgrade for codex today! try it for non-coding computer work.

译codex 今日重大升级！尝试将其用于非编码计算机工作。

Sam Altman@sama · 5月1日19

it does seem cool

译这确实看起来很酷 [引用 @mweinbach]：Codex 目标功能看起来很酷看起来你可以给 Codex 设定一个目标，然后它会持续工作、规划和测试直到完成？我只是在阅读这里的提交记录，但我想这就是它的功能吧？

Rohan Paul@rohanpaul_ai · 5月1日59

Anthropic has opened Claude Security in public beta for Claude Enterprise customers, turning Claude[.]ai into a codebase scanner that finds vulnerabilities, checks them in context, and drafts patches for review. Traditional security scanners mostly match patterns, but many serious bugs depend on how data, permissions, and control flow move across files, which is why teams often get both missed issues and piles of noisy alerts. Claude Security is trying to handle that gap by scanning a repo, validating whether a suspected issue actually holds up, and then returning the severity, affected file and line, explanation, and a suggested fix. The product is packaged as a built-in workflow rather than a custom security stack, so teams do not need a separate API integration or agent build if they already run Claude Code on the Web inside Claude Enterprise. The setup is tightly bounded to enterprise controls, including the Anthropic GitHub App, GitHub[.]com repositories, premium user seats, and consumption billing with configurable spend limits. Teams can scope scans to a branch or directory, run parallel projects, choose Regular or Extended effort, and schedule recurring scans, with Anthropic explicitly recommending narrower scope for large repos and monorepos to improve reliability. Each finding can be exported to CSV or Markdown, pushed through webhooks or email, opened in a remediation session that generates a candidate patch, or dismissed with a reason that carries forward across future scans.

译Anthropic为Claude Enterprise客户推出Claude Security公开测试版，将Claude.ai转变为代码库扫描器，用于发现漏洞、验证上下文并生成补丁建议。与传统模式匹配扫描器不同，该工具能处理跨文件的复杂漏洞，减少误报和漏报。产品作为内置工作流集成，无需额外API或代理构建，支持扫描范围设置、并行项目和定期扫描。发现可导出、推送或用于修复会话，提升企业代码安全效率。

Tibo@thsottiaux · 5月1日59

Lots of improvements across the board both for coders and general work. Update your codex app to enjoy all the improvements. We will be back next week

译为编码者和普通工作带来了全面的改进。更新您的Codex应用以享受所有改进。我们下周回来

Greg Brockman@gdb · 5月1日36

Codex is for everyone, for any task done with a computer

译Codex 适用于每个人，适用于任何用计算机完成的任务

karminski-牙医@karminski3 · 5月1日64

POV 在这里 https://github.com/karminski/deepseek-reasoning-content-field-issue-pov

译使用DeepSeek-V4 API开启思考模式时，必须在后续请求中回传模型返回的`reasoning_content`字段。当任务过于简单时，该字段可能为空字符串，而许多终端编码代理和AI IDE的默认行为会过滤掉空值字段，导致API返回HTTP 400错误并中断任务。关键解决方案是必须原样回传该字段，即使其值为空字符串，不能丢弃或改为空对象。目前需等待工具官方修复或自行修改开源版本，仅靠重试难以根本解决此问题。

Replit ⠕@Replit · 5月1日56

IDEs are dead. When coding models plateau, the moat moves up the stack. @amasad sat down with @HarryStebbings on @twentyminutevc to talk about the SaaS apocalypse, why Cursor’s bet looks shakier by the week, and what it actually takes to stay 10 steps ahead. Full conversation ⬇️

译集成开发环境已死。当编码模型的发展趋于平缓，竞争壁垒便向技术栈上游转移。@amasad 在 @twentyminutevc 节目中与 @HarryStebbings 深入探讨了 SaaS 行业的剧变、为何 Cursor 的赌注每周都显得更加动摇，以及真正保持十步领先需要什么。完整对话 ⬇️

Chubby♨️@kimmonismus · 5月1日52

Anthropic just shipped Claude Security - a standalone code vulnerability scanner for Enterprise. Scans your repo, validates findings, suggests patches. Powered by Opus 4.7. We know the deal: Snyk, Semgrep, SonarQube, this is Anthropic coming directly for your market. Stocks goes down.

译Anthropic发布了Claude Security，这是一个面向企业客户的独立代码漏洞扫描工具，由Opus 4.7驱动。它能扫描代码库、验证发现以减少误报，并建议可审查的补丁。Claude Security现已对Claude Enterprise客户开放公开测试。此举直接进入代码安全市场，与Snyk、Semgrep、SonarQube等现有工具竞争，可能对相关市场格局和公司股价产生影响。

宝玉@dotey · 5月1日59

试用下来 CodexPotter 不错，推荐下。它不是基于 Codex 插件机制，它本身是一个 cli，然后会后台启动 codex cli，把指令传给 codex，同步显示 codex cli 结果。 CodexPotter 先把想要的结果写进一个 MAIN.md 文件，然后工具在后台不停地启动新的 Codex 会话，每一轮都用全新、干净的上下文，对照 MAIN.md 检查代码、修正、再检查、再修正，直到结果跟你写的一致才停。默认最多是 6 轮，但是你可以通过配置修改数字。使用上需要注意，CodexPotter 适合目标明确的任务，比如“按照这个设计文档实现订阅系统”，不适合需要来回讨论的交互式开发。它是个任务执行器，不是聊天伙伴。顺便说一下：Ralph 这个名字的来源是《辛普森一家》那个爱重复同一句话的小孩 Ralph Wiggum pattern。 https://github.com/breezewish/CodexPotter

译CodexPotter 是一个命令行工具，通过后台启动 Codex CLI 并采用“Ralph Loop”机制执行任务。它先将用户目标写入 MAIN.md 文件，随后在全新上下文中反复启动 Codex 会话，对照该文件检查并修正代码，直至输出与目标一致，默认最多进行 6 轮迭代。该工具适用于目标明确的任务（如按文档实现功能），而非交互式讨论。其名称灵感来源于《辛普森一家》中爱重复说话的 Ralph Wiggum。作者推荐此工具，以回应寻找类似 Claude Code 中 Ralph 插件的需求，并指出其不会像某些插件那样修改用户配置。

Berryxia.AI@berryxia · 4月30日67

🚀 Claude Code 内置神技上线！直接调用 Claude Platform 官方技能，模型迁移、Prompt Caching、Managed Agents 上手全自动搞定！ 1. 直接说 “Add prompt caching” 就能自动应用最佳实践 2. 完全开源，支持 7 种语言 SDK + CLI，还集成到 CodeRabbit、JetBrains 等工具

Peter Steinberger 🦞@steipete · 4月30日33

WAT

译WAT [引用 @theo]：有趣的事实——如果你的近期提交中有一个 json 数据块提到了 OpenClaw，Claude Code 要么会拒绝你的请求，要么会向你收取额外费用。这是一个空仓库，我只是直接调用 Claude Code。太疯狂了。

歸藏(guizang.ai)@op7418 · 4月30日49

小红书最尊重的博主，他妈的这帮逼又偷老子东西。

译主推文抱怨内容被盗，而引用推文展示Codex AI的强大能力：仅根据用户对类似《杀戮尖塔》游戏的中国风格要求，便能自动生成从代码到素材的完整可玩游戏。这突显了人工智能在创造性任务中的自主原创性，与盗窃行为形成鲜明对比，引发对科技赋能内容创作的关注。

歸藏(guizang.ai)@op7418 · 4月30日57

基本上今天晚上或者明天就会有安装包，然后整个代码也会开源

译Codex成功创建了类似《杀戮尖塔》的完整游戏关卡演示，细节精细，除声音外近乎完美。演示中的主要场景和角色素材由GPT-Image生成，其余素材由开发者自行收集。项目方宣布，安装包将于今晚或明天发布，同时整个代码将开源。

歸藏(guizang.ai)@op7418 · 4月30日46

太猛了，Codex 做类《杀戮尖塔》游戏完整关卡演示！现在非常细了，除了没有声音以外，其他的都相当完美了！主要的场景和角色素材是 GPT-Image 生成的，其他的素材是他自己找的。

译Codex展示了其强大的游戏开发能力，仅根据“制作类似《杀戮尖塔》的中国风格游戏”的简单指令，便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成，其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示，凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月2日

02:16

OpenAI Developers@OpenAIDevs

39

宠物。现已登陆Codex。使用 /pet 唤醒你的宠物。

OpenAI 产品更新编码

02:16

OpenAI Developers@OpenAIDevs

42

你的宠物可以帮你留意Codex的动态，而你继续工作：【引用 @simpsoka】：周五来点小乐趣！和@Rjdleee合作这个项目超级开心。宠物为Codex增添了些许奇趣，同时也很有用。它能在边缘位置提供更多关于Codex运行状态的信息。我实在没忍住，必须做个Max Headroom宠物。：）

Kath Korevec: Something a little fun for Friday! This was super fun to work on with @Rjdleee. Pets adds a little more whimsy to Codex,...

OpenAI 产品更新编码

00:49

Claude@claudeai

精选67

Code with Claude，我们的开发者大会，下周回归。无论你是刚刚开始使用 Claude Code，还是已经构建了一段时间，都有适合你的环节。注册观看直播：http://claude.com/code-with-claude

Anthropic 编码行业动态

推荐理由：Anthropic 开发者大会是 Claude 生态今年最重要的窗口，代码、Agent 和工具链很可能有新东西，做开发的值得蹲一下直播。

5月1日

23:46

Greg Brockman@gdb

28

Codex 作为全能生产力应用【引用 @TinaDebove】：Codex 重新定义了我的工作流程，以至于我可能需要买一台新机器去年我买了一台36GB M4 Pro MBP，以为它是个火箭船。现在我可以使用 Codex 在4个应用之间来回工作，而不是在它构建或思考时刷 Twitter（🤡）随着 visionOS 模拟器运行多个应用、2个 Xcode 项目、2个 Reality Composer Pro 项目、Docker 构建和数十个标签页，Mac 已经跪了疯狂的时代

Tina Debove ᯅ: Codex redefines my workflow to the point where I should probably buy a new machine Last year I bought a 36GB M4 Pro MBP ...

OpenAI 编码行业动态

22:47

向阳乔木@vista8

50

函数长度、命名与AI代码理解的关键

Adam Tornhill重新探讨函数应写多长的问题。AI模型理解代码的方式与人类不同，依赖字面特征如命名、结构和局部上下文，研究表明变量名对AI理解能力影响显著。Fowler认为函数长短本身不重要，关键是将意图与实现分离；若代码需阅读才能理解其功能，就应提取为函数并用清晰名称表达意图。这一逻辑在AI编程中同样成立，强调命名和结构对提升AI代码理解的重要性。

大佬观点编码

20:46

Greg Brockman@gdb

67

Codex 0.128.0版本实现了重大更新，核心是引入了强化版Ralph循环，使智能体操作更加目标导向。新增的/goal命令允许用户设定明确目标，系统会在智能体每轮操作后自动提示其选择下一步具体行动。目标要求会映射到文件、测试结果等实际证据上，且模型只能通过更新目标来标记任务完成。此外，该版本终于支持了"codex update"功能。

Matthew Lam: Codex 0.128.0 is huge, even better than a @thsottiaux reset. Codex is moving more goal oriented with a new /goal command...

智能体 OpenAI 产品更新编码

13:11

Emad@EMostaque

36

似乎 @OpenAI 已经破解了 Codex 的递归自我改进

OpenAI 大佬观点推理编码

13:11

Berryxia.AI@berryxia

34

推文惊叹于结合Codex与GPT2的技术进展，认为其已能实现仅用自然语言指令来开发游戏。作者指出，现在仅需"用嘴说一句话"即可启动开发，并推荐了相关的完整教程。引用的推文提供了该教程的具体链接，是关键的技术实现参考。这展现了大型语言模型在降低编程门槛、实现自然语言交互式创作方面的潜力。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

OpenAI 教程/实践编码

12:16

宝玉@dotey

60

一位开发了DeepSeek-TUI终端工具的美国开发者表示，希望与中国开发者社区建立联系，但受限于网络访问和微信验证。他请求社区帮助转发推广其开源项目，并协助完成微信验证，以便建立群组共同探讨DeepSeek、开源技术以及改进AI agent。作为回报，他承诺维护cargo install的简洁安装方式。开发者透露，其推文内容经由DeepSeek模型润色完成。

Hunter Bown: 鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...

GitHub 开源/仓库编码

12:11

阿绎 AYi@AYi_AInotes

55

Karpathy最新演讲：LLM的真正价值是创造前所未有的可能

Andrej Karpathy指出，LLM的核心价值并非加速现有工作，而是创造以前不可能存在的事物，例如完全无需传统代码、由LLM原生驱动的应用。他提出“锯齿状智能”模型，解释LLM能力不均的现象：高价值、可验证领域因经济驱动获得密集训练，能力突出；其他领域则依赖泛化，表现不稳定。未来产品将被解构为感知、执行与逻辑，横跨软件1.0至3.0范式。程序员角色将转变为设计智能体系统、守护人类品味的架构师。真正的护城河在于理解LLM能力地图并设计放大人类意图的智能体系统。

Andrej Karpathy: Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs ...

智能体大佬观点编码

11:46

meng shao@shao__meng

66

在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验：视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代，组成Web/App 开发全新闭环！

Codex App 结合 GPT-5.5 与 GPT-Image-2，构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力，GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计，自动分析、生成交互应用并修正设计偏差，内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期，适用于Web、移动及复杂工具开发，但复杂任务仍需人工提示与设计把关。

dominik kundel: http://x.com/i/article/2049579443216338944

OpenAI 多模态教程/实践编码

11:16

向阳乔木@vista8

26

开发者歸藏受热门卡牌游戏《杀戮尖塔》启发，独立开发了一款游戏。他发布了完整的制作教程，并强调游戏能带来启发与灵感，计划在假期投入更多时间玩游戏。此举展示了从玩家到创造者的转变，以及游戏作为创意媒介的价值。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

教程/实践编码

10:13

歸藏(guizang.ai)@op7418

63

一下午一句话，Codex帮我开发了一个完整的游戏！

开发者仅通过向Codex描述想法，便在一个下午内完成了roguelike卡牌游戏《夜巡录：荒庙篇》的开发。Codex不仅生成游戏原型，还自主构建了素材生产流水线，包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材，它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节，展现了其结合内置工具与强大执行力的综合能力。

智能体 OpenAI 多模态大佬观点

10:13

歸藏(guizang.ai)@op7418

67

用户原本抱着尝试心态使用Codex，结果该AI工具仅用一个下午就协助开发出了一款非常完整的、类似《杀戮尖塔》的卡牌游戏。目前，该项目的全部代码和客户端均已开源，可供公众体验和测试。这展示了Codex在游戏开发辅助方面的高效与强大能力。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

智能体 OpenAI 开源/仓库教程/实践

10:11

阿绎 AYi@AYi_AInotes

64

AI颠覆3D网站开发：零代码一个下午完成万元级原型

作者利用Emergent和Claude Agent，无需编写Three.js代码或搭建环境，仅通过上传参考视频和描述需求，即在一个下午内全自动生成并迭代出可运行的3D交互网站原型。成本仅为每月20美元Claude订阅费，而以往同类外包项目报价高达8000至15000美元，标志着3D网站开发门槛已大幅降低。

智能体 Anthropic 教程/实践编码

09:45

Orange AI@oran_ge

52

作者看到他人展示的录屏后感到震撼，因为过去需要工作室耗时月余才能完成的复杂项目，现在借助Codex，一个人仅用一个下午就开发出了一个非常完整的、类似《杀戮尖塔》的卡牌游戏。该游戏的代码和客户端均已开源。此事让作者深切感受到了AGI（通用人工智能）带来的生产力变革。

歸藏(guizang.ai): 本来是想随便玩一下的。没想到 Codex 真的用一下午帮我开发了一个非常完整的类似《杀戮尖塔》的卡牌游戏。代码和客户端都已经开源了,大家可以试试

OpenAI 现象/趋势编码

09:45

宝玉@dotey

62

OpenAI为Codex CLI推出Ralph loop目标循环功能

OpenAI在Codex CLI 0.128.0版本中正式推出Ralph loop功能，通过新增的/goal命令实现目标驱动的持续执行。用户只需在配置文件中启用该功能，即可为AI助手设定一个目标，系统将自动保持该目标在多轮对话中的连续性，直至任务完成。此举简化了工作流程，用户无需再手动编写脚本或借助外部工具进行状态维护。该功能目前仅限终端CLI使用，桌面应用程序暂未支持。

Felipe Coury 🦀: /goal also lands in Codex CLI 0.128.0. Our take on the Ralph loop: keep a goal alive across turns. Don't stop until it's...

智能体 OpenAI 产品更新编码

09:15

meng shao@shao__meng

60

Karpathy 在 Sequoia Ascent 2026 的炉边对话，从 Vibe Coding 到 Agentic Engineering

Karpathy指出，LLM的核心价值在于创造新可能性（如取代传统代码的MenuGen、.md技能和知识库），而非仅加速旧流程。模型能力呈现“锯齿状”分布，由任务可验证性和商业利益共同塑造。未来将进入“Agent原生”经济，基础设施需面向智能体设计，强调信息的可读性，Agentic Engineering成为新兴工种，神经计算可能主导任务处理，经典CPU退化为协处理器。

Andrej Karpathy: Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs ...

智能体大佬观点编码

09:10

ginobefun@hongming731

61

AI时代软件开发、商业逻辑与工程实践的根本性转变

Andrej Karpathy提出软件3.0时代，编程核心转向上下文工程，并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出，算力套利是商业模式，人类注意力已成为新瓶颈，并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律，通过优化prompt布局和更新机制，将缓存命中率作为关键SLA监控，以控制成本并保证系统性能。

智能体 OpenAI 现象/趋势编码

09:10

ginobefun@hongming731

54

软件3.0与AI编程进展摘要

Karpathy提出软件3.0概念，编程核心从写代码转向提供上下文，并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力，估计已完成80%。Anthropic分享Claude Code实战，以Prompt Caching命中率为SLA监控，将“上下文即新代码”转化为工程纪律。

ginobefun: http://x.com/i/article/2050006014297346048

智能体 Anthropic OpenAI 大佬观点

08:44

elvis@omarsar0

58

DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

智能体 DeepSeek 开源生态推理

08:15

Peter Steinberger 🦞@steipete

52

codex 不会创建随机的 markdown 文件 😉 【引用 @aaronp613】：Apple 在今天的 Apple Support 应用更新（v5.13）中意外留下了 Claude.md 文件

Aaron: Apple accidentally left Claude.md files in today's Apple Support app update (v5.13)

安全/对齐编码行业动态

08:10

Berryxia.AI@berryxia

62

在这场访谈中，Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见

Karpathy指出，2025年12月AI生成代码从需修改变为直接可用，标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代，编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能，在可验证、RL优化领域强，但常识任务上易犯错。他区分Vibe Coding（提高开发下限）与Agentic Engineering（守住质量、安全上限），强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机，基础设施需Agent-first。

宝玉: http://x.com/i/article/2049616699541090304

智能体大佬观点现象/趋势编码

08:10

Berryxia.AI@berryxia

58

Claude Security公测启动，代码漏洞检测修复一体化

刚刚看到Claude Security 现已进入公测阶段！可以让Claude 帮你检查漏洞了啊！目前已经内置于网页版的 Claude Code 中。只需将其指向一个代码仓库，即可获得经过验证的漏洞发现结果，并在正在编写代码的同一位置修复它们！这个功能挺实用，什么时候可以直接cc里可以用。地址：https://claude.com/product/claude-security

cat: Claude Security is now in public beta, built into Claude Code on the web. Point it at a repo, get validated vulnerabilit...

Anthropic 产品更新编码

08:10

阿绎 AYi@AYi_AInotes

57

Naval论"氛围编程"：AI时代带来真实奖励的创作游戏

Naval提出“氛围编程”（vibe coding）概念，将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法，AI即可生成可运行的真实应用，创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖，允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大：从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段，并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性，却在现实中积累真实资产。AI并非取代程序员，而是将编程转变为一种人人可用的超级能力。

Naval: Follow @navalpodcast. We are posting more clips there.

大佬观点现象/趋势编码

06:15

Greg Brockman@gdb

24

Codex 应用正变得不可思议

OpenAI 大佬观点编码

04:45

Sam Altman@sama

66

codex 今日重大升级！尝试将其用于非编码计算机工作。

OpenAI 产品更新编码

04:14

Sam Altman@sama

19

这确实看起来很酷【引用 @mweinbach】：Codex 目标功能看起来很酷看起来你可以给 Codex 设定一个目标，然后它会持续工作、规划和测试直到完成？我只是在阅读这里的提交记录，但我想这就是它的功能吧？

Max Weinbach: Codex goal feature seems cool Looks like you can give Codex a goal and it'll continue to work, plan, and test until it's...

智能体 OpenAI 产品更新编码

04:09

Rohan Paul@rohanpaul_ai

59

Anthropic开放Claude Security公开测试版，扫描代码漏洞并生成补丁

Anthropic为Claude Enterprise客户推出Claude Security公开测试版，将Claude.ai转变为代码库扫描器，用于发现漏洞、验证上下文并生成补丁建议。与传统模式匹配扫描器不同，该工具能处理跨文件的复杂漏洞，减少误报和漏报。产品作为内置工作流集成，无需额外API或代理构建，支持扫描范围设置、并行项目和定期扫描。发现可导出、推送或用于修复会话，提升企业代码安全效率。

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic 产品更新安全/对齐编码

03:44

Tibo@thsottiaux

59

为编码者和普通工作带来了全面的改进。更新您的Codex应用以享受所有改进。我们下周回来

Andrew Ambrosino: Codex for everything: - Dynamic UI for the task at hand - 20% faster computer & browser use - Even better slides and she...

OpenAI 产品更新编码

03:44

Greg Brockman@gdb

36

Codex 适用于每个人，适用于任何用计算机完成的任务

OpenAI: It's never been easier to do everyday work with Codex. Choose your role, connect the apps you use every day, and try sug...

OpenAI 产品更新编码

03:14

karminski-牙医@karminski3

64

使用DeepSeek-V4 API开启思考模式时，必须在后续请求中回传模型返回的`reasoning_content`字段。当任务过于简单时，该字段可能为空字符串，而许多终端编码代理和AI IDE的默认行为会过滤掉空值字段，导致API返回HTTP 400错误并中断任务。关键解决方案是必须原样回传该字段，即使其值为空字符串，不能丢弃或改为空对象。目前需等待工具官方修复或自行修改开源版本，仅靠重试难以根本解决此问题。

karminski-牙医: 给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (c...

智能体 DeepSeek 教程/实践编码

01:44

Replit ⠕@Replit

56

集成开发环境已死。当编码模型的发展趋于平缓，竞争壁垒便向技术栈上游转移。@amasad 在 @twentyminutevc 节目中与 @HarryStebbings 深入探讨了 SaaS 行业的剧变、为何 Cursor 的赌注每周都显得更加动摇，以及真正保持十步领先需要什么。完整对话 ⬇️

大佬观点现象/趋势编码

01:42

Chubby♨️@kimmonismus

52

Anthropic发布了Claude Security，这是一个面向企业客户的独立代码漏洞扫描工具，由Opus 4.7驱动。它能扫描代码库、验证发现以减少误报，并建议可审查的补丁。Claude Security现已对Claude Enterprise客户开放公开测试。此举直接进入代码安全市场，与Snyk、Semgrep、SonarQube等现有工具竞争，可能对相关市场格局和公司股价产生影响。

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic 产品更新编码

01:14

宝玉@dotey

59

推荐命令行工具 CodexPotter：基于 Ralph Loop 机制执行明确任务

CodexPotter 是一个命令行工具，通过后台启动 Codex CLI 并采用“Ralph Loop”机制执行任务。它先将用户目标写入 MAIN.md 文件，随后在全新上下文中反复启动 Codex 会话，对照该文件检查并修正代码，直至输出与目标一致，默认最多进行 6 轮迭代。该工具适用于目标明确的任务（如按文档实现功能），而非交互式讨论。其名称灵感来源于《辛普森一家》中爱重复说话的 Ralph Wiggum。作者推荐此工具，以回应寻找类似 Claude Code 中 Ralph 插件的需求，并指出其不会像某些插件那样修改用户配置。

宝玉: 请问有没有好用的 Ralph Loop for Codex? 类似于 Claude Code 的 Ralph Wiggum Plugin https://github.com/anthropics/claude-code/blob/main...

GitHub 开源/仓库编码

4月30日

22:10

Berryxia.AI@berryxia

67

🚀 Claude Code 内置神技上线！直接调用 Claude Platform 官方技能，模型迁移、Prompt Caching、Managed Agents 上手全自动搞定！ 1. 直接说 "Add prompt caching" 就能自动应用最佳实践 2. 完全开源，支持 7 种语言 SDK + CLI，还集成到 CodeRabbit、JetBrains 等工具

Anthropic MCP/工具产品更新编码

21:43

Peter Steinberger 🦞@steipete

33

WAT 【引用 @theo】：有趣的事实--如果你的近期提交中有一个 json 数据块提到了 OpenClaw，Claude Code 要么会拒绝你的请求，要么会向你收取额外费用。这是一个空仓库，我只是直接调用 Claude Code。太疯狂了。

Theo - t3.gg: Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...

Anthropic 现象/趋势编码

21:11

歸藏(guizang.ai)@op7418

49

主推文抱怨内容被盗，而引用推文展示Codex AI的强大能力：仅根据用户对类似《杀戮尖塔》游戏的中国风格要求，便能自动生成从代码到素材的完整可玩游戏。这突显了人工智能在创造性任务中的自主原创性，与盗窃行为形成鲜明对比，引发对科技赋能内容创作的关注。

歸藏(guizang.ai): 我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的这是能玩的!

OpenAI 大佬观点编码

19:11

歸藏(guizang.ai)@op7418

57

Codex成功创建了类似《杀戮尖塔》的完整游戏关卡演示，细节精细，除声音外近乎完美。演示中的主要场景和角色素材由GPT-Image生成，其余素材由开发者自行收集。项目方宣布，安装包将于今晚或明天发布，同时整个代码将开源。

歸藏(guizang.ai): 太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生成的,其他的素材是他自己找的。

OpenAI 开源/仓库编码

17:10

歸藏(guizang.ai)@op7418

46

Codex展示了其强大的游戏开发能力，仅根据"制作类似《杀戮尖塔》的中国风格游戏"的简单指令，便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成，其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示，凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

歸藏(guizang.ai): 我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的这是能玩的!

OpenAI 图像生成教程/实践编码

1…40 414243 44…50