AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2395 条
全部一手资讯X论文
标签「大佬观点」清除
凡人小北@frxiaobei · 5月1日34

这几周 Codex 常驻电脑,已经很久没有打开 ChatGPT 了。 推荐一下插件和自动化,很上头。

译用户分享已用Codex替代ChatGPT作为日常工具,并推荐其插件和自动化功能。引用推文指出,Codex改变了与AI模型的交互方式,无需技术背景即可使用。若已熟悉ChatGPT,更应尝试Codex。它不仅是处理日常任务、自动化和编码的强大工具,还能连接各类应用并与Mac系统交互,具备极高的通用性,让普通用户也能轻松构建个性化解决方案。

Orange AI@oran_ge · 5月1日33

能看出 deepseek 的中文确实不咋样...

译主推文指出DeepSeek的中文润色效果不佳。引用推文中,美国开发者@goodhunt推广其开源项目DeepSeek-TUI,希望连接中国开发者社区,但受限于翻墙和微信验证问题。他请求帮助扩散工具和验证微信号,以建群讨论DeepSeek、开源及agent开发,并承诺使用cargo install安装路径避免npm。该推文中文由DeepSeek润色,凸显了其语言处理的局限性。

Emad@EMostaque · 5月1日36

It seems @OpenAI has cracked recursive self-improvement for Codex

译似乎 @OpenAI 已经破解了 Codex 的递归自我改进

swyx 🇸🇬@swyx · 5月1日67

i said on @jacobeffron's pod recently that "coding agents breaking containment" is the breakout theme of the year. i meant it - this is the year all knowledge workers, not just coders, get AGI-pilled. for the AIE EU closing note (https://www.youtube.com/watch?v=zepu8Kk6FBQ), I gave a short talk on how we use agents to run @aidotengineer as a Tiny Team that now serves ~1m unique developers a month for free all around the world, for everything from CMS to renting lobster inflatables. yes I use @openclaw personally and as a team we use @cognition's Devin and @townai, but this isn't about any one agent; it's about all of them, and how you are probably not trying hard enough to use them for daily knowledge work. i hope this gives you agent productivity ideas for you and your team.

译作者提出,“编码智能体突破应用边界”是今年的突破性主题,强调AGI(通用人工智能)将惠及所有知识工作者,而不仅仅是程序员。他以自己的团队@aidotengineer为例,说明如何利用智能体作为“微型团队”高效运作,为全球数百万开发者提供免费服务。他指出,重点不在于特定工具(如Devin、townai),而在于整体性地、深度地将智能体融入日常知识工作以提升生产力,并认为当前人们在这方面努力不足。引用的推文也呼应了应尝试将此类能力应用于非编码的计算机工作。

阿绎 AYi@AYi_AInotes · 5月1日55

Karpathy的最新演讲,把我对AI的认知彻底刷新了一遍, 他说所有人都搞错了LLM的真正价值, 它根本不是用来加速你现有工作的, 核心价值是用来创造那些以前根本不可能存在的东西, 最震撼的是那个叫menugen的App,就是你输入一张图片然后输出一张图片, 没有一行传统代码, 整个产品就是LLM原生的, 感觉以前的软件1.0和2.0被彻底绕过去了, 以后我们写的可能都不是.sh脚本,应该是.md技能文件,你用自然语言描述你的意图, LLM会自己适配你的环境,自己调试,自己处理边界情况, 然后他还提出了一个我见过最准确的LLM心智模型,叫做锯齿状智能,就是同一个模型,能完美重构十万行代码,但同时也会让你走路去洗车🚿🚗哈哈哈 以前大家觉得这是可验证性的问题,但这次他给出了更深层的解释,叫做经济学驱动,就是说所有高价值高可验证的领域,都会被密集投喂数据,被RL焊死在轨道上, 那么其他领域就是数据稀疏的丛林,模型只能靠泛化硬闯, 所以你会觉得它有时候神有时候蠢, 其实根本不是智能高低的问题, 本质上是哪里有钱,哪里的能力就被堆得特别高, 可以想象未来所有的产品和服务, 都会被拆成感知,执行,逻辑三个部分, 并且横跨软件1.0,2.0,3.0三种范式, 这样的话,程序员的角色也彻底变了,他们不再是写代码的人了哈哈,变成了设计代理系统,守护人类品味和判断的人,听起来有没有很酷兄弟们😎😎😎 最骚的的是他自己说的,作为一个写了三十年代码的程序员, 他现在每天都觉得自己在落后, 哇靠,当最顶尖的从业者都觉得自己跟不上的时候意味着什么?? 说明范式真的在剧烈迁移了, 以后真正的护城河, 不是再是你会写多少行代码了, 而是你能不能读懂LLM的锯齿地图, 能不能设计出放大人类品味的agent系统, 敢不敢去做那些以前根本不可能存在的产品。

译Andrej Karpathy指出,LLM的核心价值并非加速现有工作,而是创造以前不可能存在的事物,例如完全无需传统代码、由LLM原生驱动的应用。他提出“锯齿状智能”模型,解释LLM能力不均的现象:高价值、可验证领域因经济驱动获得密集训练,能力突出;其他领域则依赖泛化,表现不稳定。未来产品将被解构为感知、执行与逻辑,横跨软件1.0至3.0范式。程序员角色将转变为设计智能体系统、守护人类品味的架构师。真正的护城河在于理解LLM能力地图并设计放大人类意图的智能体系统。

歸藏(guizang.ai)@op7418 · 5月1日63

http://x.com/i/article/2049902517254070272 # 一下午一句话 Codex 帮我开发了一个完整的游戏! 昨天上午我闲着没事,想做一个类似《杀戮尖塔》的爬塔卡牌游戏玩玩。 我不写游戏代码,也不碰引擎,全程就是把想法丢给 Codex,让它自己折腾。 一个小时后,一个叫《夜巡录:荒庙篇》的志怪题材 roguelike 就能玩了。 标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿的 Boss。 七个怪物、二十张左右的卡牌、符印、香火、焚符、请神四条爆发链路都能跑。 剩下几个小时,都在让它变得不像一个 demo。 受击反馈、音效、音乐、卡面、待机动画、结算视频——这些小东西决定玩家会不会相信「这是个游戏」。 项目已经开源,桌面安装包 macOS 和 Windows 都打好了: https://github.com/op7418/Night-Patrol/releases 整个下午有几个瞬间是真的把我震到了。 Codex 的模型能力已经不算新鲜事。 让我在意的是它自带浏览器、自带 GPT-Image 2.0,再加上那种不达目的不罢休的执行力。 三样东西摆在一起,能力已经和 Claude Code 完全不一样了。 接下来说一下我是怎么跟它一起开发的,顺便说一些在开发过程中令我震惊的事情: ## 一、我只说了七个字,它就把整条角色流水线建好了 我就跟它聊了一下《杀戮尖塔》,问它能不能帮我做一个类似的游戏。 结果它直接用已有的资源,通过代码生成了一个非常像的 demo。 我没要求绿幕,它直接生成了绿幕底的图 之后我让 Codex 用内置的 GPT-Image 2.0 生成里面的图片素材。 我也没说要什么风格的,也没说要哪些妖怪的,也没说要哪些素材。 图生出来我看了一眼,愣了一下。 角色是在一整张纯绿色背景上站着的。标准的影视绿幕底色,均匀、干净,边缘清清楚楚。 没有雾、没有远山、没有任何额外的画面元素。 恐怖的是它上来就知道要生成方便后续处理的绿幕图。 我压根没告诉它「游戏里用到的立绘需要是透明背景的 PNG」,也没告诉它「请你生成一张绿幕底色的图方便我后期抠掉」。它自己在规划这条管线。 从想要生成什么样的角色,到角色要怎么放进战斗舞台,再到放进去之前需要经过哪道处理——它在调用 GPT-Image 的那一刻已经全想好了,然后反推回去写了提示词。 抠图工具也是它自己找的 我没给它装任何图像处理工具,没给它 rembg,没给它 Python 环境里的任何特殊依赖。 它自己查、自己装、自己调,抠完规规矩矩丢到 tmp/imagegen/ 下面。 生图用绿幕、工具自己找、抠完按文件名归类,三个动作连起来,其实已经是一条完整的角色资产流水线。 我从头到尾只说了「调用GPT-Image 2.0 生成素材」这几个字。 以前的体感是「模型会写代码,工具和上下文得我配」。 现在更像是你报个目标,它自己把路径补齐。 我只负责审美,它负责把供应链跑通。 ## 二、为了下几个图标,它差点黑掉一个素材站 买会员不够,它开始分析网站结构 立绘这种核心视觉用图像模型生成没问题。 但游戏里还有一大堆小东西——卡牌边框、费用宝石、牌堆底图、血瓶、八卦按钮、符箓面板——这些要是全用图像模型一张张生,又贵又慢,质感还不统一。 我跟它说,要不你自己去网上找现成素材吧。 它就认认真真开始找。看中一个素材站,我顺手买了会员,账号扔给它。 接下来的十几分钟属于灵异事件。 它登进去,找到想要的素材,准备点击下载。但下载按钮前面有人机验证,一次、两次、三次,过不去。 换一般的模型,这时候就会回来跟你说「我没法处理验证码,你能帮我下载一下吗」。 Codex 开始分析网站结构,试图绕过前端的点击限制,直接构造请求去拿静态资源。 然后 Codex 自己的安全护栏介入了。 GPT 现在这代模型,一旦涉及可能的网络安全越界行为,系统会直接把这段任务掐掉,弹出提示要你做企业认证,证明你是合法使用者。 我盯着屏幕愣了几秒。 一个要你帮它办会员卡、结果自己下手写爬虫的 AI,说实话挺有病的。 它也谈不上「坏」,只是把「拿到这批素材」当成了一个必须完成的闭环任务。 遇到阻力就自动升级手段,一路升到了安全红线那边去。 最后的解决办法很朴实:它把自己觉得合适的素材链接发给我,我点下载、拖给它。那一刻我有种自己在给 AI 当实习生的错觉。 ## 三、它把几百张素材拼成一张大图,这是整件事最精彩的动作 一个文件夹一百张图,模型怎么挑? 抠图和爬虫那两件,更多还是能力展示。 下面这件,我觉得是真正意义上的「解题思路」,是那种让你合上电脑默默拍一下桌子的动作。 我找到一个巨大的游戏素材压缩包发给它。 里面大概几千张图,按「UI 界面」「法宝奇遇图标」「角色」「徽章」这种方式粗略分过类。 问题是: - 一个分类文件夹动辄几十到上百张 PNG - 文件名多是 ui_001.png、icon_047.png 这种没信息量的命名 - 多模态模型的上下文根本扛不住一张张喂 老路子基本两条: - 逐张读:一张一张送进模型,几十张上百张 context 就炸了 - 按名猜:文件名没标内容,猜了也没用 Codex 走了第三条路 它写了一个小脚本,把文件夹里所有小图自动排版、拼成一张巨大的网格图。 每张小图下面标上原始文件名,像一本目录图册。 然后它只读这一张大图。 多模态模型扫一眼,就能同时看到一百张素材的样子。 看中哪张,直接读出下面的文件名,去原文件夹里按名字引用就行。 一次视觉消费,顶一百次检索。 它自己意识到了自己的瓶颈 那张巨大的 contact sheet 生成出来的时候,我盯着看了好久。 这个动作本身不复杂。 老摄影师做的印样,老电影素材库做的 thumbnail wall,都是一样的思路。 关键是模型自己意识到「我的视觉带宽有限,我得把问题压成一张图」——这一步是它独立完成的。 能意识到自己工具的限制,然后主动为自己造一个更好用的输入,这一下已经非常接近一个会写工具的工程师了。 我作为使用者什么都没参与,只是看到桌子上多了一张拼图。 最后游戏里很多 UI 素材,费用宝石、牌堆、血瓶、按钮、符箓边框,都是从这个流程里挑出来的。 后面我再看 assets/vendor/aigei/ 下面那一堆干净的切图,会觉得那张 contact sheet 才是整个项目最值钱的一步。 ## 四、Seedance 2.0 给七个 Boss 拍了处决动画 视觉打磨到一定程度以后,我想给战斗结尾加一点仪式感。 最后方案是:每打死一个怪物,进入一段过场,播放一个几秒的处决动画。 这活现在用 Seedance 2.0 做最合适。 流程 - GPT-Image 给七个怪物分别生成一张结算定帧画面 - 把这些 poster 分别丢给 Seedance 2.0,生成对应的短视频 - 视频放进 assets/generated/cinematics/,战斗胜利后自动播放 ## 五、一版能玩之后,真正的工作才开始 第一版其实已经够"能玩" 三个小时跑完原型的时候,这个游戏该有的东西其实都有了。 标题页、地图、战斗、奖励、事件、商店、休整、Boss、结算——完整循环在那里,玩法爽点也在那里。 按以前的标准,这一版已经可以发出来骗人玩了。 但这个版本玩起来还是个流程图,而不是游戏。每一步都通,但每一步都干巴巴。 剩下的几个小时,全都花在那些单独拎出来说不上来、但合起来决定"这东西像不像真游戏"的细节上。 音乐来自 Suno v5.5 背景音乐全是 Suno v5.5 生成的,没用任何现成素材。 我给它一段方向描述——"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情" 跑出来几版,挑一版进游戏。标题页的调子更沉一点,战斗背景轻一点不抢人。 这里我还做了一些细节处理:在等待页面时,音乐音量较大;等到点击“开始游戏”,音量就会变小,转为背景音。 受击动画和打击音 早期的战斗,卡牌打出去怪物就是掉数字。没有反馈,没有分量。 Codex 做了一整套打磨: - 角色受击左右摇晃、镜头轻微震动、屏幕短暂泛红 - 每种攻击类型配不同的打击音——剑、符、雷、拳,质感不一样 - 格挡和符印结算也有自己的声音,不会糊成一团 - 敌人死的那一帧有一个短暂的定格,再进入处决视频 这些东西单独看都很小。合在一起,整个战斗的"手感"就从网页表单变成了卡牌游戏。 Seedance 2.0 还拍了待机动画 这一步是整个打磨阶段我最喜欢的一个用法。 除了 Boss 结算的处决动画,我还让它做了标题页的背景——环境里火在烧、灯笼在飘、远处有云雾流动。 Seedance 2.0 默认出的是一段有头有尾的视频,循环播会在接缝处跳一下。 首帧和尾帧传同一张图。视频从这张图开始、又回到这张图结束,接起来就是无缝的无限循环。 标题页那段背景动画就是这么来的。火一直烧、灯笼一直飘、云雾永远在流——你盯着看三分钟也看不出接缝。 这种用法其实在视频生成出来前就存在,老动画里循环场景都是这个做法。 ## 最后:这个下午把我震到了好几次 这个项目全部在一个 Codex 会话里完成,没开过第二个窗口。 玩法原型、状态机、React + Phaser 架构、素材管线、抠图、爬素材、拼 contact sheet、调 GPT-Image、跑 Seedance 2.0、接 Suno v5.5、Electron 打包、GitHub Actions 构建 Release、README、图标、宣传物料——全在里面。 我自己做的事很少: - 选方向:中国志怪题材、爽点放在符印和香火 - 给审美意见:这里糙、那里像网页表单、亮度打架 - 做看门人:什么素材合规、什么爬虫不能碰、什么权限不给 剩下全是 Codex 在跑。而且每一步都有让我合上电脑愣一下的瞬间。 它上来生成的就是绿幕图,因为它知道角色要进游戏之前得先抠掉背景。 它自己下手写爬虫去绕验证码,被自己的安全策略拦住。 它把几千张素材拼成一张巨大的索引图,让自己用一次视觉消费顶一百次检索。 这些事单拎出来都不是什么天大的发明,但每一件都指向同一个变化: 以前你得把工具给它摆好,它负责写代码;现在你只管说目标,工具它自己找、自己配、自己造。 这种感觉已经脱离了「写代码助手」的范畴。 更像有一个相当接近 AGI 的雏形软件在干活。 ## 要不要把这套流程打包成 Skill? 这个项目跑下来,我心里其实已经有了一套相对稳定的流程: 我在想,要不要把这套流程封成一个 Codex 里专门做独立游戏 demo 的 Skill。 你只要丢一个玩法想法进去,它就能在几个小时里给你跑出一个能玩、能打包、能分发的版本。 如果大家有兴趣,我就抽时间把这套 Skill 做出来开源。反正我自己也要继续用。 ## 游戏试玩 代码都开源,安装包也都打好: https://github.com/op7418/Night-Patrol/releases

译开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。

Ethan Mollick@emollick · 5月1日18

I think everyone would be okay with this, though.

译我觉得大家应该都能接受这一点。

meng shao@shao__meng · 5月1日60

Karpathy 在 Sequoia Ascent 2026 的炉边对话,从 Vibe Coding 到 Agentic Engineering 这次对话相比一年前的 "vibe coding" 有一个明显跃迁:去年谈的是个体开发者如何驾驭 LLM,今年谈的是整个软件与经济体系如何围绕 agent 重构,有三条主线。 一、LLM 的价值不在"加速旧事物",而在"让新事物成立" 判断一个 AI 产品,不要问"它加速了什么",而要问"它让什么变得不必要、或第一次变得可能"。 三个样本: · MenuGen:整条 OCR+检索+渲染流水线被一次 prompt 吞掉。大量 AI 应用只是模型缺陷的临时包装,模型一进步,产品形态就消失。 · .md skill 取代 .sh script:软件分发的最小单位从"可执行指令"变成"写给 agent 的自然语言说明",由 LLM 按环境自适应、自调试。 · LLM 知识库:对非结构化知识做重组与再编译——这是经典代码根本做不到的计算。 二、Jaggedness:能力锯齿 = 可验证性 × 经济学 同一个模型能重构十万行代码,也会让你走路去洗车。原因是两层叠加: · 可验证性:RL 只能打磨有清晰奖励信号的领域(代码、数学、安全)。 · 经济学(本次新增):实验室按 TAM 决定把什么灌进 RL 数据分布。 在分布内,你在铁轨上飞驰;在分布外,你在丛林里挥砍刀。 模型能力不是平滑球体,而是商业利益塑形的轨道网——预测表现要同时看"难不难"和"值不值得训"。 三、Agent-native 经济:世界被拆成传感器 / 执行器 / 逻辑 下一层基础设施不是面向用户,而是面向 agent。推论: · 可读性是新基建:文档、API、权限、日志都要从"给人看"改写为"给 agent 消费"。 · Agentic engineering 成为新工种:分解、架构、编排、评估的权重,超过现场写代码;传统白板面试失效。 · 远景:神经计算承担大部分任务,经典 CPU 退化为协处理器。

译Karpathy指出,LLM的核心价值在于创造新可能性(如取代传统代码的MenuGen、.md技能和知识库),而非仅加速旧流程。模型能力呈现“锯齿状”分布,由任务可验证性和商业利益共同塑造。未来将进入“Agent原生”经济,基础设施需面向智能体设计,强调信息的可读性,Agentic Engineering成为新兴工种,神经计算可能主导任务处理,经典CPU退化为协处理器。

宝玉@dotey · 5月1日63

http://x.com/i/article/2050005869304102912 # Demis Hassabis:AGI 还缺什么,智能体到底行不行,下一个科学突破长什么样 Demis Hassabis 是 Google DeepMind 的 CEO,也是 Isomorphic Labs 的 CEO。他在棋手神童和游戏开发者的身份之外,拿了认知神经科学的博士学位,研究海马体和记忆的工作方式。2024 年,他因为 AlphaFold 的工作获得诺贝尔化学奖。 这次他做客 Y Combinator 的 How to Build the Future 直播,和 YC CEO Garry Tan 聊了四十分钟。几个核心话题:当前 AI 范式距离 AGI 还差什么、智能体的真实水平、AI 在科学领域的突破模式,以及给深科技创业者的建议。 原始视频:https://www.youtube.com/watch?v=JNyuX1zoOgU 原始标题:Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough ## 要点速览 - Hassabis 认为当前范式(预训练+RLHF+ 思维链)会是 AGI 架构的一部分,但有 50% 的概率还需要一两个尚未发现的关键突破,持续学习、长程推理和记忆是三个未解问题 - 百万 token 上下文窗口听起来很大,但处理实时视频时只够录 20 分钟,当前把所有东西塞进上下文窗口的做法是“用胶带糊住的临时方案” - AlphaGo 和 AlphaZero 时代的技术(蒙特卡洛树搜索等)正在被重新引入当代基础模型,Hassabis 认为未来几年的进步将大量来自这些旧想法的规模化应用 - 他用下棋来测试 Gemini 的推理能力,发现模型会识别出一步是错棋,找不到更好选择后又回去走那步错棋,这种“缺乏自省”是当前推理系统的核心缺陷 - 创造力的真正测试是能否从一段高层描述中发明围棋这个游戏本身,AlphaGo 下出 Move 37 级别的创造力还远远不够 - 完整虚拟细胞大约还需要 10 年,关键瓶颈是无法在不杀死细胞的情况下对活细胞进行纳米级分辨率成像 - 他给创业者的建议:如果你的 AGI 时间线是 2030 年,深科技创业通常需要 10 年,那 AGI 会在你旅程的中途出现,你的商业计划必须把这个因素算进去 ## 【1】AGI 还缺一两块拼图,概率 50/50 Garry Tan 开场问:当前的 AI 范式,大规模预训练、RLHF、思维链,这些东西里已经包含了多少 AGI 的最终架构?还有什么根本性的缺失? Hassabis 的回答比较谨慎。他说当前这些组件“几乎可以确定”会是 AGI 最终架构的一部分,走到今天这一步已经证明了太多东西,不可能突然发现这是一条死路。但在已有的东西之上,可能还需要一两个大想法。 他列出了三个未解问题:持续学习(continual learning,即模型在部署后持续从新经验中学习的能力)、长程推理、以及记忆的某些方面。这些问题也许能靠现有技术的渐进式创新解决,也许需要全新的方法。 他给出了一个有意思的概率判断:50/50。一半概率是现有技术足够,另一半概率是还缺一两个关键突破。Google DeepMind 两边都在押注。 ## 【2】记忆:百万 token 上下文其实不够用 话题自然转到了记忆和上下文窗口。Garry Tan 提到现在的系统每次处理都是无状态的,持续学习缺失的情况下,大家都在用“梦境循环”(定期批量更新)这类临时方案。 Hassabis 对这个话题有独特的发言权。他的博士研究就是海马体如何将新知识优雅地整合进已有的知识库。大脑在睡眠(特别是 REM 快速眼动期)中回放重要的经历片段来巩固学习,DeepMind 最早的 Atari 游戏 AI 程序 DQN 就借鉴了这个机制,用“经验回放”(experience replay)反复重放成功的游戏轨迹来加速学习。 > 我们现在的做法有点像用胶带糊住,就是把所有东西都塞进上下文窗口。 (“We're kind of using duct tape right now—shove it all in the context window.”) 他接着解释为什么这个方案不够好。百万 token 上下文窗口听起来很大,人类的工作记忆平均只有 7 个数字左右,而 AI 有百万甚至千万级别的上下文。但问题是,我们把所有东西都扔进去了,不管重要不重要、对不对。更关键的是,如果你要处理实时视频流,天真地录入所有 token 的话,百万 token 其实只够 20 分钟。如果你想让系统理解你一两个月的生活,远远不够。 即使存储空间无限,找到当下决策真正需要的那条信息,这个检索成本也是不可忽视的。Hassabis 认为记忆领域还有很大的创新空间。 ## 【3】AlphaGo 的技术遗产正在复活 Garry Tan 追问 DeepMind 在强化学习方面的历史积累,AlphaGo、AlphaZero、MuZero 这些系统背后的哲学在今天构建 Gemini 时发挥了多大作用。 Hassabis 说强化学习的重要性“在起伏中轮回”。DeepMind 从创立第一天起就在做智能体,Atari 游戏 AI 和 AlphaGo 说到底都是智能体系统,能自主设定目标、做决策、制定计划。当时选择游戏领域是为了让问题可控,然后逐步挑战更复杂的游戏,比如 AlphaGo 之后又做了星际争霸(AlphaStar)。 过去几年的核心问题是:能否把这些模型从游戏推广到语言和世界模型?而今天所有前沿模型的思维模式和思维链推理,其实都可以追溯到 AlphaGo 时代开拓的路径。 他透露了一个值得关注的信息:Google DeepMind 正在重新审视当年的一些旧想法,包括蒙特卡洛树搜索(Monte Carlo tree search)等方法,在当今基础模型的规模上重新应用。他认为未来几年 AI 的很多进步将来自于 AlphaGo 和 AlphaZero 时代的想法与现代基础模型的结合。 ## 【4】小模型在快速变聪明 Garry Tan 观察到蒸馏技术让小模型越来越接近前沿模型的能力,Flash 模型大约能达到前沿模型 95% 的水平,成本只有十分之一。他问蒸馏有没有极限。 Hassabis 说这是 Google DeepMind 的核心优势之一。他们当然要建最大的模型来推动能力边界,但快速把这些能力压缩到更小模型中是他们的强项。Google 有十几个十亿用户级的产品,搜索的 AI 概览和 AI 模式、Gemini 应用、YouTube、Maps,每一个都需要 AI 服务。几十亿用户需要极快、极高效、低延迟的服务,这种商业压力反过来成了技术进步的发动机。 关于蒸馏的理论极限,他说目前没有看到任何信息密度的硬性天花板。他们的工作假设是:前沿模型发布半年到一年后,同等能力就会出现在边缘级小模型上。 他还提到了一个架构设想:未来可能是高效的本地模型处理日常任务(比如音频和视频流),只在特定情况下才调用云端的前沿模型。这种“本地 + 云端”的分层架构对隐私和安全特别有意义,尤其是考虑到家用机器人等场景。 ## 【5】Gemini 下棋暴露的推理缺陷 Garry Tan 接着问推理能力:模型能做出很厉害的思维链推理,但在聪明本科生不会犯的错误上翻车。 Hassabis 认为当前的思维范式还很粗糙,有很大的创新空间。比如可以监控思维链的进展、在推理过程中途介入纠正。他经常觉得这些系统在“过度思考”,陷入某种循环。 他举了一个具体的例子。他有时会用 Gemini 下棋,所有前沿基础模型在游戏上都表现很差,但这恰好提供了一个有趣的观察窗口。因为棋局的规则是确定的,他能很快判断模型的思维链是否在走弯路。 他观察到的现象是:模型考虑某一步,意识到这步是臭棋,但找不到更好的,于是绕了一圈又回到那步棋,然后走了出去。 > 在一个真正精确的推理系统里,你不应该看到这种情况。 (“You just shouldn't be seeing that happening in a very precise reasoning system.”) 这就是他所说的“锯齿状智能”(jagged intelligence):一方面能解国际数学奥林匹克(IMO)金牌级别的问题,另一方面换个提问方式就会犯基本的算术错误。在他看来,这种不一致说明系统缺少某种对自身思维过程的“自省”能力。但他也补充说,修复这种缺陷可能只需要一两个关键调整。 ## 【6】智能体:实验阶段,投入产出比还没对上 Garry Tan 问智能体是炒作还是刚刚开始。Hassabis 的回答是:刚刚开始,但还在实验阶段。 他的论点是:要达到 AGI,你必须有一个能主动解决问题的系统,智能体就是通向 AGI 的路径。但目前,智能体在“完整任务”上还不够好,主要是因为它们不能在具体使用环境中持续学习和适应。缺乏持续学习是智能体无法做到“交付后不管”(fire and forget)的根本原因。 他还提到了一个耐人寻味的观察: > 我看到很多人启动几十个智能体跑 40 个小时,但我不确定产出能匹配这种级别的投入。 (“I see a lot of people working on setting off dozens of agents for like 40 hours, but I'm not sure I've seen the output that yet quite justify that level of input going in.”) 最近两三个月,人们才开始找到智能体真正有价值的使用场景,不再是“玩具展示”而是真正增加效率的工具。 ## 【7】半小时做出 Theme Park,但爆款在哪? 谈到创造力和凭感觉编程(vibe coding),Hassabis 给出了一个令人印象深刻的对比。 > 我现在半小时就能做出 Theme Park 的原型,而我 17 岁的时候花了 6 个月。 (“I can do a prototype of Theme Park in half an hour now, which took me 6 months back when I was 17.”) 【注:Theme Park 是 Hassabis 在 1994 年参与开发的模拟经营游戏,全球销量超过 1500 万份。】 但他马上接了一个更有意思的观察:如果工具已经这么强了,为什么还没有一个凭感觉编程做出来的爆款游戏卖出 1000 万份? 他觉得缺的东西可能跟“craft 和 soul”有关,某种人类的品味和执着。工具降低了执行门槛,但创造力本身还没有被替代。他预计 6 到 12 个月内,应该会看到有人用这些工具做出真正有影响力的作品,最先出现的不会是完全自主的 AI 创作,而是这个房间里的某个人用 AI 工具实现了 1000 倍的生产力。 然后他把话题推到了一个更深的层面。AlphaGo 第二局的第 37 手(Move 37)是一个让人类棋手震惊的创造性落子,Hassabis 当时看到这步棋后确信可以启动科学项目,从首尔回来的第二天就启动了 AlphaFold 项目。 但他说,Move 37 级别的创造力还不够。 > 下出 Move 37 还不够。关键是能不能发明围棋。 (“It's not enough to come up with Move 37. Can it invent Go?”) 他设想给系统一段高层描述:“一个 5 分钟能学会规则、但需要穷尽一生去精通的游戏,美学上很优雅,一局可以在一个下午完成”,然后看系统能不能返回一个像围棋这样的东西。今天的系统做不到这一点。 ## 【8】Gemma 开源背后的战略计算 切换到开源话题。Hassabis 说 Google DeepMind 一直是开放科学的倡导者,AlphaFold 完全免费开放就是例子。Gemma 系列的目标是在同等参数规模下做到世界领先。 他提到了一个有意思的地缘考量: > 也很重要的一点是,开源里要有西方栈。中国模型很多都很出色,目前在开源里领先。 (“It's important for there to be Western stacks on open source. A lot of the Chinese models are excellent, and they're currently leading in open source.”) 开放边缘模型还有一个务实的理由。Google 需要在 Android、眼镜、机器人等设备上运行模型,一旦部署到设备端,权重本来就暴露了。既然如此,不如直接完全开放。他们已经决定在“Nano 级别”统一采用开源策略。 ## 【9】多模态的长期赌注 Garry Tan 在采访前向 Hassabis 演示了他自己用 Gemini 搭建的语音助手(类似电影《Her》中的 Samantha),他评价 Gemini 在语音直接对接模型方面的深度和工具调用能力是目前所有模型中最好的。 Hassabis 说这是 Gemini 一个“还没被充分认识到”的优势。Gemini 从一开始就按多模态方式训练,初期这比只专注文本要困难得多,但长期收益正在显现。比如 Genie(Google DeepMind 的世界模型生成器)就建立在 Gemini 的多模态能力之上,对机器人领域很关键。Waymo 已经在使用 Gemini 相关技术。 未来的数字助手,无论是在手机、眼镜还是其他设备上,都需要理解周围的物理世界和直觉物理。这正是 Gemini 系列模型的强项。 ## 【10】推理永远不会免费 Garry Tan 问:当推理成本趋近于零时,会发生什么? Hassabis 的回答是:推理可能永远不会真正免费。他引用了杰文斯悖论(Jevons' paradox):当某种资源的使用效率提高时,需求反而会增加,最终消耗掉所有效率收益。 【注:杰文斯悖论最早由经济学家 William Stanley Jevons 在 1865 年提出,原始语境是煤炭。蒸汽机效率提高后,煤炭消费量不降反升。】 他设想了几种“吃掉”所有推理算力的方式:百万级智能体集群协同工作、单个智能体在多个方向上并行思考然后综合结果。即使通过可控核聚变或超导等材料科学突破将能源成本降到接近零,芯片的物理制造仍然是瓶颈。至少在未来几十年内,推理端仍然会有配额限制。 ## 【11】虚拟细胞:10 年后的目标 Garry Tan 问:AlphaFold 3 已经超越了蛋白质,扩展到更广泛的生物分子。距离模拟完整的细胞系统还有多远? Hassabis 先说了 Isomorphic Labs 的进展。这家从 DeepMind 剥离出来的公司正在把 AlphaFold 之外的相邻生物化学和化学领域也做起来,设计具有正确性质的化合物。他说“很快会有重大公告”。 他认为完整的虚拟细胞大约需要 10 年时间。目前 DeepMind 的科学团队从虚拟细胞核开始做起,因为细胞核相对自包含。这类问题的关键是:能否从复杂性中切出一个足够自包含的片段,近似处理其输入输出,然后专注于这个子系统。 最大的挑战是数据不足。如果能在不杀死细胞的情况下对活细胞进行纳米级分辨率成像,问题就变成了一个视觉问题,“我们知道怎么解决视觉问题”。但目前他不知道有任何成像技术能同时做到纳米分辨率和对活细胞无损。静态图像的分辨率已经很高了,但缺少动态信息。 所以有两条路:一条是硬件驱动、数据驱动,等待成像技术突破;另一条是建模方式,构建更好的动态系统学习模拟器。 ## 【12】AI 是科学的终极工具 Garry Tan 问他在所有科学领域中最看好哪个。Hassabis 没有直接排名,而是说这一直是他做 AI 的核心动力。 > DeepMind 的使命分两步:第一步解决智能,也就是建造 AGI;第二步用它解决其他所有问题。 (“Step one was solve intelligence, i.e., build AGI, and then step two was use it to solve everything else.”) 他说这个“解决其他所有问题”后来要改措辞,因为人们会问“你真的是说'所有问题'吗?”。确实是的。 他提到了一个概念:“根节点问题”(root node problems),指那些一旦解决就能打开全新研究分支的科学难题。AlphaFold 就是典型例子。目前全球超过 300 万研究人员在使用 AlphaFold,他从制药界的高管朋友那里听到,“从现在起几乎每一种新药的发现过程都会用到 AlphaFold”。 他觉得其他领域,材料科学、气候建模、数学,目前大约处于“AlphaFold 1 的阶段”,结果很有前景但还没有真正解决该领域的大挑战。未来几年会有很多进展。 ## 【13】AlphaFold 式突破的三个条件 Garry Tan 问:什么样的科学问题适合 AlphaFold 式的突破?有没有一个模式? Hassabis 说他应该把这个写下来。从 AlphaGo 和 AlphaFold 的经验中,他总结出三个条件: 1. 第一,巨大的组合搜索空间,越大越好,大到暴力搜索或特殊算法都无法解决。围棋的合法走法和蛋白质的可能构型都远超宇宙中原子的数量。 1. 第二,清晰的目标函数。蛋白质折叠可以看作最小化自由能,围棋就是赢。你需要能定义“什么是好的”,这样才能爬坡。 1. 第三,足够的数据,或者一个能生成大量同分布合成数据的模拟器。 如果这三个条件成立,现有的方法就能在“大海捞针”式的搜索中走很远。药物发现也是一样的框架:总有一个化合物能治这种病,没有副作用,只要物理定律允许它存在,剩下的问题就是如何高效地找到它。 ## 【14】“爱因斯坦测试”:AI 能做真正的科学发现吗? Garry Tan 把话题推到了更高的抽象层面:AI 能做真正的科学推理,还是只是在做模式匹配? Hassabis 说他觉得很接近了。Google DeepMind 有 Co-Scientist 这样的通用科学推理系统,也有 AlphaEvolve 这类在基础 Gemini 之上增加能力的算法。但坦白说,他还没有看到任何一个真正的“重大发现”。 他认为这与之前讨论的创造力问题相关。真正的发现超越了模式匹配(因为没有现成的模式可以匹配),也超越了简单的外推。他把它称为“类比推理”(analogical reasoning),认为当前系统还不具备这种能力,或者至少没有以正确的方式使用。 他用了一个递进的方式来说明这个挑战。首先,能否解决已有的数学难题?比如千禧年难题(Millennium Prize Problems,数学界悬赏每题 100 万美元的七大未解问题)。他觉得可能只需要几年。他个人最想看到的是 P=NP 问题的解决。 但比解决千禧年难题更难的是:能否提出一组新的千禧年级别的问题,让顶级数学家认为它们同样深刻、值得一生去研究? 然后他提出了他的“爱因斯坦测试”。 > 用 1901 年的物理学知识训练一个系统,然后看它能不能做出爱因斯坦 1905 年做的事情,包括狭义相对论。 (“Can you train a system with the knowledge of physics of 1901, and then will it come up with what Einstein did in 1905, including special relativity?”) 【注:1905 年被称为爱因斯坦的“奇迹年”(annus mirabilis),他在这一年发表了四篇划时代论文,涵盖光电效应、布朗运动、狭义相对论和质能等价(E=mc²)。】 一旦通过这个测试,就意味着系统具备了发明真正新事物的能力。他认为应该反复跑这个测试,看系统什么时候能做到。 ## 【15】给创业者的建议:把 AGI 算进你的商业计划 最后一个话题是给创业者的建议。Hassabis 先回应了 Garry Tan 之前的提问:“如果你坐在 YC 创业者的位置上,你会怎么做?” 他的核心建议是找到 AI 与另一个深科技领域的交叉点。材料科学、医学、或者任何涉及物理世界原子的硬科学问题。这类跨学科团队,特别是涉及物质世界的,在可预见的未来不会被基础模型的下一次更新轻易取代,是最具防御性的创业方向。 然后他提出了一个更具体的时间规划问题。如果你的 AGI 时间线是 2030 年,而真正的深科技创业通常需要 10 年,那 AGI 会在你旅程的中途出现。这件事不一定是坏事,但你必须把它考虑进去。你的系统能利用 AGI 吗?AGI 出现后你的产品会怎样? 他给出了一个有价值的架构判断:未来不会是一个包含所有能力的巨大通用模型。更可能的架构是通用模型(Gemini、Claude 等)调用 AlphaFold 这样的专用系统作为工具。如果把蛋白质折叠的知识直接塞进 Gemini,“那肯定会影响它的语言能力”。这种“通用编排器 + 专用工具”的架构意味着,做好一个垂直领域的专用系统在 AGI 时代依然有巨大价值。 > 追求困难的问题和追求简单的问题,难度其实差不多。只是难的地方不一样。 (“Going after hard problems is no more difficult than going after a shallower, simpler problem. They're just differently difficult.”) 他用自己的经历收尾。2010 年创办 DeepMind 时,投资人告诉他“AI 我们试过了,不行”。学术界也认为 AI 是 90 年代就被证伪的边缘学科。但他从很年轻的时候就决定了要做 AI,因为这既是他能想到的最重要的事,也是最有趣的事。即使今天 AI 还没成功,他也会在某个车库里继续做下去。 Hassabis 同时在做两件事:建前沿模型(Gemini),用 AI 做科学(AlphaFold、Isomorphic Labs)。这让他的判断比纯模型派或纯应用派更有参考价值。他对 AGI 路径的判断,“可能还缺一两个大想法”,比大多数行业声音更克制。他对智能体投入产出比的质疑也值得注意,尤其是在 Google 自己也在大力推广智能体产品的情况下。 接下来值得关注的几个具体节点:第一,智能体是否能在长周期任务中稳定学习和适应,而不是靠更长上下文硬撑;第二,AI for Science 是否出现新的 AlphaFold 式“根节点问题”突破;第三,AI 是否开始提出高质量的新问题,而不仅仅是更快解决旧题。Hassabis 所说的 AGI 中途到来,对深科技创始人不是一句时间表判断,而是一道架构题:你今天建的系统,到那时是被替换,还是成为 AGI 会主动调用的工具。 ## Q&A 速览 问:当前 AI 范式距离 AGI 还有多远? 答:现有组件(预训练+RLHF+ 思维链)会是最终架构的一部分,但有 50% 概率还需要一两个关键突破。持续学习、长程推理和记忆是三个主要未解问题。Hassabis 的个人 AGI 时间线是 2030 年左右。 问:小模型会越来越聪明吗? 答:是的。Google 的工作假设是前沿模型能力在半年到一年后可以下放到边缘级小模型。蒸馏目前没有遇到信息密度的理论极限。 问:AI 能做真正的科学发现吗? 答:还没有。Hassabis 认为当前系统缺乏“类比推理”能力。他提出了“爱因斯坦测试”作为检验标准:用 1901 年的物理学知识训练系统,看能否产出狭义相对论级别的发现。 问:深科技创业者该怎么规划? 答:找到 AI 和另一个硬科学领域的交叉点。把 AGI 可能在旅程中途出现这个因素纳入商业计划。专用的 AI 系统(如 AlphaFold)在 AGI 时代仍然有价值,因为它们会作为工具被通用模型调用。 问:为什么还没有凭感觉编程做出的爆款? 答:工具降低了执行门槛,但创造力本身,也就是 craft 和 soul,还没有被替代。Hassabis 预计 6 到 12 个月内会出现用 AI 工具做出的有影响力的作品。

译Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。

宝玉@dotey · 5月1日30

这不就是 claude code 的 /btw 吗?为啥要用个新名字叫 /side !

ginobefun@hongming731 · 5月1日54

BestBlogs 今天早报:Karpathy 在 Sequoia Capital 的访谈里分享软件 3.0,编程核心从写代码变成喂上下文,并区分了 Vibe Coding 与 Agentic Engineering 两种姿态; OpenAI 总裁 Greg Brockman 把真正的瓶颈从算力挪到了人类注意力,并估算 AGI 已经走完八成路。 落到工程层面,Anthropic 公开了 Claude Code 把 Prompt Caching 命中率当 SLA 监控的实战经验,把"上下文是新代码"翻译成了一条条可执行的工程纪律。

译Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。

Orange AI@oran_ge · 5月1日49

结构,是我最近思考最多的词元。 做产品就是在做结构。好的产品,用户进来自然知道往哪走。他的行为看起来自由,其实是你设计的河床在替他选方向。差的产品让人迷路。好的产品让人觉得自己很聪明。 做 Agent 是在做结构。设计一个 harness,管理上下文、设置约束、存储记忆。大模型是水,harness 是河床。同样的大模型放在不同 harness 里,输出天差地别。 做大模型是在做结构。给模型填充海量的语料,让模型从中提取神经网络,建立权重结构。好的语料自带结构能,能提升模型。不好的语料没有结构能,训再多也没用。 人的关系也是一种结构。有些人你跟他待在一起就有能量,聊着聊着冒出新想法。有些人你跟他待在一起就是消耗,要么抱怨要么挑刺,什么填都能聊死。选择和什么人做朋友,就是在选择自己的关系结构。 做公司是也在做结构。同样的十个人,组织方式不同,势能完全不同。好的结构让人顺着河床自然流淌,每个人都会感觉到一种自我驱动的力量。 最近很多大厂都在搞 AI 转型。逼着大家学 AI,学不会就裁员。就像在河床里加石头。其实组织不变化,怎么学都没有用。新的组织里大概率都没有中层了,让中层主导改革,他们不可能革掉自己吧。 一切都是结构。你做的所有事情,都是在刻河床。 要改变命运,就需要先改变河床的结构。

译作者以“结构”为核心,系统阐释了其在产品、AI Agent、大模型、人际关系及公司组织中的决定性作用。做产品是设计引导用户的“河床”;开发Agent是构建管理上下文的框架;训练大模型实为提取语料中的“结构能”。人与公司的效率同样取决于结构能量。作者指出,当前一些大厂的AI转型仅“加石头”而不变革组织架构,尤其由中层主导改革存在根本矛盾。最终强调,改变命运需从改变底层结构开始。

Nathan Lambert@natolambert · 5月1日39

The next time I distill OpenAI models I’m going to pay careful attention to amplify the goblins.

译下次蒸馏 OpenAI 模型时,我会特别注意放大妖精。

Ethan Mollick@emollick · 5月1日61

The new Grok comes in below the latest Chinese open weights models, Grok 4 was at the frontier when released. (& Artificial Analysis: please stop using GDPval-AA which is not a useful test of anything except a model’s ability to impress Gemini as a judge)

译xAI发布Grok 4.3,其在Artificial Analysis智能指数得分53,性能优于Grok 4.20、Muse Spark等模型。核心改进在于“性价比”:输入与输出价格较前代分别降低约40%和60%,且基准测试套件运行成本下降。该版本在GDPval-AA等现实智能体任务上表现显著提升,指令遵循与客服任务强劲。但推文指出,其表现仍落后于最新的中国开源模型,并批评GDPval-AA测试本身价值有限。

Berryxia.AI@berryxia · 5月1日62

在这场访谈中,Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见。 他表示,2025 年 12 月成为他的个人转折点:AI 生成的代码从“有帮助但常需修改”转变为“直接可用”,他已记不清上一次亲自修改 AI 输出是什么时候,从此进入 “Vibe Coding”的状态。 Karpathy 将软件开发划分为三个阶段: Software 1.0 是传统显式代码编程,Software 2.0 是神经网络时代,而 Software 3.0 则是大语言模型时代。 在 Software 3.0 中,编程的核心不再是逐行编写代码,而是通过 prompt、上下文窗口、工具调用和外部环境来操纵 LLM 这个新的“信息处理解释器”。 他以自己开发的 MenuGen 应用为例,指出许多传统 AI 应用可能被模型原生能力直接取代,整个 App 在新范式下甚至“本不该存在”。 他特别强调 LLM 的能力呈现“锯齿状智能”(jagged intelligence): 在可验证、可通过强化学习(RL)优化的领域(如重构十万行代码、发现零日漏洞)表现极强,但在需要常识判断的任务上却可能犯下低级错误。 例如建议“走路去 50 米外洗车”而忽略车必须被开过去。 Karpathy 认为,这种能力分布并非模型自然进化,而是实验室数据决策和 RL 训练覆盖范围的结果。 Karpathy 区分了两个重要概念:Vibe Coding 显著抬高了所有人开发软件的下限,让更多人能快速做出产品; 而未来的 Agentic Engineering(智能体工程)则需要在利用 Agent 加速开发的同时,严格守住专业软件的质量、安全、可维护性和责任上限。 他认为,智能变得廉价之后,最宝贵的仍是人类的理解、品味、判断、系统设计和规格定义能力,并引用了一句深刻的话: “你可以外包思考,但不能外包理解”。 此外,Karpathy 还展望了“神经计算机”的未来设想:神经网络可能成为主进程,而传统 CPU 和代码则退居协处理器。 同时强调基础设施需要转向“Agent-first”,让 Agent 能更轻松地读取文档、调用服务和完成部署。

译Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。

阿绎 AYi@AYi_AInotes · 5月1日57

Naval今天说的这句话,我觉得点破了AI时代最爽的赚钱方式, 他说vibe coding就是带真实世界奖励的视频游戏, 传统游戏把你精准卡在能力边缘,给你即时反馈和多巴胺, 但所有奖励都是假的,世界是封闭的, vibe coding完全不一样, 你用自然语言描述你的想法和氛围, AI就帮你写出真实的代码,做出能跑的App, 而且奖励是真的,能发给朋友用,能卖钱,能改变你的生活,创造的世界是无限的,你想造什么就能造什么, 没有游戏设计师给你设关卡, 最打动人的是他自己的亲身例子, 他之前花了九个月,带八九个人的团队做Airchat, 最后卖掉回本, 现在他用vibe coding一个人从零重做了一遍, 以前你不能随便改图标位置,不能凭直觉提需求, 不然会烦到工程师, 现在AI是你的无人驾驶编码员, 你可以百分之百按自己的想法迭代, 不用做任何妥协, 我认为这件事真正改变的不是写代码的速度,关键在于谁能造App这件事本身, 因为以前只有百分之零点一会写代码的专业人士能做产品, 现在只要你有清晰的愿景,能用自然语言说清楚,你就能造出自己的App, 我相信这就是创作者经济的下半场,内容创作已经从写文字拍视频,变成了直接造产品, 而且以后会有越来越多一个人做出来的爆款App,取代大公司妥协出来的平均数产品, 还有一个牛逼的点,就是它有成瘾性,人类本来就对即时反馈的游戏毫无抵抗力, 现在AI把斯金纳箱从虚拟世界搬到了现实, 兄弟们可以想象一下,你玩游戏的时候,顺便就在堆积真实的资产,这个感觉是不是很爽🥳🥳🥳 最后想说,很多人以后可能会消失在vibe coding里, 就像现在很多人消失在游戏里一样, 就像我一直说的,AI从来不是来取代程序员的, 它是把编程从一种职业,变成了每个人都能拥有的超级能力, 你不用再学十年C++才能做自己的产品, 你只需要知道自己真正想要什么。 真的很庆幸我们现在处于一个时代变革、巨变的节点,一起拥抱和享受吧我的朋友们!

译Naval提出“氛围编程”(vibe coding)概念,将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法,AI即可生成可运行的真实应用,创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖,允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大:从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段,并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性,却在现实中积累真实资产。AI并非取代程序员,而是将编程转变为一种人人可用的超级能力。

Berryxia.AI@berryxia · 5月1日55

David Sacks 在 X 平台上发布了一条推文,对 AI Security Institute 刚刚发布的公告进行了回应。 AI Security Institute 宣布 OpenAI 的 GPT-5.5 模型(cyber 版本)成功完成了他们设计的“多步网络攻击模拟”。 也成为第二个能端到端完成整个攻击链的模型(第一个是 Anthropic 的 Mythos)。 在推文中,David Sacks 表示,是时候揭开 Mythos 的神秘面纱了。 他强调,Mythos 并非什么魔法,也不是末日武器,它只是众多能够自动化网络安全任务的模型中的第一个,就像 AI 已经能自动编写代码一样。 现在 OpenAI 的 GPT-5.5-cyber 也达到了同样的水平,而所有前沿模型(包括来自中国的模型)预计将在大约 6 个月内跟上这一步伐。 David Sacks 进一步指出,这些模型并不会创造新的漏洞,它们只是发现已有的漏洞。 代码中的 bug 本来就存在,使用 AI 来发现并修补它们,反而会让系统变得更加坚固。 他认为,从前 AI 时代的网络安全到后 AI 时代的网络安全,将经历一次大规模的升级周期。 升级完成后,市场很可能会达到 AI 驱动的网络进攻与 AI 驱动的网络防御之间的新的平衡状态。 他特别提醒,必须确保网络防御方先获得这些强大模型的访问权限,而非让攻击方抢先一步。 这个过程已经启动,但需要迅速推进,尤其考虑到中国模型即将跟上的现实。 此外,与 Mythos 不同,GPT-5.5-cyber 似乎没有 token 限制,因此它可能是第一个防御方能够实际投入使用的网络安全模型。 David Sacks 的整体立场是:AI 在网络攻击能力上的提升是不可避免的,但并非那么可怕,反而会推动整个网络安全生态的全面升级,前提是防御方必须领先一步。 他通过这条推文,既澄清了外界对 Mythos 的过度神化,也为 OpenAI 的 GPT-5.5-cyber 提供了实际支持```​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​。

译AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。

Berryxia.AI@berryxia · 5月1日41

这一波GPT- Image-2 出圈的原因感觉更多的是将其结合游戏真实的UI设计融合且效果出奇好。 省token简单的prompt就可以完成,开发3D游戏也可以快速打好草稿。

Orange AI@oran_ge · 5月1日19

人类又开始大型幻觉了 V4 写作都比 Opus 好了 大家开心就好哈 节日快乐

Nathan Lambert@natolambert · 5月1日47

Distillation is largely an industry standard and not just something done by Chinese labs targeting OpenAI/Anthropic. Many American companies also distill Chinese (open) models.

译蒸馏在很大程度上是行业标准,并非仅是中国实验室针对 OpenAI/Anthropic 的做法。 许多美国公司也会蒸馏中国的(开源)模型。

Greg Brockman@gdb · 5月1日24

codex app becoming incredible

译Codex 应用正变得不可思议

Rohan Paul@rohanpaul_ai · 5月1日49

David Sacks demystifying Anthropic's Mythos 👀

译David Sacks 澄清,Anthropic 的 Mythos 模型并非魔法或末日武器,而是首个能自动化执行网络安全任务(如代码审计)的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力,所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞,而是发现代码中既有缺陷,利用AI发现并修补漏洞反而能增强系统安全。从“前AI”到“后AI”网络安全的跨越将引发重大升级,最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具,且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

Ethan Mollick@emollick · 5月1日47

Forget goblins, things that GPT-5.5 really likes in its fiction: lighthouses, the ocean, maps, bells, clock towers with bells that ring impossible times, Mira Vale, resonances and echoes (Claude and Gemini love them too), secret third things (not night/day, not high/low)...

译忘掉妖精吧,GPT-5.5在其虚构作品中真正喜欢的东西是:灯塔、海洋、地图、钟声、敲响不可能时刻的钟楼、米拉谷、共振与回声(Claude和Gemini也喜欢这些)、秘密的第三事物(不是白天/黑夜,不是高/低)...

阿绎 AYi@AYi_AInotes · 5月1日44

Lenny分享了他日常高频、重度使用的 5 个小众但极好用的 Mac 生产力工具💻🚀 这些工具都不是大众熟知的明星产品,却在他工作流里不可或缺的💪 核心主题是:用更专注、更优雅的小工具,替换掉越来越臃肿的主流工具。 1. CleanShot (http://cleanshot.com) → 截图神器 2. Supercut (http://supercut.ai) → 完全取代 Loom 的录屏工具 3. TextExpander (http://textexpander.com) → 文本片段自动展开 4. Rocket (http://matthewpalmer.net/rocket) → 极简表情符号选择器 5. http://Brain.fm (http://brain.fm) → 专注音乐/声音(助进入心流)

译Lenny推荐了五款在其工作流中不可或缺、专注优雅的Mac生产力工具,旨在替代日益臃肿的主流软件。这些工具包括截图工具CleanShot、替代Loom的录屏工具Supercut、文本片段扩展器TextExpander、极简表情符号选择器Rocket,以及辅助专注进入心流状态的音乐服务Brain.fm。其核心观点是选择更专注、更优雅的小众工具来提升效率。

Rohan Paul@rohanpaul_ai · 5月1日61

New interview of Andrej Karpathy: Says that the future of computing may be centered on neural networks instead of traditional software. e.g. that systems could take raw inputs like video and audio and generate interfaces dynamically in real time. Today’s software assumes the world must be translated into clean symbols first, then handled by code written in advance. A neural system flips that order. It can take messy input like video, speech, screen state, and user history, infer what matters, and generate the interface or action on the fly. The shift is not just replacing apps with chat, but replacing fixed pipelines with systems that continuously interpret and render reality in real time. In that setup, the UI stops being a stable product and becomes a temporary surface, assembled for the moment, the task, and the person. "CPUs become kind of like the co-processor" It becomes the reliable subcontractor for arithmetic, storage, networking, and other deterministic chores, while the neural model handles perception, planning, and adaptation. --- Video from "Sequoia Capital" YT channel (link in comment)

译安德烈·卡帕西在访谈中指出,计算的未来可能从传统软件转向以神经网络为中心。传统软件需先将现实世界转化为规整符号,再由预设代码处理。而神经系统的处理顺序相反,能直接处理视频、语音、屏幕状态等“混乱”输入,实时推断关键信息并动态生成界面或行动。这不仅是用聊天替代应用,更是用能持续实时解读和渲染现实的系统取代固定流程。在此架构下,用户界面不再是稳定产品,而是为特定时刻、任务和个人临时组装的表面;传统CPU则退居类似协处理器的角色,负责算术、存储等确定性任务,而神经模型主导感知、规划和适应。

阿绎 AYi@AYi_AInotes · 5月1日61

很多人还有些看不太懂,我再打个比方尽量跟大家说清楚, 就好比像你去一家标榜最开放的咖啡馆喝咖啡, 结果服务员偷偷扫描你手机里有没有竞品APP的通知, 只要扫到就多收你一杯的生态保护费, 表面上是欢迎所有人, 背地里却在设卡收租, 所以用户现在集体炸锅也正常

译Anthropic被曝通过其官方Claude Code工具检测用户Git提交历史,若发现包含“openclaw”字符串,便将该用户识别为第三方工具使用者,并触发“out of extra usage”错误,导致服务被拒或强制额外收费。开发者实验证实此为人为设置的字符串匹配规则。此举被视为Anthropic为将用户锁定在自家生态、打压更灵活的第三方竞品而采取的粗暴手段,与其此前塑造的开放、不监控形象相悖,引发了开发者社区的强烈不满和抗议。

阿绎 AYi@AYi_AInotes · 5月1日68

GPT-5.5 和 Claude Opus 4.7 同一天发了官方提示工程指南。 两家的建议完全相反, 1️⃣OpenAI 说:少给流程,说清楚你要什么结果,让模型自己选路径。 2️⃣Anthropic 说:别指望它猜你意思,意图、格式、成功标准,一个都不能含糊。 一个嫌你管太多,一个嫌你说不清楚。 Claude 首席工程师 Boris Cherny 说,他自己都需要几天适应🤣 → Anthropic Claude Opus 4.7 迁移指南: https://platform.claude.com/docs/en/build-with-claude/prompt-engineering/overview → OpenAI GPT-5.5 提示工程指南: https://developers.openai.com/api/docs/guides/prompt-guidance → OpenAI《使用 GPT-5.5》官方文档: https://developers.openai.com/api/docs/guides/latest-model → Boris Cherny(Claude Code 首席工程师) → http://FindSkill.ai 对数百个社区帖子的深度分析(提示具体性与输出质量高度正相关)

译OpenAI与Anthropic同天发布官方提示指南,核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤,让其自主选择路径;Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效:模糊指令使Claude输出变窄,而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”,真正的瓶颈可能在于人的思考清晰度,而非模型能力。

Rohan Paul@rohanpaul_ai · 5月1日56

Time published a piece. Google’s AI position came from a long series of early bets by Sundar Pichai on DeepMind, TPUs, cloud infrastructure, and AI products, not from a last-minute reaction to ChatGPT. Google’s biggest strength in AI is its full-stack control of research, chips, cloud, products, and distribution across billions of users. "Critics once underestimated CEO Sundar Pichai. Now, critics wonder if he’s made Google too powerful" Google just secured absolute architectural control over the AI landscape by merging its custom physical silicon manufacturing directly with a single unified research laboratory. Competitors pay steep financial premiums for external chips while Google seamlessly executes complex neural calculations on its proprietary Tensor Processing Units. Building internal hardware allows engineers to aggressively scale pretraining, the critical phase where models ingest massive datasets, without facing crushing financial overhead. --- time .com/collection/time100-most-influential-companies/2026/saudi-aramco/

译《时代》杂志指出,谷歌在人工智能领域的领先地位,源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资,而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合,谷歌获得了对AI架构的绝对控制权,能利用自研TPU高效执行复杂计算,同时让工程师得以低成本大规模扩展模型预训练,而无需像竞争对手那样承受高昂的外部芯片采购成本。

Andrej Karpathy@karpathy · 5月1日68

Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons: 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing. 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc. 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc. I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3). The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to... Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors.

译谈话指出LLM的核心价值在于开启全新可能,如完全由LLM驱动的应用、用自然语言描述替代脚本安装、以及处理传统代码无法应对的非结构化知识库。其次,探讨了LLM能力“锯齿状”不均衡现象,认为这与领域可验证性及经济利益影响训练数据分布有关。最后,话题转向智能体原生经济,涉及将产品服务分解为传感器、执行器和逻辑模块,使信息对LLM高度可读,并讨论了新兴的智能体工程及相关技能。谈话强调,从“氛围编程”到“智能体工程”的转变,不仅是提升效率,更是拓展能力上限,旨在智能体时代构建全新事物。

Andrej Karpathy@karpathy · 5月1日64

This is the the quote I've been citing a lot recently.

译这是我一直以来经常引用的那句话。

Sam Altman@sama · 5月1日43

lisan say more mean things about us you're being too nice

译lisan 多说点我们的坏话 你太客气了 [引用 @scaling01]:GPT-5.5 is on par with Claude Mythos - GPT-5.5 平均通过率 71.4% (±8.0%) - Mythos Preview 68.6% (±8.7%) - GPT-5.5 在 11 分钟内以 1.73 美元成本完成了一项人类专家需约 12 小时的任务

Replit ⠕@Replit · 5月1日56

IDEs are dead. When coding models plateau, the moat moves up the stack. @amasad sat down with @HarryStebbings on @twentyminutevc to talk about the SaaS apocalypse, why Cursor’s bet looks shakier by the week, and what it actually takes to stay 10 steps ahead. Full conversation ⬇️

译集成开发环境已死。 当编码模型的发展趋于平缓,竞争壁垒便向技术栈上游转移。@amasad 在 @twentyminutevc 节目中与 @HarryStebbings 深入探讨了 SaaS 行业的剧变、为何 Cursor 的赌注每周都显得更加动摇,以及真正保持十步领先需要什么。 完整对话 ⬇️

Ethan Mollick@emollick · 5月1日60

"Load bearing," "I keep coming back to," "Not X, but Y" A curse of using AI a lot is that you realize how much of the writing around you is just AI, now People who don't use AI have been unable to identify AI prose on sight, but those who use it a lot can spot the tells easily

译"承重结构"、"我总会反复提及"、"不是X,而是Y" 频繁使用AI的一个诅咒是,你会意识到周围有多少文字现在只是AI生成的 不使用AI的人无法一眼识别AI文本,但经常使用的人能轻易察觉其痕迹

阿绎 AYi@AYi_AInotes · 5月1日54

我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是, 两个模型的进化方向,居然是完全相反的, Claude Opus 4.7变得越来越字面, 以前它会主动帮你补全模糊的指令, 现在你说什么它就做什么,多一个字都不会猜🤣🤣 GPT-5.5变得越来越自主, 以前你要手把手教它每一步怎么做, 现在你只要告诉它你想要什么结果,它自己会选最优路径, 所以老提示失效的原因也完全相反, 用在Claude上的模糊提示,会得到越来越窄的输出, 用在GPT上的详细流程,会变成多余的噪声, 过去三年我们一直在学怎么教模型做事, 现在反过来了, 模型开始要求我们,先把自己的思考结构化, 其实就是提示工程的本质, 已经从教模型怎么做,变成了先把自己想明白, 所以真正的瓶颈可能不是模型的能力,而是写提示的那个人的思考清晰度, 我感觉以后赢的人,不会是提示写得最长最复杂的人,而是那个最知道自己真正想要什么的人🤔

译近期用户感觉GPT和Claude“变笨”,实因模型能力进化导致提示工程要求改变。官方指南揭示,两大模型进化方向相反:Claude Opus 4.7趋向字面执行指令,而GPT-5.5则更自主,能根据目标自行选择路径。因此,旧提示失效原因也相反——模糊提示在Claude上输出变窄,详细步骤在GPT上反成噪声。提示工程的核心已从“教模型做事”转变为“先结构化人类思考”,未来优势将属于思考最清晰、最明确自身需求的人。

Rohan Paul@rohanpaul_ai · 5月1日55

Jensen Huang on OpenClaw. "OpenClaw is probably the single most important release of software, you know, probably ever." Nvidia spends $1M monthly running these agents, as token usage per prompt has increased 1,000x.

译Jensen Huang 谈 OpenClaw。 "OpenClaw 可能是最重要的软件发布,你知道的,或许是有史以来最重要的。" Nvidia 每月花费 100 万美元运行这些智能体,因为每个提示的令牌使用量增长了 1000 倍。

Chubby♨️@kimmonismus · 5月1日10

Nice! OpenAI is going to 🚢

译太好了!OpenAI 即将 🚢 [引用 @thsottiaux]:今天感觉很有编程灵感

Rohan Paul@rohanpaul_ai · 5月1日31

interesting idea here. Mark Cuban bought a Mac Mini for agentic AI to counter the flood of AI-generated cold emails and junk. He is training the system to automate unsubscribing via Gmail. "You hit me with AI, I'll hit you with AI back right away."

译这里有个有趣的想法。 Mark Cuban 购买了一台 Mac Mini 用于智能体 AI,以应对海量的 AI 生成的冷邮件和垃圾邮件。他正在训练该系统通过 Gmail 自动取消订阅。 "你用 AI 攻击我,我立刻就用 AI 回击你。"

Ethan Mollick@emollick · 5月1日51

For better or worse, regulation for closed-source models served by a few (quite large) companies is easy. It is not as easy to imagine how you regulate open-source models that can be served by a range of decentralized players. Suspect that will become a big policy discussion soon

译无论好坏,对由少数(相当大型的)公司提供的闭源模型进行监管是容易的。而对于可由一系列去中心化参与者提供的开源模型,如何监管则不那么容易设想。推测这很快将成为重要的政策讨论。

Ethan Mollick@emollick · 4月30日55

Increasingly, I think, we will see a gap between what you can do with frontier model APIs & what you can do with the native apps from the frontier labs (Codex, Claude Code). Models developed and trained with their native harnesses in mind have more capabilities in their harnesses

译我越来越认为,我们将看到前沿模型API与前沿实验室原生应用(如Codex、Claude Code)之间的能力差距。针对其原生框架开发和训练的模型,在其框架内具备更多功能。

Chubby♨️@kimmonismus · 4月30日47

Demis Hassabis: We're on the right track to AGI; we probably have all the components. We're just missing a few things like continual learning and solving the memory problem.

译Demis Hassabis: 我们正走在通往AGI的正确道路上;我们可能已经具备了所有组件。我们只是缺少一些东西,比如持续学习和解决记忆问题。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
15:46
凡人小北@frxiaobei
34
用户分享已用Codex替代ChatGPT作为日常工具,并推荐其插件和自动化功能。引用推文指出,Codex改变了与AI模型的交互方式,无需技术背景即可使用。若已熟悉ChatGPT,更应尝试Codex。它不仅是处理日常任务、自动化和编码的强大工具,还能连接各类应用并与Mac系统交互,具备极高的通用性,让普通用户也能轻松构建个性化解决方案。

OpenAI Newsroom: Codex has changed how you interact with our models, and, despite what you may have thought, you don't need any technical...

智能体OpenAI大佬观点
13:46
Orange AI@oran_ge
33
主推文指出DeepSeek的中文润色效果不佳。引用推文中,美国开发者@goodhunt推广其开源项目DeepSeek-TUI,希望连接中国开发者社区,但受限于翻墙和微信验证问题。他请求帮助扩散工具和验证微信号,以建群讨论DeepSeek、开源及agent开发,并承诺使用cargo install安装路径避免npm。该推文中文由DeepSeek润色,凸显了其语言处理的局限性。

Hunter Bown: 鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...

DeepSeek大佬观点
13:11
Emad@EMostaque
36
似乎 @OpenAI 已经破解了 Codex 的递归自我改进
OpenAI大佬观点推理编码
12:46
swyx 🇸🇬@swyx
67
编码智能体突破应用边界,AGI将赋能所有知识工作者

作者提出,“编码智能体突破应用边界”是今年的突破性主题,强调AGI(通用人工智能)将惠及所有知识工作者,而不仅仅是程序员。他以自己的团队@aidotengineer为例,说明如何利用智能体作为“微型团队”高效运作,为全球数百万开发者提供免费服务。他指出,重点不在于特定工具(如Devin、townai),而在于整体性地、深度地将智能体融入日常知识工作以提升生产力,并认为当前人们在这方面努力不足。引用的推文也呼应了应尝试将此类能力应用于非编码的计算机工作。

Sam Altman: big upgrade for codex today! try it for non-coding computer work.

智能体大佬观点现象/趋势
12:11
阿绎 AYi@AYi_AInotes
55
Karpathy最新演讲:LLM的真正价值是创造前所未有的可能

Andrej Karpathy指出,LLM的核心价值并非加速现有工作,而是创造以前不可能存在的事物,例如完全无需传统代码、由LLM原生驱动的应用。他提出“锯齿状智能”模型,解释LLM能力不均的现象:高价值、可验证领域因经济驱动获得密集训练,能力突出;其他领域则依赖泛化,表现不稳定。未来产品将被解构为感知、执行与逻辑,横跨软件1.0至3.0范式。程序员角色将转变为设计智能体系统、守护人类品味的架构师。真正的护城河在于理解LLM能力地图并设计放大人类意图的智能体系统。

Andrej Karpathy: Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs ...

智能体大佬观点编码
10:13
歸藏(guizang.ai)@op7418
63
一下午一句话,Codex帮我开发了一个完整的游戏!

开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。

智能体OpenAI多模态大佬观点
09:16
Ethan Mollick@emollick
18
我觉得大家应该都能接受这一点。

Mike Bird: Many people do not seem to want data centres built near them, despite the fact that they don't cause that much traffic a...

大佬观点现象/趋势
09:15
meng shao@shao__meng
60
Karpathy 在 Sequoia Ascent 2026 的炉边对话,从 Vibe Coding 到 Agentic Engineering

Karpathy指出,LLM的核心价值在于创造新可能性(如取代传统代码的MenuGen、.md技能和知识库),而非仅加速旧流程。模型能力呈现“锯齿状”分布,由任务可验证性和商业利益共同塑造。未来将进入“Agent原生”经济,基础设施需面向智能体设计,强调信息的可读性,Agentic Engineering成为新兴工种,神经计算可能主导任务处理,经典CPU退化为协处理器。

Andrej Karpathy: Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs ...

智能体大佬观点编码
09:15
宝玉@dotey
63
Demis Hassabis谈AGI瓶颈、智能体现状与科学突破

Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。

智能体DeepMind大佬观点推理
09:15
宝玉@dotey
30
这不就是 claude code 的 /btw 吗?为啥要用个新名字叫 /side !

Thomas Ricouard: A new feature sneaked in the Codex app's latest update. You can now do /side (or use the ... menu) to spawn a side chat!...

大佬观点
09:10
ginobefun@hongming731
54
软件3.0与AI编程进展摘要

Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。

ginobefun: http://x.com/i/article/2050006014297346048

智能体AnthropicOpenAI大佬观点
08:45
Orange AI@oran_ge
49
结构,是我最近思考最多的词元

作者以“结构”为核心,系统阐释了其在产品、AI Agent、大模型、人际关系及公司组织中的决定性作用。做产品是设计引导用户的“河床”;开发Agent是构建管理上下文的框架;训练大模型实为提取语料中的“结构能”。人与公司的效率同样取决于结构能量。作者指出,当前一些大厂的AI转型仅“加石头”而不变革组织架构,尤其由中层主导改革存在根本矛盾。最终强调,改变命运需从改变底层结构开始。

智能体大佬观点
08:45
Nathan Lambert@natolambert
39
下次蒸馏 OpenAI 模型时,我会特别注意放大妖精。
OpenAI大佬观点
08:16
Ethan Mollick@emollick
61
xAI发布Grok 4.3,其在Artificial Analysis智能指数得分53,性能优于Grok 4.20、Muse Spark等模型。核心改进在于"性价比":输入与输出价格较前代分别降低约40%和60%,且基准测试套件运行成本下降。该版本在GDPval-AA等现实智能体任务上表现显著提升,指令遵循与客服任务强劲。但推文指出,其表现仍落后于最新的中国开源模型,并批评GDPval-AA测试本身价值有限。

Artificial Analysis: xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance,...

大佬观点行业动态评测/基准
08:10
Berryxia.AI@berryxia
62
在这场访谈中,Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见

Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。

宝玉: http://x.com/i/article/2049616699541090304

智能体大佬观点现象/趋势编码
08:10
阿绎 AYi@AYi_AInotes
57
Naval论"氛围编程":AI时代带来真实奖励的创作游戏

Naval提出“氛围编程”(vibe coding)概念,将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法,AI即可生成可运行的真实应用,创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖,允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大:从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段,并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性,却在现实中积累真实资产。AI并非取代程序员,而是将编程转变为一种人人可用的超级能力。

Naval: Follow @navalpodcast. We are posting more clips there.

大佬观点现象/趋势编码
07:10
Berryxia.AI@berryxia
55
David Sacks 回应 AI 安全机构公告,解读 GPT-5.5-cyber 的网络攻击模拟能力

AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。

David Sacks: It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...

AnthropicOpenAI大佬观点安全/对齐
07:10
Berryxia.AI@berryxia
41
这一波GPT-Image-2出圈的原因感觉更多的是将其结合游戏真实的UI设计融合且效果出奇好。 省token简单的prompt就可以完成,开发3D游戏也可以快速打好草稿。
OpenAI图像生成大佬观点
06:45
Orange AI@oran_ge
19
人类又开始大型幻觉了 V4 写作都比 Opus 好了 大家开心就好哈 节日快乐
大佬观点
06:15
Nathan Lambert@natolambert
47
蒸馏在很大程度上是行业标准,并非仅是中国实验室针对 OpenAI/Anthropic 的做法。 许多美国公司也会蒸馏中国的(开源)模型。

MTS: LIVE TRIAL UPDATE: OpenAI's counsel asked Musk whether xAI has ever "distilled" technology from OpenAI. Musk: "Generally...

DeepSeek大佬观点开源生态
06:15
Greg Brockman@gdb
24
Codex 应用正变得不可思议
OpenAI大佬观点编码
04:09
Rohan Paul@rohanpaul_ai
49
David Sacks 澄清,Anthropic 的 Mythos 模型并非魔法或末日武器,而是首个能自动化执行网络安全任务(如代码审计)的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力,所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞,而是发现代码中既有缺陷,利用AI发现并修补漏洞反而能增强系统安全。从"前AI"到"后AI"网络安全的跨越将引发重大升级,最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具,且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

David Sacks: It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...

AnthropicOpenAI大佬观点安全/对齐
03:15
Ethan Mollick@emollick
47
忘掉妖精吧,GPT-5.5在其虚构作品中真正喜欢的东西是:灯塔、海洋、地图、钟声、敲响不可能时刻的钟楼、米拉谷、共振与回声(Claude和Gemini也喜欢这些)、秘密的第三事物(不是白天/黑夜,不是高/低)…
AnthropicGoogleOpenAI大佬观点
03:10
阿绎 AYi@AYi_AInotes
44
Lenny分享五款小众高效的Mac生产力工具

Lenny推荐了五款在其工作流中不可或缺、专注优雅的Mac生产力工具,旨在替代日益臃肿的主流软件。这些工具包括截图工具CleanShot、替代Loom的录屏工具Supercut、文本片段扩展器TextExpander、极简表情符号选择器Rocket,以及辅助专注进入心流状态的音乐服务Brain.fm。其核心观点是选择更专注、更优雅的小众工具来提升效率。

Lenny Rachitsky: A few lesser-known products I love and use a ton: 1. https://cleanshot.com/ for screenshots 2. https://supercut.ai/ repl...

其他大佬观点
03:09
Rohan Paul@rohanpaul_ai
61
安德烈·卡帕西访谈:计算未来或将以神经网络为中心

安德烈·卡帕西在访谈中指出,计算的未来可能从传统软件转向以神经网络为中心。传统软件需先将现实世界转化为规整符号,再由预设代码处理。而神经系统的处理顺序相反,能直接处理视频、语音、屏幕状态等“混乱”输入,实时推断关键信息并动态生成界面或行动。这不仅是用聊天替代应用,更是用能持续实时解读和渲染现实的系统取代固定流程。在此架构下,用户界面不再是稳定产品,而是为特定时刻、任务和个人临时组装的表面;传统CPU则退居类似协处理器的角色,负责算术、存储等确定性任务,而神经模型主导感知、规划和适应。

大佬观点现象/趋势
02:10
阿绎 AYi@AYi_AInotes
61
Anthropic被曝检测用户代码提交历史以打压第三方工具,引发社区强烈抗议

Anthropic被曝通过其官方Claude Code工具检测用户Git提交历史,若发现包含“openclaw”字符串,便将该用户识别为第三方工具使用者,并触发“out of extra usage”错误,导致服务被拒或强制额外收费。开发者实验证实此为人为设置的字符串匹配规则。此举被视为Anthropic为将用户锁定在自家生态、打压更灵活的第三方竞品而采取的粗暴手段,与其此前塑造的开放、不监控形象相悖,引发了开发者社区的强烈不满和抗议。

阿绎 AYi: 卧槽,Anthropic这次真把开发者当傻子。 知名开发者Theo做了个实验:建了个空Git仓库,只commit一行JSON {"schema": "openclaw.inbound_meta.v1"}, 调用官方Claude Code就直...

AnthropicMCP/工具大佬观点开源生态
02:10
阿绎 AYi@AYi_AInotes
68
GPT与Claude官方提示指南理念相反,提示工程核心转向使用者思考清晰度

OpenAI与Anthropic同天发布官方提示指南,核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤,让其自主选择路径;Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效:模糊指令使Claude输出变窄,而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”,真正的瓶颈可能在于人的思考清晰度,而非模型能力。

阿绎 AYi: 我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是,...

AnthropicOpenAI大佬观点推理
02:09
Rohan Paul@rohanpaul_ai
56
谷歌AI领先优势源于长期战略投资,非仓促应对ChatGPT

《时代》杂志指出,谷歌在人工智能领域的领先地位,源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资,而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合,谷歌获得了对AI架构的绝对控制权,能利用自研TPU高效执行复杂计算,同时让工程师得以低成本大规模扩展模型预训练,而无需像竞争对手那样承受高昂的外部芯片采购成本。

DeepMindGoogle大佬观点搜索
01:45
Andrej Karpathy@karpathy
68
红杉Ascent 2026炉边谈话:LLM的新视野、能力不均衡与智能体原生经济

谈话指出LLM的核心价值在于开启全新可能,如完全由LLM驱动的应用、用自然语言描述替代脚本安装、以及处理传统代码无法应对的非结构化知识库。其次,探讨了LLM能力“锯齿状”不均衡现象,认为这与领域可验证性及经济利益影响训练数据分布有关。最后,话题转向智能体原生经济,涉及将产品服务分解为传感器、执行器和逻辑模块,使信息对LLM高度可读,并讨论了新兴的智能体工程及相关技能。谈话强调,从“氛围编程”到“智能体工程”的转变,不仅是提升效率,更是拓展能力上限,旨在智能体时代构建全新事物。

Stephanie Zhan: @karpathy and I are back! At @sequoia AI Ascent 2026. And a lot has changed. Last year, he coined "vibe coding". This ye...

智能体大佬观点现象/趋势
01:45
Andrej Karpathy@karpathy
64
这是我一直以来经常引用的那句话。

kache: you can outsource your thinking but you cannot outsource your understanding

大佬观点
01:44
Sam Altman@sama
43
lisan 多说点我们的坏话 你太客气了 【引用 @scaling01】:GPT-5.5 is on par with Claude Mythos - GPT-5.5 平均通过率 71.4% (±8.0%) - Mythos Preview 68.6% (±8.7%) - GPT-5.5 在 11 分钟内以 1.73 美元成本完成了一项人类专家需约 12 小时的任务

Lisan al Gaib: GPT-5.5 is on par with Claude Mythos - GPT-5.5 average pass rate of 71.4% (±8.0%) - Mythos Preview 68.6% (±8.7%) - GPT-5...

OpenAI大佬观点评测/基准
01:44
Replit ⠕@Replit
56
集成开发环境已死。 当编码模型的发展趋于平缓,竞争壁垒便向技术栈上游转移。@amasad 在 @twentyminutevc 节目中与 @HarryStebbings 深入探讨了 SaaS 行业的剧变、为何 Cursor 的赌注每周都显得更加动摇,以及真正保持十步领先需要什么。 完整对话 ⬇️
大佬观点现象/趋势编码
01:15
Ethan Mollick@emollick
60
"承重结构"、"我总会反复提及"、"不是X,而是Y" 频繁使用AI的一个诅咒是,你会意识到周围有多少文字现在只是AI生成的 不使用AI的人无法一眼识别AI文本,但经常使用的人能轻易察觉其痕迹
大佬观点
01:10
阿绎 AYi@AYi_AInotes
54
模型进化方向相反,提示工程核心转向结构化思考

近期用户感觉GPT和Claude“变笨”,实因模型能力进化导致提示工程要求改变。官方指南揭示,两大模型进化方向相反:Claude Opus 4.7趋向字面执行指令,而GPT-5.5则更自主,能根据目标自行选择路径。因此,旧提示失效原因也相反——模糊提示在Claude上输出变窄,详细步骤在GPT上反成噪声。提示工程的核心已从“教模型做事”转变为“先结构化人类思考”,未来优势将属于思考最清晰、最明确自身需求的人。

AnthropicOpenAI大佬观点
01:09
Rohan Paul@rohanpaul_ai
55
Jensen Huang 谈 OpenClaw。 "OpenClaw 可能是最重要的软件发布,你知道的,或许是有史以来最重要的。" Nvidia 每月花费 100 万美元运行这些智能体,因为每个提示的令牌使用量增长了 1000 倍。
智能体大佬观点
00:42
Chubby♨️@kimmonismus
10
太好了!OpenAI 即将 🚢 【引用 @thsottiaux】:今天感觉很有编程灵感

Tibo: Feeling codexy today

OpenAI大佬观点
00:39
Rohan Paul@rohanpaul_ai
31
这里有个有趣的想法。 Mark Cuban 购买了一台 Mac Mini 用于智能体 AI,以应对海量的 AI 生成的冷邮件和垃圾邮件。他正在训练该系统通过 Gmail 自动取消订阅。 "你用 AI 攻击我,我立刻就用 AI 回击你。"
智能体大佬观点
00:14
Ethan Mollick@emollick
51
无论好坏,对由少数(相当大型的)公司提供的闭源模型进行监管是容易的。而对于可由一系列去中心化参与者提供的开源模型,如何监管则不那么容易设想。推测这很快将成为重要的政策讨论。
大佬观点政策/监管
4月30日
23:14
Ethan Mollick@emollick
55
我越来越认为,我们将看到前沿模型API与前沿实验室原生应用(如Codex、Claude Code)之间的能力差距。针对其原生框架开发和训练的模型,在其框架内具备更多功能。
智能体大佬观点部署/工程
22:41
Chubby♨️@kimmonismus
47
Demis Hassabis: 我们正走在通往AGI的正确道路上;我们可能已经具备了所有组件。我们只是缺少一些东西,比如持续学习和解决记忆问题。
DeepMind大佬观点推理
‹ 上一页
1…4647484950
下一页 ›