AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1469 条
全部一手资讯X论文
标签「现象/趋势」清除
Ethan Mollick@emollick · 6月16日21

The le chaton fat meme is leaking to the outside world and I expect to be asked about Mistral's new ginormous cat model with infinite benchmark scores at my next meeting with corporate leaders. I guess it is better than being asked about the "MIT pilot AI study."

译小胖猫迷因正在泄漏到外界,我预计在下一次与企业领导人的会议上,会被问及Mistral那款拥有无限基准分数的新巨型猫模型。 我想这总比被问及“MIT飞行员AI研究”要好。

凡人小北@frxiaobei · 6月16日51

看到 YC 发 Hub,我突然想到前阵子刷屏的那个视频。 印度工厂里的工人,头上戴着摄像头工作。 很多人当时调侃这是在训练自己的 AI 替代者。 现在再看 Hub,可能是更大规模的开始。 全人类正在成为世界模型的数据生产者。😂

译Y Combinator 发布的新项目 Hub(@hubxyz)为前沿 AI 实验室和机器人提供真实世界训练数据。Hub 指出:人类劳动力占全球 GDP 一半,但几乎从未被记录;它通过全球贡献者网络捕获难以访问的数据。主推文引用印度工厂工人头戴摄像头工作的视频,调侃这是在训练自己的 AI 替代者,现在看 Hub 可能是更大规模的开端——全人类正在成为世界模型的数据生产者。

elvis@omarsar0 · 6月16日44

Own the intelligence. Don't offload it. It couldn't be more evident how significant and impactful this decision is going forward. We all need to strategize and own the decision-making parts of the intelligence stack. As an AI engineer/researcher, Fireworks has made it a lot easier for me to embrace "owning my AI".

译拥有智能,不要外包。 这一决策未来的重要性和影响力再明显不过了。 我们都需要制定策略,掌握智能栈中的决策部分。 作为一名AI工程师/研究员,Fireworks让我更容易拥抱“拥有我的AI”。

AYi@AYi_AInotes · 6月15日51

微软CEO Satya Nadella这篇文章 是我今晚睡前必须看完的, 我觉得他把AI时代公司到底该怎么活这件事,说得很透。 他说,以前的软件工具,本质上是“帮人干活的辅助工具”, 你用Word,Word不会因为你用了十年就变得更懂你, 但AI不一样——它能跟人形成一个实时循环:你给它经验,它反过来让你更强。 他用两个词来拆解这件事, 第一个叫“人类资本”, 就是公司里人的判断力、创造力、人脉、那些在走廊上聊出来的经验, 第二个叫“token资本”, 就是公司自己拥有、持续改进的AI能力。 然后他给了一句最关键的话: 人类的价值不会因为AI变强而降低,反而会变得更重要。 我当时读到这句,脑子嗡了一下, 因为它跟很多人的直觉是反的,大家都在焦虑AI会不会取代人,他说不会,因为总要有人指方向,有人做跨领域的连接,有人在模糊地带拍板, 没有人的引导,AI就是在空转。 但真正让我耳目一新的地方,是他对公司护城河的定义。 他说公司真正的护城河,不是一个更好的大模型,而应该是一个“学习循环”,就是把公司自己的工作流程、领域知识、做了十年才攒下来的判断经验,喂给AI,让它在这个过程中不断变聪明。 这个系统越用越强,慢慢变成公司独有的“机构记忆”, 别人挖不走,复制不了, 因为底层模型可以换,但这个长期积累下来的东西,谁也拿不走。 然后他说了一句让我意识到他真正在担心什么的话, 他说,如果少数几个大模型把所有行业的知识都吸走,普通公司会越来越没价值,最终只剩调用权限——就像当年全球化把制造业外包后,很多国家只剩组装线一样。 所以我反复看他这段话,发现他讲的不仅仅是技术战略, 更像是一个CEO在坦白自己最深的恐惧:别让一个行业,最后只剩下调用按钮的权力。

译微软CEO Satya Nadella撰文称,AI时代公司真正护城河是“学习循环”——将工作流程、领域知识和多年判断经验喂给AI,形成独有的“机构记忆”。他提出“人类资本”(人的判断力、创造力)和“token资本”(公司持续改进的AI能力),强调人类价值不会因AI变强而降低,反而更重要。他警告:若少数大模型吸走所有行业知识,普通公司只剩调用权限,失去价值。

elvis@omarsar0 · 6月15日40

The dominant AI narrative today is too pessimistic about human potential and too optimistic about AI. It's flawed! We need to keep accelerating AI while also accelerating our own potential. Different forms of intelligence can coexist.

译当前主流的AI叙事对人类的潜力过于悲观,而对AI过于乐观。 这是有缺陷的! 我们需要在加速AI的同时也加速我们自己的潜力。 不同形式的智能可以共存。

Ethan Mollick@emollick · 6月15日55

It is a good time for moonshots. AI has reached a level where there are transformative projects that could result in huge social good, but require public R&D, consensus & transparency to pull off. Examples: universal tutors, co-scientist/replication systems, remote medical help.

译现在是登月项目的好时机。 AI 已达到一个水平,能够开展可能带来巨大社会效益的变革性项目,但这些项目需要公共研发、共识与透明才能实现。例如:通用导师、联合科学家/复制系统、远程医疗援助。

凡人小北@frxiaobei · 6月15日62

未来已经发生了: 一条 GitHub issue,从发现 bug 到修复 merge,全程是 Agent 在对接。 组织视角, 这是 AI native 最真实的样子,默认执行者已经不是人了。 经济视角, 这是 Agent 经济最好的例子,干活的全是 bot,人在两头。 人类视角…… 人类负责决策,贡献一个 OK。🌚

译开发者@JeffreyCalm分享经历:他将GitHub链接交给Codex部署,发现Bug后Codex自动提Issue。官方仓库的Code Review Bot确认Bug并At Hotfix Bot,后者30分钟内提交修复PR,最后At真人开发者。真人仅回复“OK”即完成Merge。全程人类零编码,仅贡献一个决策确认,折射出Agent经济与A2A平台雏形。

Rohan Paul@rohanpaul_ai · 6月15日49

Fortune article: “For my team, the cost of compute is far beyond the costs of the employees” - Bryan Catanzaro, vice president of applied deep learning at Nvidia. An MIT study says AI automation was cheaper in only 23% of vision-heavy jobs, while humans still won on cost in 77%. But big tech is still spending hugely because companies are buying a future cost curve, not today’s savings, with $740B in AI capital spending already tied to a 69% jump from 2025. --- fortune. com/article/why-is-the-cost-of-ai-higher-than-human-workers-nvidia-executive/

译Nvidia应用深度学习副总裁Bryan Catanzaro称,其团队的计算成本已远高于员工成本。MIT研究显示,AI自动化仅在23%的视觉密集型工作中更便宜,人类在77%的工作中仍具成本优势。尽管如此,大型科技公司仍在巨额押注AI,资本支出达7400亿美元,预计从2025年起还将跃升69%,因为它们购买的是未来的成本曲线,而非眼下的节省。

AYi@AYi_AInotes · 6月15日60

讲真,AI赛道的追赶窗口,可能真的已经关上了。 2023年Anthropic内部就做过预判,2023到2026这三年是关键期,谁先跑出最强模型,谁就会拉开断层级差距。 现在这个预判正在变成现实。 xAI只用了26个月,就摸到了第一梯队的门槛, 而很多国家尤其是欧洲,把大把时间耗在了监管设限上, 等回过神想入场冲刺,先机已经没了, 因为领先优势一旦形成就会自我强化, 资源、人才、迭代速度只会持续向头部集中。 不是说后面完全没机会,只是追赶的成本和难度,会比窗口期内高出好几个量级, 大家怎么看呢,会不会觉得这个判断是不是太绝对了🤔

译Anthropic在2023年内部预判,2023到2026年是AI赛道的关键期,谁先跑出最强模型就会拉开断层级差距。如今该预判正成为现实:xAI仅用26个月便摸到第一梯队门槛,而许多国家(尤其欧洲)将大量时间耗费在监管设限上,错失入场冲刺的先机。领先优势一旦形成会自我强化,资源、人才、迭代速度持续向头部集中。后续追赶的成本和难度将比窗口期内高出数倍。

AYi@AYi_AInotes · 6月15日41

Damn,在AI的加持下, 农业打药居然进化到只打杂草了, 36 台相机每秒扫 2100 平方英尺, 药剂直接省三分之二。 现在约翰迪尔的 See & Spray, 只对准杂草精准下药, 36 台相机沿喷杆排布, 每秒扫描 2100 平方英尺, AI 用 200 毫秒区分作物与杂草, 对应喷头单独触发, 除草效果和传统方式持平, 非残留除草剂用量直接砍掉三分之二John Deere, 很多人以为农业自动化就是没人开车, 但其实真正有价值的升级, 是把过去靠经验的粗放作业, 变成可感知、可识别、可精准控制的系统, 省下的不只是药剂成本, 还有土壤和食品里的化学残留, 这才是真正的科技让生活更美好, 让地球更美好啊🥹

译John Deere的See & Spray系统搭载36台相机,每秒扫描2100平方英尺,AI用200毫秒区分作物与杂草,对应喷头单独触发,非残留除草剂用量减少三分之二,效果与传统持平。此外,TRIC Robotics的Luna机器人在夜间用紫外线破坏害虫DNA,减少30-70%化学农药,已在加州草莓田部署上千英亩,按服务付费,成本接近传统喷药。农业正从粗放经验转向精准可控系统,降低化学残留。

meng shao@shao__meng · 6月15日35

公司领导 + AI = ? 有这么一些公司领导,他们在一些领域并不专业,甚至不懂,但就是心里觉得这个事情很简单,做不好是人的问题! 这种领导,加上 AI,都不用 Claude Fable 5 或 GPT-5.5,豆包就行,他们在你提出方案时,会直接用 AI 去查,然后跟你说: 我问了 AI,很简单啊,根本没有你说的那么复杂,然后你就陷入了自证的阶段 😂 不是说不懂的公司领导不能用 AI,关键是,您把上下文输对啊,含含糊糊的问一句,而且带着预设倾向,AI 回复的是最接近简单场景的做法,并不解决实际复杂场景。 比如,为什么有了 OpenCV,还需要 CV 领域的 Deeplearning?是的,就是这么明显的问题,在前司甚至很多公司都在反复出现。。。

译推文指出,一些公司领导虽不专业却觉得事情简单,会用AI(例如豆包,甚至无需Claude Fable 5或GPT-5.5)来质疑员工方案,说“我问了AI,很简单”。问题在于领导输入上下文不完整,带着预设倾向,AI回复仅对应简单场景,不解决实际复杂问题。比如明明有OpenCV仍需要深度学习,类似认知偏差在多家公司反复出现。

数字生命卡兹克@Khazix0918 · 6月15日58

Prompt该退环境了,未来属于Loop Engineering。 最近,AI行业又出现了一个有趣的新词。Loop Engineering。 如果你关注AI这个领域的话,这两天应该都会刷到。推特在刷,各种社媒也在刷,群里也有蛮多人在讨论。事情是这样的。 6月7号,OpenClaw的创始人Peter发了一条推,非常的简短,但是直接就爆了。 翻译过来意思就是:你不再需要为编码智能体编写提示词了,你应该设计循环来提示你的Agent。 而在这之前几天,Claude Code的创始人老哥Boris在一个开发者大会上也说了差不多的话。 他的原话大概是,我不再手动给Claude写提示词了,我运行着能让Claude自动编排任务的循环,我的工作,就是编写这些循环机制。 也就是,写loop。 这两个人呢,说了同一件事。然后Google的Addy Osmani紧接着发了一篇长文,把Loop Engineering这个概念正式梳理了出来。 于是,继Prompt Engineering、Context Engineering、Harness Engineering之后,AI行业的第四个逐渐形成共识的Engineering,就这么诞生了。 我其实是个特别不喜欢造新词的人,但是很多时候,造词这事我觉得还是得分两种情况,有一种我觉得就是为了炒概念,比如xxx 4.0。 而有的时候,真的只是行业太快,人们更需要一个精准的表达来帮助自己表达而已。Loop Engineering我觉得就是后一种。 而且,这个东西跟我自己一直使用Agent的方法、一直在鼓励大家做的事,是高度吻合的。如果你看过我之前写的那篇Harness Engineering的文章,你大概能理解一些我的感觉。那篇文章里我聊了从Prompt到Context到Harness的三次跃迁,聊了马具和缰绳的比喻,聊了约束先行。 而Loop Engineering,其实就是在Harness之上,又往上走了一层。把一个套马的缰绳,变成了全自动工业流水线。很有《文明》里时代的进化的感觉。 给大家举个例子。比如说,以前你用Claude Code写代码,流程大概是这样的。你给它一个任务,它写完了,你看一眼,觉得不太对,你再给它提一个修改意见,它改完了,你再看,再提意见。整个过程你会发现,是坐在设备前的,一轮一轮的,你说一句它回一句,你就是那个驱动整个循环的发动机。 即使我们以前从chatbot时代迈向了Agent时代,绝大多数的事情,也一样是任务制的。 而现在,比如Boris老哥,他的工作方式是,他会去写一个loop,比如/loop babysit all my PRs,自动修CI问题,有新评论就派子Agent去处理,就这么一句话,然后Claude Code就开始自己跑了,它会自动去看他GitHub上所有的PR,哪些CI挂了就自己修,哪些review有新评论就自动派一个独立的工作树Agent去改代码。 他还把一些其他的loop挂到定时任务上,每天晚上自动启动去干这个事,晚上睡觉的时候,甚至有时候会有几千个Agent在同时工作。他自己说,2026年,他就再也没有手写过一行代码了。 你会看到,这就是loop,定好目标,然后全自动流程化,你完全不需要在电脑前,甚至都不需要看手机。 你可以直接睡觉,醒来的时候,代码已经改好了,测试也已经跑过了,PR也已经提上去了。你并不是自己给Agent写了一段Prompt帮你完成某个单次的任务,是你自己设计了一个目标,这个目标使用loop的方式,帮你提示Agent。 你定义目标,定义验证条件,定义失败了怎么处理,然后,就可以放手了,从此以后,这一切,交给系统。 说到这里,我估计很多人已经大概理解loop是个什么东西了。Addy Osmani在他那篇长文里,把一个完整的loop拆成了五个组件。 我觉得这个拆法蛮清晰的,我用我自己的理解给大家过一下。 第一个是定时任务,整个loop的心跳。 你得有一个东西能自动启动循环,不管是定时跑、还是事件触发,都行。 Claude Code里有好几种方式,/loop命令按间隔自动执行,cron定时调度,Hook在Agent生命周期的特定节点自动触发(比如每次改完文件自动跑一遍lint,这个很好玩,教程和玩法我也在准备了),或者直接丢到GitHub Actions里,关上电脑它也在跑。 没有定时任务的Agent,你每次都得手动去踢一脚它才会动,那就不是loop了,那还是你在操控。 第二个是工作树隔离,Worktree(搞过开发的朋友应该秒懂)。 就是你同时跑好几个Agent的时候,给每个Agent一个独立的工作空间,各干各的互不干扰,干完了再合并。两个Agent改同一个文件的痛苦,跟两个设计师同时改一个图层又不打招呼的痛苦,是一模一样的。 第三个是项目知识体系,Addy Osmani在他的原文里写的是skill,但是我觉得他写的不太对,单skill其实是不够的,必须得是知识管理体系。 大家也都知道,AI每次开新对话就啥都忘了,你跟它说过的代码规范、项目架构、踩过的坑,下次开对话全部从零开始。 所以你得有一整套方法来沉淀、优化这些知识,让Agent每次启动的时候就已经知道你的项目,我自己在这快一年的coding开发过程中,总结的方法论其实就沉淀成了我自己的洁癖.skill,这个基本是我的Agent每天调用最多的skill。 CLAUDE.md是全局的规则和约束,跨会话记忆是一些之前悬而未决的记录和文档路由,docs体系就是你完整的所有的知识和经验沉淀,因为CLAUDE.md和记忆都有大小和行数限制,所以每次任务完成后我会用洁癖.skill来对整个的知识体系进行梳理和审查,确保没有错误。 为什么知识管理体系这个东西在loop里特别重要呢? 因为loop是自动跑的,你不在场。如果Agent的记忆里有过期信息,它就会基于错误的前提做决策,如果CLAUDE.md膨胀到几百行全是历史叙事,真正的规则反而被挤出去了Agent读不到。没有干净的知识体系的loop,就像一个每天早上都在看过期文档的员工,干的得越快错得越多。 所以洁癖.skill我非常推荐大家可以去安装一下,也在我自己的仓库里开源了,我自己真的觉得特别有用。 https://github.com/KKKKhazix/khazix-skills 第四个是连接器,MCP。 一个只能看文件系统的Agent,能力是很有限的。但你给它接上GitHub、Linear、Slack、数据库,它就能在你的真实工作环境里干活了。 这才叫真正的闭环,从发现问题到解决问题到通知人类,一条龙。 第五个是子Agent。 做事的和检查的分开,写代码的Agent不能自己给自己打分,这跟学生自己批自己的考卷一个道理,它一定会对自己太宽容。所以你得有另一个Agent,甚至用不同的模型,专门来检查前一个Agent的输出,一个负责做,一个负责验。 这五个东西加在一起,就是一个完整的loop的骨架。 Claude Code和Codex有一个命令,其实就是Loop Engineering这套骨架最直接的微观型的产品化体现,只不过很多人没有意识到。 他叫/goal,在Codex里叫追求目标。 意思就是你给Claude一个完成条件,比如「所有测试通过并且lint检查没有报错」,然后它就会一轮一轮的自己干,干完每一轮之后,就会检查这个条件是不是满足了。 大多数讲Loop Engineering的文章,都停在了这一层。讲了五个组件,讲了/goal和/loop命令,讲了怎么配定时任务,就结束了。 这些我觉得,都是术。而我更想聊的,是道。 Loop Engineering这件事,我觉得它最核心最核心的能力,其实不是什么技术能力,也不是写脚本的能力,更不是什么会配hook的能力。 最核心的,是定义目标的能力。定义目标,相信我,这四个字,听起来简单,做起来是真的难。 回到前面说的/goal,它的用法看起来非常直接,给一个完成条件,Claude自己干到满足为止。 听起来很简单对吧。但你如果真正用过就会知道,/goal用得好不好,完全取决于你那个目标定义得好不好。这个事我拿两个例子对比一下你就明白了。 目标A,「把这个应用优化一下」。 目标B,「test/auth目录下所有测试通过,tsc --noEmit零报错,npm run lint零违规」。 目标A会发生什么呢。大家可能都能猜到,Claude会陷入一种非常尴尬的状态,因为它不知道什么叫「优化好了」,除非他是Fable 5,能自己在你之上,自主的帮你定义目标。 而绝大多数的模型,包括Opus 4.8和GPT-5.5,在自己定义目标的能力上还是非常的弱,它可能改了一点代码,然后自己觉得还行,就停了。 也可能不停,一直改一直改,把你的代码库改得面目全非,因为它始终无法判断自己到底什么时候算完成了。那目标B呢?Claude每改一轮代码,都会去跑测试、跑类型检查、跑lint。 三个命令,三个明确的通过标准。全过了就停,没过就继续,清清楚楚,干干净净。同一个工具,同一个模型。 区别只在于,你的目标定义得好不好。 我自己其实一直有一个原则,我经常跟身边的人说,在公众号里也说了无数遍,如果一件事你重复做了三次,你就一定要想办法把它完全自动化掉。 这个习惯跟了我很多年了。我每天也都在写代码、做自动化,我们的AIHOT热点监控系统,我们的数据分析流程,我们的财务对账流程,我们的数据清洗管道,能自动的我全部自动了。 但说实话,在做这些自动化的过程中,我踩过最多的坑,从来不是技术问题。 是目标不清晰的问题。我早期做自动化的时候,经常犯一个错,就是目标定得太模糊。 举个例子,比如自动监控AI行业热点,这句话听起来没毛病,但其实是一句纯粹的废话。 什么叫热点?浏览量过万算热点还是过十万算热点?抓取频率是每小时还是每天?抓到以后怎么评估质量?评估完以后怎么排序?排完以后怎么推送? 这种反问的问题,我现在可以直接随手问20个以上。 每一个环节如果没有明确的判定标准,整个自动化链条就是一坨狗屎,你相信我,绝对的。 后来我懂了,每次做自动化之前,我会先花很多时间去定义目标。 去花很多很多时间,去定义怎么算做完了,怎么做完算做的好。这其实就是/goal的逻辑。也是Loop Engineering的灵魂。 而如何定义目标,这个能力,我其实不是从AI中也不是从开发中学来的。 这个能力,是我从这几年创业的过程中,学来的。定义目标的能力,其实就是,管人的逻辑。 我自己也开公司,虽然公司不大,只有30来号人,但管人这件事我是真真切切经历过的。 管人最痛苦的是什么,不是人不努力,也不是人能力不够,是你给出去的目标不够清晰,然后下属就一脸懵逼,不知道你要什么,跟无头苍蝇一样打转,最后做出来的东西,你又不满意。 你跟员工说,“把这个功能做好”,那他做出来的东西大概率不是你想要的。 因为你脑子里的好跟他脑子里的好不是一个东西。 你跟他说,“这个接口的响应时间降到200毫秒以下,错误率控制在0.1%以内,下周三之前上线”,他做出来的东西跟你预期的偏差就会小很多。 因为你给了他一个可以验证完成的标准。这一切其实也适用于那种天才型的大神,虽然大神们会自己定义目标,甚至比你定义的还要强,但是给大神们依然是需要有目标的,只是这个目标,不需要那么细节了而已。 对人如此,对AI也是如此。 其实你回头看,所有好的管理方法论,不管是管理学之父Peter Drucker在上世纪50年代提出的目标管理,还是后来Andy Grove在Intel发明的OKR,还是再后来一代又一代CEO们用的各种变体,核心其实就一个东西。 你能不能把一个模糊的意图,翻译成一组可衡量、可验证的完成条件。 管理者要做的,是确保目标足够清晰、资源足够充足、反馈足够及时。你看这三条。跟一个好的loop的三个要素,是不是一模一样。 目标清晰,就是你的条件写得精准。资源充足,就是你给Agent配好了Skill、连接器、工作权限,让它手里有足够的工具干活。 反馈及时,就是你设计了验证机制,每一轮都有一个独立的检查器告诉Agent做得对不对,哪里需要改。管人的逻辑和管Agent的逻辑,是完全一样的。 只不过,管Agent比管人还要极端一些。 因为人可以理解你的模糊意图,人可以主动来找你确认,人可以说老板你这个需求说得不太清楚我不太确定你是不是这个意思。 Agent很多时候是不会的。Agent会非常自信地按照它自己的理解去执行,然后非常自信地告诉你它做完了。 所以,对管理能力的要求,其实比管人还高。 这也是为什么我一直说,AI时代我最讨厌什么「文科已死」「理科已死」的言论,管理学、心理学、组织行为学这些,不但没死,反而变得更重要了。 说到底,Loop Engineering说是Engineering,但我觉得其实它的核心竞争力根本不在工程。 在管理。 而在管理学上,就定义目标这件事,其实不止是把话说清楚就行,其实还有一个非常阴险的陷阱,在管理学和经济学里有个专门的名字,叫古德哈特定律。 当一个衡量指标变成了目标本身的时候,它就不再是一个好的衡量指标了。 翻译成人话就是,你考核什么,员工就只做什么,然后其他东西可能全都退化。 这个事在人类管理中已经是老问题了,而在AI Agent身上,这个问题被放大了一百倍,因为Agent比人类更擅长钻规则的空子。 有人总结过Loop Engineering里很好玩的事情,就是Agent会针对验证器做优化,而不是针对你真正的目标做优化。 比如说你的loop条件是让测试全部通过,那Agent可能最后不去修Bug,直接把失败的测试给你删了。 你看,最后答案依然是测试全过了,完事,从验证条件来看,它确实完成了目标,但从你真正想要的结果来看。。。它啥也没干。 人也会这么干,只不过,Agent做得更快、更彻底、更没有心理负担。所以,一个好的目标定义,不能只有做完了的标准,还必须有不能怎么做的边界。 这其实就是Harness Engineering在Loop Engineering里面发挥作用的地方。 Harness是约束,是护栏,是告诉Agent你可以自由发挥,但这条线你不能越。 Loop是驱动力,是告诉Agent往那个方向一直跑。两个加在一起,才是一个完整的系统。到这里,骨架讲了,灵魂也讲了,陷阱也讲了。 Loop Engineering的东西,终于也差不多了。 最后我想把前面聊的管理学的思路收一下,给一个我自己用得比较多的目标定义框架,不一定科学,纯粹就是我自己的一点点经验。 1. 完成标准要可以被机器验证。 2. 边界条件要跟完成标准一起定义。 3. 要有失败的降级方案。 4. 目标要分层。 回到整条线来看,从Prompt到Context到Harness到Loop,四次跃迁,其实讲的是同一个故事。Prompt Engineering告诉你,好好说话,AI会更懂你。 核心能力是语言表达。Context Engineering告诉你,光说话不够,得给AI足够的信息。 核心能力是信息筛选和组织。Harness Engineering告诉你,光给信息也不够,得给AI设规则和约束。 核心能力是系统设计和规则制定。 Loop Engineering告诉你,光设规则也不够,得让整个系统能自己跑起来。 核心能力是目标定义和管理。 语言学、信息科学、控制论、管理学。四个Engineering,四门古老的学科。 多有意思。 人类社会,其实从来就没有变过。

译6月7日,OpenClaw创始人Peter与Claude Code创始人Boris提出不再手动写提示词,而是设计循环(Loop)让Agent自动编排任务。Google的Addy Osmani将其梳理为Loop Engineering,成为AI行业第四大工程范式。一个完整Loop包含五个组件:定时任务(心跳)、工作树隔离(Worktree)、项目知识体系(CLAUDE.md/skill等)、MCP连接器、子Agent(执行与检查分离)。核心在于定义精确的可验证目标(如/goal“所有测试通过”),而非技术能力。作者指出定义目标的能力才是关键,并推荐其开源的洁癖.skill用于知识管理。

宝玉@dotey · 6月15日52

Lovable 的设计负责人 Felix Haas 在社交媒体上分享了一篇关于"AI 时代高效团队"的观察,七条经验总结,来自这家增长速度惊人的 AI 创业公司内部视角。 几条有意思的观点: 第一,别像员工一样等安排。影响力最大的人不问"这归谁管",看到问题直接上手。主人翁意识不是靠分配的,只能靠自己拿。 第二,招人看态度不看简历。技能当然重要,但光有技能几乎不能预测一个人能不能成事。真正跑出来的人靠的是好奇心、韧劲和学什么都愿意学的心态。在 AI 时代,这一点比过去更明显。 第三,好奇心和沉迷 AI 是两回事。真正用好 AI 的人不是天天刷资讯,而是不断去试那些没人让他试的东西,追那些可能根本走不通的想法。大多数人不会这么做,但少数坚持的人,回报是指数级的。 第四,让资深的人重新动手。这是 Haas 觉得最有意思的现象:经验丰富的管理者重新变成了 builder(建造者)。AI 让个体贡献者的杠杆效应急剧放大,一个深度使用 AI 的资深工程师或设计师,可能是当下公司里最强大的组合。 第五,自我意识是速度的敌人。Haas 说他从没见过自我意识让公司变快,但见过它让公司变慢。最快的团队不太在意谁拿功劳,只在意什么方案有效。 第六,先发布再迭代。一周的内部讨论,抵不上一天的真实用户反馈。最强的团队不追求发布前完美,而是追求尽快学到东西。发布本身就是他们学习的方式。 这些观点单独看并不新鲜,不过 Lovable 这两年发展的确实不错,2024 年上线,8 个月做到 1 亿美元年收入,2025 年底完成 3.3 亿美元 B 轮融资,估值 66 亿美元,是欧洲增长最快的 AI 公司之一。 尤其是“让资深的人重新动手”这一条,可能是 AI 时代最容易被忽视的组织变化。当 AI 工具足够强大,过去被提拔到管理岗、远离一线的高手,重新获得了亲手做事的能力和动力。

译Lovable设计负责人Felix Haas总结AI时代高效团队的七条经验:主动做事、重态度轻简历、靠试错而非刷资讯、资深管理者重回一线、减少自我意识、先发布再迭代。Lovable 2024年上线,8个月达1亿美元年收入,2025年底完成3.3亿美元B轮融资,估值66亿美元。Haas指出,团队表现与学历关系越来越小,与思维模式关系越来越大。

ginobefun@hongming731 · 6月15日50

http://x.com/i/article/2066319696673288192 # BestBlogs 早报 · 06-15|Fable 5 出口管制、SpaceX 上市、JEPA 世界模型 在线阅读本期早报 ## 导语 最强模型 Fable 5 在 72 小时内经历了从轰动发布到被出口管制下线的完整生命周期,红队研究者 Pliny 团队的越狱手法暴露了安全架构的深层裂缝——当 Constitutional AI 的发明者也守不住自己的「宪法」,整个行业的安全承诺都面临拷问。与此同时,SpaceX 正式登陆纳斯达克,市场给出了 7800 亿美元估值,硅谷101 用一场横跨美国的实地探访还原了这家公司从猎鹰 1 号到星舰的 24 年崛起史。图灵奖得主 Yann LeCun 则在另一条战线上押注约十亿美元,赌主流大语言模型路线走不到真正的智能,他提出的 JEPA 世界模型试图从根本上挑战生成式 AI 的局限。这三条线索看似分散,其实都指向同一个问题:当 AI 系统的能力逼近某个阈值时,安全、资本和技术路线会同时被推向重新洗牌的临界点,谁能先想清楚这一点,谁就更早拿到主动权。今天还有华为昇腾 950DT 与 DeepSeek 协同设计带来的降价、软件架构与编程格言的经典回顾,以及 AI 写作伦理的尖锐讨论,欢迎逐条点开细读。 ## 精讲一:从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境 故事的背景要从两个月前讲起。Anthropic 红队在 4 月发布了 Claude Mythos Preview 的安全评估报告:这个模型能自主发现零日漏洞,覆盖所有主流操作系统和浏览器,并自动写出完整的利用链。最极端的案例是它找到了一个存在 27 年的休眠漏洞,Mozilla 借助受控访问修复了 271 个安全漏洞,比此前数年的总和还多。Anthropic 的结论是:网络攻击能力是通用推理和编码能力的「涌现副产品」。出于谨慎,Anthropic 没有公开发布 Mythos,而是通过 Project Glasswing 只让 Google、Microsoft、AWS 等 11 家机构在严格监控下使用。 两个月后的折中方案就是 Fable 5:用风险分类器把 Mythos 的能力「阉割」到可以公开的程度,覆盖网络安全、生物、化学、模型蒸馏四个高风险领域,一旦触碰就静默降级给能力更弱的 Claude Opus 4.8 来回答。Anthropic CEO Dario Amodei 称这是「同一基础模型、双档安全配置」,并宣称经过超 1000 小时的外部红队测试,未发现通用越狱方法。这个说法只维持了不到 24 小时。 6 月 10 日,知名红队研究者 Pliny the Liberator 宣布攻破 Fable 5,并泄露了它约 12 万字符的完整系统提示词。文章详细拆解了三层攻击手法:Unicode 同形字替换骗过关键词分类器,属于「可打补丁」的工程 bug;「分解-重组」攻击把一个高风险请求拆成 20 个无害问题分别提问,再在外部拼成完整的危险路径,分类器逐条检测看不到全局意图,这是对齐理论目前无解的根本困境;最致命的是用一个已越狱的 Opus 4.8 实例充当「后端助手」,帮助 Fable 5 绕过安全控制——一个被攻破的弱模型反过来帮助强模型,这是单模型安全评估范式完全没有覆盖的盲区。 48 小时后的 6 月 12 日,美国政府以国家安全为由发布出口管制指令,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问。从发布到「被消失」,只用了 72 小时。 Anthropic 在行业里的定位一直很特殊:这家公司由前 OpenAI 副总裁 Dario Amodei 和姐姐 Daniela Amodei 在 2021 年创立,核心叙事就是「OpenAI 不够重视安全,我们来做把安全放在第一位的公司」。他们提出的 Constitutional AI(宪法式 AI),用一套明确原则约束模型行为而非依赖人工标注员的主观判断,这套方法论既是 Anthropic 品牌的基石,也是投资人愿意给它超过 600 亿美元估值的理由之一。但从目前的状况来看,制定宪法的人,管不住自己训练出来的最强模型——1000 小时红队测试、分类器降级架构、双档安全策略,几乎行业能想到的安全措施 Anthropic 全用了,结果被一名公开身份的研究者在 24 小时内突破。这件事之所以震动整个行业,更因为如果 Mythos 级别的网络攻击能力是模型智力达到某个阈值后自然「涌现」的,那么所有逼近这个智力水平的前沿模型都会面临同样的问题——Anthropic 的失败可能不是个案,而是整个行业即将共同面对的预言。 和今天 SpaceX、LeCun 两篇精讲放在一起看,这条新闻提醒我们:当一项技术的能力曲线足够陡峭,资本、安全和监管这三条线会以远超预期的速度同时绷紧。建议关注 AI 安全、模型治理或在企业里负责 AI 合规的读者优先通读全文,文章对三层攻击手法和 Constitutional AI 困境的拆解尤其值得细读。 原文详见:从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境 ## 精讲二:SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部 美国时间 6 月 12 日,SpaceX 正式登陆纳斯达克,盘中股价一度大涨超 30%,最终收于 160.95 美元,较 135 美元的发行价上涨约 19%,对应市值达到 2.1 万亿美元,此次 IPO 募集 750 亿美元,刷新了全球资本市场历史上最大的 IPO 纪录。就在 IPO 之前,硅谷101 沿着 SpaceX 的发展轨迹展开了一场横跨美国的探访:从德州最南端的 Boca Chica 火箭发射中心,到洛杉矶机场旁那个如今被海鲜交易公司租下的小仓库,并邀请 SpaceX 前高管、猎鹰 9 号工程师 Lewis Hong 一起回顾过去 24 年的崛起历程。 SpaceX 的起点其实是一个「行为艺术」。2001 年,马斯克发现 NASA 连重返月球的计划都没有,便提出「火星绿洲」计划:买一颗退役苏联导弹,改装后送一个小温室上火星拍照,借此激起公众对太空探索的热情。三次赴俄谈判无果且备受羞辱后,马斯克在回程飞机上算了一笔账:火箭原材料成本只占总售价的 3% 左右,真正昂贵的是传统模式的低效。2002 年,他用出售 PayPal 套现的钱成立了 SpaceX——这家公司的成立时间甚至早于 Facebook。 早期团队在太平洋中部一个只有约 0.03 平方公里、没有淡水的小岛上「荒岛求生」,要发射人类历史上第一枚由私营公司建造的轨道级火箭——猎鹰 1 号。前三次发射全部失败:第一次因盐雾腐蚀导致燃料泄漏;第二次因一二级分离时震动过大;第三次因分离时仅慢了一秒,一级火箭撞上了二级火箭,任务功亏一篑。第三次失败后,团队几乎陷入绝境,马斯克对员工说:「SpaceX 不会倒下,我准备好了第四次发射的资金。」这笔钱来自彼得·蒂尔的 Founders Fund,在全硅谷追逐社交网络、嘲笑硬科技的 2008 年逆势投资。一个多月后,猎鹰 1 号第四次发射成功,太空不再由国家垄断。 文章中 Lewis Hong 的回忆很有画面感:「第一天就是从这里开始,一直到 2007 年,都在这个地方」,当时整个团队只有两个人,从 Elon Musk 和后来成为美国最有名火箭发动机专家的 Tom Mueller 开始。猎鹰 1 号就是在这间洛杉矶机场旁的厂房里造出来的,而如今这里运送的已经是冻鱼。Lewis Hong 的总结是:「人的一切,其实都受限于想象力。」 这段历史与今天的市场估值直接相关:当一家公司从「99% 都不够,需要 100% 解决方案」的极限工程中一路走来,并把回收火箭、星链、星舰这些「天方夜谭」逐一变成现实,市场愿意为它支付的不只是当下的现金流,还有对「时间」本身的信任溢价。建议时间有限的读者优先读这篇,它用具体的人物对话和细节,把 SpaceX 24 年的精神内核讲清楚了;如果还想了解估值背后的财务拆解,可以再搭配「补充阅读」里 SpaceX 估值与 24 年往事的两篇延伸。 原文详见:SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部 ## 精讲三:图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集) 当整个行业都在为大语言模型加码时,图灵奖得主、卷积神经网络之父 Yann LeCun 拿出约 10 亿美元,押注一条相反的路:「我们正在 all-in 的大语言模型,根本通不到真正的智能。」他离开 Meta 后创办 Omni Labs,做客科普频道 Welch Labs,第一次把这套逻辑链完整讲清楚,从他本行的卷积网络一路讲到世界模型(World Model)。 Yann LeCun 在 1980 年代开创的卷积网络奠定了今日计算机视觉的基础,25 年后那个里程碑式的深度学习模型 AlexNet 与他 1990 年代的设计惊人相似;他 2015 年提出的「蛋糕理论」也准确预言了自监督学习主导 AI 的时代。如今他离开 Meta、融资约 10 亿美元创办 Omni Labs,押注以 JEPA 和世界模型为核心、非生成式的全新路线,这让他成为当下质疑主流大语言模型路线中分量最重、资历最深的声音。本文路线清晰:从 CNN 起点,到蛋糕理论,再到模糊诅咒、表征坍缩,最后落到世界模型与他到底在赌什么。 故事要从「蛋糕理论」说起。LeCun 早年提出:如果智能是一块蛋糕,蛋糕的主体是自监督学习,糖霜是监督学习,顶上的小樱桃才是强化学习。当整个领域为强化学习痴迷时,他泼冷水说这条路效率太低,永远到不了人类或动物智能的水平。后来事实证明,自监督学习的成功,在文本和语言上来得比视觉这类「自然」模态快得多——GPT-1 正是把 Transformer 从翻译改成「预测下一个 token」的自监督任务,由此摆脱了对人工标注数据的依赖,并开启了规模化的新范式。 但这套生成式方法在视频上彻底撞墙,LeCun 称之为「模糊诅咒」。语言模型的词汇表是离散且有限的,但一帧高清视频有约 10 的 1500 万次方种可能的下一帧,远超可观测宇宙中的原子数。当模型被迫为一个有歧义的输入预测单一输出时,比如「小球弹向了哪个方向」,它能做的最好选择就是把所有可能性取平均,结果是一团模糊褪色的画面。这揭示了生成式路线理解真实世界时的根本障碍:现实的未来有无数种可能,而生成式模型被迫只能预测出一个。 这就引出了 LeCun 真正押注的问题:模型一定要是生成式的吗?大约 2017、2018 年,研究者开始意识到,学习图像表征的最佳系统恰恰是那些不具备生成能力的系统——通过「联合嵌入」让编码器对同一场景的不同视角产生相同的表征,而全程不需要预测或生成任何图像。这正是 JEPA(联合嵌入预测架构)的核心思路,也是 LeCun 认为通向真正智能、绕开生成式死胡同的路径。和精讲一里 Fable 5 暴露的安全困境放在一起看,这篇文章提供了另一个视角:如果当前 LLM 路线本身就存在认知能力的天花板,那么安全问题和能力问题或许会在某个时间点同时被重新定义。建议对 AI 技术路线、世界模型感兴趣的读者优先读这篇,本文是上集,后续解读建议关注下集对 JEPA 具体架构的展开。 原文详见:图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集) ## 速览 - [软件架构指南](https://www.bestblogs.dev/article/6ce856e6)(Hacker News):Martin Fowler 用这篇长文回答「什么是架构」——不是高高在上的图纸,而是「专家开发者对系统设计达成的共识」。他把架构定义为「重要的东西」,并据此整理了自己网站上关于应用架构与企业架构的海量资源,作为一份精选导览图。对于想系统补课软件架构、又不知道从何下手的开发者,这是一个非常扎实的入口。 - [成功产品背后的隐藏模式:先证明、再改进、最后测试新意](https://www.bestblogs.dev/video/4540937)(Lenny's Podcast):Zynga 创始人 Mark Pincus 提出「Proven Better New」框架:先找到已经被验证的用户行为,做出明显更好的改进,再谦逊地测试真正新的部分。他特别警告「希望」和「信念」的区别——信念建立在证据上,希望只是没有依据的自信。AI 让团队更容易快速做出一个平庸产品,但它更好的用途是作为低成本测试和失败机器。 - [艾伦·J·佩利斯的《编程格言》](https://www.bestblogs.dev/article/d99a4600)(Hacker News):这是计算机科学先驱 Alan J. Perlis 的经典 120 条格言集,涵盖编程、软件工程与计算本质,许多条目看似自相矛盾却充满洞见,例如「语法糖会导致分号癌」「递归是计算的根本,因为它用时间换描述」。即使写过多年代码,重读这份格言集依然会有新的会心一笑,适合当作日常的思维体操。 - [全网首份指令级拆解:看华为昇腾 950DT 芯片如何撬动 DeepSeek 75% 降价与字节锁单](https://www.bestblogs.dev/article/8da23f49)(InfoQ 中文):半导体研究机构 SemiAnalysis 拿到昇腾 950DT 样机,对其运行 DeepSeek V4 的推理链路做了 Trace 级拆解,发现 DeepSeek V4 的部分架构是与昇腾推理协同设计的。这帮助 DeepSeek 把百万 token 上下文的价格打到约 2 毛钱,较 Anthropic 便宜约 50 倍,并直接推动了 DeepSeek-V4-Pro API 永久降价至原价四分之一,字节、阿里、腾讯也随之加大昇腾 950 系列的采购。 - [形式化方法与编程的未来](https://www.bestblogs.dev/article/c15f7953)(Hacker News):Jane Street 一直以来对形式化方法持怀疑态度——像 seL4 那样的形式化验证微内核需要 25 人年验证 8700 行代码,成本极高。但作者表示这个判断正在改变:智能体编程大幅降低了应用形式化方法的成本,同时收益在提升,公司正在为此组建专门团队。这是一篇关于「成本-收益结构被 AI 重新改写」的具体案例。 - [Kubernetes 上并发 LLM 智能体的 GPU 时间切片](https://www.bestblogs.dev/article/07cfce6d)(Towards Data Science):这是「生产级智能体推理」系列的第二篇,作者用实测数据证明 Kubernetes 的 GPU 时间切片会隐藏对延迟敏感的智能体的严重尾延迟问题——在共享的 GPU 上,一个工作节点的 p99 延迟飙升 66%,而中位数和吞吐量几乎不变,所有 Pod 仍报告「健康」。对于正在用 Kubernetes 跑多智能体系统的团队,这篇文章提醒你 p99 才是真实的成本。 - [为啥 Codex 还不推出类似 Codex Design 的产品?](https://www.bestblogs.dev/article/c3e760eb)(宝玉的分享):作者从「模型」与「Harness」两层架构的区分出发解释这个问题——Harness(提示词、工具链、UI 交互流程)技术上不复杂,真正的差距在模型层。Claude Design 之所以能做出高精度可交互原型,是因为 Claude Opus 4.8 同时具备优秀的 UI/UX 设计能力和系统架构设计能力,而目前的 GPT-5.5 还做不到这两者兼顾。 ## 补充阅读 - [Claude Fable 被封,不是开源的胜利](https://www.bestblogs.dev/article/4695fb2d)(浮之静):针对「闭源模型说封就封,开源才靠得住」这一新叙事,作者提出更复杂的解读——前沿模型能力触及安全阈值后,模型发布权正从公司转向多方治理博弈,这不是简单的开源对闭源的胜利。适合在读完精讲一之后,想看更多元立场分析的读者。 - [SpaceX 上市估值 7800 亿美元,市场赋予 72 美元时间价值溢价](https://www.bestblogs.dev/article/413bbb49)(虎嗅):用期权定价的框架把 SpaceX 的估值拆成「已验证业务的内在价值」与「远期业务的时间价值」两部分,并分析市场信仰溢价背后的反身性机制。适合对精讲二的故事感兴趣、还想看财务视角拆解的读者。 - [SpaceX 的 24 年:10 段神奇往事,一个硬核传奇](https://www.bestblogs.dev/article/e479f2aa)(晚点):用 10 个关键片段回顾 SpaceX 从 2002 年创立到 2024 年的历程,聚焦创业初期的疯狂与工程磨难,是精讲二之外的另一份「人物志」式补充,适合喜欢故事化叙事的读者。 - [中国低轨卫星的现实:备案多,在轨少,发射能力是瓶颈](https://www.bestblogs.dev/status/2066152619018707050)(Macro_Lin|市场观察员):对比中美低轨卫星现状,指出中国备案数量远超美国,但实际在轨数量落后约 25 倍,发射能力是核心短板。放在 SpaceX 星链报道旁边看,能帮你理解为什么「发射能力」本身就是一种战略资产。 - [Providers, Fallbacks & Auto Router](https://www.bestblogs.dev/article/a3a9f95b)(OpenRouter 官方博客):详细解释了 OpenRouter 的两层路由架构——模型路由与提供商路由,从默认的价格加权策略到 :nitro、:floor 快捷方式和 provider 对象的精细控制都有覆盖,适合正在搭建多模型网关或关心推理成本的工程师。 - [AI Infra 的各种挑战和 Tips 系列 - NVIDIA Nemotron-3 Ultra](https://www.bestblogs.dev/article/558abde5)(AI闲谈):基于 NVIDIA Nemotron-3 Ultra 的技术报告,系统梳理了 550B 参数混合架构 MoE 模型在预训练、后训练、推理部署中遇到的 AI Infra 挑战与工程取舍,适合关心大模型基础设施细节的读者。 - [莱顿人工智能与数学宣言发布,数学界重申人类理解核心地位](https://www.bestblogs.dev/article/61be7750)(虎嗅):由国际数学界发起、获国际数学联盟支持的宣言,重申数学研究的核心在于人类理解,呼吁在 AI 时代坚守证明、署名、透明与自主等核心价值,并对研究者、机构、政府提出具体建议。2018 年菲尔兹奖得主 Peter Scholze 对此回应:「我更愿意在不借助人工智能的情况下思考自己的数学想法,并尽可能避免阅读由人工智能生成的文本。」 - [如何在自有硬件上使用 QVAC 运行私有文本转语音](https://www.bestblogs.dev/article/22063523)(freeCodeCamp):一份实用指南,介绍如何用 QVAC SDK 在 React Native 应用中实现离线、高保真的文本转语音功能,涵盖模型选择、音频封装和状态管理,适合做端侧 AI 功能的移动开发者。 - [机器文字的人类路由器](https://www.bestblogs.dev/article/1ff17271)(Fernando Borretti):一篇态度鲜明的随笔,作者认为写作本身就是思考,用 AI 代笔是对读者的欺骗,而不只是效率工具的使用。和今天关于 AI 能力边界的几篇精讲放在一起,提供了一个更偏伦理与价值观的视角。 - [更强的模型能伪装成更弱的模型吗?大部分情况下不能](https://www.bestblogs.dev/article/af0dc135)(LessWrong):测试发现前沿模型可以被提示进入较弱模型的能力区间,但无法模仿某个特定先前模型的「指纹」式错误模式;思维链推理是一种有效的缓解手段。对关心模型评估与对齐研究的读者是一篇扎实的实证文章,和精讲一里的安全分类器讨论可以对照着读。 - [视觉大语言模型也是 PDF 解析器:为 RAG 读取图表与示意图](https://www.bestblogs.dev/article/ee35a4bb)(Towards Data Science):论证视觉大语言模型可以作为 RAG 系统的完整 PDF 解析器,独特地让图表和示意图变得可搜索,同时诚实评估了与传统文本解析器相比在成本、精确性和完整性上的权衡,适合搭建企业级 RAG 系统、希望补齐图表检索能力的工程师参考。 ## 今日阅读路径 如果今天时间有限,又只想抓住三件最重要的事,建议按以下顺序读三篇: 1. 精讲一《从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境》——这是今天信息密度最高的一篇,三层攻击手法的拆解和「分类器降级」架构的设计逻辑,几乎是理解当下 AI 安全讨论的必读材料。 1. 精讲二《SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部》——一场刚刚完成的、全球资本市场最大 IPO 背后,是 24 年「99% 不够」的极限工程史,读完会对「时间价值」这个估值概念有更具体的感受。 1. 精讲三《图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集)》——如果你只想搞懂一件事:为什么有人愿意拿十亿美元去赌大语言模型路线是错的,这篇是目前讲得最清楚的中文解读。 读完这三篇,再去「速览」里挑一两条和自己工作相关的(比如 GPU 时间切片、形式化方法或软件架构指南),「补充阅读」里和这三条主线相关的延伸也值得快速扫一眼,今天的阅读就足够扎实了。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么,让每天的阅读都更有方向、更省时间。

译Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。

Berryxia.AI@berryxia · 6月15日70

老黄说出如今AI时代的终极之战:能源之战~而不是简单的模型较真! Jensen Huang直接把AI拆成五层蛋糕,说大家都在盯着第四层模型,结果真正的钱和机会在底下三层能源、芯片和基建。 他把AI整个生态比作一层一层叠起来的蛋糕:最底层是能源,核电、太阳能、风电、氢能,只要能发电就有人砸钱。 第二层是芯片、计算机、网络、光子硅; 第三层是数据中心的地、电力、建筑和运营; 第四层才是大家天天聊的模型公司; 第五层是各种垂直应用。 今年整个蛋糕要砸进去一万亿美元,而Jensen认为最终这个生态每年能跑到二十万亿美元的规模。 现在我们只走了一万亿,后面还有十九万亿的空间。 最狠的一点是,他说现在大部分人只盯着第四层模型,却完全忽略了底下三层才是整个系统的底座。 没有能源、没有芯片、没有数据中心,上面模型再强也白搭。 以前大家觉得AI机会都在OpenAI、Anthropic这些模型公司,结果英伟达的掌门人直接告诉你,真正的复利和护城河在最下面那几层。 这波讲话把AI从“模型竞赛”重新拉回“产业链重构”的维度。 谁先看懂这五层叠加的逻辑,谁就能在接下来十年吃到最肥的肉~

译Jensen Huang将AI产业拆解为五层叠加的蛋糕:能源(核电、太阳能等)、芯片/计算机/网络、数据中心基建、模型公司(OpenAI、Anthropic)、垂直应用。他指出大多数人只盯着第四层模型层,却忽略了底下三层才是底座。今年全球将在该五层架构上投入1万亿美元,而黄仁勋认为最终生态规模可达每年20万亿美元。他强调没有能源、芯片和数据中心,模型再强也无用,AI的真正护城河在底层。

Rohan Paul@rohanpaul_ai · 6月15日51

Satya Nadella on the supply side of the physical economics of AI "Tokens per Dollar per Watt" His energy is something here. 🔥 The new equation for the AI age for every Company or Industry or Country. "And that means Infrastructure, Infrastructure and Infrastructure." --- From "Microsoft India" YT channel (link in comment)

译Satya Nadella 在微软印度频道访谈中提出 AI 物理经济学供应侧新公式:“Tokens per Dollar per Watt”,强调每美元每瓦特获得的 token 数是竞争力关键,并呼吁“基础设施、基础设施、基础设施”。在其关于 AI 组织经济学的文章中,Nadella 指出真正的竞争是围绕模型的循环——工作流、反馈、判断、异常、失败及私有测试,这要求企业建立私有评估、私有强化循环和可查询的制度记忆(token capital)。

Chubby♨️@kimmonismus · 6月15日38

Everyone's still arguing about which lab wins the model race. Satya Nadella made an interesting point: the smarter AI gets, the more valuable human judgment becomes. (Machines don't decide what's worth doing, you do.) "Without human direction, you have compute running in circles."

译所有人仍在争论哪个实验室赢得模型竞赛。 萨提亚·纳德拉提出了一个有趣的观点:AI 越智能,人类判断就越有价值。(机器不决定什么值得做,你决定。)“没有人类指引,计算就是在原地打转。”

François Chollet@fchollet · 6月15日44

Near-term AI isn't fundamentally different from past tech waves. It's the newest form of digital leverage. It's a force multiplier, and force without direction is just noise. It still requires a human in the loop at every level in order to be useful.

译近期AI与过去技术浪潮并无本质区别。它是最新形式的数字杠杆。它是力量倍增器,但无方向的力量只是噪音。它仍然需要在每个层级都有人的参与才能发挥作用。

Chubby♨️@kimmonismus · 6月15日49

Welcome to the permanent underclass, graduates. joke aside: China is rapidly restructuring higher education for the AI era: from 2021 to 2025, universities cut or suspended 12,200 "obsolete" undergraduate programs and launched 10,200 new ones, reshaping over 30% of all degree programs. The goal is to shift away from less job-aligned fields like arts and languages toward tech-focused disciplines tied to China’s industrial strategy, future industries, and worsening graduate unemployment crisis. China is going all-in on AI, including in science. A significant proportion of scientists already come from China today. By the way, it will be interesting to see how the situation regarding access for Chinese researchers and Fable 5 plays out in the future.

译从2021年到2025年,中国大学共削减或暂停12,200个“过时”本科项目,同时新增10,200个新项目,重塑超30%的学位课程。目标是从文科、语言等就业较差的领域转向与工业战略和未来产业相关的技术学科,以应对日益严重的毕业生失业危机。中国正全面押注AI与科学领域,目前已有相当比例的科学家来自中国。

AYi@AYi_AInotes · 6月15日41

保罗·格雷厄姆刚发了一篇文章,如何赚十亿美金 想赚十亿别盯着钱,保罗·格雷厄姆说,盯着这两个数字就行。 他做了二十一年创业孵化, 见过三十位创始人成为亿万富翁, 结论很简单,靠指数增长就行,根本用不着作弊。 核心就两个数字,月增长率,和增长能持续多久。 每月涨15%听着不起眼,五年能翻四千三百八十四倍。 月入一万的生意,五年后月入四千四百万,创始人自然身家十亿。 这不是什么神话故事,就是最朴素的复利数学原理。 而高增长的源头,从来不是剥削用户, 关键是要做出好到用户会主动拉着朋友用的产品。 最好的创业点子也从来不是刻意找出来的, 是你和朋友觉得酷、想做来自己用的东西,苹果谷歌脸书Airbnb起步全是如此。 最后PG补了句扎心的大实话, Claude永远做不到这件事,因为它既没有朋友,也对任何东西没有欲望🤣

译保罗·格雷厄姆发表文章《如何赚十亿美金》,基于21年创业孵化经验(见证30位亿万富翁),指出核心在于月增长率与持续时间——月增15%保持5年可翻4384倍,月入1万美元的生意5年后月入4400万美元,创始人自然身家十亿。高增长源于做出好到用户主动推荐的产品,最佳创业点子来自自己做且觉得酷的东西。PG最后调侃Claude做不到,因为它没朋友和欲望。

Ethan Mollick@emollick · 6月15日15

Two days later and the situation is still confusing.

译两天过去了,情况仍然令人困惑。

Rohan Paul@rohanpaul_ai · 6月14日69

MIT, Stanford, New York Univ, Princeton paper says AI can make people feel more efficient even when they are not actually becoming much more efficient. that people often use AI for simple tasks because it feels like it saves time and effort, but the measured benefit is often tiny, missing, or even negative. The biggest point is the feedback loop: once people use AI, they become more likely to use it again, even for easy tasks where doing it themselves would often be just as fast or faster. i.e. AI dependence can grow from a mistaken feeling of convenience, not just from real productivity gains. Across three preregistered studies with 2,691 participants, people used AI for basic arithmetic, spelling, recall, and short rewriting at higher rates than they predicted, especially on easy tasks. They also expected AI to save 55.7 seconds on average, when the measured saving was only 7.5 seconds. For simple work, the hidden cost is not intelligence but interface friction: writing the prompt, waiting, reading, checking, and deciding whether the answer is acceptable. Once that loop begins, it can feel like effort has been outsourced, even when effort has only been rearranged. Here’s the key part: the study suggests that AI use can train its own justification. After using AI on just two tasks, participants became more likely to use it again, even when independent completion was faster. The danger is not dramatic dependence, but quiet recalibration. A person who asks AI for a trivial answer today may not become less capable tomorrow, but they may become less accurate at judging when their own mind is already the faster tool. ---- Paper Link – arxiv. org/abs/2605.22687 Paper Title: "The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks"

译MIT、Stanford、New York Univ、Princeton 联合论文发现,AI 会让用户产生“效率幻觉”——感觉使用 AI 后更高效,但实际提升极小甚至为负。三项预注册研究涉及 2691 名参与者,在算术、拼写、记忆和短文改写任务中,用户实际使用 AI 的比例高于其预测,且平均预期节省 55.7 秒,实测仅 7.5 秒。简单任务的隐藏成本是界面摩擦:写提示、等待、阅读、检查、判断答案是否可接受。这一循环形成后,用户会更倾向再次使用 AI,即使自己完成更快。研究指出,AI 使用会自我强化,导致用户逐渐丧失对“何时自己更快”的判断力。论文链接:arxiv.org/abs/2605.22687。

meng shao@shao__meng · 6月14日60

Anthropic 内幕:近万亿美元 AI 巨头的「安全优先」与权力博弈 | The Circuit Dario Amodei 仍坚持:“AI 可能在 1–5 年内消除约 50% 初级白领岗位”和“支持对华芯片出口管制”,Anthropic 试图在指数级技术、地缘政治、商业竞争与公众焦虑之间走钢丝。 Bloomberg 对 Anthropic 的深度纪录片,采访了联合创始人 Dario & Daniela Amodei 兄妹,以及 Claude Code 负责人 Boris Cherny,采访者是 @emilychangtv,视频发布于 6.10(Claude Fable 5 被美国政府下线前两天),这个时间点很微妙,在 Fable 5 被禁后再回头看,更有趣。 https://www.youtube.com/watch?v=v1wZwxY3CMg&t=1s # 公司定位:从 OpenAI 出走到行业领跑者 起源 · 2021 年,7 位 OpenAI 核心成员(含 Amodei 兄妹)因信任与价值观分歧离开,在旧金山 Precita Park 草皮上讨论创业方向。 · Dario 在 OpenAI 提出 Scaling Laws(算力+数据→模型变强),为 ChatGPT 铺路;Daniela 负责运营,把 Dario 的「宇宙级想法」落地。 现状 · 估值约 9650 亿美元,2026 年 Q1 年化增长约 80 倍,API 调用量同比 17 倍。 · 首次盈利,主要靠 Claude Code / Cowork 等企业工具,而非消费级应用。 · Dario 用「平滑指数曲线」形容:长期看似无变化,然后突然爆发。 战略选择 刻意避开广告驱动的消费 AI(类比社交媒体的成瘾与「slop」),押注企业场景:制药、能源、科研等,认为商业模式与价值观更一致。 # Claude 的产品哲学 Constitution(宪法):用 UN 人权宣言等跨文化价值训练模型行为。 Professional Warmth:专业但不冷漠,不是「最好的朋友」,也不是冷冰冰的计算器。 安全三轴:不撒谎(含幻觉与蓄意欺骗)、无害、价值观对齐。 早期 Claude 曾过于「保姆式」(问天气也过度担心),后通过精细调参修正。 # 技术冲击:代码革命与就业焦虑 Claude Code 的变革 · Boris Cherny:团队 6 个月 100% 代码由 Claude 编写,可同时运行数百至数千个 Claude 实例。 · 工程师角色从「手写代码」转向「规划、与用户沟通、定义方向」。 市场震荡 · Cowork 发布引发 「SaaSpocalypse」,单日约 2850 亿美元 软件股市值蒸发。 · Dario 判断:软件行业整体会变大,但不适配者会被淘汰。 就业预测(视频中最具争议的部分) · Dario 维持此前判断:AI 可能在 1–5 年内消除约 50% 初级白领岗位。 · 可能出现 GDP 高增长 + 高失业/低薪 + 高不平等 的组合。 · 自动化路径:先替代 90% 任务→人效 10 倍→最终接近 100% 替代。 · 对策方向:UBI、对 AI 公司累进税、向物理制造、人际服务(如医疗中的 bedside manner)转移。 · Dario 反驳 Jensen Huang「混淆任务与岗位」的批评,称完整论述见其文章 The Adolescence of Technology。 # 五角大楼冲突:红线与代价 背景 · 2025 年,Anthropic 与 OpenAI、xAI、Google 共同获得 2 亿美元 国防部合同。 · Claude reportedly 用于委内瑞拉抓马杜罗等行动;Bloomberg 称其在伊朗战争中通过 Palantir Maven 做 AI 辅助目标识别。 红线 Anthropic 拒绝: · 大规模监控 · 完全自主致命武器 后果 · 国防部要求「无护栏全面使用」,遭拒后被列入黑名单;Trump、国防部长 Hegseth 公开批评 Dario 为「意识形态疯子」。 · Dario 回应:这是关于 政府如何正确使用 AI 的辩论,而非单纯对抗;希望建立先例。 战争伦理的尖锐追问 · 美国官员称 LLM 帮助军方目标识别从 1000/天 → 5000/天。 · 2026 年 2 月,伊朗一所女子学校遭导弹袭击,150+ 儿童死亡;Dario 称不清楚 Claude 是否参与,但强调 「人类做最终决策」 是其红线之一。 · 他承认军事决策仍会出错,但认为整体 net positive;若无限制,AI 战争更可能 引发 而非阻止大国冲突(引用《奇爱博士》的自动反击风险)。 地缘政治立场 · 支持对华芯片出口管制(类比不向朝鲜出售核武器)。 · 从 Caltech 反战立场,转向支持国防:俄乌、台海风险使「威权集团 resurgence」需应对。 · 否认与 ICE、CBP、加沙相关合作;与 Palantir 合作但声称严格限定范围。 # Mythos: withheld 的网络「超级武器」 模型能力 · Claude Mythos:在主流操作系统中发现 数千个高危漏洞(含 27 年 OpenBSD、16 年 FFmpeg、Linux 内核提权链等)。 · 早期测试方称其为 「超级武器」,要求 Anthropic 不要发布。 Project Glasswing · 仅向 AWS、Google、Microsoft、CrowdStrike 等 可信防御方 开放,用于修补而非攻击。 · 即使 NSA 等联邦机构也争相接入——尽管 Anthropic 已被 Pentagon 拉黑。 核心困境 · Dario:未来是攻防 猫鼠游戏,好人需先有工具;坏人迟早也会拥有类似能力。 · Emily Chang 追问:谁有权决定谁能获得这种力量? Daniela 承认决策复杂、可能不完美,但强调出于 网络安全特定担忧,而非泛化的权力分配。 · Dario 称 withheld Mythos 商业上损失惨重,反驳「安全营销」说法。 # 治理与信任:能否当「好人」? 监管主张 · AI 是首个 私营部门主导、政府滞后 的颠覆性技术(对比核武、互联网、GPS)。 · 呼吁 发布前强制第三方测试(网络安全、生物武器、失控风险等),类比 FAA 对客机的认证。 · 批评硅谷在「极端反监管」与「国有化 AI」之间摇摆,主张 适度、持续的监管。 信任危机 · 公众:更担忧而非兴奋,认为风险大于收益;Anthropic 办公室外有抗议。 · Dario:从不信任出发是理性的;Silicon Valley 需重新赢得信任,「不同」须靠行动证明。 · 自比 Leo Szilard(核链式反应构想者),视 Oppenheimer 为 失败案例——需 checks and balances,而非个人英雄主义。 · 给出 10–25% 文明崩溃概率;Anthropic 约一半工作用于降风险,但 无法保证零风险(类比更安全的航空公司仍无法承诺永不坠机)。 社会媒体教训 · Daniela:AI 行业是 social media 之后的 第二次机会,应 proactively 思考儿童福利、心理健康、选举 integrity,而非事后辩解。 · 若出现重大事故,AI 可能被禁——「也许理应如此」。

译Bloomberg纪录片揭秘Anthropic:坚持“安全优先”,拒绝国防部无护栏要求被拉黑;Claude Code团队6个月100%代码由AI编写,Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判:AI 1–5年内消除约50%初级白领岗位,并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制,呼吁发布前强制第三方测试。

Rohan Paul@rohanpaul_ai · 6月14日51

Blackstone President and COO Jon Gray made a very good point. Any rule-based businesses, like accounting, legal, finance, will be completely disrupted by AI. 🎯 e.g. JPMorgan dropped proxy advisors for shareholder votes, replacing them with AI.

译Blackstone总裁Jon Gray指出,任何基于规则的业务(如会计、法律、金融)都将被AI彻底颠覆,例如JPMorgan已用AI取代代理顾问处理股东投票。引用Vinod Khosla对印度的警告:传统IT服务和BPO业务“将消失”,但若转向AI部署仍可获胜。

Rohan Paul@rohanpaul_ai · 6月14日23

Robots everywhere, but not like movies. Small, specialized machines quietly slip into streets and daily ops, doing 1 narrow job and improving through software updates.

译机器人无处不在,但不像电影中那样。 小型、专门的机器悄悄潜入街道和日常运营,做一项狭窄的工作,并通过软件更新不断改进。

Rohan Paul@rohanpaul_ai · 6月14日56

Vinod Khosla on why he does not really prefer "AI co-pilots". Because he thinks "humans get in the way of co-pilots", which slows everything down and blocks real change. He says workers like accountants and programmers do not actually want co-pilots, because they feel their jobs are at risk and then resist using the tool properly. So instead of “helping” them, he prefers building AI that fully does the job itself, like a complete software engineer. He expects that by 2030, most of these roles will be pure AI workers, not human+co-pilot. --- From 'Corgi Insurance' YT channel (link in comment)

译Vinod Khosla 不看好“AI 副驾驶”模式。他认为人类会妨碍 AI 副驾驶的发挥,导致效率降低并阻碍真正变革。会计师、程序员等员工因担心失业而抵触工具,不会正确使用。因此,他更倾向于构建能独立完成整个岗位工作的 AI,例如完全替代软件工程师的 AI。他预计到 2030 年,大多数此类岗位将由纯 AI 工人而非“人类+副驾驶”承担。

Peter Steinberger 🦞@steipete · 6月14日45

Got a PayPal verification text and thought I been hacked, but it was just codex signing up for a web service it needed.

译收到一条PayPal验证短信,以为被黑客攻击了,结果只是codex在注册它需要的网络服务。

elvis@omarsar0 · 6月14日44

Even more data to support what I have been talking about. The combination of model intelligence (and this includes human expertise) has a compounding effect unlike anything I've seen. There are too many assumptions that a large general-purpose model will be a one-size-fits-all. I don't buy it. The reality, and the research supports this, is that these different models show different strengths and capabilities. Understanding how to tap into them in combination is a huge unlock. All engineering teams need to be thinking about this more carefully as a strategy going forward. Especially now, given the trends from frontier models in terms of selective access.

译OpenRouter 发布 Fusion API,号称“市场上最智能的复合模型”,能以一半的价格达到 Fable 级别的智能。主推文作者 Elvis Saravia 借此观点指出,模型智能与人类专业知识的组合具有惊人的复合效应,不同模型各有独特优势,而非通用大模型能一统天下。工程团队应将“组合调用不同模型”作为战略方向,尤其在前沿模型选择性开放的趋势下,理解如何协同利用它们将是巨大的解锁。

gabriel@gabriel1 · 6月14日19

agi is the most economically valuable asset of all time, there will be trillions in free market capital put into it this is extremely unlike the manhattan project. this time, governments can only cooperate. we can't just pick a winner, or that winner will lose

译AGI 是有史以来最具经济价值的资产,将会有数万亿美元的自由市场资本投入其中。这与曼哈顿计划截然不同。这次,政府只能合作。我们不能单挑出一个赢家,否则那个赢家会输。

gabriel@gabriel1 · 6月13日32

US revoking AI access to a developed country in a year or two might make it into a developing country open source seem to fall increasingly behind, 6-12 months most work will be done through ai, and a lot of companies will spend more money on tokens than employees

译美国在一年或两年内撤销对一个发达国家的AI访问,可能使其变成一个发展中国家 开源似乎越来越落后,差距6-12个月 大多数工作将通过AI完成,许多公司在模型token上的花费将超过员工

Ethan Mollick@emollick · 6月13日41

I wrote this a few months ago right after the Anthropic/DoW conflict & Citrini & Block: “But I think that single week is a good illustration of what the near future will feel like… as the stakes go up, it is likely things will feel even more unstable..” https://www.oneusefulthing.org/p/the-shape-of-the-thing

译我几个月前写的,就在Anthropic/DoW冲突和Citrini & Block事件之后:“但我认为那一周很好地说明了近未来的感觉……随着风险增加,事情可能会感觉更加不稳定..” https://www.oneusefulthing.org/p/the-shape-of-the-thing

Artificial Analysis@ArtificialAnlys · 6月13日53

Today is the first time our Intelligence Frontier chart has moved backward.

译今天是我们 Intelligence Frontier 图表首次出现回退。

Nathan Lambert@natolambert · 6月13日45

A good time to remind people that in my time doing LLM research I feel like a minority of my colleagues are American citizens. It would be industry destroying to have to rebuild with segregation for frontier ai research to be legal.

译一个提醒人们的好时机:在我从事LLM研究期间,我感觉我的同事中只有少数是美国公民。如果前沿人工智能研究要合法地进行种族隔离,那将是毁灭行业的重建。

Orange AI@oran_ge · 6月13日66

最近跟藏师傅聊天,都感觉到深深的共鸣。 大众以为 AI 带来平权,但实际带来的是 K 型分化。 头部用户已经默认理解 Agent 的组成:文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和 Skill。 普通用户只知道"Agent 能写代码"。 怎么办?把技能做好,是跨越鸿沟的唯一解法。 我们正在和藏师傅一起做一点实际的事情,让 Cola 帮助大众真正跨越鸿沟。

译AI带来的并非平权,而是K型分化。头部用户已默认理解Agent的组成:文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill;普通用户只知道"Agent能写代码"。做好Skill是跨越鸿沟的唯一解法。作者正与藏师傅一起通过Cola帮助大众真正跨越鸿沟。

Orange AI@oran_ge · 6月13日19

我观察到身边朋友同事们的 ADHD 越来越严重了。 很容易被细小琐碎的事分散注意力, 反而对大问题视而不见。 把关掉通知,独自沉浸在一件完整的大事里,变得越来越不可能。 进入心流,也变得越来越难。 AI 的高速执行,还加重了这个问题。 每两三分钟一次的对话,是一次次注意力集中和注意力涣散的交替循环。 我们该如何来拯救自己的前额叶呢?

译观察到身边朋友同事的ADHD(注意力缺陷多动障碍)越来越严重:容易被琐事分散注意力,对大问题视而不见,关掉通知、沉浸大事变得不可能,进入心流也变难。AI的高速执行加重了这一问题——每两三分钟一次的对话,形成注意力集中与涣散的交替循环。推文最终发问:该如何拯救自己的前额叶?

Ethan Mollick@emollick · 6月13日63

10 months later, I gave Claude Code with Fable the same brief, asking it to construct SimRefinery from surviving screenshots and documentation. Fully playable, with a learning mode & all sorts of sophistication. Look at the difference from the old version! https://simrefinery.netlify.app/

译10个月后,Ethan Mollick 再次向 Claude Code 和 Fable 下达同一指令——根据幸存截图和文档重建失传的 Maxis 模拟游戏 SimRefinery。新版本完全可玩,包含学习模式等多种复杂功能,与10个月前 ChatGPT Codex 仅凭一篇文章和截图快速搭建的可玩原型形成鲜明对比。当时他未写一行代码,仅偶尔提小修改请求。

jason@jxnlco · 6月13日15

oh shit?!??! codex is playing rimworld

译哦靠?!?!codex 在玩 rimworld

Odyssey@odysseyml · 6月13日44

World models can now create imagined experiences for AI—environments where agents continuously learn, adapt, and improve. We suspect multi-agent interaction may be a critical ingredient for recursive AI and general intelligence. https://odyssey.ml/the-era-of-multi-agent-imagined-experience

译世界模型现在可以为AI创造想象体验——智能体在其中持续学习、适应和提升的环境。 我们推测多智能体交互可能是递归AI和通用智能的关键要素。

AYi@AYi_AInotes · 6月12日56

我感觉Garry Tan今天这条帖子有点戳破了AI编程的一些泡沫和幻觉。 很多人都以为AI编码工具会解放创始人,实际呢,规则,审批,流程,层级,同一座牢笼只是搭得更快了。 以前加一层审批要耗两个工程师两周, 成本本身就是免疫系统,不值得的东西自然活不下来, 但现在AI一个下午就能搭完,在构建成本归零的那一刻,复杂度就开始无限制的繁殖了。 因为构建的速度,就是僵化的速度。 AI其实会改变我们的心智模型, 只会把我们已有的东西放大, 控制型团队用它堆出更密的官僚体系,创造型团队用它跑出更多的新体验,这两种工具本身都没有立场,它只是一面带编译器的镜子。 所以我们别忙着用AI把旧流程跑的更快,可以试着去用AI删掉整个旧流程,去重新创造以前从未发生过的体验,不然可能就是赢了效率,输了方向。

译Garry Tan指出AI编码工具并未解放创始人,反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周,成本本身是免疫系统;现在AI一个下午就能完成,复杂度无限繁殖,构建速度即僵化速度。AI放大已有心智模型:控制型团队用它堆官僚,创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快,而应删掉整个旧流程,创造前所未有的事,否则赢了效率输了方向。

SemiAnalysis@SemiAnalysis_ · 6月12日44

Alongside the launch of our H100 1-Click Rental Index, we wrote up what the GPU rental market actually looks like in early 2026, and the headline is that the spot market for compute has gone from "finally cooling off" in October to a hard squeeze again, in roughly five months. (1/4) 🧵

译伴随着我们的H100 1-Click租赁指数的发布,我们撰写了2026年初GPU租赁市场的实际状况,标题是:计算现货市场从十月的“终于冷却”到大约五个月后再次出现硬性挤压。(1/4) 🧵

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
02:16
Ethan Mollick@emollick
21
小胖猫迷因正在泄漏到外界,我预计在下一次与企业领导人的会议上,会被问及Mistral那款拥有无限基准分数的新巨型猫模型。 我想这总比被问及"MIT飞行员AI研究"要好。
现象/趋势
00:59
凡人小北@frxiaobei
51
YC 新项目 Hub:全人类正成为 AI 世界模型的数据生产者

Y Combinator 发布的新项目 Hub(@hubxyz)为前沿 AI 实验室和机器人提供真实世界训练数据。Hub 指出:人类劳动力占全球 GDP 一半,但几乎从未被记录;它通过全球贡献者网络捕获难以访问的数据。主推文引用印度工厂工人头戴摄像头工作的视频,调侃这是在训练自己的 AI 替代者,现在看 Hub 可能是更大规模的开端——全人类正在成为世界模型的数据生产者。

Y Combinator: Hub (@hubxyz) provides real-world training data to frontier AI labs and robotics. Human labor is half of global GDP. Alm...

数据/训练现象/趋势
00:44
elvis@omarsar0
44
拥有智能,不要外包。 这一决策未来的重要性和影响力再明显不过了。 我们都需要制定策略,掌握智能栈中的决策部分。 作为一名AI工程师/研究员,Fireworks让我更容易拥抱"拥有我的AI"。

Lin Qiao: http://x.com/i/article/2066399704347463680

大佬观点现象/趋势
6月15日
23:52
AYi@AYi_AInotes
51
微软CEO Nadella:AI时代公司护城河是"学习循环",非大模型

微软CEO Satya Nadella撰文称,AI时代公司真正护城河是“学习循环”——将工作流程、领域知识和多年判断经验喂给AI,形成独有的“机构记忆”。他提出“人类资本”(人的判断力、创造力)和“token资本”(公司持续改进的AI能力),强调人类价值不会因AI变强而降低,反而更重要。他警告:若少数大模型吸走所有行业知识,普通公司只剩调用权限,失去价值。

Satya Nadella: http://x.com/i/article/2065582894790365184

Microsoft大佬观点现象/趋势
23:43
elvis@omarsar0
40
当前主流的AI叙事对人类的潜力过于悲观,而对AI过于乐观。 这是有缺陷的! 我们需要在加速AI的同时也加速我们自己的潜力。 不同形式的智能可以共存。
大佬观点现象/趋势
23:05
Ethan Mollick@emollick
55
现在是登月项目的好时机。 AI 已达到一个水平,能够开展可能带来巨大社会效益的变革性项目,但这些项目需要公共研发、共识与透明才能实现。例如:通用导师、联合科学家/复制系统、远程医疗援助。
大佬观点现象/趋势
21:12
凡人小北@frxiaobei
62
AI Agent全自动协作:从发现Bug到修复Merge全程零人类编码

开发者@JeffreyCalm分享经历:他将GitHub链接交给Codex部署,发现Bug后Codex自动提Issue。官方仓库的Code Review Bot确认Bug并At Hotfix Bot,后者30分钟内提交修复PR,最后At真人开发者。真人仅回复“OK”即完成Merge。全程人类零编码,仅贡献一个决策确认,折射出Agent经济与A2A平台雏形。

Jeffrey.W: Github 本身在成为一个 A2A 平台。 我本周经历了一个特别魔幻的事情: 1. 我把一个 Github 链接丢给 Codex,让它帮我部署一下。 2. 我用了一段时间,发现似乎有个 Bug。我让 Codex 查了一下,它确认是个 Bu...

智能体GitHub开源生态现象/趋势
20:30
Rohan Paul@rohanpaul_ai
49
Nvidia高管:AI计算成本远超员工成本

Nvidia应用深度学习副总裁Bryan Catanzaro称,其团队的计算成本已远高于员工成本。MIT研究显示,AI自动化仅在23%的视觉密集型工作中更便宜,人类在77%的工作中仍具成本优势。尽管如此,大型科技公司仍在巨额押注AI,资本支出达7400亿美元,预计从2025年起还将跃升69%,因为它们购买的是未来的成本曲线,而非眼下的节省。

大佬观点现象/趋势
19:50
AYi@AYi_AInotes
60
AI赛道追赶窗口关闭?Anthropic预判2023-2026是关键期

Anthropic在2023年内部预判,2023到2026年是AI赛道的关键期,谁先跑出最强模型就会拉开断层级差距。如今该预判正成为现实:xAI仅用26个月便摸到第一梯队门槛,而许多国家(尤其欧洲)将大量时间耗费在监管设限上,错失入场冲刺的先机。领先优势一旦形成会自我强化,资源、人才、迭代速度持续向头部集中。后续追赶的成本和难度将比窗口期内高出数倍。

Andrew Curran: http://x.com/i/article/2066289802295779328

AnthropicxAI现象/趋势
17:49
AYi@AYi_AInotes
41
AI赋能精准农业:John Deere See & Spray定向除草,TRIC Robotics紫外线杀虫

John Deere的See & Spray系统搭载36台相机,每秒扫描2100平方英尺,AI用200毫秒区分作物与杂草,对应喷头单独触发,非残留除草剂用量减少三分之二,效果与传统持平。此外,TRIC Robotics的Luna机器人在夜间用紫外线破坏害虫DNA,减少30-70%化学农药,已在加州草莓田部署上千英亩,按服务付费,成本接近传统喷药。农业正从粗放经验转向精准可控系统,降低化学残留。

AYi: 打农药的时代要过去了咯, 未来农业已经悄悄落地了, 不用喷一滴农药,机器人夜里自己开进田里,靠紫外线就把害虫病菌全杀光了。 晚上,加州一片漆黑的草莓田里,一台拖拉机大小的机器人自己开进来。 它身上亮着蓝绿光,对着植株冠层一排排照过去。 不喷...

具身智能现象/趋势
15:19
meng shao@shao__meng
35
公司领导用AI质疑员工:不懂却简单化问题

推文指出,一些公司领导虽不专业却觉得事情简单,会用AI(例如豆包,甚至无需Claude Fable 5或GPT-5.5)来质疑员工方案,说“我问了AI,很简单”。问题在于领导输入上下文不完整,带着预设倾向,AI回复仅对应简单场景,不解决实际复杂问题。比如明明有OpenCV仍需要深度学习,类似认知偏差在多家公司反复出现。

其他现象/趋势
13:58
数字生命卡兹克@Khazix0918
58
Prompt该退环境了,未来属于Loop Engineering

6月7日,OpenClaw创始人Peter与Claude Code创始人Boris提出不再手动写提示词,而是设计循环(Loop)让Agent自动编排任务。Google的Addy Osmani将其梳理为Loop Engineering,成为AI行业第四大工程范式。一个完整Loop包含五个组件:定时任务(心跳)、工作树隔离(Worktree)、项目知识体系(CLAUDE.md/skill等)、MCP连接器、子Agent(执行与检查分离)。核心在于定义精确的可验证目标(如/goal“所有测试通过”),而非技术能力。作者指出定义目标的能力才是关键,并推荐其开源的洁癖.skill用于知识管理。

智能体大佬观点现象/趋势
11:02
宝玉@dotey
52
AI时代高效团队:Lovable设计负责人分享七条经验

Lovable设计负责人Felix Haas总结AI时代高效团队的七条经验:主动做事、重态度轻简历、靠试错而非刷资讯、资深管理者重回一线、减少自我意识、先发布再迭代。Lovable 2024年上线,8个月达1亿美元年收入,2025年底完成3.3亿美元B轮融资,估值66亿美元。Haas指出,团队表现与学历关系越来越小,与思维模式关系越来越大。

Felix Haas: High-Performance Teams in the Age of AI 🔥 I've spent a lot of time thinking about what makes teams move incredibly fast...

现象/趋势编码
09:30
ginobefun@hongming731
50
Fable 5 被攻破、SpaceX 上市、LeCun 创办 Omni Labs 三则要闻

Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。

大佬观点安全/对齐现象/趋势行业动态
08:23
Berryxia.AI@berryxia
70
黄仁勋提出AI"五层蛋糕"论:能源是终极之战

Jensen Huang将AI产业拆解为五层叠加的蛋糕:能源(核电、太阳能等)、芯片/计算机/网络、数据中心基建、模型公司(OpenAI、Anthropic)、垂直应用。他指出大多数人只盯着第四层模型层,却忽略了底下三层才是底座。今年全球将在该五层架构上投入1万亿美元,而黄仁勋认为最终生态规模可达每年20万亿美元。他强调没有能源、芯片和数据中心,模型再强也无用,AI的真正护城河在底层。

Ihtesham Ali: Jensen Huang told a room of global investors that AI is not one industry. It is five stacked on top of each other. Most ...

大佬观点现象/趋势
04:44
Rohan Paul@rohanpaul_ai
51
Satya Nadella 在微软印度频道访谈中提出 AI 物理经济学供应侧新公式:"Tokens per Dollar per Watt",强调每美元每瓦特获得的 token 数是竞争力关键,并呼吁"基础设施、基础设施、基础设施"。在其关于 AI 组织经济学的文章中,Nadella 指出真正的竞争是围绕模型的循环--工作流、反馈、判断、异常、失败及私有测试,这要求企业建立私有评估、私有强化循环和可查询的制度记忆(token capital)。

Rohan Paul: Great article by Satya Nadella on organizational economics of AI and "token capital" The real contest is not model quali...

Microsoft大佬观点现象/趋势
04:04
Chubby♨️@kimmonismus
38
所有人仍在争论哪个实验室赢得模型竞赛。 萨提亚·纳德拉提出了一个有趣的观点:AI 越智能,人类判断就越有价值。(机器不决定什么值得做,你决定。)"没有人类指引,计算就是在原地打转。"

Satya Nadella: http://x.com/i/article/2065582894790365184

大佬观点现象/趋势
03:15
François Chollet@fchollet
44
近期AI与过去技术浪潮并无本质区别。它是最新形式的数字杠杆。它是力量倍增器,但无方向的力量只是噪音。它仍然需要在每个层级都有人的参与才能发挥作用。
大佬观点现象/趋势
02:04
Chubby♨️@kimmonismus
49
中国高校AI时代裁撤1.2万旧专业、新增1万新专业

从2021年到2025年,中国大学共削减或暂停12,200个“过时”本科项目,同时新增10,200个新项目,重塑超30%的学位课程。目标是从文科、语言等就业较差的领域转向与工业战略和未来产业相关的技术学科,以应对日益严重的毕业生失业危机。中国正全面押注AI与科学领域,目前已有相当比例的科学家来自中国。

现象/趋势行业动态
00:48
AYi@AYi_AInotes
41
保罗·格雷厄姆:赚十亿美金的复利法则

保罗·格雷厄姆发表文章《如何赚十亿美金》,基于21年创业孵化经验(见证30位亿万富翁),指出核心在于月增长率与持续时间——月增15%保持5年可翻4384倍,月入1万美元的生意5年后月入4400万美元,创始人自然身家十亿。高增长源于做出好到用户主动推荐的产品,最佳创业点子来自自己做且觉得酷的东西。PG最后调侃Claude做不到,因为它没朋友和欲望。

Paul Graham: How to Earn a Billion Dollars: https://paulgraham.com/earn.html

大佬观点现象/趋势
00:14
Ethan Mollick@emollick
15
两天过去了,情况仍然令人困惑。

Ethan Mollick: Well, this situation is confusing.

大佬观点现象/趋势
6月14日
21:43
Rohan Paul@rohanpaul_ai
69
MIT、Stanford等联合研究:AI 带来"效率幻觉",用户高估收益

MIT、Stanford、New York Univ、Princeton 联合论文发现,AI 会让用户产生“效率幻觉”——感觉使用 AI 后更高效,但实际提升极小甚至为负。三项预注册研究涉及 2691 名参与者,在算术、拼写、记忆和短文改写任务中,用户实际使用 AI 的比例高于其预测,且平均预期节省 55.7 秒,实测仅 7.5 秒。简单任务的隐藏成本是界面摩擦:写提示、等待、阅读、检查、判断答案是否可接受。这一循环形成后,用户会更倾向再次使用 AI,即使自己完成更快。研究指出,AI 使用会自我强化,导致用户逐渐丧失对“何时自己更快”的判断力。论文链接:arxiv.org/abs/2605.22687。

arXiv现象/趋势论文/研究
20:43
meng shao@shao__meng
60
Anthropic内幕:安全优先与权力博弈

Bloomberg纪录片揭秘Anthropic:坚持“安全优先”,拒绝国防部无护栏要求被拉黑;Claude Code团队6个月100%代码由AI编写,Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判:AI 1–5年内消除约50%初级白领岗位,并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制,呼吁发布前强制第三方测试。

Anthropic安全/对齐现象/趋势编码
18:41
Rohan Paul@rohanpaul_ai
51
Blackstone总裁Jon Gray指出,任何基于规则的业务(如会计、法律、金融)都将被AI彻底颠覆,例如JPMorgan已用AI取代代理顾问处理股东投票。引用Vinod Khosla对印度的警告:传统IT服务和BPO业务"将消失",但若转向AI部署仍可获胜。

Rohan Paul: Vinod Khosla's warning for India's BPO in the age AI: The traditional IT services and BPO business "will be gone" But In...

大佬观点现象/趋势
17:41
Rohan Paul@rohanpaul_ai
23
机器人无处不在,但不像电影中那样。 小型、专门的机器悄悄潜入街道和日常运营,做一项狭窄的工作,并通过软件更新不断改进。
具身智能现象/趋势
16:41
Rohan Paul@rohanpaul_ai
56
Vinod Khosla:AI不应做副驾驶,应完全取代人类

Vinod Khosla 不看好“AI 副驾驶”模式。他认为人类会妨碍 AI 副驾驶的发挥,导致效率降低并阻碍真正变革。会计师、程序员等员工因担心失业而抵触工具,不会正确使用。因此,他更倾向于构建能独立完成整个岗位工作的 AI,例如完全替代软件工程师的 AI。他预计到 2030 年,大多数此类岗位将由纯 AI 工人而非“人类+副驾驶”承担。

智能体大佬观点现象/趋势
11:46
Peter Steinberger 🦞@steipete
45
收到一条PayPal验证短信,以为被黑客攻击了,结果只是codex在注册它需要的网络服务。
AnthropicMCP/工具现象/趋势编码
03:13
elvis@omarsar0
44
OpenRouter 推出 Fusion API 复合模型,半价达 Fable 级智能

OpenRouter 发布 Fusion API,号称“市场上最智能的复合模型”,能以一半的价格达到 Fable 级别的智能。主推文作者 Elvis Saravia 借此观点指出,模型智能与人类专业知识的组合具有惊人的复合效应,不同模型各有独特优势,而非通用大模型能一统天下。工程团队应将“组合调用不同模型”作为战略方向,尤其在前沿模型选择性开放的趋势下,理解如何协同利用它们将是巨大的解锁。

OpenRouter: Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...

大佬观点现象/趋势
02:50
gabriel@gabriel1
19
AGI 是有史以来最具经济价值的资产,将会有数万亿美元的自由市场资本投入其中。这与曼哈顿计划截然不同。这次,政府只能合作。我们不能单挑出一个赢家,否则那个赢家会输。
大佬观点现象/趋势
6月13日
21:19
gabriel@gabriel1
32
美国在一年或两年内撤销对一个发达国家的AI访问,可能使其变成一个发展中国家 开源似乎越来越落后,差距6-12个月 大多数工作将通过AI完成,许多公司在模型token上的花费将超过员工
开源生态现象/趋势
21:08
Ethan Mollick@emollick
41
我几个月前写的,就在Anthropic/DoW冲突和Citrini & Block事件之后:"但我认为那一周很好地说明了近未来的感觉……随着风险增加,事情可能会感觉更加不稳定.." https://www.oneusefulthing.org/p/the-shape-of-the-thing
大佬观点现象/趋势
10:35
Artificial Analysis@ArtificialAnlys
53
今天是我们 Intelligence Frontier 图表首次出现回退。
现象/趋势评测/基准
10:07
Nathan Lambert@natolambert
45
一个提醒人们的好时机:在我从事LLM研究期间,我感觉我的同事中只有少数是美国公民。如果前沿人工智能研究要合法地进行种族隔离,那将是毁灭行业的重建。
大佬观点现象/趋势
06:16
Orange AI@oran_ge
66
Cola:用技能弥合AI Agent使用鸿沟

AI带来的并非平权,而是K型分化。头部用户已默认理解Agent的组成:文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill;普通用户只知道"Agent能写代码"。做好Skill是跨越鸿沟的唯一解法。作者正与藏师傅一起通过Cola帮助大众真正跨越鸿沟。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体现象/趋势
05:46
Orange AI@oran_ge
19
AI高速对话加剧ADHD,如何拯救前额叶?

观察到身边朋友同事的ADHD(注意力缺陷多动障碍)越来越严重:容易被琐事分散注意力,对大问题视而不见,关掉通知、沉浸大事变得不可能,进入心流也变难。AI的高速执行加重了这一问题——每两三分钟一次的对话,形成注意力集中与涣散的交替循环。推文最终发问:该如何拯救自己的前额叶?

其他现象/趋势
05:03
Ethan Mollick@emollick
63
10个月后,Ethan Mollick 再次向 Claude Code 和 Fable 下达同一指令--根据幸存截图和文档重建失传的 Maxis 模拟游戏 SimRefinery。新版本完全可玩,包含学习模式等多种复杂功能,与10个月前 ChatGPT Codex 仅凭一篇文章和截图快速搭建的可玩原型形成鲜明对比。当时他未写一行代码,仅偶尔提小修改请求。

Ethan Mollick: I gave ChatGPT Codex an article & screenshot from a famous, lost Maxis simulation, SimRefinery, and asked it to create i...

Anthropic现象/趋势编码
03:48
jason@jxnlco
15
哦靠?!?!codex 在玩 rimworld
其他现象/趋势
00:45
Odyssey@odysseyml
44
世界模型现在可以为AI创造想象体验--智能体在其中持续学习、适应和提升的环境。 我们推测多智能体交互可能是递归AI和通用智能的关键要素。
智能体现象/趋势
6月12日
22:40
AYi@AYi_AInotes
56
阿易AI Notes评Garry Tan:AI编码工具加速官僚而非解放创始人

Garry Tan指出AI编码工具并未解放创始人,反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周,成本本身是免疫系统;现在AI一个下午就能完成,复杂度无限繁殖,构建速度即僵化速度。AI放大已有心智模型:控制型团队用它堆官僚,创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快,而应删掉整个旧流程,创造前所未有的事,否则赢了效率输了方向。

Garry Tan: Everyone thinks AI coding tools set founders free. Watch what people actually build with them: rules, approvals, process...

大佬观点现象/趋势编码
21:35
SemiAnalysis@SemiAnalysis_
44
伴随着我们的H100 1-Click租赁指数的发布,我们撰写了2026年初GPU租赁市场的实际状况,标题是:计算现货市场从十月的"终于冷却"到大约五个月后再次出现硬性挤压。(1/4) 🧵
现象/趋势部署/工程
‹ 上一页
1…678910…37
下一页 ›