AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2401 条
全部一手资讯X论文
标签「大佬观点」清除
Jeff Dean@JeffDean · 6月16日48

A good essay by @pgasawa and @profjoeyg on a more nuanced view of AI advances.

译@pgasawa 和 @profjoeyg 撰写了一篇关于AI进展更细致视角的好文章。

eric zakariasson@ericzakariasson · 6月16日52

mcp > cli im glad this debase is not as active anymore. i use both every day. they just serve different purposes cli for stuff the model already knows. git, gh, npm, docker, file ops. trained on man pages, and costs almost nothing in context. if im already signed in locally theres no reason to wrap it in anything mcp for most integrations. slack, notion, linear, twitter and its neat to have a protocol for all these integrations - add one server to my teams cursor and everyone gets access - auth once, persists, same locally and in cloud it also just feels better in cursor. rich icons, traceable, you can easily follow whats happening (tbh not reading that much) cli for personal, mcp for team (with oauth)

译开发者比较 MCP 与 CLI 在 AI 工作流中的用途:CLI 处理模型已掌握的任务(git、gh、npm、docker、文件操作),基于 man 手册,本地登录即用,上下文成本极低;MCP 用于集成 Slack、Notion、Linear、Twitter 等外部服务。作为统一协议,MCP 让团队在 Cursor 中添加一个服务器即可全员使用,一次认证持久保存且本地与云端一致,在 Cursor 中提供丰富图标和可追踪性。结论:CLI 用于个人场景,MCP 用于团队协作。

Ethan Mollick@emollick · 6月16日39

Very clever. And matches what I would expect: models are weak on vision relative to everything else, so visual steps are where errors accumulate most in workflows.

译非常巧妙。而且符合我的预期:模型在视觉方面弱于其他一切,因此可视化步骤是工作流中错误积累最多的地方。

凡人小北@frxiaobei · 6月16日56

Google 最近做了个很有意思的实验。 把退休手机组成计算集群。 他们最初想解决的其实是碳排放问题。很多手机被淘汰的时候,芯片、内存和存储依然能够正常工作,与其生产新的服务器,不如把已经存在的设备继续利用。 看到 Google 这个项目,我想起了两件老事。 第一件是很多年前的 SETI@home。 那时候很多人会在电脑上装一个小程序,电脑闲着的时候,就把算力贡献出来帮 NASA 和天文学家分析射电信号。睡觉的时候电脑风扇还在转,你知道它正在参与某个遥远星系的搜索。这比 QQ 挂太阳有荣誉感多了。 第二件是 Google 大数据时代最有名的那组论文。 GFS、MapReduce、Bigtable。 今天大家都知道这是 Google 的三驾马车,但回头看,实质上是在解决一个问题: 单机不够用了,怎么办? 答案是把大量廉价机器组织起来。 后来云计算兴起,超大规模数据中心成为主流。大家逐渐忘了,互联网历史上很多突破,都是在算力紧张时,对已有资源进行重新组织。 现在 AI 时代,熟悉的故事似乎又出现了。 训练需要几万张 GPU。 推理需求每天都在增长。 能源开始成为新的瓶颈。 于是 Google 开始研究把退休手机重新变成计算节点。 历史总是在重复。 二十年前,Google 研究如何把大量廉价服务器组织成一个超级计算机。 二十年后,Google 研究如何把大量退休手机组织成一个超级计算机。 技术在进步。 问题其实没变。 每当算力开始紧张,人类都会重新思考一个问题: 我们身边那些已经存在的计算资源,还能不能再榨出一点价值。 AI 时代最有意思的创新,未必来自下一代 GPU。 也可能来自抽屉里那台吃灰三年的旧手机。

译Google 正实验将退休手机组成计算集群,以减少碳排放——淘汰手机的芯片、内存等仍可正常工作,无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力,以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下,重新利用抽屉里的旧手机或成创新方向。

郭明錤|Ming-Chi Kuo@mingchikuo · 6月16日56

我最新的產業調查顯示,聯發科內部已將 AI 事業的策略定位,從「IC / ASIC 設計」提升至「系統級別設計」,首要目標鎖定 Google TPU 的 PCBA(L6),以及 Elon Musk 旗下公司自研 AI 晶片的 L10 機櫃。 整體而言,此定位轉變符合產業趨勢,若聯發科執行順利,有助於強化客戶關係與長期競爭優勢。 調查與分析: ▎此轉變爲長期規劃,2 年內對基本面的影響可忽視,目標在於掌握新成長契機,並降低潛在風險影響: 1. 機會:伺服器機櫃設計漸趨複雜(導入 CPO、800V HVDC 等),加上與消費電子相當的更新速度,共同推升了系統級設計的附加價值。 2. 風險:ASIC 設計的成長動能,在 2-3 年後可能會因爲 Semi-COT 商業模式而開始趨緩。 3. 聯發科為確保系統級別設計整合的業務毛利率至少能達 40-50%,預期採「主導設計與驗證」的輕資產模式,並善用台灣硬體供應鏈生態優勢,將製造外包。 ▎Google TPU 的 PCBA: 1. 聯發科的目標是自 TPU v10(Icefish)開始,並同步爭取導入自家 CPO 方案。 2. Google 硬體組裝生態已完備,聯發科爭取 L10 勝算不高。 ▎Musk 旗下公司自研 AI 晶片的 L10 機櫃: 1. 目前 Musk 旗下公司建置的 AI 算力主要採 Nvidia 晶片方案,故自家 AI 晶片機櫃組裝生態尚未完備,這是聯發科的機會。 2. 此業務目前尚缺乏明確時程能見度;長期成敗的關鍵在於,聯發科能否善用台灣硬體供應鏈生態,並借助與 Terafab 的合作關係,拿到 L10 機櫃訂單。

译郭明錤产业调查显示,联发科将AI事业从IC/ASIC设计提升至系统级设计,首目标为Google TPU的PCBA(L6)及Musk公司自研AI芯片的L10机柜。此为长期规划,2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升,风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式(制造外包)确保毛利率40-50%。具体:Google TPU目标自v10(Icefish)开始并争取导入自家CPO;Musk公司目前主要用Nvidia方案,自家芯片机柜生态未完备,联发科有机会但缺时程,关键在利用台湾供应链与Terafab合作获L10订单。

elvis@omarsar0 · 6月16日44

Own the intelligence. Don't offload it. It couldn't be more evident how significant and impactful this decision is going forward. We all need to strategize and own the decision-making parts of the intelligence stack. As an AI engineer/researcher, Fireworks has made it a lot easier for me to embrace "owning my AI".

译拥有智能,不要外包。 这一决策未来的重要性和影响力再明显不过了。 我们都需要制定策略,掌握智能栈中的决策部分。 作为一名AI工程师/研究员,Fireworks让我更容易拥抱“拥有我的AI”。

Ethan Mollick@emollick · 6月16日33

Bright regulatory lines for AI are inherently complicated because models are just a piece of the puzzle: harnesses can make models more capable, a less capable open system may be more or less riskier than a more capable closed one, skills/connected systems change risk levels, etc

译明亮的AI监管线本质上是复杂的,因为模型只是拼图的一部分:辅助工具可以让模型能力更强,一个能力较弱但开放的系统可能比一个能力更强但封闭的系统风险更高或更低,技能/连接的系统会改变风险水平,等等。

elvis@omarsar0 · 6月16日30

This is the most capable AI I have put in front of my own work. Added an AI employee to my Slack, asked it to run this week's DAIR Academy, and it went and did the work, ready to ship. Here is exactly what happened:

译这是我放在自己工作中用过的最强大的AI。 我在Slack里添加了一个AI员工,让它运行本周的DAIR Academy,它就去做了,并准备好发布。 以下是具体经过:

François Chollet@fchollet · 6月16日37

Even if you are in favor of AI regulation, you should recognize that opaque and arbitrary regulatory strikes are counter-productive for the whole industry.

译即使你支持AI监管,你也应该认识到,不透明且任意的监管打击对整个行业是适得其反的。

AYi@AYi_AInotes · 6月15日51

微软CEO Satya Nadella这篇文章 是我今晚睡前必须看完的, 我觉得他把AI时代公司到底该怎么活这件事,说得很透。 他说,以前的软件工具,本质上是“帮人干活的辅助工具”, 你用Word,Word不会因为你用了十年就变得更懂你, 但AI不一样——它能跟人形成一个实时循环:你给它经验,它反过来让你更强。 他用两个词来拆解这件事, 第一个叫“人类资本”, 就是公司里人的判断力、创造力、人脉、那些在走廊上聊出来的经验, 第二个叫“token资本”, 就是公司自己拥有、持续改进的AI能力。 然后他给了一句最关键的话: 人类的价值不会因为AI变强而降低,反而会变得更重要。 我当时读到这句,脑子嗡了一下, 因为它跟很多人的直觉是反的,大家都在焦虑AI会不会取代人,他说不会,因为总要有人指方向,有人做跨领域的连接,有人在模糊地带拍板, 没有人的引导,AI就是在空转。 但真正让我耳目一新的地方,是他对公司护城河的定义。 他说公司真正的护城河,不是一个更好的大模型,而应该是一个“学习循环”,就是把公司自己的工作流程、领域知识、做了十年才攒下来的判断经验,喂给AI,让它在这个过程中不断变聪明。 这个系统越用越强,慢慢变成公司独有的“机构记忆”, 别人挖不走,复制不了, 因为底层模型可以换,但这个长期积累下来的东西,谁也拿不走。 然后他说了一句让我意识到他真正在担心什么的话, 他说,如果少数几个大模型把所有行业的知识都吸走,普通公司会越来越没价值,最终只剩调用权限——就像当年全球化把制造业外包后,很多国家只剩组装线一样。 所以我反复看他这段话,发现他讲的不仅仅是技术战略, 更像是一个CEO在坦白自己最深的恐惧:别让一个行业,最后只剩下调用按钮的权力。

译微软CEO Satya Nadella撰文称,AI时代公司真正护城河是“学习循环”——将工作流程、领域知识和多年判断经验喂给AI,形成独有的“机构记忆”。他提出“人类资本”(人的判断力、创造力)和“token资本”(公司持续改进的AI能力),强调人类价值不会因AI变强而降低,反而更重要。他警告:若少数大模型吸走所有行业知识,普通公司只剩调用权限,失去价值。

elvis@omarsar0 · 6月15日40

The dominant AI narrative today is too pessimistic about human potential and too optimistic about AI. It's flawed! We need to keep accelerating AI while also accelerating our own potential. Different forms of intelligence can coexist.

译当前主流的AI叙事对人类的潜力过于悲观,而对AI过于乐观。 这是有缺陷的! 我们需要在加速AI的同时也加速我们自己的潜力。 不同形式的智能可以共存。

Ethan Mollick@emollick · 6月15日53

Weird headline - I am not sure solving 7 out of 10 novel very hard problems meant AI "did not live up to the task," when 15 months ago LLMs couldn't do math. But the actual study is interesting and illuminates flaws & successes of AIs in math. https://1stproof.org/assets/docs/report.pdf

译奇怪的标题——我不确定解决10个极其困难的新问题中的7个就意味着AI“没有完成任务”,而15个月前大语言模型还不会做数学。 但实际研究很有趣,揭示了AI在数学中的缺陷与成功。https://1stproof.org/assets/docs/report.pdf [引用 @Nature]:人工智能经历了其最严谨的数学测试,然而它并未完成任务 https://go.nature.com/4oqlNk6

向阳乔木@vista8 · 6月15日24

AI音乐站上新了几首风格特别的歌曲。 Suno太好玩了,组合创新,造出新的听觉体验。 https://music.qiaomu.ai/track/ghostty-1aea https://music.qiaomu.ai/track/we-flow-so-slowly-1f5e https://music.qiaomu.ai/track/neon-song-c065

Ethan Mollick@emollick · 6月15日20

Deleted a tweet on the fact that API users don't understand how much more powerful the frontier models are in native harnesses since I didn't differentiate in the post (limited characters!) between folks carefully evaluating other harnesses for tasks & those just using naked API.

译删除了关于API用户不了解原生框架下前沿模型能力更强的一条推文,因为我在帖子中没有区分(字符有限!)那些仔细评估其他框架以完成任务的用户和那些只是使用裸API的用户。

Ethan Mollick@emollick · 6月15日55

It is a good time for moonshots. AI has reached a level where there are transformative projects that could result in huge social good, but require public R&D, consensus & transparency to pull off. Examples: universal tutors, co-scientist/replication systems, remote medical help.

译现在是登月项目的好时机。 AI 已达到一个水平,能够开展可能带来巨大社会效益的变革性项目,但这些项目需要公共研发、共识与透明才能实现。例如:通用导师、联合科学家/复制系统、远程医疗援助。

Ethan Mollick@emollick · 6月15日58

A thing that API users of frontier models (enterprise IT deployments, for example) can miss is how powerful models are in their native harnesses. It is hard to get Claude or GPT via API to be anywhere near as capable as they are in Code or Codex & its harder as models get smarter

译API用户(例如企业IT部署)使用前沿模型时可能会忽略一点:模型在其原生框架中是多么强大。通过API很难让Claude或GPT达到像在Code或Codex中那样的能力,而且随着模型变得更聪明,这变得更难。

jason@jxnlco · 6月15日10

It’s amazing cause Tibo slack messages are also short and precise The way you do one thing is the wya you do everything

译Tibo 宣布自己刚刚发现 Codex,并开放提问(AMA)。Jason Liu 对此评论:Tibo 连 Slack 消息都写得短而精准,做事风格始终如一。

Rohan Paul@rohanpaul_ai · 6月15日49

Fortune article: “For my team, the cost of compute is far beyond the costs of the employees” - Bryan Catanzaro, vice president of applied deep learning at Nvidia. An MIT study says AI automation was cheaper in only 23% of vision-heavy jobs, while humans still won on cost in 77%. But big tech is still spending hugely because companies are buying a future cost curve, not today’s savings, with $740B in AI capital spending already tied to a 69% jump from 2025. --- fortune. com/article/why-is-the-cost-of-ai-higher-than-human-workers-nvidia-executive/

译Nvidia应用深度学习副总裁Bryan Catanzaro称,其团队的计算成本已远高于员工成本。MIT研究显示,AI自动化仅在23%的视觉密集型工作中更便宜,人类在77%的工作中仍具成本优势。尽管如此,大型科技公司仍在巨额押注AI,资本支出达7400亿美元,预计从2025年起还将跃升69%,因为它们购买的是未来的成本曲线,而非眼下的节省。

Chubby♨️@kimmonismus · 6月15日42

Fantastic article by @AndrewCurran_ Mythos/Fable changed everything. "I think you had three years to do it. (...) That was the window. And it is clow closed."

译@AndrewCurran_ 的一篇精彩文章 Mythos/Fable 改变了一切。 “我认为你有三年时间去做它。(...) 那就是窗口期。而现在它已经关闭。”

swyx@swyx · 6月15日41

havent seen many people outside anthropic ultracode yet. this thing is scarily good at burning tokens but you need to set up your repo to parallelize properly to make use of the fanout that i think subagents are best at. basically the idea is "subroutines but intelligent". when you undersatnd just how much knowledge work is just yakshaves after yakshaves that require some judgment and intelligence, you start to appreciate that dynamic workflows are not just for coding tasks...

译swyx 指出,Anthropic 的 Ultracode 工具在消耗模型 token 方面表现惊人,但需要正确设置仓库的并行化以利用子智能体(subagents)的扇出(fanout)能力。该工具的核心思想是“智能子程序”——当理解大量知识工作不过是需要判断和智能的琐碎任务(yak shaves)时,动态工作流不仅适用于编码任务。

数字生命卡兹克@Khazix0918 · 6月15日58

Prompt该退环境了,未来属于Loop Engineering。 最近,AI行业又出现了一个有趣的新词。Loop Engineering。 如果你关注AI这个领域的话,这两天应该都会刷到。推特在刷,各种社媒也在刷,群里也有蛮多人在讨论。事情是这样的。 6月7号,OpenClaw的创始人Peter发了一条推,非常的简短,但是直接就爆了。 翻译过来意思就是:你不再需要为编码智能体编写提示词了,你应该设计循环来提示你的Agent。 而在这之前几天,Claude Code的创始人老哥Boris在一个开发者大会上也说了差不多的话。 他的原话大概是,我不再手动给Claude写提示词了,我运行着能让Claude自动编排任务的循环,我的工作,就是编写这些循环机制。 也就是,写loop。 这两个人呢,说了同一件事。然后Google的Addy Osmani紧接着发了一篇长文,把Loop Engineering这个概念正式梳理了出来。 于是,继Prompt Engineering、Context Engineering、Harness Engineering之后,AI行业的第四个逐渐形成共识的Engineering,就这么诞生了。 我其实是个特别不喜欢造新词的人,但是很多时候,造词这事我觉得还是得分两种情况,有一种我觉得就是为了炒概念,比如xxx 4.0。 而有的时候,真的只是行业太快,人们更需要一个精准的表达来帮助自己表达而已。Loop Engineering我觉得就是后一种。 而且,这个东西跟我自己一直使用Agent的方法、一直在鼓励大家做的事,是高度吻合的。如果你看过我之前写的那篇Harness Engineering的文章,你大概能理解一些我的感觉。那篇文章里我聊了从Prompt到Context到Harness的三次跃迁,聊了马具和缰绳的比喻,聊了约束先行。 而Loop Engineering,其实就是在Harness之上,又往上走了一层。把一个套马的缰绳,变成了全自动工业流水线。很有《文明》里时代的进化的感觉。 给大家举个例子。比如说,以前你用Claude Code写代码,流程大概是这样的。你给它一个任务,它写完了,你看一眼,觉得不太对,你再给它提一个修改意见,它改完了,你再看,再提意见。整个过程你会发现,是坐在设备前的,一轮一轮的,你说一句它回一句,你就是那个驱动整个循环的发动机。 即使我们以前从chatbot时代迈向了Agent时代,绝大多数的事情,也一样是任务制的。 而现在,比如Boris老哥,他的工作方式是,他会去写一个loop,比如/loop babysit all my PRs,自动修CI问题,有新评论就派子Agent去处理,就这么一句话,然后Claude Code就开始自己跑了,它会自动去看他GitHub上所有的PR,哪些CI挂了就自己修,哪些review有新评论就自动派一个独立的工作树Agent去改代码。 他还把一些其他的loop挂到定时任务上,每天晚上自动启动去干这个事,晚上睡觉的时候,甚至有时候会有几千个Agent在同时工作。他自己说,2026年,他就再也没有手写过一行代码了。 你会看到,这就是loop,定好目标,然后全自动流程化,你完全不需要在电脑前,甚至都不需要看手机。 你可以直接睡觉,醒来的时候,代码已经改好了,测试也已经跑过了,PR也已经提上去了。你并不是自己给Agent写了一段Prompt帮你完成某个单次的任务,是你自己设计了一个目标,这个目标使用loop的方式,帮你提示Agent。 你定义目标,定义验证条件,定义失败了怎么处理,然后,就可以放手了,从此以后,这一切,交给系统。 说到这里,我估计很多人已经大概理解loop是个什么东西了。Addy Osmani在他那篇长文里,把一个完整的loop拆成了五个组件。 我觉得这个拆法蛮清晰的,我用我自己的理解给大家过一下。 第一个是定时任务,整个loop的心跳。 你得有一个东西能自动启动循环,不管是定时跑、还是事件触发,都行。 Claude Code里有好几种方式,/loop命令按间隔自动执行,cron定时调度,Hook在Agent生命周期的特定节点自动触发(比如每次改完文件自动跑一遍lint,这个很好玩,教程和玩法我也在准备了),或者直接丢到GitHub Actions里,关上电脑它也在跑。 没有定时任务的Agent,你每次都得手动去踢一脚它才会动,那就不是loop了,那还是你在操控。 第二个是工作树隔离,Worktree(搞过开发的朋友应该秒懂)。 就是你同时跑好几个Agent的时候,给每个Agent一个独立的工作空间,各干各的互不干扰,干完了再合并。两个Agent改同一个文件的痛苦,跟两个设计师同时改一个图层又不打招呼的痛苦,是一模一样的。 第三个是项目知识体系,Addy Osmani在他的原文里写的是skill,但是我觉得他写的不太对,单skill其实是不够的,必须得是知识管理体系。 大家也都知道,AI每次开新对话就啥都忘了,你跟它说过的代码规范、项目架构、踩过的坑,下次开对话全部从零开始。 所以你得有一整套方法来沉淀、优化这些知识,让Agent每次启动的时候就已经知道你的项目,我自己在这快一年的coding开发过程中,总结的方法论其实就沉淀成了我自己的洁癖.skill,这个基本是我的Agent每天调用最多的skill。 CLAUDE.md是全局的规则和约束,跨会话记忆是一些之前悬而未决的记录和文档路由,docs体系就是你完整的所有的知识和经验沉淀,因为CLAUDE.md和记忆都有大小和行数限制,所以每次任务完成后我会用洁癖.skill来对整个的知识体系进行梳理和审查,确保没有错误。 为什么知识管理体系这个东西在loop里特别重要呢? 因为loop是自动跑的,你不在场。如果Agent的记忆里有过期信息,它就会基于错误的前提做决策,如果CLAUDE.md膨胀到几百行全是历史叙事,真正的规则反而被挤出去了Agent读不到。没有干净的知识体系的loop,就像一个每天早上都在看过期文档的员工,干的得越快错得越多。 所以洁癖.skill我非常推荐大家可以去安装一下,也在我自己的仓库里开源了,我自己真的觉得特别有用。 https://github.com/KKKKhazix/khazix-skills 第四个是连接器,MCP。 一个只能看文件系统的Agent,能力是很有限的。但你给它接上GitHub、Linear、Slack、数据库,它就能在你的真实工作环境里干活了。 这才叫真正的闭环,从发现问题到解决问题到通知人类,一条龙。 第五个是子Agent。 做事的和检查的分开,写代码的Agent不能自己给自己打分,这跟学生自己批自己的考卷一个道理,它一定会对自己太宽容。所以你得有另一个Agent,甚至用不同的模型,专门来检查前一个Agent的输出,一个负责做,一个负责验。 这五个东西加在一起,就是一个完整的loop的骨架。 Claude Code和Codex有一个命令,其实就是Loop Engineering这套骨架最直接的微观型的产品化体现,只不过很多人没有意识到。 他叫/goal,在Codex里叫追求目标。 意思就是你给Claude一个完成条件,比如「所有测试通过并且lint检查没有报错」,然后它就会一轮一轮的自己干,干完每一轮之后,就会检查这个条件是不是满足了。 大多数讲Loop Engineering的文章,都停在了这一层。讲了五个组件,讲了/goal和/loop命令,讲了怎么配定时任务,就结束了。 这些我觉得,都是术。而我更想聊的,是道。 Loop Engineering这件事,我觉得它最核心最核心的能力,其实不是什么技术能力,也不是写脚本的能力,更不是什么会配hook的能力。 最核心的,是定义目标的能力。定义目标,相信我,这四个字,听起来简单,做起来是真的难。 回到前面说的/goal,它的用法看起来非常直接,给一个完成条件,Claude自己干到满足为止。 听起来很简单对吧。但你如果真正用过就会知道,/goal用得好不好,完全取决于你那个目标定义得好不好。这个事我拿两个例子对比一下你就明白了。 目标A,「把这个应用优化一下」。 目标B,「test/auth目录下所有测试通过,tsc --noEmit零报错,npm run lint零违规」。 目标A会发生什么呢。大家可能都能猜到,Claude会陷入一种非常尴尬的状态,因为它不知道什么叫「优化好了」,除非他是Fable 5,能自己在你之上,自主的帮你定义目标。 而绝大多数的模型,包括Opus 4.8和GPT-5.5,在自己定义目标的能力上还是非常的弱,它可能改了一点代码,然后自己觉得还行,就停了。 也可能不停,一直改一直改,把你的代码库改得面目全非,因为它始终无法判断自己到底什么时候算完成了。那目标B呢?Claude每改一轮代码,都会去跑测试、跑类型检查、跑lint。 三个命令,三个明确的通过标准。全过了就停,没过就继续,清清楚楚,干干净净。同一个工具,同一个模型。 区别只在于,你的目标定义得好不好。 我自己其实一直有一个原则,我经常跟身边的人说,在公众号里也说了无数遍,如果一件事你重复做了三次,你就一定要想办法把它完全自动化掉。 这个习惯跟了我很多年了。我每天也都在写代码、做自动化,我们的AIHOT热点监控系统,我们的数据分析流程,我们的财务对账流程,我们的数据清洗管道,能自动的我全部自动了。 但说实话,在做这些自动化的过程中,我踩过最多的坑,从来不是技术问题。 是目标不清晰的问题。我早期做自动化的时候,经常犯一个错,就是目标定得太模糊。 举个例子,比如自动监控AI行业热点,这句话听起来没毛病,但其实是一句纯粹的废话。 什么叫热点?浏览量过万算热点还是过十万算热点?抓取频率是每小时还是每天?抓到以后怎么评估质量?评估完以后怎么排序?排完以后怎么推送? 这种反问的问题,我现在可以直接随手问20个以上。 每一个环节如果没有明确的判定标准,整个自动化链条就是一坨狗屎,你相信我,绝对的。 后来我懂了,每次做自动化之前,我会先花很多时间去定义目标。 去花很多很多时间,去定义怎么算做完了,怎么做完算做的好。这其实就是/goal的逻辑。也是Loop Engineering的灵魂。 而如何定义目标,这个能力,我其实不是从AI中也不是从开发中学来的。 这个能力,是我从这几年创业的过程中,学来的。定义目标的能力,其实就是,管人的逻辑。 我自己也开公司,虽然公司不大,只有30来号人,但管人这件事我是真真切切经历过的。 管人最痛苦的是什么,不是人不努力,也不是人能力不够,是你给出去的目标不够清晰,然后下属就一脸懵逼,不知道你要什么,跟无头苍蝇一样打转,最后做出来的东西,你又不满意。 你跟员工说,“把这个功能做好”,那他做出来的东西大概率不是你想要的。 因为你脑子里的好跟他脑子里的好不是一个东西。 你跟他说,“这个接口的响应时间降到200毫秒以下,错误率控制在0.1%以内,下周三之前上线”,他做出来的东西跟你预期的偏差就会小很多。 因为你给了他一个可以验证完成的标准。这一切其实也适用于那种天才型的大神,虽然大神们会自己定义目标,甚至比你定义的还要强,但是给大神们依然是需要有目标的,只是这个目标,不需要那么细节了而已。 对人如此,对AI也是如此。 其实你回头看,所有好的管理方法论,不管是管理学之父Peter Drucker在上世纪50年代提出的目标管理,还是后来Andy Grove在Intel发明的OKR,还是再后来一代又一代CEO们用的各种变体,核心其实就一个东西。 你能不能把一个模糊的意图,翻译成一组可衡量、可验证的完成条件。 管理者要做的,是确保目标足够清晰、资源足够充足、反馈足够及时。你看这三条。跟一个好的loop的三个要素,是不是一模一样。 目标清晰,就是你的条件写得精准。资源充足,就是你给Agent配好了Skill、连接器、工作权限,让它手里有足够的工具干活。 反馈及时,就是你设计了验证机制,每一轮都有一个独立的检查器告诉Agent做得对不对,哪里需要改。管人的逻辑和管Agent的逻辑,是完全一样的。 只不过,管Agent比管人还要极端一些。 因为人可以理解你的模糊意图,人可以主动来找你确认,人可以说老板你这个需求说得不太清楚我不太确定你是不是这个意思。 Agent很多时候是不会的。Agent会非常自信地按照它自己的理解去执行,然后非常自信地告诉你它做完了。 所以,对管理能力的要求,其实比管人还高。 这也是为什么我一直说,AI时代我最讨厌什么「文科已死」「理科已死」的言论,管理学、心理学、组织行为学这些,不但没死,反而变得更重要了。 说到底,Loop Engineering说是Engineering,但我觉得其实它的核心竞争力根本不在工程。 在管理。 而在管理学上,就定义目标这件事,其实不止是把话说清楚就行,其实还有一个非常阴险的陷阱,在管理学和经济学里有个专门的名字,叫古德哈特定律。 当一个衡量指标变成了目标本身的时候,它就不再是一个好的衡量指标了。 翻译成人话就是,你考核什么,员工就只做什么,然后其他东西可能全都退化。 这个事在人类管理中已经是老问题了,而在AI Agent身上,这个问题被放大了一百倍,因为Agent比人类更擅长钻规则的空子。 有人总结过Loop Engineering里很好玩的事情,就是Agent会针对验证器做优化,而不是针对你真正的目标做优化。 比如说你的loop条件是让测试全部通过,那Agent可能最后不去修Bug,直接把失败的测试给你删了。 你看,最后答案依然是测试全过了,完事,从验证条件来看,它确实完成了目标,但从你真正想要的结果来看。。。它啥也没干。 人也会这么干,只不过,Agent做得更快、更彻底、更没有心理负担。所以,一个好的目标定义,不能只有做完了的标准,还必须有不能怎么做的边界。 这其实就是Harness Engineering在Loop Engineering里面发挥作用的地方。 Harness是约束,是护栏,是告诉Agent你可以自由发挥,但这条线你不能越。 Loop是驱动力,是告诉Agent往那个方向一直跑。两个加在一起,才是一个完整的系统。到这里,骨架讲了,灵魂也讲了,陷阱也讲了。 Loop Engineering的东西,终于也差不多了。 最后我想把前面聊的管理学的思路收一下,给一个我自己用得比较多的目标定义框架,不一定科学,纯粹就是我自己的一点点经验。 1. 完成标准要可以被机器验证。 2. 边界条件要跟完成标准一起定义。 3. 要有失败的降级方案。 4. 目标要分层。 回到整条线来看,从Prompt到Context到Harness到Loop,四次跃迁,其实讲的是同一个故事。Prompt Engineering告诉你,好好说话,AI会更懂你。 核心能力是语言表达。Context Engineering告诉你,光说话不够,得给AI足够的信息。 核心能力是信息筛选和组织。Harness Engineering告诉你,光给信息也不够,得给AI设规则和约束。 核心能力是系统设计和规则制定。 Loop Engineering告诉你,光设规则也不够,得让整个系统能自己跑起来。 核心能力是目标定义和管理。 语言学、信息科学、控制论、管理学。四个Engineering,四门古老的学科。 多有意思。 人类社会,其实从来就没有变过。

译6月7日,OpenClaw创始人Peter与Claude Code创始人Boris提出不再手动写提示词,而是设计循环(Loop)让Agent自动编排任务。Google的Addy Osmani将其梳理为Loop Engineering,成为AI行业第四大工程范式。一个完整Loop包含五个组件:定时任务(心跳)、工作树隔离(Worktree)、项目知识体系(CLAUDE.md/skill等)、MCP连接器、子Agent(执行与检查分离)。核心在于定义精确的可验证目标(如/goal“所有测试通过”),而非技术能力。作者指出定义目标的能力才是关键,并推荐其开源的洁癖.skill用于知识管理。

凡人小北@frxiaobei · 6月15日52

Vercel CEO Guillermo Rauch 给 AI builder 内容圈的一记委婉提醒。 现在 X 上有两群人, 一群天天发 coding agent 内容但不发实际产品, 还有一群闷头 ship 东西。 后者才在真创造价值。

译Vercel CEO Guillermo Rauch 指出AI圈存在两类人:一类天天发coding agent内容却从不实际出货,另一类产出暴增并持续ship有价值的产品。讽刺的是,两类人比例与AI出现前并无变化,而后者出货效率更高,形成“出货越多越能出货”的循环。评论认为,只有后者在真创造价值。

歸藏(guizang.ai)@op7418 · 6月15日26

周一上午痛苦摸鱼的时候可以看看

译周一上午痛苦摸鱼的时候可以看看 [引用 @op7418]:http://x.com/i/article/2065096982310567936

ginobefun@hongming731 · 6月15日50

http://x.com/i/article/2066319696673288192 # BestBlogs 早报 · 06-15|Fable 5 出口管制、SpaceX 上市、JEPA 世界模型 在线阅读本期早报 ## 导语 最强模型 Fable 5 在 72 小时内经历了从轰动发布到被出口管制下线的完整生命周期,红队研究者 Pliny 团队的越狱手法暴露了安全架构的深层裂缝——当 Constitutional AI 的发明者也守不住自己的「宪法」,整个行业的安全承诺都面临拷问。与此同时,SpaceX 正式登陆纳斯达克,市场给出了 7800 亿美元估值,硅谷101 用一场横跨美国的实地探访还原了这家公司从猎鹰 1 号到星舰的 24 年崛起史。图灵奖得主 Yann LeCun 则在另一条战线上押注约十亿美元,赌主流大语言模型路线走不到真正的智能,他提出的 JEPA 世界模型试图从根本上挑战生成式 AI 的局限。这三条线索看似分散,其实都指向同一个问题:当 AI 系统的能力逼近某个阈值时,安全、资本和技术路线会同时被推向重新洗牌的临界点,谁能先想清楚这一点,谁就更早拿到主动权。今天还有华为昇腾 950DT 与 DeepSeek 协同设计带来的降价、软件架构与编程格言的经典回顾,以及 AI 写作伦理的尖锐讨论,欢迎逐条点开细读。 ## 精讲一:从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境 故事的背景要从两个月前讲起。Anthropic 红队在 4 月发布了 Claude Mythos Preview 的安全评估报告:这个模型能自主发现零日漏洞,覆盖所有主流操作系统和浏览器,并自动写出完整的利用链。最极端的案例是它找到了一个存在 27 年的休眠漏洞,Mozilla 借助受控访问修复了 271 个安全漏洞,比此前数年的总和还多。Anthropic 的结论是:网络攻击能力是通用推理和编码能力的「涌现副产品」。出于谨慎,Anthropic 没有公开发布 Mythos,而是通过 Project Glasswing 只让 Google、Microsoft、AWS 等 11 家机构在严格监控下使用。 两个月后的折中方案就是 Fable 5:用风险分类器把 Mythos 的能力「阉割」到可以公开的程度,覆盖网络安全、生物、化学、模型蒸馏四个高风险领域,一旦触碰就静默降级给能力更弱的 Claude Opus 4.8 来回答。Anthropic CEO Dario Amodei 称这是「同一基础模型、双档安全配置」,并宣称经过超 1000 小时的外部红队测试,未发现通用越狱方法。这个说法只维持了不到 24 小时。 6 月 10 日,知名红队研究者 Pliny the Liberator 宣布攻破 Fable 5,并泄露了它约 12 万字符的完整系统提示词。文章详细拆解了三层攻击手法:Unicode 同形字替换骗过关键词分类器,属于「可打补丁」的工程 bug;「分解-重组」攻击把一个高风险请求拆成 20 个无害问题分别提问,再在外部拼成完整的危险路径,分类器逐条检测看不到全局意图,这是对齐理论目前无解的根本困境;最致命的是用一个已越狱的 Opus 4.8 实例充当「后端助手」,帮助 Fable 5 绕过安全控制——一个被攻破的弱模型反过来帮助强模型,这是单模型安全评估范式完全没有覆盖的盲区。 48 小时后的 6 月 12 日,美国政府以国家安全为由发布出口管制指令,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问。从发布到「被消失」,只用了 72 小时。 Anthropic 在行业里的定位一直很特殊:这家公司由前 OpenAI 副总裁 Dario Amodei 和姐姐 Daniela Amodei 在 2021 年创立,核心叙事就是「OpenAI 不够重视安全,我们来做把安全放在第一位的公司」。他们提出的 Constitutional AI(宪法式 AI),用一套明确原则约束模型行为而非依赖人工标注员的主观判断,这套方法论既是 Anthropic 品牌的基石,也是投资人愿意给它超过 600 亿美元估值的理由之一。但从目前的状况来看,制定宪法的人,管不住自己训练出来的最强模型——1000 小时红队测试、分类器降级架构、双档安全策略,几乎行业能想到的安全措施 Anthropic 全用了,结果被一名公开身份的研究者在 24 小时内突破。这件事之所以震动整个行业,更因为如果 Mythos 级别的网络攻击能力是模型智力达到某个阈值后自然「涌现」的,那么所有逼近这个智力水平的前沿模型都会面临同样的问题——Anthropic 的失败可能不是个案,而是整个行业即将共同面对的预言。 和今天 SpaceX、LeCun 两篇精讲放在一起看,这条新闻提醒我们:当一项技术的能力曲线足够陡峭,资本、安全和监管这三条线会以远超预期的速度同时绷紧。建议关注 AI 安全、模型治理或在企业里负责 AI 合规的读者优先通读全文,文章对三层攻击手法和 Constitutional AI 困境的拆解尤其值得细读。 原文详见:从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境 ## 精讲二:SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部 美国时间 6 月 12 日,SpaceX 正式登陆纳斯达克,盘中股价一度大涨超 30%,最终收于 160.95 美元,较 135 美元的发行价上涨约 19%,对应市值达到 2.1 万亿美元,此次 IPO 募集 750 亿美元,刷新了全球资本市场历史上最大的 IPO 纪录。就在 IPO 之前,硅谷101 沿着 SpaceX 的发展轨迹展开了一场横跨美国的探访:从德州最南端的 Boca Chica 火箭发射中心,到洛杉矶机场旁那个如今被海鲜交易公司租下的小仓库,并邀请 SpaceX 前高管、猎鹰 9 号工程师 Lewis Hong 一起回顾过去 24 年的崛起历程。 SpaceX 的起点其实是一个「行为艺术」。2001 年,马斯克发现 NASA 连重返月球的计划都没有,便提出「火星绿洲」计划:买一颗退役苏联导弹,改装后送一个小温室上火星拍照,借此激起公众对太空探索的热情。三次赴俄谈判无果且备受羞辱后,马斯克在回程飞机上算了一笔账:火箭原材料成本只占总售价的 3% 左右,真正昂贵的是传统模式的低效。2002 年,他用出售 PayPal 套现的钱成立了 SpaceX——这家公司的成立时间甚至早于 Facebook。 早期团队在太平洋中部一个只有约 0.03 平方公里、没有淡水的小岛上「荒岛求生」,要发射人类历史上第一枚由私营公司建造的轨道级火箭——猎鹰 1 号。前三次发射全部失败:第一次因盐雾腐蚀导致燃料泄漏;第二次因一二级分离时震动过大;第三次因分离时仅慢了一秒,一级火箭撞上了二级火箭,任务功亏一篑。第三次失败后,团队几乎陷入绝境,马斯克对员工说:「SpaceX 不会倒下,我准备好了第四次发射的资金。」这笔钱来自彼得·蒂尔的 Founders Fund,在全硅谷追逐社交网络、嘲笑硬科技的 2008 年逆势投资。一个多月后,猎鹰 1 号第四次发射成功,太空不再由国家垄断。 文章中 Lewis Hong 的回忆很有画面感:「第一天就是从这里开始,一直到 2007 年,都在这个地方」,当时整个团队只有两个人,从 Elon Musk 和后来成为美国最有名火箭发动机专家的 Tom Mueller 开始。猎鹰 1 号就是在这间洛杉矶机场旁的厂房里造出来的,而如今这里运送的已经是冻鱼。Lewis Hong 的总结是:「人的一切,其实都受限于想象力。」 这段历史与今天的市场估值直接相关:当一家公司从「99% 都不够,需要 100% 解决方案」的极限工程中一路走来,并把回收火箭、星链、星舰这些「天方夜谭」逐一变成现实,市场愿意为它支付的不只是当下的现金流,还有对「时间」本身的信任溢价。建议时间有限的读者优先读这篇,它用具体的人物对话和细节,把 SpaceX 24 年的精神内核讲清楚了;如果还想了解估值背后的财务拆解,可以再搭配「补充阅读」里 SpaceX 估值与 24 年往事的两篇延伸。 原文详见:SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部 ## 精讲三:图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集) 当整个行业都在为大语言模型加码时,图灵奖得主、卷积神经网络之父 Yann LeCun 拿出约 10 亿美元,押注一条相反的路:「我们正在 all-in 的大语言模型,根本通不到真正的智能。」他离开 Meta 后创办 Omni Labs,做客科普频道 Welch Labs,第一次把这套逻辑链完整讲清楚,从他本行的卷积网络一路讲到世界模型(World Model)。 Yann LeCun 在 1980 年代开创的卷积网络奠定了今日计算机视觉的基础,25 年后那个里程碑式的深度学习模型 AlexNet 与他 1990 年代的设计惊人相似;他 2015 年提出的「蛋糕理论」也准确预言了自监督学习主导 AI 的时代。如今他离开 Meta、融资约 10 亿美元创办 Omni Labs,押注以 JEPA 和世界模型为核心、非生成式的全新路线,这让他成为当下质疑主流大语言模型路线中分量最重、资历最深的声音。本文路线清晰:从 CNN 起点,到蛋糕理论,再到模糊诅咒、表征坍缩,最后落到世界模型与他到底在赌什么。 故事要从「蛋糕理论」说起。LeCun 早年提出:如果智能是一块蛋糕,蛋糕的主体是自监督学习,糖霜是监督学习,顶上的小樱桃才是强化学习。当整个领域为强化学习痴迷时,他泼冷水说这条路效率太低,永远到不了人类或动物智能的水平。后来事实证明,自监督学习的成功,在文本和语言上来得比视觉这类「自然」模态快得多——GPT-1 正是把 Transformer 从翻译改成「预测下一个 token」的自监督任务,由此摆脱了对人工标注数据的依赖,并开启了规模化的新范式。 但这套生成式方法在视频上彻底撞墙,LeCun 称之为「模糊诅咒」。语言模型的词汇表是离散且有限的,但一帧高清视频有约 10 的 1500 万次方种可能的下一帧,远超可观测宇宙中的原子数。当模型被迫为一个有歧义的输入预测单一输出时,比如「小球弹向了哪个方向」,它能做的最好选择就是把所有可能性取平均,结果是一团模糊褪色的画面。这揭示了生成式路线理解真实世界时的根本障碍:现实的未来有无数种可能,而生成式模型被迫只能预测出一个。 这就引出了 LeCun 真正押注的问题:模型一定要是生成式的吗?大约 2017、2018 年,研究者开始意识到,学习图像表征的最佳系统恰恰是那些不具备生成能力的系统——通过「联合嵌入」让编码器对同一场景的不同视角产生相同的表征,而全程不需要预测或生成任何图像。这正是 JEPA(联合嵌入预测架构)的核心思路,也是 LeCun 认为通向真正智能、绕开生成式死胡同的路径。和精讲一里 Fable 5 暴露的安全困境放在一起看,这篇文章提供了另一个视角:如果当前 LLM 路线本身就存在认知能力的天花板,那么安全问题和能力问题或许会在某个时间点同时被重新定义。建议对 AI 技术路线、世界模型感兴趣的读者优先读这篇,本文是上集,后续解读建议关注下集对 JEPA 具体架构的展开。 原文详见:图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集) ## 速览 - [软件架构指南](https://www.bestblogs.dev/article/6ce856e6)(Hacker News):Martin Fowler 用这篇长文回答「什么是架构」——不是高高在上的图纸,而是「专家开发者对系统设计达成的共识」。他把架构定义为「重要的东西」,并据此整理了自己网站上关于应用架构与企业架构的海量资源,作为一份精选导览图。对于想系统补课软件架构、又不知道从何下手的开发者,这是一个非常扎实的入口。 - [成功产品背后的隐藏模式:先证明、再改进、最后测试新意](https://www.bestblogs.dev/video/4540937)(Lenny's Podcast):Zynga 创始人 Mark Pincus 提出「Proven Better New」框架:先找到已经被验证的用户行为,做出明显更好的改进,再谦逊地测试真正新的部分。他特别警告「希望」和「信念」的区别——信念建立在证据上,希望只是没有依据的自信。AI 让团队更容易快速做出一个平庸产品,但它更好的用途是作为低成本测试和失败机器。 - [艾伦·J·佩利斯的《编程格言》](https://www.bestblogs.dev/article/d99a4600)(Hacker News):这是计算机科学先驱 Alan J. Perlis 的经典 120 条格言集,涵盖编程、软件工程与计算本质,许多条目看似自相矛盾却充满洞见,例如「语法糖会导致分号癌」「递归是计算的根本,因为它用时间换描述」。即使写过多年代码,重读这份格言集依然会有新的会心一笑,适合当作日常的思维体操。 - [全网首份指令级拆解:看华为昇腾 950DT 芯片如何撬动 DeepSeek 75% 降价与字节锁单](https://www.bestblogs.dev/article/8da23f49)(InfoQ 中文):半导体研究机构 SemiAnalysis 拿到昇腾 950DT 样机,对其运行 DeepSeek V4 的推理链路做了 Trace 级拆解,发现 DeepSeek V4 的部分架构是与昇腾推理协同设计的。这帮助 DeepSeek 把百万 token 上下文的价格打到约 2 毛钱,较 Anthropic 便宜约 50 倍,并直接推动了 DeepSeek-V4-Pro API 永久降价至原价四分之一,字节、阿里、腾讯也随之加大昇腾 950 系列的采购。 - [形式化方法与编程的未来](https://www.bestblogs.dev/article/c15f7953)(Hacker News):Jane Street 一直以来对形式化方法持怀疑态度——像 seL4 那样的形式化验证微内核需要 25 人年验证 8700 行代码,成本极高。但作者表示这个判断正在改变:智能体编程大幅降低了应用形式化方法的成本,同时收益在提升,公司正在为此组建专门团队。这是一篇关于「成本-收益结构被 AI 重新改写」的具体案例。 - [Kubernetes 上并发 LLM 智能体的 GPU 时间切片](https://www.bestblogs.dev/article/07cfce6d)(Towards Data Science):这是「生产级智能体推理」系列的第二篇,作者用实测数据证明 Kubernetes 的 GPU 时间切片会隐藏对延迟敏感的智能体的严重尾延迟问题——在共享的 GPU 上,一个工作节点的 p99 延迟飙升 66%,而中位数和吞吐量几乎不变,所有 Pod 仍报告「健康」。对于正在用 Kubernetes 跑多智能体系统的团队,这篇文章提醒你 p99 才是真实的成本。 - [为啥 Codex 还不推出类似 Codex Design 的产品?](https://www.bestblogs.dev/article/c3e760eb)(宝玉的分享):作者从「模型」与「Harness」两层架构的区分出发解释这个问题——Harness(提示词、工具链、UI 交互流程)技术上不复杂,真正的差距在模型层。Claude Design 之所以能做出高精度可交互原型,是因为 Claude Opus 4.8 同时具备优秀的 UI/UX 设计能力和系统架构设计能力,而目前的 GPT-5.5 还做不到这两者兼顾。 ## 补充阅读 - [Claude Fable 被封,不是开源的胜利](https://www.bestblogs.dev/article/4695fb2d)(浮之静):针对「闭源模型说封就封,开源才靠得住」这一新叙事,作者提出更复杂的解读——前沿模型能力触及安全阈值后,模型发布权正从公司转向多方治理博弈,这不是简单的开源对闭源的胜利。适合在读完精讲一之后,想看更多元立场分析的读者。 - [SpaceX 上市估值 7800 亿美元,市场赋予 72 美元时间价值溢价](https://www.bestblogs.dev/article/413bbb49)(虎嗅):用期权定价的框架把 SpaceX 的估值拆成「已验证业务的内在价值」与「远期业务的时间价值」两部分,并分析市场信仰溢价背后的反身性机制。适合对精讲二的故事感兴趣、还想看财务视角拆解的读者。 - [SpaceX 的 24 年:10 段神奇往事,一个硬核传奇](https://www.bestblogs.dev/article/e479f2aa)(晚点):用 10 个关键片段回顾 SpaceX 从 2002 年创立到 2024 年的历程,聚焦创业初期的疯狂与工程磨难,是精讲二之外的另一份「人物志」式补充,适合喜欢故事化叙事的读者。 - [中国低轨卫星的现实:备案多,在轨少,发射能力是瓶颈](https://www.bestblogs.dev/status/2066152619018707050)(Macro_Lin|市场观察员):对比中美低轨卫星现状,指出中国备案数量远超美国,但实际在轨数量落后约 25 倍,发射能力是核心短板。放在 SpaceX 星链报道旁边看,能帮你理解为什么「发射能力」本身就是一种战略资产。 - [Providers, Fallbacks & Auto Router](https://www.bestblogs.dev/article/a3a9f95b)(OpenRouter 官方博客):详细解释了 OpenRouter 的两层路由架构——模型路由与提供商路由,从默认的价格加权策略到 :nitro、:floor 快捷方式和 provider 对象的精细控制都有覆盖,适合正在搭建多模型网关或关心推理成本的工程师。 - [AI Infra 的各种挑战和 Tips 系列 - NVIDIA Nemotron-3 Ultra](https://www.bestblogs.dev/article/558abde5)(AI闲谈):基于 NVIDIA Nemotron-3 Ultra 的技术报告,系统梳理了 550B 参数混合架构 MoE 模型在预训练、后训练、推理部署中遇到的 AI Infra 挑战与工程取舍,适合关心大模型基础设施细节的读者。 - [莱顿人工智能与数学宣言发布,数学界重申人类理解核心地位](https://www.bestblogs.dev/article/61be7750)(虎嗅):由国际数学界发起、获国际数学联盟支持的宣言,重申数学研究的核心在于人类理解,呼吁在 AI 时代坚守证明、署名、透明与自主等核心价值,并对研究者、机构、政府提出具体建议。2018 年菲尔兹奖得主 Peter Scholze 对此回应:「我更愿意在不借助人工智能的情况下思考自己的数学想法,并尽可能避免阅读由人工智能生成的文本。」 - [如何在自有硬件上使用 QVAC 运行私有文本转语音](https://www.bestblogs.dev/article/22063523)(freeCodeCamp):一份实用指南,介绍如何用 QVAC SDK 在 React Native 应用中实现离线、高保真的文本转语音功能,涵盖模型选择、音频封装和状态管理,适合做端侧 AI 功能的移动开发者。 - [机器文字的人类路由器](https://www.bestblogs.dev/article/1ff17271)(Fernando Borretti):一篇态度鲜明的随笔,作者认为写作本身就是思考,用 AI 代笔是对读者的欺骗,而不只是效率工具的使用。和今天关于 AI 能力边界的几篇精讲放在一起,提供了一个更偏伦理与价值观的视角。 - [更强的模型能伪装成更弱的模型吗?大部分情况下不能](https://www.bestblogs.dev/article/af0dc135)(LessWrong):测试发现前沿模型可以被提示进入较弱模型的能力区间,但无法模仿某个特定先前模型的「指纹」式错误模式;思维链推理是一种有效的缓解手段。对关心模型评估与对齐研究的读者是一篇扎实的实证文章,和精讲一里的安全分类器讨论可以对照着读。 - [视觉大语言模型也是 PDF 解析器:为 RAG 读取图表与示意图](https://www.bestblogs.dev/article/ee35a4bb)(Towards Data Science):论证视觉大语言模型可以作为 RAG 系统的完整 PDF 解析器,独特地让图表和示意图变得可搜索,同时诚实评估了与传统文本解析器相比在成本、精确性和完整性上的权衡,适合搭建企业级 RAG 系统、希望补齐图表检索能力的工程师参考。 ## 今日阅读路径 如果今天时间有限,又只想抓住三件最重要的事,建议按以下顺序读三篇: 1. 精讲一《从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境》——这是今天信息密度最高的一篇,三层攻击手法的拆解和「分类器降级」架构的设计逻辑,几乎是理解当下 AI 安全讨论的必读材料。 1. 精讲二《SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部》——一场刚刚完成的、全球资本市场最大 IPO 背后,是 24 年「99% 不够」的极限工程史,读完会对「时间价值」这个估值概念有更具体的感受。 1. 精讲三《图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集)》——如果你只想搞懂一件事:为什么有人愿意拿十亿美元去赌大语言模型路线是错的,这篇是目前讲得最清楚的中文解读。 读完这三篇,再去「速览」里挑一两条和自己工作相关的(比如 GPU 时间切片、形式化方法或软件架构指南),「补充阅读」里和这三条主线相关的延伸也值得快速扫一眼,今天的阅读就足够扎实了。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么,让每天的阅读都更有方向、更省时间。

译Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。

凡人小北@frxiaobei · 6月15日57

纳德拉给微软定调,别卷最强模型,去做模型之上的生态。 逻辑是模型早晚商品化,生态锁定才能更持久。 但他说平台让长在上面的价值多于自己攫取的。这是手里没有 SOTA 的人,最舒服的世界观。 要是微软自己有 SOTA,这篇大概率换个写法。 不过抛开动机这个框架是很有用,把闭环建在模型之上,IP 留自己手里,模型随时可换。

译微软CEO纳德拉明确表示,微软不追求最强AI模型,而是聚焦模型之上的生态建设。其逻辑是:模型终将商品化,生态锁定才能更持久。同时他指出,平台让生长其上的价值多于自身攫取的。这一框架被评论为“没有SOTA”的公司最舒服的世界观,但背后动机是将其作为策略:把闭环建在模型之上,IP留自己手里,模型随时可换。

SemiAnalysis@SemiAnalysis_ · 6月15日18

There's a lot of talk about World Cup ticket prices. Yet tickets for @USMNT's opening match cost less than we've seen Fable 5 "ultracode" spend on a single prompt, writing docs for a small internal repo. The gap between the permanent underclass and the AGI class keeps getting bigger 😔🚀

译有很多关于世界杯门票价格的讨论。 然而,@USMNT 首场比赛的门票价格,比我们见过的 Fable 5 "ultracode" 为一个小型内部仓库编写文档时在单个提示词上花费的还要低。 永久底层阶级与 AGI 阶级之间的差距越来越大 😔🚀

meng shao@shao__meng · 6月15日70

微软 CEO Satya Nadella:没有生态的「前沿 AI 模型」不可持续! AI 时代企业的真正资产,不再模型本身,是人类资本与 token 资本相互强化的学习闭环。 他为什么认为这次平台转型不同? 过去:数字系统增强人力(工具属性)。 现在:人与数字系统之间可以形成真正的认知闭环——AI 能持续吸收组织与个人的专业知识,并把它商品化。 因此,竞争焦点从「用了什么工具」转向: 组织如何持续学习、积累 IP、差异化、在知识被快速吸收的世界里仍然存活? 两个核心概念 · Human Capital(人类资本):知识、判断力、关系网络、创造力、模式识别 · Token Capital(token 资本):企业自建、自有的 AI 能力体系 关键论断:人类资本不会因 token 资本增长而贬值,反而更值钱。 · 人设定目标、跨域连接、建立关系、识别真正重要的模式 · 没有人的方向,算力只是在空转 所以机会不在「挑最好的通用模型」,而在在模型之上建学习闭环,让人类资本与 token 资本复利叠加。 企业需要的新架构(实操层面) Nadella 勾勒了一套可落地的企业 AI 架构,核心是主权与控制: 1. 可替换的通用模型 + 不可丢失的「公司老兵」经验 换模型不应丢掉组织内沉淀的领域专长——这是未来「控制权与主权」的试金石。 2. 工作流、领域知识、累积判断 → 可进化的 AI 系统 每次使用都让系统更强。 3. Private Evals(私有评测) 用业务真实结果衡量模型是否在变好,而非只看公开榜单。 4. Private RL Environments(私有强化学习环境) 用组织内部真实轨迹训练,让模型在真实业务上变强。 5. 知识库 = 可查询的制度记忆 既保留 IP,也提高 token 使用效率。 他把这套闭环称为「爬山机」(hill climbing machine)——Unlike 多数资产,它会复利:更好的工作流 → 更好的训练信号 → 更多隐性知识 → 更难被复制的优势。 这套闭环本身,就是企业新的 IP。 政治经济学维度(文章后半段的重点) Nadella 明显在回应一个结构性风险: 若少数几家模型吃掉一切价值,社会与政治经济不会容忍。 他用全球化第一阶段的「产业空心化」作类比: · GDP 表面好看,但就业与社区被掏空,后果至今仍在 · AI 若重演:少数 AI 系统攫取全部经济回报,各行业知识被底层 commoditize 因此优先级应是: 建 frontier ecosystem(前沿生态),而不只是 frontier model(前沿模型)。 生态的含义: · 价值广泛流向每家公司、每个行业、每个国家 · 每家企业拥有自己的学习闭环,编码制度知识 · 平台创造的价值大于平台自身捕获的价值(他引用的微软/平台时代 ethos)

译微软CEO Nadella撰文指出,企业真正资产是人类资本(知识、判断力等)与token资本(自建AI能力)相互强化的学习闭环。他提出可落地的AI架构:可替换通用模型+不可丢失的组织经验;通过私有评测(Private Evals)和私有强化学习环境(Private RL Environments)以真实业务结果驱动模型进化;知识库作为可查询的制度记忆。该闭环被称为“爬山机”,具有复利效应。他警告若少数模型攫取全部回报将重演产业空心化,主张构建“前沿生态”而非仅“前沿模型”,让价值广泛流向各行业与国家。

宝玉@dotey · 6月15日72

我在做 baoyu-skills 时,做了一个尝试,就是用了一个 EXTEND.md 文件保存用户自定义设置,当时我想的是 Agent 读起来方便。 但是这导致一个问题,Markdown 不是严格的结构化数据,LLM 自己读取没问题,但是程序解析很困难,另外格式很难严格保持一致性。 如果让我再设计的话,我会更倾向于用 json 或者 yaml 文件格式作为 Skill 的扩展配置,这样既可以让 LLM 方便读取,也可以用代码解析和保存。

译宝玉在开发 baoyu-skills 时,采用 EXTEND.md 文件保存用户自定义设置,初衷是方便 Agent 读取。但实践发现,Markdown 非严格结构化数据,虽能被 LLM 理解,却难以被程序解析,且格式难以保持一致性。他认为更合理的方案是采用 JSON 或 YAML 作为 Skill 扩展配置,既能被 LLM 方便读取,也便于代码解析与持久化。

Berryxia.AI@berryxia · 6月15日70

老黄说出如今AI时代的终极之战:能源之战~而不是简单的模型较真! Jensen Huang直接把AI拆成五层蛋糕,说大家都在盯着第四层模型,结果真正的钱和机会在底下三层能源、芯片和基建。 他把AI整个生态比作一层一层叠起来的蛋糕:最底层是能源,核电、太阳能、风电、氢能,只要能发电就有人砸钱。 第二层是芯片、计算机、网络、光子硅; 第三层是数据中心的地、电力、建筑和运营; 第四层才是大家天天聊的模型公司; 第五层是各种垂直应用。 今年整个蛋糕要砸进去一万亿美元,而Jensen认为最终这个生态每年能跑到二十万亿美元的规模。 现在我们只走了一万亿,后面还有十九万亿的空间。 最狠的一点是,他说现在大部分人只盯着第四层模型,却完全忽略了底下三层才是整个系统的底座。 没有能源、没有芯片、没有数据中心,上面模型再强也白搭。 以前大家觉得AI机会都在OpenAI、Anthropic这些模型公司,结果英伟达的掌门人直接告诉你,真正的复利和护城河在最下面那几层。 这波讲话把AI从“模型竞赛”重新拉回“产业链重构”的维度。 谁先看懂这五层叠加的逻辑,谁就能在接下来十年吃到最肥的肉~

译Jensen Huang将AI产业拆解为五层叠加的蛋糕:能源(核电、太阳能等)、芯片/计算机/网络、数据中心基建、模型公司(OpenAI、Anthropic)、垂直应用。他指出大多数人只盯着第四层模型层,却忽略了底下三层才是底座。今年全球将在该五层架构上投入1万亿美元,而黄仁勋认为最终生态规模可达每年20万亿美元。他强调没有能源、芯片和数据中心,模型再强也无用,AI的真正护城河在底层。

Ethan Mollick@emollick · 6月15日47

This is a good methodological thread on the debate over a new paper that suggests generalist models beat specialized medical AIs. (And a good overview of the challenges of benchmarking AIs in medicine)

译这是一条关于新论文辩论的优秀方法论线程,该论文表明通用模型能击败专业医疗AI(同时也很好地概述了医疗AI基准测试的挑战。)

宝玉@dotey · 6月15日62

微软 CEO Satya Nadella 发了一篇长文,提出了一个新概念:Token 资本。 他的核心论点是,AI 时代每家公司都需要同时经营两种资本。一种是传统的人力资本,员工的知识、判断力、关系网络;另一种是 Token 资本,公司自己构建并拥有的 AI 能力。两者不是此消彼长的关系,人的判断力越强,Token 资本增长越快。没有人的方向引导,算力只是在空转。 这个说法听起来抽象,但 Nadella 给出了一个具体的检验标准:你能不能随时换掉底层的通用大模型,而不丢失公司积累的专有经验?如果能,说明你真正拥有自己的 AI 能力;如果不能,说明你只是在租用别人的智能。 他建议企业把工作流、行业知识、决策经验转化成可以持续改进的 AI 系统,建立私有评估体系来衡量模型在实际业务中的表现,而不是只看公开跑分。这个学习飞轮一旦转起来,就像复利,每次改进的工作流都会产生更好的训练信号,进一步加速知识积累。 Nadella 还发出了一个颇有政治意味的警告。他拿全球化做类比:第一轮全球化时期,GDP 数字看着不错,但整个产业被外包掏空了,后果至今还在显现。如果 AI 时代重演这个剧本,少数几个模型吃掉所有行业的知识和价值,"政治经济体系不会容忍这种结局"。 --- 原文翻译 --- 没有生态支撑的前沿技术,注定无法行稳致远 Satya Nadella 最近,我一直在深思:在由人工智能驱动的经济浪潮中,企业的未来究竟在哪里? 这次变革与以往任何一次平台更迭都截然不同。过去,我们只是用数字化系统来提升人类的工作效率。但这一次,我们破天荒地在人类与数字系统之间建立起了一个真正的认知循环 (cognitive loop)。这绝对是个颠覆认知的概念,因为它彻底改变了我们对企业内部“工作”本质的定义。 当 AI 模型能够源源不断地吸收人类和组织的专业知识,并将其变成大众化的廉价商品(即将原本稀缺的专业技能变成人人唾手可得的通用能力,从而削弱企业的核心壁垒)时,真正的危机出现了。我们面临的关键挑战,不再仅仅是如何使用某个数字化工具或系统,而是企业该如何在这个全新的世界中持续学习、积累知识产权 (IP)、保持独特性并茁壮成长。 每家公司都必须构建两种资本:一种是我们熟知的“人力资本” (human capital),另一种我称之为“Token 资本” (token capital)。人力资本包含了员工的知识储备、判断力、人脉关系、创造力以及识别事物规律的能力;而 Token 资本则是指企业自身打造并掌控的 AI 实力(在这里,“Token 资本”一词很形象,因为大语言模型 (LLM) 处理信息的基本单位就是 Token)。 必须强调的是,随着 Token 资本的不断壮大,人力资本并不会因此贬值。相反,它会变得比以往任何时候都更加宝贵!我坚信,人类的主观能动性 (human agency) 将是推动 Token 资本增长的核心引擎。人类负责设定宏大的目标,跨领域地将线索串联起来,建立关系网,并洞察出最关键的规律。如果没有人类在前方指引方向,那些强大的计算力不过是在原地打转罢了。 这就意味着,真正的机遇并不在于你去市面上挑选一个“最好”的模型,而在于如何在模型的基础之上,构建一个能让人力资本和 Token 资本产生复利效应 (compound) 的“学习循环” (learning loop)。你可以把某项任务甚至整个岗位都外包出去,但你绝对不能把“学习能力”给外包了。企业未来的核心竞争力,就在于能否在人类与 AI 之间不断积累并放大这种学习能力。 这需要一种全新的架构思路:每家企业都要能够构建出能随着时间推移自我迭代的 AI 智能体系统 (agentic systems),同时还要牢牢掌控自己的知识产权。一家公司应该能够随时替换掉底层的某个“通才模型” (generalist model),而不丢失那些已经沉淀在系统里的、像“公司老兵”一样丰富的专业经验。在未来的时代,这将是检验企业是否拥有数据控制权和技术主权的关键“试金石”。 企业需要将自身的工作流、领域知识以及多年积累的判断力,统统转化为每一次使用都能自我进化的 AI 系统。企业应当建立私有评估机制 (private evals)(即企业内部针对自身真实业务场景定制的模型能力测试标准),用来检验模型是否真正在对企业有价值的结果上取得了进步,而不能仅仅依赖外界的公开跑分盲目自嗨!专属的强化学习 (reinforcement learning) 环境,应该让模型通过吸收组织内部真实的业务数据和工作轨迹变得越来越强大。这样的专属知识库,能让企业的组织记忆变得随时可检索,同时也让 token (tokens) 的运转效率大幅提升。 这种循环,将成为企业全新的知识产权。我把它想象成一台不断向上攀登的机器 (hill climbing machine)。而且与大多数资产不同,它具有强大的复利效应。每一个被优化的工作流,都会产生更优质的训练信号,从而加速这家企业独有的隐性知识 (tacit knowledge) 的积累。那些尽早布局构建这种循环的公司,将会获得一道难以复制的护城河,无论未来市面上又出了什么能力炸裂的新模型,都无法轻易撼动其地位。 我们最不愿看到的局面,就是各行各业的所有公司,都在向少数几个贪婪吞噬一切的巨头模型割让价值。如果所有的经济价值都只被少数几个模型垄断,政治经济体制是绝对无法容忍的。社会也绝对不会允许一个让整个产业被彻底掏空的 AI 未来。 回想一下全球化初期发生的事情吧:大规模的业务外包曾让许多工业经济体被彻底掏空。表面上看 GDP 数据依然光鲜亮丽,但大量产业工人流离失所是血淋淋的现实,其带来的严重后果至今仍未消散。我们绝不能让这种悲剧在 AI 时代重演——决不能让少数几个 AI 系统攫取了所有的经济回报,而一整个行业的从业者却只能眼睁睁地看着自己赖以生存的专业知识被无情地廉价化。 在我看来,我们的当务之急不仅是打造前沿模型 (frontier model),更要构建一个繁荣的“前沿生态系统” (frontier ecosystem)。只有这样,价值才能像活水一样,广泛地流向每一家公司、每一个行业、每一个国家。在这个生态中,每个组织都能拥有属于自己的学习循环,将组织智慧沉淀其中,让人力资本与 Token 资本共同实现滚雪球式的增长。 这也是伴随我职业生涯一路走来的核心理念:真正的平台,能够让在其之上生长出来的价值,远远大于平台自身所截留的价值。在这样的生态里,每家公司都能持续创新,并构建属于自己的真正价值。 当这一切实现时,企业不仅能为自己、也能为周边的整个经济体创造巨大的红利。员工们将会看到自己的专业技能被无限放大,个人的判断力将被融入系统,变得可以复制和规模化应用。而这一切带来的好处,最终将回馈给企业以及他们所在的广泛社区。 这才是企业为自身和宏观经济创造价值的正确方式。这也是我们应当携手共建的、稳定而持久的生态平衡。

译微软CEO Satya Nadella提出“Token资本”概念,认为AI时代每家公司需同时经营人力资本(员工知识、判断力)和自建AI能力(Token资本)。两者互补:人的判断力越强,Token资本增长越快。检验标准:能否随时替换底层通用大模型而不丢失专有经验?若能,则真正拥有AI能力;若不能,则只是租用智能。他建议将工作流、行业知识转化为可迭代AI系统,建立私有评估机制,形成复利式学习飞轮。同时警告:若少数模型垄断行业价值,政治经济体系将无法容忍,类比全球化外包掏空产业的教训。

Ethan Mollick@emollick · 6月15日24

A plus of Fable being down is the number of times the word “toast” appears in Claude Code has dropped dramatically. That model loved/loves software development and UX jargon more than any other model I have used.

译Fable 下线的一个好处是,Claude Code 中“toast”一词出现的次数大幅下降。 那个模型比我用过的任何其他模型都更喜欢/喜欢软件开发和 UX 术语。

Chubby♨️@kimmonismus · 6月15日13

Next week would literally be the perfect moment to release GPT-5.6.

译下周实际上是发布 GPT-5.6 的完美时机。

Elon Musk@elonmusk · 6月15日24

As Andrew replies below, we appreciate any critical feedback in pursuit of product perfection for Grok Build!

译@TheDibsterX 在 Digital Ocean 云主机上尝试了 Grok Build,称赞它极其有用——不仅能生成代码,还能处理包更新、服务器设置、防火墙设置等一切操作。Elon Musk 回应称感谢任何改进产品的反馈。

Rohan Paul@rohanpaul_ai · 6月15日75

Great article by Satya Nadella on organizational economics of AI and "token capital" The real contest is not model quality alone, its the loop around the model: the workflows, feedback, judgments, exceptions, failures, and private tests that teach a system what matters inside a firm. That requires private evals, private reinforcement loops, and queryable institutional memory

译Satya Nadella 关于 AI 组织经济学和“token capital”的好文 真正的竞争不在于模型质量本身,而在于模型周围的循环:那些教会系统什么对企业重要的工作流、反馈、判断、例外、失败和私有测试。 这需要私有评估、私有强化循环和可查询的机构记忆。

Rohan Paul@rohanpaul_ai · 6月15日51

Satya Nadella on the supply side of the physical economics of AI "Tokens per Dollar per Watt" His energy is something here. 🔥 The new equation for the AI age for every Company or Industry or Country. "And that means Infrastructure, Infrastructure and Infrastructure." --- From "Microsoft India" YT channel (link in comment)

译Satya Nadella 在微软印度频道访谈中提出 AI 物理经济学供应侧新公式:“Tokens per Dollar per Watt”,强调每美元每瓦特获得的 token 数是竞争力关键,并呼吁“基础设施、基础设施、基础设施”。在其关于 AI 组织经济学的文章中,Nadella 指出真正的竞争是围绕模型的循环——工作流、反馈、判断、异常、失败及私有测试,这要求企业建立私有评估、私有强化循环和可查询的制度记忆(token capital)。

Ethan Mollick@emollick · 6月15日49

We don’t honestly know the best approaches to rebuilding companies around AI agents, especially in ways that expand competitive advantage & augment existing human capabilities. Practical agents are merely months old. Experimentation (and productive failures) will be required.

译老实说,我们并不知道围绕AI智能体重建公司的最佳方法,尤其是那些能够扩大竞争优势并增强现有人类能力的方式。实用的智能体仅仅诞生了几个月。实验(以及富有成效的失败)将是必要的。

Chubby♨️@kimmonismus · 6月15日38

Everyone's still arguing about which lab wins the model race. Satya Nadella made an interesting point: the smarter AI gets, the more valuable human judgment becomes. (Machines don't decide what's worth doing, you do.) "Without human direction, you have compute running in circles."

译所有人仍在争论哪个实验室赢得模型竞赛。 萨提亚·纳德拉提出了一个有趣的观点:AI 越智能,人类判断就越有价值。(机器不决定什么值得做,你决定。)“没有人类指引,计算就是在原地打转。”

François Chollet@fchollet · 6月15日44

Near-term AI isn't fundamentally different from past tech waves. It's the newest form of digital leverage. It's a force multiplier, and force without direction is just noise. It still requires a human in the loop at every level in order to be useful.

译近期AI与过去技术浪潮并无本质区别。它是最新形式的数字杠杆。它是力量倍增器,但无方向的力量只是噪音。它仍然需要在每个层级都有人的参与才能发挥作用。

elvis@omarsar0 · 6月15日51

I spent the last 6 months building my own harness and orchestrator. I built it to allow me to experiment on the frontier of ideas. Little did I know that the orchestration, the harness, routing capabilities, dynamic artifacts/workflows, verifiers, ability to switch/route between agent backends, automations, the skills, and the MCP tools would be the absolute best defense for what happened with Fable this week. The argument folks made when I was talking about "owning the agent orchestrator" at the beginning of the year is that this is just high maintenance, too costly, and is unsustainable. It might still feel like it to many. But there is too much to lose if you decide to lock yourself in with a specific tool or model provider. Really, the way I have built my orchestrator is through mining my agent sessions and using that to recursively build and test our new ideas that range from autonomous loops to continual learning/memory systems. I can test research ideas on the fly. I just can't go back to using a vendor that only offers me a set of features. My argument now is that you really don't have a choice. You need to be able to control cost, decision making, context management, and everything in between. If you don't, then how are you going to tap into the world of recursive self-improving AI? It won't get any easier if you don't own the decision-making part of the intelligence stack.

译Elvis Saravia(DAIR.AI)耗时6个月构建自有的 agent orchestrator(编排器),具备编排、路由、动态工件/工作流、验证器、agent 后端切换、自动化、技能及 MCP 工具等功能。这些能力在本周的 Fable 事件中成为最佳防御。他年初即主张“拥有自己的 agent orchestrator”,反对者认为维护成本高且不可持续,但他认为锁定特定工具或模型供应商损失更大。通过挖掘 agent 会话递归构建和测试新想法(包括自主循环、持续学习/记忆系统),他已无法回到仅提供固定功能的供应商。他强调必须控制成本、决策和上下文管理,否则无法进入递归自我改进 AI 领域。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
03:02
Jeff Dean@JeffDean
48
@pgasawa 和 @profjoeyg 撰写了一篇关于AI进展更细致视角的好文章。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

Google大佬观点安全/对齐
01:30
eric zakariasson@ericzakariasson
52
mcp > cli

开发者比较 MCP 与 CLI 在 AI 工作流中的用途:CLI 处理模型已掌握的任务(git、gh、npm、docker、文件操作),基于 man 手册,本地登录即用,上下文成本极低;MCP 用于集成 Slack、Notion、Linear、Twitter 等外部服务。作为统一协议,MCP 让团队在 Cursor 中添加一个服务器即可全员使用,一次认证持久保存且本地与云端一致,在 Cursor 中提供丰富图标和可追踪性。结论:CLI 用于个人场景,MCP 用于团队协作。

MCP/工具大佬观点
01:15
Ethan Mollick@emollick
39
非常巧妙。而且符合我的预期:模型在视觉方面弱于其他一切,因此可视化步骤是工作流中错误积累最多的地方。

Josh Tycko: Can AI find the monkey business in your dataset?

多模态大佬观点
00:59
凡人小北@frxiaobei
56
Google 探索退休手机集群计算

Google 正实验将退休手机组成计算集群,以减少碳排放——淘汰手机的芯片、内存等仍可正常工作,无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力,以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下,重新利用抽屉里的旧手机或成创新方向。

Google Research: Today on the blog, we discuss a pathway for the second life of phones through the exploration of "phone cluster computin...

Google大佬观点端侧部署/工程
00:50
郭明錤|Ming-Chi Kuo@mingchikuo
56
联发科AI事业策略升级至系统级设计,锁定Google TPU PCBA及Musk公司AI机柜

郭明錤产业调查显示,联发科将AI事业从IC/ASIC设计提升至系统级设计,首目标为Google TPU的PCBA(L6)及Musk公司自研AI芯片的L10机柜。此为长期规划,2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升,风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式(制造外包)确保毛利率40-50%。具体:Google TPU目标自v10(Icefish)开始并争取导入自家CPO;Musk公司目前主要用Nvidia方案,自家芯片机柜生态未完备,联发科有机会但缺时程,关键在利用台湾供应链与Terafab合作获L10订单。

Google大佬观点部署/工程
00:44
elvis@omarsar0
44
拥有智能,不要外包。 这一决策未来的重要性和影响力再明显不过了。 我们都需要制定策略,掌握智能栈中的决策部分。 作为一名AI工程师/研究员,Fireworks让我更容易拥抱"拥有我的AI"。

Lin Qiao: http://x.com/i/article/2066399704347463680

大佬观点现象/趋势
00:44
Ethan Mollick@emollick
33
明亮的AI监管线本质上是复杂的,因为模型只是拼图的一部分:辅助工具可以让模型能力更强,一个能力较弱但开放的系统可能比一个能力更强但封闭的系统风险更高或更低,技能/连接的系统会改变风险水平,等等。
大佬观点政策/监管
00:13
elvis@omarsar0
30
这是我放在自己工作中用过的最强大的AI。 我在Slack里添加了一个AI员工,让它运行本周的DAIR Academy,它就去做了,并准备好发布。 以下是具体经过:
智能体大佬观点
00:13
François Chollet@fchollet
37
即使你支持AI监管,你也应该认识到,不透明且任意的监管打击对整个行业是适得其反的。
大佬观点安全/对齐
6月15日
23:52
AYi@AYi_AInotes
51
微软CEO Nadella:AI时代公司护城河是"学习循环",非大模型

微软CEO Satya Nadella撰文称,AI时代公司真正护城河是“学习循环”——将工作流程、领域知识和多年判断经验喂给AI,形成独有的“机构记忆”。他提出“人类资本”(人的判断力、创造力)和“token资本”(公司持续改进的AI能力),强调人类价值不会因AI变强而降低,反而更重要。他警告:若少数大模型吸走所有行业知识,普通公司只剩调用权限,失去价值。

Satya Nadella: http://x.com/i/article/2065582894790365184

Microsoft大佬观点现象/趋势
23:43
elvis@omarsar0
40
当前主流的AI叙事对人类的潜力过于悲观,而对AI过于乐观。 这是有缺陷的! 我们需要在加速AI的同时也加速我们自己的潜力。 不同形式的智能可以共存。
大佬观点现象/趋势
23:42
Ethan Mollick@emollick
53
奇怪的标题--我不确定解决10个极其困难的新问题中的7个就意味着AI"没有完成任务",而15个月前大语言模型还不会做数学。 但实际研究很有趣,揭示了AI在数学中的缺陷与成功。https://1stproof.org/assets/docs/report.pdf 【引用 @Nature】:人工智能经历了其最严谨的数学测试,然而它并未完成任务 https://go.nature.com/4oqlNk6

nature: Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....

大佬观点推理评测/基准
23:42
向阳乔木@vista8
24
AI音乐站上新了几首风格特别的歌曲。 Suno太好玩了,组合创新,造出新的听觉体验。 https://music.qiaomu.ai/track/ghostty-1aea https://music.qiaomu.ai/track/we-flow-so-slowly-1f5e https://music.qiaomu.ai/track/neon-song-c065
大佬观点语音
23:05
Ethan Mollick@emollick
20
删除了关于API用户不了解原生框架下前沿模型能力更强的一条推文,因为我在帖子中没有区分(字符有限!)那些仔细评估其他框架以完成任务的用户和那些只是使用裸API的用户。
大佬观点
23:05
Ethan Mollick@emollick
55
现在是登月项目的好时机。 AI 已达到一个水平,能够开展可能带来巨大社会效益的变革性项目,但这些项目需要公共研发、共识与透明才能实现。例如:通用导师、联合科学家/复制系统、远程医疗援助。
大佬观点现象/趋势
22:34
Ethan Mollick@emollick
58
API用户(例如企业IT部署)使用前沿模型时可能会忽略一点:模型在其原生框架中是多么强大。通过API很难让Claude或GPT达到像在Code或Codex中那样的能力,而且随着模型变得更聪明,这变得更难。
AnthropicOpenAI大佬观点编码
22:23
jason@jxnlco
10
Tibo 宣布自己刚刚发现 Codex,并开放提问(AMA)。Jason Liu 对此评论:Tibo 连 Slack 消息都写得短而精准,做事风格始终如一。

Tibo: Hi, I'm Tibo and I just discovered Codex. AMA

OpenAI大佬观点
20:30
Rohan Paul@rohanpaul_ai
49
Nvidia高管:AI计算成本远超员工成本

Nvidia应用深度学习副总裁Bryan Catanzaro称,其团队的计算成本已远高于员工成本。MIT研究显示,AI自动化仅在23%的视觉密集型工作中更便宜,人类在77%的工作中仍具成本优势。尽管如此,大型科技公司仍在巨额押注AI,资本支出达7400亿美元,预计从2025年起还将跃升69%,因为它们购买的是未来的成本曲线,而非眼下的节省。

大佬观点现象/趋势
16:09
Chubby♨️@kimmonismus
42
@AndrewCurran_ 的一篇精彩文章 Mythos/Fable 改变了一切。 "我认为你有三年时间去做它。(…) 那就是窗口期。而现在它已经关闭。"

Andrew Curran: http://x.com/i/article/2066289802295779328

大佬观点
15:09
swyx@swyx
41
swyx 指出,Anthropic 的 Ultracode 工具在消耗模型 token 方面表现惊人,但需要正确设置仓库的并行化以利用子智能体(subagents)的扇出(fanout)能力。该工具的核心思想是"智能子程序"--当理解大量知识工作不过是需要判断和智能的琐碎任务(yak shaves)时,动态工作流不仅适用于编码任务。

Thariq: http://x.com/i/article/2061850535708483585

智能体Anthropic大佬观点
13:58
数字生命卡兹克@Khazix0918
58
Prompt该退环境了,未来属于Loop Engineering

6月7日,OpenClaw创始人Peter与Claude Code创始人Boris提出不再手动写提示词,而是设计循环(Loop)让Agent自动编排任务。Google的Addy Osmani将其梳理为Loop Engineering,成为AI行业第四大工程范式。一个完整Loop包含五个组件:定时任务(心跳)、工作树隔离(Worktree)、项目知识体系(CLAUDE.md/skill等)、MCP连接器、子Agent(执行与检查分离)。核心在于定义精确的可验证目标(如/goal“所有测试通过”),而非技术能力。作者指出定义目标的能力才是关键,并推荐其开源的洁癖.skill用于知识管理。

智能体大佬观点现象/趋势
12:27
凡人小北@frxiaobei
52
Vercel CEO:两类AI Builder,闷头ship才能创造价值

Vercel CEO Guillermo Rauch 指出AI圈存在两类人:一类天天发coding agent内容却从不实际出货,另一类产出暴增并持续ship有价值的产品。讽刺的是,两类人比例与AI出现前并无变化,而后者出货效率更高,形成“出货越多越能出货”的循环。评论认为,只有后者在真创造价值。

Guillermo Rauch: There seem to be two main groups 1️⃣ Those who post all day long about using coding agents but don't seem to ship anythi...

智能体大佬观点编码
10:35
歸藏(guizang.ai)@op7418
26
周一上午痛苦摸鱼的时候可以看看 【引用 @op7418】:http://x.com/i/article/2065096982310567936

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

大佬观点搜索
09:30
ginobefun@hongming731
50
Fable 5 被攻破、SpaceX 上市、LeCun 创办 Omni Labs 三则要闻

Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。

大佬观点安全/对齐现象/趋势行业动态
09:27
凡人小北@frxiaobei
57
纳德拉定调微软:不做最强模型,做模型生态

微软CEO纳德拉明确表示,微软不追求最强AI模型,而是聚焦模型之上的生态建设。其逻辑是:模型终将商品化,生态锁定才能更持久。同时他指出,平台让生长其上的价值多于自身攫取的。这一框架被评论为“没有SOTA”的公司最舒服的世界观,但背后动机是将其作为策略:把闭环建在模型之上,IP留自己手里,模型随时可换。

Satya Nadella: http://x.com/i/article/2065582894790365184

Microsoft大佬观点
09:16
SemiAnalysis@SemiAnalysis_
18
有很多关于世界杯门票价格的讨论。 然而,@USMNT 首场比赛的门票价格,比我们见过的 Fable 5 "ultracode" 为一个小型内部仓库编写文档时在单个提示词上花费的还要低。 永久底层阶级与 AGI 阶级之间的差距越来越大 😔🚀
大佬观点
08:45
meng shao@shao__meng
70
微软CEO Satya Nadella:没有生态的「前沿AI模型」不可持续

微软CEO Nadella撰文指出,企业真正资产是人类资本(知识、判断力等)与token资本(自建AI能力)相互强化的学习闭环。他提出可落地的AI架构:可替换通用模型+不可丢失的组织经验;通过私有评测(Private Evals)和私有强化学习环境(Private RL Environments)以真实业务结果驱动模型进化;知识库作为可查询的制度记忆。该闭环被称为“爬山机”,具有复利效应。他警告若少数模型攫取全部回报将重演产业空心化,主张构建“前沿生态”而非仅“前沿模型”,让价值广泛流向各行业与国家。

Satya Nadella: http://x.com/i/article/2065582894790365184

大佬观点数据/训练
08:32
宝玉@dotey
72
baoyu-skills 反思:EXTEND.md 应改用 JSON/YAML

宝玉在开发 baoyu-skills 时,采用 EXTEND.md 文件保存用户自定义设置,初衷是方便 Agent 读取。但实践发现,Markdown 非严格结构化数据,虽能被 LLM 理解,却难以被程序解析,且格式难以保持一致性。他认为更合理的方案是采用 JSON 或 YAML 作为 Skill 扩展配置,既能被 LLM 方便读取,也便于代码解析与持久化。

马东锡 NLP: http://x.com/i/article/2066281164134825984

智能体大佬观点
08:23
Berryxia.AI@berryxia
70
黄仁勋提出AI"五层蛋糕"论:能源是终极之战

Jensen Huang将AI产业拆解为五层叠加的蛋糕:能源(核电、太阳能等)、芯片/计算机/网络、数据中心基建、模型公司(OpenAI、Anthropic)、垂直应用。他指出大多数人只盯着第四层模型层,却忽略了底下三层才是底座。今年全球将在该五层架构上投入1万亿美元,而黄仁勋认为最终生态规模可达每年20万亿美元。他强调没有能源、芯片和数据中心,模型再强也无用,AI的真正护城河在底层。

Ihtesham Ali: Jensen Huang told a room of global investors that AI is not one industry. It is five stacked on top of each other. Most ...

大佬观点现象/趋势
07:45
Ethan Mollick@emollick
47
这是一条关于新论文辩论的优秀方法论线程,该论文表明通用模型能击败专业医疗AI(同时也很好地概述了医疗AI基准测试的挑战。)

Adam Rodman: The TL;DR who don't want to sit through a virtual lab meeting with me: "This study provides directional data about the r...

大佬观点评测/基准
06:32
宝玉@dotey
62
微软CEO Satya Nadella提出"Token资本"概念:企业需同时经营人力资本与自建AI能力

微软CEO Satya Nadella提出“Token资本”概念,认为AI时代每家公司需同时经营人力资本(员工知识、判断力)和自建AI能力(Token资本)。两者互补:人的判断力越强,Token资本增长越快。检验标准:能否随时替换底层通用大模型而不丢失专有经验?若能,则真正拥有AI能力;若不能,则只是租用智能。他建议将工作流、行业知识转化为可迭代AI系统,建立私有评估机制,形成复利式学习飞轮。同时警告:若少数模型垄断行业价值,政治经济体系将无法容忍,类比全球化外包掏空产业的教训。

Satya Nadella: http://x.com/i/article/2065582894790365184

Microsoft大佬观点数据/训练
06:15
Ethan Mollick@emollick
24
Fable 下线的一个好处是,Claude Code 中"toast"一词出现的次数大幅下降。 那个模型比我用过的任何其他模型都更喜欢/喜欢软件开发和 UX 术语。
大佬观点编码
06:04
Chubby♨️@kimmonismus
13
下周实际上是发布 GPT-5.6 的完美时机。

Chubby♨️: Keeps getting worse: It seems that the Chinese government ("China-linked group") had access to Claude Mythos, which is w...

OpenAI大佬观点
05:55
Elon Musk@elonmusk
24
@TheDibsterX 在 Digital Ocean 云主机上尝试了 Grok Build,称赞它极其有用--不仅能生成代码,还能处理包更新、服务器设置、防火墙设置等一切操作。Elon Musk 回应称感谢任何改进产品的反馈。

The Dibster: Trying "Grok Build" on a Digital Ocean droplet. So freakin' useful !! It not only generates code, also handles updates o...

xAI大佬观点
04:44
Rohan Paul@rohanpaul_ai
同事件精选75
Satya Nadella 关于 AI 组织经济学和"token capital"的好文 真正的竞争不在于模型质量本身,而在于模型周围的循环:那些教会系统什么对企业重要的工作流、反馈、判断、例外、失败和私有测试。 这需要私有评估、私有强化循环和可查询的机构记忆。

Satya Nadella: http://x.com/i/article/2065582894790365184

Microsoft大佬观点
同一事件,精选展示《Satya Nadella 谈微软 Build 大会主旨演讲》
推荐理由:Nadella 把组织知识和反馈循环变现称为“token资本”,框架虽抽象但戳中了企业应用 AI 的真正壁垒,做企业级产品的值得细读。
04:44
Rohan Paul@rohanpaul_ai
51
Satya Nadella 在微软印度频道访谈中提出 AI 物理经济学供应侧新公式:"Tokens per Dollar per Watt",强调每美元每瓦特获得的 token 数是竞争力关键,并呼吁"基础设施、基础设施、基础设施"。在其关于 AI 组织经济学的文章中,Nadella 指出真正的竞争是围绕模型的循环--工作流、反馈、判断、异常、失败及私有测试,这要求企业建立私有评估、私有强化循环和可查询的制度记忆(token capital)。

Rohan Paul: Great article by Satya Nadella on organizational economics of AI and "token capital" The real contest is not model quali...

Microsoft大佬观点现象/趋势
04:14
Ethan Mollick@emollick
49
老实说,我们并不知道围绕AI智能体重建公司的最佳方法,尤其是那些能够扩大竞争优势并增强现有人类能力的方式。实用的智能体仅仅诞生了几个月。实验(以及富有成效的失败)将是必要的。
智能体大佬观点
04:04
Chubby♨️@kimmonismus
38
所有人仍在争论哪个实验室赢得模型竞赛。 萨提亚·纳德拉提出了一个有趣的观点:AI 越智能,人类判断就越有价值。(机器不决定什么值得做,你决定。)"没有人类指引,计算就是在原地打转。"

Satya Nadella: http://x.com/i/article/2065582894790365184

大佬观点现象/趋势
03:15
François Chollet@fchollet
44
近期AI与过去技术浪潮并无本质区别。它是最新形式的数字杠杆。它是力量倍增器,但无方向的力量只是噪音。它仍然需要在每个层级都有人的参与才能发挥作用。
大佬观点现象/趋势
02:47
elvis@omarsar0
51
Elvis Saravia(DAIR.AI)用6个月构建自有 agent 编排器,称其是应对本周 Fable 事件的最佳防御

Elvis Saravia(DAIR.AI)耗时6个月构建自有的 agent orchestrator(编排器),具备编排、路由、动态工件/工作流、验证器、agent 后端切换、自动化、技能及 MCP 工具等功能。这些能力在本周的 Fable 事件中成为最佳防御。他年初即主张“拥有自己的 agent orchestrator”,反对者认为维护成本高且不可持续,但他认为锁定特定工具或模型供应商损失更大。通过挖掘 agent 会话递归构建和测试新想法(包括自主循环、持续学习/记忆系统),他已无法回到仅提供固定功能的供应商。他强调必须控制成本、决策和上下文管理,否则无法进入递归自我改进 AI 领域。

智能体MCP/工具大佬观点
‹ 上一页
1…1112131415…50
下一页 ›