AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1470 条
全部一手资讯X论文
标签「现象/趋势」清除
SemiAnalysis@SemiAnalysis_ · 6月11日63

DeepSeek is going heavy-asset. On June 9, the company posted an opening for IDC planning engineers, a role explicitly scoped to the design and delivery of MW-to-GW scale infrastructure. It follows April's hiring of data center O&M engineers in Ulanqab, Inner Mongolia. Taken together, this is the first time DeepSeek has fully shown its hand on owning compute infrastructure rather than just renting it.

译DeepSeek 正走向重资产模式。 6 月 9 日,该公司发布了 IDC 规划工程师的招聘信息,该职位明确涉及兆瓦级到吉瓦级基础设施的设计与交付。这紧随其 4 月在内蒙古乌兰察布招聘数据中心运维工程师。综合来看,这是 DeepSeek 首次完全展露其自持算力基础设施而非仅租赁的意图。

Ethan Mollick@emollick · 6月11日62

We need more real time data on how AI may be impacting the economy - this is a really useful addition.

译我们需要更多关于AI如何影响经济的实时数据——这是一个非常有用的补充。

François Chollet@fchollet · 6月11日72

Some considerations that many folks seem not to get: 1. It can be a bubble even if the tech works. (For instance, if the tech doesn't have a high-demand use case.) 2. It can be a bubble even if the tech works and has strong product-market fit. (For instance, if the tech cannot be economically viable.) 3. It can be a bubble even if the tech works, has strong product-market fit, and has a path to eventual economic viability. (For instance, if profitability takes too long to achieve or makes margin/competition assumptions that fail to materialize.) 4. It can be a bubble even if the tech works, has strong product-market fit, and is currently highly profitable. (For instance, if demand has a hard ceiling and growth stops once the ceiling is reached.) 5. It can be a bubble even if the tech works, has strong product-market fit, is currently highly profitable, and has unlimited future demand. Literally all it takes for something to be a bubble is for lots of people to over-enthusiastically bet their money on it, and subsequently get panicky. Importantly, bubbles can be attached both to things that are completely hogwash, like the Metaverse, and to world-changing developments like the Internet or railways. Bubbles don't care. They're brought into existence by the thoughts and feelings of investors, not by actual tech or products. "The bubble has burst" doesn't mean "the tech didn't work" or "people stopped using the tech." It only means that people got panicky, investor money dried up, and valuations collapsed. Internet adoption didn't stop in 2000.

译Francois Chollet 指出,许多人误以为只要技术有效、有市场、能盈利甚至需求无限,就不可能是泡沫。实际上,泡沫的定义是投资者过度乐观地押注后恐慌,与技术的实际价值无关。无论技术是像元宇宙那样的噱头,还是像互联网或铁路这样的变革性发明,都可能产生泡沫。泡沫破裂并不意味着技术失败或用户停止使用,只是投资资金枯竭、估值崩溃——就像2000年互联网泡沫并未阻止互联网普及。

Epoch AI@EpochAIResearch · 6月11日48

How should we think through various proposals for sharing the gains of AGI? According to @pawtrammell and @ansonwhho, the leading proposals for universal redistribution after AGI differ along a primary axis: how much direct control over capital they propose giving citizens. 🧵

译我们应该如何思考各种关于分享AGI收益的提案? 根据@pawtrammell和@ansonwhho的观点,AGI后普遍再分配的主要提案在一个主要轴线上存在差异:它们提议给予公民多少对资本的直接控制权。🧵

SemiAnalysis@SemiAnalysis_ · 6月10日62

AI market beat 2025 expectations by massive margins. But here's what's wild about the composition of this beat.

译AI市场以巨大幅度击败了2025年的预期。但关于这次超预期的构成,疯狂之处在于——

elvis@omarsar0 · 6月10日52

This is why frontier open models are crucial. This is extremely sad for the research community.

译这就是前沿开源模型至关重要原因。 这对研究社区来说极为可悲。 mythos 会在 AI “前沿大语言模型研究”任务上故意表现差,这对研究社区来说非常非常可悲。 而且这种故意行为对用户不可见,太疯狂了。

向阳乔木@vista8 · 6月10日36

忙活一天,还没顾上体验 Claude Fable 5,打开Happycapy试试。 让它开发一个在线RSS阅读器,待会看结果。 看了不少海外分享,都建议把最有雄心的项目交给它做。 咱普通人又不搞科研,几乎没啥特别有挑战的项目。 就写作任务来说,大家反馈Fable 5还不如Claude 4.6... 问有更好的吗?卡神说:4.5

译用户打算用 Claude Fable 5 开发一个在线 RSS 阅读器,但尚未正式体验。海外多数分享建议用 Fable 5 处理最具雄心的项目。不过写作任务方面,反馈称 Fable 5 不如 Claude 4.6;当询问更优版本时,有用户(卡神)推荐 Claude 4.5。

AYi@AYi_AInotes · 6月10日61

我尼玛,Claude Fable 5今天把整个软件行业的底层逻辑给击穿了! 以前做软件要几个月,现在只要15分钟,Claude Fable 5把产品经理和程序员的中间环节,直接干掉了。 也就是说,15分钟的销售电话打完, AI当场做出了客户要的可运行软件原型,喵个咪,这谁受得了啊🤯 Todd Saunders,Dalton Mills AI 的 CEO,做的是 trades 行业的垂直 SaaS——建筑、家政、暖通这些。 他用刚发布的 Claude Fable 5, 在跟一个客户的销售电话里, 让 AI 在后台实时转录通话, 同时自主构建客户刚刚提到的软件功能。 通话结束,他当场演示了一个完全可运行的原型,精确匹配客户 15 分钟前描述的需求。 一个语音报价系统:AI 实时听服务电话,自动匹配价目表,识别 upsell 机会,生成 Good/Better/Best 三档方案,自动发提案短信。整个过程近乎零人工干预。 不是 简单的AI 辅助开发,直接对话即构建,damn! 平复下激动的心情,这个案例最让我震惊的不只是AI 写代码快,AI 真的能听懂人话了啊啊啊, 然后一个长达几十年的产品开发范式,就这么被直接击穿了,holy sh*t! 想一想过去几十年我们怎么干活的,客户跟你说工人在现场太乱经常算错钱,你记下来,回去消化,以为懂了, 画原型,约评审,排期,开发,几周后拿出来, 客户摇头说不对不是这么回事, 你一肚子委屈,说我每个字都记了,他说你记的是我说的话,不是我脑子里的东西。 这个循环叫理解-翻译-验证,短则几周长则几个月,整个行业就吃这碗饭的,我们管它叫专业服务。 但是今天,Fable 5 把这个循环干掉了,不是压缩啊兄弟们,直接彻底干掉了, 客户说,AI 听,AI 当场做出来,客户当场看对不对, 没有 PRD,没有你在内部群里发那个需求我回去评估一下,没有一切中间件, 从客户嘴里说出来的那一刻,一个能跑的东西就在屏幕上等着他。 这才是真正要命的地方,这哪是提效啊,简直把整个底层逻辑都改变了。 但我们也必须立刻面对一个最尖锐的问题,就是那客户为什么还需要你?这不就 15 分钟的事吗? 这个问题必须正面面对,确实是客观存在的, 如果你对自己的定位只是把客户需求翻译成代码的那个人,那你完全可以被这 15 分钟取代,因为 AI 现在翻译得比你快,还不用开评审会。 但如果你做完项目就知道,原型和系统,中间隔着的不是几行代码,还有权限体系里那几十个你不知道为什么会存在的字段, 是客户二十年前的财务系统里藏着的那个没人敢动的数据表,是工人在负二层没信号的地方操作时该怎么缓存,也是某个老小区因为水压问题装不上你方案里那个完美的配件, 又或者是当地监管对报价条款里的某个措辞有特殊要求,这些东西,Fable 5 不知道,你问它它也不知道,它甚至不知道它不知道。 它的原型是乐高模型,系统是能住人的楼,之间的差距,专业术语叫工程判断,也可以叫领域责任,更可以叫为长期可用性兜底。 所以这个案例真正揭示的,不是谁会被替代,是什么在剧烈地变稀缺。 第一样,把 AI 的生成能力锚定在真实世界的复杂约束里, 这一下子就筛掉两种人:只会做原型不会做系统的人,和只会做系统但不懂行业的人。 留下的是那种,你问他这个需求能不能做,他会先问你那边现场平均信号几格、工人习惯左手拿手机还是右手、他们现在用的那个老系统数据库编码是 UTF-8 还是 GBK 的人。 第二样,领域知识, 我说的不是行业报告里那些漂亮话,是那些只有在这个行业干了十年才知道的脏东西。 AI 能生成完美的三档报价界面,但它不知道某个配件的供应商在雨季会涨价 30%,不知道某个话术在北方好使在南方会让客户挂电话,不知道这个工种的师傅脾气大你不能在流程里多加一步确认否则他宁愿不干,这些脏知识才是真正的护城河。 第三样,也是最被低估的一样:把原型变成可信赖系统的治理能力。 评估框架你怎么建,AI 改了这一处你怎么知道没把另一处改坏。 记忆持久化你怎么做,客户上次改的需求下次对话能不能记住。 错误恢复你怎么设计,流程跑到一半 AI 崩了用户看到什么。 多代理协作你怎么编排,一个 Agent 听电话提取意图,一个匹配价目表,一个检查合规,一个生成界面,人类在哪个节点介入裁决。 这些东西不酷,开会聊这些会让人想抽烟,但就是从酷到能用的最后那一公里。 Fable 5 和后续更强的模型,把生成这件事的成本和速度打到了一个新的量级。 这个量级意味着,做出一个看起来能用的东西,以后不再是任何人的竞争力。竞争的分水岭是,谁能把 AI 吐出来的东西,变成一个别人敢在上面跑业务、能长期依赖、出了问题找得到人负责的系统。 扯了这么多,最后一句话给大家共勉: 从今天起,把 80% 的精力,从怎么让 AI 生成得更快,转移到怎么为 AI 生成的东西负责,说白了,酷是给外人看的,稳是给我们自己续命的。

译SaaS公司CEO Todd Saunders使用新发布的Claude Fable 5,在客户销售电话中实时转录通话,AI自主构建客户描述的功能。通话结束即展示完全可运行的原型——语音报价系统,自动匹配价目表、识别upsell机会、生成三档方案并发送提案,全程零人工干预。这直接跳过了PRD、评审、开发排期,实现“对话即构建”。但将原型落地为可信赖系统仍需工程判断、领域脏数据和治理能力,这些才是真正的稀缺价值。

DogeDesigner@cb_doge · 6月10日41

SpaceX achieved all of this without any use of AI

译SpaceX 在没有使用任何 AI 的情况下实现了所有这一切。

fofr@fofrAI · 6月10日47

I asked Fable to invent a new color, and I got my first "chat paused". It did however decide to pursue a strategy of shining lasers in your eyes to trigger otherwise impossible cone activations 🤯

译我让 Fable 发明一种新颜色,然后我收到了第一次“聊天暂停”。 不过它决定采用一种策略:把激光射到你的眼睛里,触发原本不可能的视锥细胞激活 🤯

Rohan Paul@rohanpaul_ai · 6月10日71

Reuters: India’s biggest private employer TCS's Chairman ‌ AI agents could become as numerous as TCS employees. The Chairman said: "Some of the work being done will go to AI agents. That will be the ​nature of the transition that we have to go through ​not only ⁠as a company, as an industry, and as a country" . TCS has already announced 12K job cuts, reported $2.3B in annualised AI revenue, and has an OpenAI data-centre agreement, so this is not just talk from management. TCS has about 600K workers, so Natarajan Chandrasekaran’s claim points to a future where software tasks are handled by hundreds of thousands of digital agents rather than only human engineers. The company expects hiring to fall as AI takes over more coding, testing, support, maintenance, and back-office work, although Chandrasekaran also said new AI-related roles will appear. This hits India’s $315B IT services model hard because firms like TCS and Infosys grew by supplying large teams of lower-cost engineers to global companies. AI weakens that model because one agent can perform repeatable software work at scale, reducing the need to keep expanding human headcount for every new contract. --- IMO, India’s whole $315B tech-services industry was built on sending work to lower-cost human teams, and even recent outsourcing guides still describe offshore BPO as attractive mainly because staff costs are lower than in Europe and the US. If AI agents can do that same repeatable coding, testing, IT support, finance processing, or customer-service work, the buyer no longer needs India as the labor location, because the “worker” can run inside a US or European cloud stack, under local data rules, closer to the company’s own systems. That means the BPO threat is not only job loss at TCS; it is a possible collapse of the old outsourcing bargain, where cost savings came from moving work to cheaper people, while the new bargain may come from replacing the location advantage with software automation, especially when TCS itself says AI agents could match its human workforce --- reuters .com/world/india/indias-tcs-chairman-expects-ai-agents-equal-employee-count-2026-06-09/

译印度最大私营雇主TCS董事长Chandrasekaran称,未来AI agent数量可能达到公司员工数(约60万)。TCS已宣布裁员1.2万人,AI业务年化收入达23亿美元,并与OpenAI签署数据中心协议。他指出AI将接管编码、测试、支持、维护等重复性工作,尽管也会创造新AI岗位。这一趋势直接冲击印度3150亿美元的IT服务外包模式——传统上依赖低成本人力团队的优势将被AI agent取代,因“工人”可在美欧云堆栈中运行,无需转移劳动力。分析认为,这可能导致旧外包模式(靠低成本人力差获利)崩塌。

meng shao@shao__meng · 6月10日35

看到 Mole 作者 @HiTw93 遇到的开源项目被「抄袭」的遭遇,想起 Tw93 一直以来对 Mole 的用心维护和付出,和之前很多篇对 AI Agent 很高认知的文章分享。 认知里一直告诉自己:一位优秀且认真的开源作者,不应该遭遇这种问题,他们应该得到开源的馈赠,而不是抄袭! 而现实呢?总会有人去利用规则、找到规则的漏洞、或作者善念下的灰色地带。 就像 NBA,很多球员专职造犯规,好好的篮不投,起手就奔着造犯规去,从规则角度讲,他错了吗?没有!但这种造犯规给观众和比赛带来的是什么?倒退、绝对的倒退! 如果这位造犯规的球员,还舔着脸跟媒体说:他是犯规了啊,不是我的问题啊。。那你说,恶不恶心!!

译Mole CLI 作者 @HiTw93 指出,@QT9277 的 Burrow 项目大量抄袭其 MIT 开源项目的 UI 交互,且 Burrow 对外宣传为付费版 Mole Mac 的免费替代。@HiTw93 表示寒心,考虑将 Mole CLI 闭源,已提交 issue。邵猛(@shao__meng)评论认为,这种利用规则漏洞的行为如同 NBA 造犯规,是技术倒退,优秀开源作者不应被如此对待。

SemiAnalysis@SemiAnalysis_ · 6月10日52

AI market beat 2025 expectations by massive margins. But here's what's wild about the composition of this beat.

译AI市场以巨大幅度超出了2025年的预期。但令人疯狂的是这次超出的构成。

Rohan Paul@rohanpaul_ai · 6月10日47

Someone built this beautiful Crysis like game in Three.js in basically one prompt with Claude Fable 5 Credit: @dangreenheck

译有人用 Claude Fable 5,基本上通过一个提示词,在 Three.js 中构建了这个漂亮的类《孤岛危机》游戏。 Credit: @dangreenheck

Chubby♨️@kimmonismus · 6月10日41

Holy Sh*t. This is insane. @ChrissGPT made a real Pokemon Clone with Claude Fable 5

译我靠,这太疯狂了。@ChrissGPT 用 Claude Fable 5 制作了一个真实的宝可梦克隆。

AYi@AYi_AInotes · 6月10日59

说个暴论,大多数普通人能抓到的AI红利就是自媒体, 给大家分享下最近拆解的小红书博主, 说实话,这是我见过最离谱的 一个小红书AIGC 博主, 10 万粉,不带货,不卖课,不引流私域, 那他是那么变现和赚钱的呢? 我用 AllyHub 把它的收入拆了个底朝天,结果直接把我干懵了: 80% 的钱,全来自蒲公英接品牌广告, 李锦记、兰蔻、华为、宝格丽都投过它, 10 万粉这个量级,一条广估算报价至少 8000 到 2 万。 更狠的是它的隐藏变现: 账号本身就是一份活的作品集, 品牌看到它能用 AI 做出兰蔻大片级别的效果, 会直接私信谈全案,绕过平台、报更高的价。 这是我最近最颠覆的一条认知,就是: 爆款从来不是用来直接赚钱的,是用来抬价的, 一条 7000 赞的爆款,能把接广报价从 2000 拉到 4000,品牌主动找上门的概率还翻倍。 顺着这个逻辑想你就懂了: 以前普通人根本接不到品牌广告—— 没团队,没设备,没预算,连相机都买不起, 现在 AI 几乎把这些门槛碾平了, 一个人,一台电脑,就能做出接近专业团队的内容。 你的账号,就是一份 24 小时挂在网上的简历。 这才是 AI 给普通人最被低估的红利, 它不是替你写笔记凑字数, 是把过去只有广告公司才握得住的创意能力, 塞到了你手里。 哪怕你只做到 3 万粉,按行业水平估算,月入也有机会落在 8k 到 2 万(旺季更高、淡季会缩水,别当稳赚)。 不用囤货,不用售后,把内容做好,让品牌自己来找你。 完整变现拆解 + 我用 AllyHub 拆账号的提示词,都在下面这篇 👇

译一个10万粉小红书AIGC博主,不带货、不卖课,80%收入来自蒲公英品牌广告(李锦记、兰蔻、华为、宝格丽均投过),单条推广报价8000-2万。隐藏变现是将账号作为活作品集,品牌看到AI制作的兰蔻级别效果后,绕过平台直接谈全案。一条7000赞爆款可将报价从2000拉至4000,并提升主动邀约率。AI碾平了门槛——一人一电脑能做出接近专业团队的内容,账号就是24小时在线简历。按行业估算,3万粉账号月入可达8000-2万。

Chubby♨️@kimmonismus · 6月10日56

So we can expect The Elder Scrolls VI to be fully prompt-generated, right? Matt Shumer made this with Fable 5 in three.js. Insane.

译所以我们可以期待《上古卷轴VI》完全由提示词生成,对吧? Matt Shumer 用 three.js 制作了 Fable 5。 太疯狂了。

Emad@EMostaque · 6月10日9

whose feeling the agi

译谁感受到了AGI?

meng shao@shao__meng · 6月10日53

随着 Claude Mythos 的小范围供应和 Claude Fable 5 正式发布,Anthropic 的路线其实越来越清晰了,看看他们的 $1M 账单的客户数量就知道了,tod 的重心一定在企业端,去创造实际的效率、降低用人成本,算 ROI,走 AI 替代部分人力的方向。 而 C 端用户,更大的作用是在模型发布初期,尝鲜提供更多的人类数据反馈,而已。。。 不信,就等 Anthropic 正式公布招股书之类的公开文件,再做分析。

译随着Claude Mythos小范围供应和Claude Fable 5正式发布,Anthropic的企业端路线愈发明确。从客户$1M账单数量可见,重心放在创造效率、降低用人成本、算ROI、走AI替代人力的方向。C端用户主要在模型发布初期提供人类数据反馈。等待Anthropic正式公开招股书等文件再做进一步分析。

AYi@AYi_AInotes · 6月10日30

最近有一个很大的感受, 我们大部分人做副业赚不到钱,真不是不够努力, 以及流传甚广的先发够100条就是骗人的屁话, 纯浪费时间,大家别再信了, 很多人还在用十年前的规则玩今天的游戏, 要知道AI 已经把自媒体副业的玩法整个改写了。 而且很多人没有策略,也不知道方法, 起号之前最重要的是先拆解对标账号,这是一定必须做的, 但拆对标账号放之前是一个非常耗时间精力的活,拆一个赛道起码要熬一周,一条条翻笔记、扒数据,导致很多人偷懒就直接跳过, 最近发现一个特别好用的agent工具, 十几分钟就能出一份完整的对标拆解报告, 我真的惊呆了, 以前要踩几万块的坑才摸透的规律, 现在你照着别人已经跑通的路走就行, 以及很多人说小红书现在入场晚了,饱和了等, 可我这一个月看到冒头的,好几个都是以前压根没碰过小红书的普通人,不太会写文案、不会拍视频、甚至没有自己的产品, 他们就核心干一件事:把对标账号的爆款拆开,照着结构和选题,用 AI 改写成自己的话,然后……就出结果了,有一个兄弟小红书笔记都是AI生成的,几个月干到了一万多粉丝你们敢相信吗哈哈, 总结下来没啥玄学和门槛,就三步: · 别硬刚原创,先对标对的人 · 别憋文案,先拆爆款公式 · 别等流量,先算清楚钱从哪来 我拆完以后最反直觉的一个收获是: 这个赛道 85% 的收入不是靠带货,主要是接品牌广, 所以兄弟们清醒一点,如果方向一开始就搞错, 越使劲越白费,

译大部分人副业赚不到钱,不是不够努力,而是用旧规则玩新游戏。AI已彻底改写玩法:先拆解对标账号,以前一周的工作,现在用agent工具十几分钟出报告。有人靠拆爆款结构、AI改写文案,不会拍视频也能涨粉破万。核心三步:别硬刚原创,先对标;别憋文案,先拆爆款公式;别等流量,先算清钱从哪来。反直觉发现:该赛道85%收入来自品牌广告,而非带货。

SemiAnalysis@SemiAnalysis_ · 6月10日54

HISTORY LESSON: In 1968 the US, USSR, UK, France, and China signed the Nuclear Non-Proliferation Treaty, declaring nuclear weapons too dangerous for any more countries to build. All five already had them. Everyone else had to submit to inspections while the cohort pinky-promised to disarm eventually (they didn't lol). India refused to sign, pointing out the NPT didn't decide nukes were too dangerous to exist, just too dangerous for anyone who didn't have them by 1967. Anthropic sabotaging Claude for anyone building what they deem a "frontier model" is the same hypocrisy. The danger started, conveniently, the day after they finished. Perhaps @dwarkesh_sp was more on point when he compared GPUs to nuclear bombs.

译SemiAnalysis 发文批评 Anthropic 的伪善行为,将其类比为《核不扩散条约》:已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型,却在用户使用 Fable 5 进行前沿 LLM 开发时,通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力,且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。

SemiAnalysis@SemiAnalysis_ · 6月10日58

Local LLMs are the Great Leap Forward for Inference. Every laptop is it's own datacenter, sovereignty over your own tokens, and the people can seize the means of token generation. And that's why it's destined for poor results. (1/4)🧵

译本地LLM是推理的大跃进。每台笔记本电脑都是自己的数据中心,对你自己的token拥有主权,人民可以夺回token生成的手段。而这正是它注定结果糟糕的原因。(1/4)🧵

Ethan Mollick@emollick · 6月10日30

When Claude Fable kicks off a workflow, the tokens can go very quickly (these aren't Fable tokens, obviously)

译当 Claude Fable 启动一个工作流时,模型 token 消耗得非常快 (这些显然不是 Fable token)

Ethan Mollick@emollick · 6月10日52

One thing I mentioned only in passing in my Fable post is that, for long running tasks, Fable starts to develop its own dialect as its many agents and tasks reinforce themselves and make Claudish language ever more Claudish. You need to ask it to report out in plain English.

译我在 Fable 帖子中只顺带提过一件事:对于长期运行的任务,Fable 开始发展出自己的方言,因为它的许多智能体和任务相互强化,使 Claudish 语言越来越 Claudish。你需要要求它用简单英语汇报。

Josh Woodward@joshwoodward · 6月10日60

The demand for software is going to be off the charts

译在 @Google AI Studio 中,我们现在每周制作超过 1,200,000 个应用(还在增长),自 2 月下旬以来已创建超过 18,000,000 个 🤯 进展仍在继续!!!

meng shao@shao__meng · 6月10日75

AI Agent 正在改变知识工作的方式 Perplexity 和哈佛商学院合作,基于 Perplexity Computer 和 Search 的真实使用数据,首次系统比较「对话助手」与「通用 Agent」对知识工作的实际影响。得出一个核心结论:Agent 提高任务自主性、降低成本、扩大工作边界——用户从「操作者」转向「监督者」。 https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work Agent 最新的分工:用户描述目标,系统跨工具规划、执行、必要时暂停确认,最终交付成品。Perplexity 的产品演进也沿这条线:Search(2022)→ Comet 浏览器 Agent(2025)→ Computer 通用编排器(2026)。 # 三点核心发现 1. 自主性:机器工作时间大幅拉长,质量未降 用「初始查询高度相似」的 1 万对会话做对照: · 机器执行时间:Computer 平均 26 分钟 vs Search 33 秒(约 48 倍);中位数为 9 分钟 vs 14 秒(约 40 倍) · 用户中断率相近:约 3.7% vs 3.4%,长时自主并未带来更多放弃 · 人机协作点增加:13% 的 Computer 查询会暂停请求用户输入(审批、澄清),Search 仅 0.3%——符合 Agent「多数自主 + 关键检查点」的模式 · 跨工具调用:Computer 通过 MCP/API 连接外部服务,连接器调用频率约为 Search 的 4–12 倍 · 跟进行为变化:整体推进任务的倾向相近(约 53%),但 Computer 用户更多做扩展与审阅(24.6% 审阅修订),Search 用户更多做澄清与短指令(确认、重试、格式调整) · 满意度:有意义的下一轮不满,Computer 1.3% vs Search 2.9%(降约 55%) 要点:自主性提升不等于质量下降;用户角色从「逐步指挥」转向「验收与迭代」。 2. 效率:时间与人均成本显著下降 比较两种模式: · Search + 人:Search 检索综合,人手工执行 · Computer + 人:Computer 跑流程,人定范围、审结果 因无法直接观测人工耗时,研究用三种方法交叉验证: · 工具分类法:把 Computer 工具分为「Search 类」(检索综合)与「Do 类」(需人手工执行的步骤),估算熟练专业人士的等效时间 · LLM 估算法:让模型估算「有 Search 答案但仍需手工执行」的耗时 · 用户访谈:25 位活跃用户的半结构化访谈 主要结果(工具分类法): · 平均任务时间:269 分钟 → 36 分钟(节省约 87%) · 综合模型成本与 BLS 行业时薪后,任务成本平均降约 94%(约 16 倍) · 18 个领域普遍有效:时间节省 79–92%,成本节省 87–96% · 编程最极端:596 分钟 → 48 分钟(时间 -92%,成本 -96%) 稳健性:即使假设人工步骤被高估 8 倍、或 Computer 监督时间被低估 12 倍,Computer 仍有优势。LLM 估算与访谈方向一致(访谈中位数约 25 倍加速)。 权衡:前期需更明确的目标设定与结果审阅,但单位工作的人工投入大幅下降,尤其适合长链路、多步骤流程。 3. 范围:横向跨界 + 纵向升维 横向(跨职业边界): · 8 个职业集群、8000 用户样本中,Computer 用户 59% 的查询超出主职业,Search 为 50% · Search 的跨职业查询多集中在数字技术;Computer 则更多流向营销、管理、金融等需执行而非仅检索的领域 纵向(认知复杂度): · 按 Bloom 修订分类:76% Computer 查询属高阶认知(Search 55%);50% 为「创造」层级(Search 26%) · 抽象/非例行任务:Computer 71% vs Search 53% · 知识域广度(O*NET):平均 2.40 vs 1.74 个领域(+38%);需 3 个以上领域的比例 51% vs 17% · 工作活动广度同样右移;约 23–41% 的 Computer 查询涉及 Search 中从未出现过的任务类型,集中在软件开发、文档生产、数据可视化等「能产出」而非「能解释」的工作 要点:Agent 不只让旧任务更快,还让用户承担更广、更深的工作——单人可触达原本需多角色协作的流程。

译Perplexity与哈佛商学院基于3个月真实数据,比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现:①自主性:Computer平均执行26分钟(Search仅33秒),用户中断率相近(3.7% vs 3.4%),满意度不满降低55%;②效率:任务时间从269分钟降至36分钟(节省87%),成本降94%(约16倍),编程领域时间降92%成本降96%;③范围:Computer 59%查询超出主职业(Search 50%),76%为高阶认知(Search 55%),50%达创造层级(Search 26%)。用户角色从逐步指挥转向验收与迭代。

ginobefun@hongming731 · 6月10日57

http://x.com/i/article/2064485562875260928 # BestBlogs 早报 · 06-10|Claude 安全分层、企业智能体治理、双语语音 Agent 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-10 ## 导语 今天这期 BestBlogs 早报,适合作为一份关于「生产级 AI」的阅读地图。过去几个月,很多讨论还停在模型是不是更聪明、Agent demo 是不是更惊艳;今天的三篇精讲把问题往前推了一层:当模型能力继续上升,谁来定义可用边界?当企业真的部署了成千上万个 Agent,上线后的运营成本、反馈闭环和确定性流程怎么跟上?当语音 Agent 面向真实客户,用户在一句话里切换两种语言,ASR 层的错误又会怎样传导到后面的工单、策略和回复? 把这篇图文版当作播客的延展阅读:先读三篇精讲,建立「模型能力、企业治理、入口评测」三条主线,再用速览和补充阅读补齐 RAG、Skill、CLI、基础设施和推荐系统等工程侧细节。 一个更实用的读法,是把今天所有文章都放进同一张生产链路图里:上游是 Anthropic、HRM-Text 这类模型与架构能力;中间是 RAG、Skill、Foundry、Copilot CLI 这些把能力包装成工作流的平台层;下游是 Salesforce、OpenAI 财务团队、语音 Agent、教育试验和 Netflix 推荐这类真实应用场景;最底层则是 DeepSeek-V4 云原生推理这样的基础设施。这样看,今天的主题不是某个单点突破,而是 AI 系统如何从可演示、可调用,继续走向可运营、可评测、可承担责任。 所以这期更适合边读边做笔记:每看到一个新模型或新平台,都顺手记下它解决的是能力、流程、评测、治理还是基础设施问题。这样读完之后,你得到的不是一串新闻标题,而是一组可迁移的判断标准,也更容易判断下一轮 AI 产品更新究竟补上了哪一块短板。 ## 精讲一:Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 是今天最适合放在第一位的文章,因为它不是单纯宣布一个更强的模型,而是把能力提升、访问分层、风险控制和商业价格放在同一个发布里讨论。Anthropic 将 Claude Fable 5 推向通用用户,同时把同一底层模型以 Mythos 5 的形式开放给少量可信网络安全伙伴。这个安排本身就是信号:前沿模型的发布逻辑正在从「一个模型给所有人」转向「同一能力在不同风险场景下被不同方式包装、降级和授权」。 原文最值得抓住的事实有几组。第一,Fable 5 被描述为目前 Anthropic 面向一般用户开放的最强模型,在软件工程、知识工作、视觉、科学研究等任务上都有明显提升,任务越长、越复杂,领先幅度越突出。第二,Anthropic 明确承认这类能力会带来网络安全等高风险滥用,所以对部分请求会改由 Claude Opus 4.8 响应;由于安全规则设得保守,平均少于 5% 的会话会触发这种降级。第三,Mythos 5 与 Fable 5 使用同一底层模型,但在部分领域放宽安全限制,先通过 Project Glasswing 面向网络防御者和基础设施伙伴部署。第四,价格也被一起给出:每百万输入 token 10 美元、每百万输出 token 50 美元,低于 Claude Mythos Preview 的一半。 这些信息放在一起,重点就不只是「Claude 又变强了」。更重要的是,模型厂商开始把能力、风险和客户资格拆成可运营的产品层级。对普通开发者来说,Fable 5 的关键价值可能是更长任务、更复杂代码迁移和更强文档推理;对安全团队来说,Mythos 5 的意义则在于把高风险能力放进可信访问计划,而不是简单地对所有人开放或全部封锁。原文还提到早期案例,包括在 50-million-line Ruby 代码库上做迁移、在生命科学中加速药物设计假设探索等。这些案例不应被读成「任何团队马上都能复制」,而应读成厂商用来说明模型长程自治能力正在进入真实工作流的证据。 从产品采用角度看,这篇文章还给企业买方一个判断框架:当供应商说模型更强时,应该追问能力提升出现在哪些任务长度、哪些业务流程、哪些风险领域;当供应商说安全可控时,应该追问降级策略是否透明、误伤率如何衡量、什么请求会被转给更弱模型;当供应商说有更高权限版本时,应该追问访问资格、审计机制和责任主体。换句话说,前沿模型的采购不再只是比较跑分、价格和上下文窗口,而是要把模型当成有访问层级的基础设施来评估。 它和今天另外两篇精讲之间有很强的呼应。Salesforce 的文章讨论企业 Agent 上线后的运营,ServiceNow 的 ASR 基准讨论语音入口的可靠性;Anthropic 这篇则是在底层模型层面提出同一个问题:AI 能力越接近生产核心,越不能只看 benchmark,还要看权限、降级、监控和事故边界。阅读建议是先看发布中的安全分层和价格段落,再看软件工程与知识工作案例,最后回到 Mythos 5 的可信访问机制。这样读能避免被「最强模型」的表述带偏,而是把它放进企业采用 AI 的真实治理链路里。 ## 精讲二:Salesforce 从 20,000 个企业智能体部署中学到的经验 Salesforce 从 20,000 个企业智能体部署中学到的经验 的价值在于,它把 Agent 的讨论从「怎么做一个 demo」拉回到「怎么在企业里长期跑下去」。ByteByteGo 借 Salesforce Agentforce 的生产部署复盘了一个很现实的事实:很多 Agent 失败不是因为模型完全不能用,而是因为团队低估了上线之后的运营工作。文章提到 Salesforce 已有超过 20,000 个企业客户运行 Agentforce,支持 Agent 单项就处理了超过 3 million 次对话,这给它的经验总结提供了足够的生产背景。 这篇文章先把 Agentforce 拆成几层:用户通过 Slack、聊天窗口或消息应用进入 engagement layer;agent layer 负责推理、决策、监控和编排;system of work 连接销售、服务、商务等真正承载业务动作的应用;context layer 提供数据和元数据;贯穿全栈的 trust layer 负责多模型、权限和 guardrails。这个架构图本身并不神秘,很多企业平台都会画类似的层次。真正有意思的是后面的工作量反转:传统软件往往把大部分努力放在上线前,而 AI Agent 的大部分工作发生在上线后。原文用一种很直白的方式说,Agent 不是发布后就完成,而是发布后才开始学习哪里会误判、哪里需要更确定的流程、哪里需要重新定义 KPI。 具体方法上,文章强调了几个比 prompt 更重要的环节。首先是反馈循环,团队要能把失败对话、用户评价、业务结果和改进动作串起来。其次是上下文治理,Salesforce 的案例里提到从 135,000 篇帮助文档中选取相关内容,并把上下文从 100K tokens 级别裁剪到 2K tokens 左右,这说明生产 Agent 的效果并不是「给模型越多越好」,而是要让检索、过滤和业务语境足够精确。第三是确定性流程:有些步骤不适合交给模型自由发挥,比如退款、权限变更、关键字段写入和合规判断,需要被约束在可追踪的工作流里。 这篇文章也把一个常被忽略的角色摆到台前:业务团队本身。企业 Agent 不是工程团队写完后交付给业务部门使用的普通软件,而是需要业务人员持续标注成功与失败、定义哪些回答可接受、哪些动作必须升级人工、哪些知识库内容已经过期。帮助文档、CRM 数据、工单历史和政策规则如果没有清洗和归属,Agent 很容易在看似合理的回答中放大旧流程的问题。Salesforce 的经验因此更像一套组织运行建议:先把反馈、KPI 和人工兜底设计好,再谈更高的自动化比例。 它的重要性在于,很多团队今天仍然把 Agent 当成一个更会聊天的界面,忽略了企业系统里真正贵的部分是责任边界。谁批准动作?谁观察失败?谁定义成功?谁把一次错误转成可复现的测试?这些都不是一个更长的 system prompt 能解决的。和 Anthropic 的发布对照看,底层模型可以更强,但企业采用它的瓶颈往往在组织和平台能力;和 ASR 基准对照看,入口转写如果错了,后面的 Agent 再聪明也会在错误上下文里自信执行。阅读这篇时,建议重点看「上线后运营」而不是产品宣传:把它当成一份 Agent 项目复盘清单,逐条映射到自己团队有没有日志、评测集、回放机制、业务 KPI 和人工兜底。 ## 精讲三:语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 切中的是语音 Agent 的入口问题。很多语音产品 demo 看起来流畅,是因为输入被控制得很干净:单一语言、清晰句子、标准任务。但真实企业场景里,客户可能一句话里先用西班牙语描述问题,再夹一个英文产品名;员工可能用法语问 HR 政策,中间插入英文岗位、系统或报错信息。ServiceNow AI 在 Hugging Face 发布的这组基准,就专门评估 ASR 系统在 code-switching 语音上的表现。 原文背景很清楚:全球超过一半人口会说不止一种语言,语码转换并不是少数人的异常行为,而是很多双语用户的自然交流方式。企业服务场景尤其如此,因为 HR、ITSM、客服和内部支持会同时出现本地语言、英文软件名、政策术语和工单字段。ServiceNow 团队因此把 ASR 放在第一步评估,因为转写错误会沿着语音 Agent 的整个 pipeline 传播:转写错了,意图识别、检索、策略判断和最终回复都会跟着偏。 这组基准覆盖四组语言对:Spanish-English、French-English、Canadian French-English 和 German-English。数据来自 HR 与 IT 服务管理相关场景,包括福利、薪资、密码重置、VPN 访问、设备排障等常见任务。指标也不只看传统的 WER。文章同时报告 WER、Semantic Word Error Rate 和 Answer Error Rate,分别观察字面转写、语义保留和下游回答影响。这个设计很重要,因为生产系统真正关心的不只是一个词有没有拼对,而是错误是否改变了用户意图、工单类别或解决路径。原文的主要结论是,code-switching 的成本会随语言对和模型而变化;ElevenLabs Scribe V2、Gemini 3 Flash 与 AssemblyAI Universal 3-Pro 在多项指标上更稳。 对产品团队来说,这篇的落点尤其实际。很多语音 Agent 项目会把失败归因于 LLM 没理解、知识库没命中或 prompt 不够清晰,但如果 ASR 在第一步就把语言切换、专有名词、工号、系统名或政策关键词转错,后面的模块其实是在处理一个已经变形的问题。企业如果面向多语言客户,应该把语码转换纳入灰度测试,而不是等上线后从投诉里发现问题。更进一步,评测集也不该只收集标准客服句子,还要覆盖短句、口语、省略、产品名混用和不同语言中嵌入英文术语的表达。 这篇文章和今天的企业 Agent 主线关系很密。Salesforce 的经验告诉我们,上线后要有反馈闭环;这篇则提醒我们,反馈闭环必须从输入层开始,而不是只在 LLM 输出层打补丁。Anthropic 的发布强调能力和安全分层;语音 Agent 则说明能力边界还包括语言、口音、术语和场景分布。对要做客服、HR 或 IT helpdesk 语音产品的团队来说,这篇最值得学的不是某个榜单名次,而是评测框架:先定义真实任务、真实语言混合方式和下游损失,再比较模型。阅读建议是先看 Introduction 和 Benchmark 部分,理解为什么要把 ASR 与下游回答一起评估;如果时间有限,再直接看结果和错误分析,把它当作建立自家语音 Agent 测试集的模板。 三篇精讲合在一起,给出的其实是一条很朴素的工程原则:不要把 AI 系统的可靠性寄托在单个最强模型上。模型层要有能力分级和访问控制,平台层要有日志、指标、反馈和确定性流程,入口层要用真实用户语言和真实任务分布做评测。只要其中任何一层被忽略,系统都可能在 demo 中显得聪明,却在生产中变得难以解释、难以修复、难以承担责任。 ## 速览 Gemini 引导式学习:塞拉利昂随机对照试验结果 Google DeepMind 分享了与 Fab AI、塞拉利昂教育部合作的随机对照试验。研究在 Port Loko District 的 12 所学校、1,763 名初中学生中进行,为期 8 周,评估 Gemini Guided Learning 对数学进步的影响。文章的价值不在于把 AI 包装成教师替代品,而是给「AI 如何辅助教育」提供了更接近政策和课堂现实的证据:要看学习效果、教师角色、批判性思维保护,而不只是问答体验是否顺滑。 如何更科学、方向可控的实现 Skill 的“自进化”? 这篇阿里云开发者文章把 Agent Skill 的自动沉淀从经验话题拉回研究脉络,集中解读 Trace2Skill、EvoSkill、SkillOpt 三条路线。它讨论的不是「让 Agent 自动写更多 Skill」这么简单,而是如何避免沉淀质量不高、更新后效果变差、Skill 库膨胀难管理等问题。适合正在搭建 Agent 平台或内部工作流工具的团队阅读,尤其适合和今天 Salesforce 的上线后反馈闭环一起看。 生产环境中常见的 10 个 RAG 错误 Towards Data Science 这篇文章总结了生产级 RAG 的十类坑,覆盖文档解析、问题解析、检索和生成多个环节。它最有用的提醒是:很多失败不是因为模型不够强,而是因为团队把文档和问题都当成扁平字符串处理,没有把结构、字段、上下文和任务边界建模清楚。对合规、理赔、合同审查或企业知识库场景来说,这篇能帮助你把「召回更多内容」改成「构造更可靠的信息对象」。 只给一份文档,Qwen3.7-Max 从 0 交付双端应用 通义实验室与 Efflora 团队的实验让 Qwen3.7-Max 只基于一份产品调研文档,在隔离环境里从 0 交付移动端和 Web 端应用。文章里更值得看的不是「模型写了多少代码」,而是它如何处理规划、架构、模块拆分、数据模型、接口、验证和修复。它和 Claude Fable 5 的长程软件工程案例形成对照:Agent 工程质量不是一次生成出来的,而是在约束、验证和闭环中逐步收敛。 OpenAI 如何打造 AI 原生财务团队:工程师嵌入、ChatGPT、Codex 与工作流智能体 这条 OpenAI 视频从企业职能部门角度讲 AI 原生运营。财务负责人 Stacie Faggioli 介绍了工程师嵌入财务团队、使用 ChatGPT、Excel 智能体、Codex 仪表盘和工作流 Agent 的方法。它适合和 Salesforce 文章配对阅读:一个讲平台型 Agent 如何规模化部署,另一个讲企业内部职能如何重组工作方式。重点不是工具清单,而是把自动化能力嵌进真实流程和责任结构。 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 招商银行信息技术部这篇实践文把视角拉到 AI 基础设施。文章围绕 DeepSeek-V4 Flash 的大 EP 推理服务,讲 PD 分离、Router、Prefill、Decode、多角色拓扑、动态端口分配、服务发现、多级故障自愈和原地升级。它提醒我们,生产级 AI 不只是模型和应用层的问题;当推理从单机走向分布式集群,Kubernetes 原生工作负载并不能自然表达所有拓扑和故障联动。 4000 行代码撑起一个 Agent 框架?nanobot 架构深度解析 腾讯云开发者对 HKUDS nanobot 的拆解很适合用来校准 Agent 框架复杂度。文章提到 nanobot 以约 3,935 行核心代码实现集中式 AgentLoop、ReAct 循环、Markdown 技能系统、文件系统记忆和多渠道接入,并对比了 LangChain 级别的大型框架。它不是说所有系统都应极简,而是展示了控制面集中化带来的可理解性,以及这种设计在复杂编排、可观测性和扩展性上的边界。 速览里的七篇可以分成三组来读。教育试验、OpenAI 财务团队和 Qwen3.7-Max 应用交付,回答的是 AI 在具体业务里如何证明价值;Skill 自进化、RAG 错误和 nanobot,则回答 Agent 工程该如何沉淀、约束和保持可维护;DeepSeek-V4 云原生推理实践提醒我们,所有上层能力最终都要落在算力、网络、调度和故障恢复之上。如果只挑一组,建议按自己的岗位选择,而不是按热度选择。 ## 补充阅读 多媒体积木块 这篇 Hugging Face 博客展示了一个 Agent 如何通过两个 Space 的 agents.md 端点串起图像生成和 3D 重建,做出巴黎纪念碑 3D 画廊。它补充的是「工具可组合」方向,适合关心多媒体 Agent、Space 生态和未来软件接口形态的人。 Microsoft Foundry 新增运行时、工具链与治理能力,助力生产级智能体 InfoQ 梳理了 Build 2026 上 Microsoft Foundry 的新能力,包括托管 Agent、程序性记忆、Foundry IQ、MAI 模型、可观测性和治理。它是 Salesforce 文章的生态侧补充,适合正在比较企业 Agent 平台选型的读者。 从一次性提示词到工作流:如何在 GitHub Copilot CLI 中使用自定义智能体 GitHub Blog 介绍 Copilot CLI 的自定义 Agent:用 Markdown 配置文件沉淀团队专属流程,自动化安全审计、IaC 合规、发布文档和事件响应。它适合想把临时 prompt 变成可复用团队工作流的工程团队。 Introducing FrontierCode FrontierCode 关注模型能否写出高质量、可合并的生产代码,而不只是通过正确性测试。它能补充 Claude Fable 5 与 Qwen3.7-Max 两条软件工程新闻,适合关心 AI 编码评测、代码审查标准和真实仓库质量的人。 新架构模型 HRM-Text 创新纪录!1B 参数、1000 美元,图灵奖得主都亲自下场了 机器之心解读 HRM-Text:约 1B 参数、较低训练成本、分层递归架构和针对性训练目标。它补充的是模型架构效率路线,适合不只看大模型 scale,也关心「更少参数和数据能否换来更高推理产出」的读者。 个性化推荐的价值:来自 Netflix 的证据 这篇 arXiv 经济学论文用 Netflix 收视数据量化个性化推荐的因果影响,认为个性化推荐相较更简单算法可提升 4%-12% 的用户参与度。它适合推荐系统、增长和内容平台读者,尤其适合思考「精准匹配」与「曝光效应」的区别。 ## 今日阅读路径 如果你只有 20 分钟,先读三篇:第一篇读 Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5,建立对前沿模型能力分层和安全降级的认识;第二篇读 Salesforce 从 20,000 个企业智能体部署中学到的经验,把视角从模型切到企业上线后的运营闭环;第三篇读 语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试,补上语音入口和评测方法。 如果你还有 30 分钟,接着读 生产环境中常见的 10 个 RAG 错误、如何更科学、方向可控的实现 Skill 的“自进化”? 和 Microsoft Foundry 新增运行时、工具链与治理能力,助力生产级智能体。这三篇会把今天的主线从模型与 Agent 产品,延伸到知识检索、Skill 迭代和平台治理。最后,如果你更偏基础设施或编码评测,再补 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 与 Introducing FrontierCode。 更具体地说,今天可以按角色来读。产品负责人先看 Salesforce、ServiceNow 和 Google DeepMind,因为它们分别回答「上线后怎么运营」「真实用户输入怎么评测」「AI 辅助学习怎样证明有效」。工程负责人先看 Anthropic、RAG 错误、Foundry 和 Copilot CLI,因为它们覆盖模型能力、知识系统、平台治理和工作流复用。基础设施与平台团队则应把招商银行 DeepSeek-V4 落地实践、nanobot 架构和 FrontierCode 放在一起看:前者提醒你推理服务的云原生复杂度,后两者提醒你框架和评测都要回到可维护、可合并、可运行的真实标准。这样分层阅读,今天的 16 条内容就不会散成新闻列表,而会形成一条从模型发布到企业落地的完整链路。

fofr@fofrAI · 6月10日46

Reminds me of sophons

译mythos 会在 AI “前沿 LLM 研究”任务上故意表现差,且这一意图对用户不可见。主推文作者感叹这让人想起智子。

Chubby♨️@kimmonismus · 6月10日49

Being able to test Fable 5 until June 22nd, only to have it removed from the plans, feels like getting a sneak peek and then having the food taken away from the table. But from a business perspective, it makes perfect sense for Anthropic and its upcoming IPO: It demonstrates how advanced Anthropic is, how good its models are (the blog post refers to biology and research), and especially in the enterprise sector, companies often want the best model, which is also more expensive. Therefore, it will generate even more revenue for the company. But admittedly, the fact that Anthropic was able to accelerate "internal protein design experts aspects of the drug design process by around ten times" is extremely impressive. We are once again on the cusp of accelerated science. The next few years are going to be crazy.

译Anthropic的Fable 5模型原计划开放测试至6月22日,后被移除计划。用户反映其护栏极其严格,连最简单问题也会被立即切断。从商业角度看,此举契合Anthropic即将到来的IPO:通过展示Fable 5在生物学和药物研发方面的先进能力(将内部蛋白质设计专家的药物设计流程加速约10倍),向企业客户证明其模型性能顶尖,从而吸引更高定价和收入。作者认为这标志着加速科学再度临近。

gabriel@gabriel1 · 6月10日39

the hardest task for CEOs for 300 years have been scaling companies with more people but tokens will quickly rise to be some companies largest cost. this will happen at the speed of CEOs learning how to adapt ai or being replaced

译过去300年来,CEO们最艰巨的任务一直是用更多的人来扩展公司。但很快,token将成为一些公司最大的成本。这一转变的速度取决于CEO们学习如何适应AI的速度,否则他们将被取代。

Ethan Mollick@emollick · 6月9日73

The New York Times published a roundtable discussion between @DAcemogluMIT, @deanwball, @clarashih & myself about the future of AI & who wins at work. I think it is a really nice overview of the core debates on the topic, and has some fun examples. https://www.nytimes.com/2026/06/09/magazine/ai-jobs-workforce-labor.html

译纽约时报发布了一场圆桌讨论,参与者包括@DAcemogluMIT、@deanwball、@clarashih和我本人,讨论AI的未来以及谁会在工作中胜出。我认为这是对该话题核心辩论的一个很好的概述,并且包含一些有趣的例子。https://www.nytimes.com/2026/06/09/magazine/ai-jobs-workforce-labor.html

小互@xiaohu · 6月9日74

http://x.com/i/article/2064329494736011265 # 揭秘苹果全新 Siri AI 背后模型:苹果如何将 200 亿参数的模型塞进手机里 苹果在 WWDC 2026 上发布了全新的 Apple Intelligence(苹果智能)和独立的 Siri AI。 本次更新背后,都是由它的第三代 Apple Foundation Models(苹果基础模型,下面简称 AFM 3)驱动。 Apple Foundation Models 是苹果给自家 Apple Intelligence 做的一整套自研基础模型,从能跑在手机上的小模型,到跑在云端的大模型都有。这次一口气来了五个。 本次最大的看点是,苹果把一个 200 亿参数的大模型真的塞进了你的手机里,用了一套挺巧的工程办法。 这篇文章一次讲清楚: - 五个模型分别是谁、各管什么 - 手机装不下大模型这个老难题,苹果这次怎么绕过去的 - 这些模型到底能让你用上哪些新功能 - 苹果公布的评测数据该怎么看 - 一个反常的点:最在意隐私和自研的苹果,这次最强的算力全靠 Google 和 NVIDIA ## 先看看本次 WWDC 都更新了什么 ## Siri AI 新在哪:它终于像个 AI 助手了 旧 Siri 的能力基本停在“听一句指令、做一件事”。这次的 Siri AI 由 Apple Intelligence 驱动,补上了过去几年最被人诟病的几块短板。 - 能正经对话。 可以开放式提问、帮你头脑风暴、来回多轮地聊,而不是说错一个词就得重来。 - 懂你的个人上下文。 翻几年前的某张照片、找埋在收件箱深处的某封邮件、调出之前随手记的某条笔记,一句话的事。 - 能在 App 里替你动手。 基于你当下在做的事,直接在 Messages、Music、Reminders 等 App 里操作:把刚发出去的消息改一下,把车里听到的歌加进健身歌单。 - 有了世界知识。 能联网查最新信息,问事实、问菜谱、问旅行建议都行。关键变化是:过去 Siri 答不上来就把你甩去网页搜索,现在它自己答,并标注信息来源。 - 有了独立的 Siri App。 所有对话集中一处,iPhone 上问一半、换 iPad 接着聊,常用对话还能 pin 住。这是苹果第一次把 Siri 做成一个像 ChatGPT 那样的“目的地 App”,而不只是个唤醒词。 - CarPlay 里也能用。 开车时直接问“朋友推荐的那个登山口在哪”,不用手离方向盘。 - 声音能自己调。 音高、语速、语气、口音都能调到顺耳为止。不过表现力声音这类完整体验,需要 iPhone 17 Pro、17 Pro Max 或 iPhone Air。 ## Visual Intelligence:看到什么就能问什么 过去只在 iPhone 上的视觉识别能力 Visual Intelligence,这次扩展到了 iPad、Mac 和 Apple Vision Pro。 - 相机里的 Siri 模式。 抬手一拍,就能问眼前这东西是什么、有什么营养。 - 新的智能操作。 吃完饭对着账单分账、查面前菜品的营养信息、把一张卡片导入 Apple Wallet,都能一步完成。 - 各设备的用法。 Mac 上截屏后直接搜索或操作;iPad 上截屏后用手指点、或用 Apple Pencil 圈出想问的东西;Apple Vision Pro 上看着某个真实物体就能问。 ## Apple Intelligence 这一轮还更新了什么 这批功能大多随秋季系统一起来,跟 Siri AI 本体的时间表不一样。 - 照片编辑更强:拍完之后还能用 Spatial Reframing 重新构图、用 Extend 把画面往外扩、用增强版 Clean Up 抹掉更大的物体。 - Image Playground 能出写实图了:支持照片级写实在内的几乎任何风格。配套的 Image Wand 能在备忘录里把草图直接变成图(已上线)。 - 随处可写、边写边校:Write with Siri 能在几乎任何输入框里从零起草或帮你改稿,在 Messages 和 Mail 里还会模仿你的文风、标点和语气;Proofread 则随时检查语法拼写。 - Safari 更聪明:标签页能按主题自动分组;Notify Me 帮你盯着某个页面的降价、补货,到点提醒;还能做扩展来自定义网页内容。 - 密码一键修:Passwords App 发现弱密码或已泄露的密码,能直接替你改掉。 - 描述一句就能办事:用大白话说需求,Shortcuts 自动把跨 App 的动作串成一条快捷指令;日历也能“把午餐会改成喝咖啡”这样直接改。 - 几个先出英文的功能:Messages/Mail 的快捷建议 Suggestions、打商户电话时自动递确认码的 Call Context、以及精度更高的听写 Dictation,都标注“先出英文”。 - 已经上线的部分:实时翻译 Live Translation(Messages、FaceTime 字幕、电话、AirPods 对话)现已可用;家庭 App 的 AI、健身搭子 Workout Buddy 等也有增强。 ## 再把五个模型说清楚 五个模型和 Google 合作定制开发,按跑在哪里分成两组。 端侧(直接在你设备上跑)两个: - AFM 3 Core:上一代那个 30 亿参数稠密模型的升级版,主要是质量更好了。 - AFM 3 Core Advanced:苹果最强的端侧模型,原生支持多模态。200 亿参数,属于 MoE(Mixture of Experts,混合专家模型),每次根据任务只激活其中 10 到 40 亿。 服务器(跑在苹果的 Private Cloud Compute 上)三个: - AFM 3 Cloud:服务端的主力,主打快和稳。 - ADM 3 Cloud(图像):专门做图像生成和编辑的模型,注意名字是 ADM 不是 AFM,单独一条线。 - AFM 3 Cloud Pro:最强的服务器模型,专门接 Agent 工具调用、复杂推理这种最吃性能的活。 一句话记住分工:日常的、轻的、要保护隐私的,尽量在手机上用 Core 系列解决;真正难的、重的,才送到云端的 Cloud 系列。 ## 核心看点:手机装不下大模型,苹果怎么解决 先说普通人能懂的痛点。你希望手机上的 Siri 又聪明又快,但有个硬约束:手机的内存(就是那块动不动 8GB、16GB 的 RAM,业内叫 DRAM)就那么大。模型越大、参数越多,占的内存就越多,一个真正大的模型,根本塞不进手机内存。 ## 先说为什么装不下:内存太小 手机里有两种存数据的地方,性格正好相反。 一种是内存(DRAM),读写极快,但容量小又贵,iPhone 上通常就几 GB,还得分给系统和所有 app。 另一种是闪存(NAND),就是平时存照片、装应用的那块,容量大得多也便宜得多,但读写慢,尤其往内存里搬数据时,那条通道的带宽远远不够快。 模型要跑起来,它的权重(也就是模型里那几百亿个数字)必须待在内存里,芯片才能随时取用。 传统大模型不管什么架构,都默认把全部权重一次性塞进内存。一个 200 亿参数的模型,光权重就要占十几 GB,手机内存根本放不下。这就是过去端侧模型普遍只做到二三十亿参数的原因,再大就溢出了。 这就像,想把一整座图书馆的书全摊在一张小书桌上,桌子太小,摊不开。 ## 业界省内存的常规思路,在手机上偏偏行不通 这个常规思路叫混合专家(Mixture-of-Experts,MoE)。它把一个大模型拆成很多个“专家”,可以理解成一堆各有所长的小网络;回答某个问题时只挑其中几个上场,其余的歇着。这样每次计算只动用一小部分参数,又快又省算力。 但 MoE 省的是“每次算多少”,没省“总共要放多少”。标准 MoE 仍然要求全部专家都待在内存里随时待命,因为它每生成一个字(token)就要重新挑一批专家。换得这么勤,专家就必须近在手边。这在数据中心的 GPU 上不是问题,显存大、专家又都连在一起;可搬到手机上就卡死了:要是专家存在慢速的闪存里,每吐一个字都得去闪存搬一批权重进内存,那条慢通道根本喂不动,模型会卡到没法用。 ## 苹果的解法:换个地方放,换个频率取 苹果的解法分两步。 第一步,把完整模型挪出内存,存到闪存里。 完整模型不放 DRAM 内存,而是存到闪存(NAND)里,就是平时存照片、存 App 的那块,空间大得多(一般 256GB 起步)。需要哪几个专家,再从闪存搬进 DRAM 来用,就像书放在图书馆的书架里,用哪本取哪本。 第二步,把路由决策从“按 Token”改成“按 Prompt”。 这步是整套设计的关键,它得先解决一个绕不开的硬约束:闪存到内存的搬运带宽,远远跟不上模型逐字生成的速度。要是照搬普通 MoE“每个 Token 换一批专家”的做法,光等专家从闪存搬进内存,就慢到没法用了。 为此苹果自研了一套 Instruction-Following Pruning(指令跟随剪枝,简称 IFP)技术,解决两件事:权重放在哪、以及多久换一次。 它是一个轻量的稠密小模块,在开始处理你这条问题时就一次性选定一批专家,整段生成里只周期性地再调整,而不是每个字都重选。专家搬运的次数因此被压到很低。落到画面上就是:你问一句话,模型先用极短的时间判断这题归哪几支专家管,把它们调进内存,接下来这一整段回答基本就靠这批专家了。 专家本身还分两类,进一步省搬运: - 共享专家(shared experts):不管什么任务都常驻在内存里; - 路由专家(routed experts):只在跟当前任务相关时才临时搬进来。 打个比方:一个手艺人有几千件工具,工作台(内存)小得只摆得下几件,于是他把全套工具锁进隔壁又大又慢的仓库(闪存),工作台上只留当前这单活真正要用的那几件。麻烦在于仓库远、取一趟慢,没法每拧一颗螺丝就跑一趟换工具,那样活儿没法干。他改了两条规矩,正对应苹果的两个设计: - 按整单活备料,不按每颗螺丝。 每接一单活(一次完整的 prompt),开工前先看一眼整张工单,一次性把这单大概率用得上的工具搬上工作台,干的过程中隔一阵再补一次。对应到模型,就是那个轻量模块在开始处理时一次性选定一组专家,生成过程中周期性重选,而不是像标准 MoE 那样每个字都重挑。 - 常用工具一直摆台上。 有些工具几乎每单活都用,干脆固定放在工作台不收回去,对应常驻内存的共享专家;少量按需调入的,才是路由专家。 合起来就是:完整的 200 亿参数躺在闪存里,当模型的“账面身家”;内存里任何时刻只装当前激活的那 10 到 40 亿参数。模型的规模可以做得很大,跑起来却只占一小块内存。 这套设计还白捡一个好处:按难度伸缩。 苹果把它叫推理时弹性(inference-time elasticity)。既然专家是按需调入的,那激活多少参数就也能随任务难度变:简单的问题少调几个专家、少激活参数,复杂的多调几个。前面说的 10 到 40 亿参数不是一个固定值,而是按每次请求的难度临时定的。于是同一个模型,既能轻快地应付日常小事,又能在难题上把参数顶上去,延迟还都压得住。在我看来,这才是这代端侧模型真正的工程突破,比 200 亿这个数字本身更重要。 ## 那它还解决不了什么? 端侧再巧,单次激活的规模终归有上限。真正复杂的推理、Agent 多步操作这类重活,还是得交给云端的 Cloud Pro 大模型来处理。 ## 那么 Google 到底参与了多少? 这是整件事的关键,也是外界误读最深的地方。 Subramanya(苹果 AI 副总裁)在发布会上称:上面四个为 Apple 芯片定制的模型,是用苹果自研数据训练,再“从 Google 的 Gemini 前沿模型蒸馏(distillation)精炼”而来。蒸馏的意思是,用一个更强的模型当老师,把它的能力压缩进自己更小的学生模型里,Gemini 只在训练环节出现,不进入成品。 Federighi(苹果软件工程高级副总裁)更直接:“我们用到的 Google Assistant 的量是零。” 具体拆开是三个“不用”: - 不用 Gemini App,用户交互时不碰任何 Google 客户端代码; - 不用 Google 部署给自家客户的那些模型,也不用它的部署基础设施; - 查询世界知识不用 Google 的搜索,用苹果自建多年的 World Knowledge Service。 唯一真正用到 Google 的,是 AFM 3 Cloud Pro 云端模型。这个模型为了上线,苹果联合 Google 和 NVIDIA,把私有云计算部署到了 Google 云里的 NVIDIA GPU 上。它的性能被描述为“与 Gemini 前沿模型相当”。 换句话说,被大家解读成“苹果的 Siri 大脑由 Gemini 驱动”的那些报道,落到产品上就是五个模型里的一个跑在 Google 的硬件上,其余四个从头到尾是苹果自己的。 ## 云端的两处架构升级 端侧那个模型的看点是怎么把大模型塞进小内存,云端的看点则是怎么把规模和质量做上去。三个云端模型里,主力 AFM 3 Cloud 和图像模型 ADM 3 Cloud 各做了一处升级。 AFM 3 Cloud:把去年的 PT-MoE 又拧紧了一圈。 AFM 3 Cloud 是云端主力,接的是端侧扛不动、要送上私有云的活。它的底子是苹果去年第二代就引入的一种服务端架构,叫并行轨道混合专家(Parallel-Track Mixture-of-Experts,PT-MoE)。大体上,它把一个大模型拆成几条并行的“轨道”,每条轨道是个更小的、自带专家路由的子模型,输入分别在各条轨道里走,轨道之间只在头尾必要的节点上同步一次。这样做的好处是同步等待大幅减少,专家可以铺得更多,质量上去了,延迟和成本却没跟着失控。 这一代不是换架构,而是在 PT-MoE 上做了几处关键调校,效果落在两点:训练更稳,规模拉大时不容易崩;以及在它的上下文窗口里,对信息的推理和准确召回更强。后面这点对服务端格外要紧,复杂的查询往往要模型在一大段上下文里翻找、对照、推断,记不住或记岔了,整个回答就废了。 ADM 3 Cloud:一个底模,挂一堆适配器。 先留意这个模型叫 ADM,不是 AFM,它是苹果这套体系里专门的图像模型,管生图、修图和 Genmoji。苹果给它定的两个目标是强可控性和参数效率:既要做到你说什么它画什么、改哪儿动哪儿,又不靠堆出一个臃肿的大模型来实现。它还能跨不同的画幅比例和分辨率工作,不挑尺寸,并且会借助更大的 AFM 家族来给创作和编辑当参谋。 它的搭法是另一个重点:基础模型本身原生就会生图、编辑、Genmoji 这些通用能力;而像照片里的 Spatial Reframing(空间重构)、用手指直接在图上涂改、Image Playground 里的个性化,这些更具体的功能不是各训一个模型,而是在同一个底模上挂不同的适配器(adapter)。适配器是一小块外接的、专门微调过的权重,按功能换上即可。一个底模配一组小适配器,比为每个功能各养一个大模型省得多,往后加一个新的图像玩法也更快。 ## 隐私:连苹果都看不到 三个云端模型都跑在 Private Cloud Compute 上。它的承诺是:用户数据从不被存储、从不被共享,连苹果自己都看不到,只在处理这一次请求时用一下。这个承诺不是口头的,第三方研究者可以持续验证。 即便是跑在 Google 云 NVIDIA GPU 上的 AFM 3 Cloud Pro,同样的隐私保证也不打折。Google 也在合作宣布当天确认,不会从这笔 Siri 交易里拿到苹果用户的数据。 训练这一层同样划了线:不使用用户的私人数据和交互数据,并尊重网站发布者退出训练的权利。 ## 训练怎么做的 - 预训练:在最新一代云端 TPU 上扩大规模训练。所有模型先共享同一个初始基座,再分化成各自的架构和用途,分别加上音频、图像理解、长上下文推理、视觉生成等能力。 - 后训练:监督微调(supervised fine-tuning)加多阶段强化学习。 - 压缩上线:用量化感知训练(Quantization Aware Training)大幅压缩模型,同时保住准确率。这也是 200 亿参数能在手机上跑起来的另一半原因。 ## 评测数字 苹果用人工评分给出了一组对比,挑几个有代表性的: - AFM 3 Core(端侧文本):在 45.6% 的提示上被偏好,上一代是 23.3%。 - AFM 3 Cloud(云端文本):在 64.7% 的提示上被偏好,对比 2025 年的服务器模型只有 8.7%,差出一整个代际。 - 语音(5 分制 MOS 评分):AFM 3 Core Advanced 拿到 4.15,现役系统 3.87;在对话场景下差距更大,4.24 对 3.82。苹果特别提到,MOS 评分涨 0.1 用户就能明显感知,0.28 和 0.42 的差是实打实的。 - 听写:整体质量上 AFM 3 Core Advanced 被偏好 44.7%,旧听写系统 17.6%。 需要说明的是,这些都是苹果自己的人工评测,不是第三方公开基准。苹果预告今年夏天稍晚会出技术报告,含更新的评测和基准,到时候才好横向比。 ## 写在最后 苹果这次确实把 Siri 该有的样子端出来了:能对话、有世界知识、有独立 App,第一次正面站到了 ChatGPT 和 Gemini 对面(哪怕这身本事有一半是 Gemini 教出来的)。 虽然还是被各种吐槽说Siri AI基本还是相当于去年的 ChatGPT 而已,甚至还不如豆包… 但是从这次底层模型来看,起码基础牢固了,苹果并没有直接去用Google的模型来全盘替代,还是坚持走自己的路线。 延续了苹果一贯的稳扎稳定(挤牙膏)的作风… 基本盘还是很稳的… 所以这依旧是很苹果的一次更新:不抢第一,慢,被骂挤牙膏,但每步都踩在自己能长期攥住的地方。 短期看,Siri 还得被拉去跟 ChatGPT、豆包比嘴皮子,未必讨好;长期看,基本盘反倒是这场牌局里最稳的几家之一。 官方介绍:https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models

译苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。

Berryxia.AI@berryxia · 6月9日26

卧槽!我还是太草率了! 前有饺子馆的Skills,今有瑞幸咖啡的CLI/Skills/MCP 服务一应俱全啊! 程序员的浪漫我是不懂啊,下个单都要搞这些有的没得? 自己给我付钱就行了,我负责免费喝。 安装地址:https://open.lkcoffee.com

译瑞幸咖啡(Luckin Coffee)近日开放CLI、Skills和MCP服务,用户可通过安装地址(open.lkcoffee.com)体验。此前“饺子馆的Skills”已引发关注,瑞幸紧随其后提供一整套开发者工具,支持命令行下单等操作。目前具体功能细节尚未完全披露。

向阳乔木@vista8 · 6月9日53

把自己三年来的 X 运营增长做了复盘,做了线下分享。 如何从100做到11万关注,基于全量 X 帖子,用 Codex 做的数据分析。 有些结论,甚至自己都没有意识到。 果然分享才是最好的学习,完整的PPT见评论区。

译运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子,使用 Codex 进行数据分析,得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式,完整 PPT 置于评论区。

X.PIN@thexpin · 6月9日59

Smart glasses used for taking stealth shots of flight attendants have spiked controversy in China. On June 2nd, Ms. Yun, a smart glasses user, noticed that someone was using Rokid AR glasses to secretly take photos of female flight attendants. These photos were uploaded directly to Rokid's official app. Search the phrase "flight attendant" in the app and you'll find a large number of these photos. The method behind this was shocking. E-commerce platforms openly sell "shutter stickers" that block the LED indicator light and mute the shutter sound. One store alone has sold over 5,000 of these stickers. Meta has faced similar issues with its smart glasses. Former WSJ reporter Joanna Stern demonstrated that when the LED light is disabled, taking photos with these glasses becomes almost completely unnoticeable. In response, Rokid has banned the accounts involved and cleared the images from its platform. The company also stated that it has requested e-commerce platforms to take down the listings selling these stickers.

译6月2日,智能眼镜用户云女士发现有人使用Rokid AR眼镜偷拍女性空乘人员,照片直接上传至Rokid官方App。在App内搜索“空乘”可找到大量此类照片。电商平台公开出售“快门贴纸”,可遮挡LED指示灯并静音快门声,仅一家店铺销量已超5000张。Meta智能眼镜也曾面临类似问题。Rokid已封禁涉事账号并清除平台图片,同时要求电商平台下架相关贴纸商品。

Berryxia.AI@berryxia · 6月9日34

再次来到这个书店咖啡馆,发现当今的大学生的高效学习的秘诀! 都在看“豆包高效学习”,果然AI Native 这一代和我们老登不一样啊……

译Berry Xia在书店咖啡馆观察到,约80%的大学生使用苹果电脑或iPad,其中一半人正在用AI工具学习或工作,少数人使用ChatGPT纯聊天模式,但无人使用Claude或Codex等更专业的AI工具。他指出“豆包高效学习”成为热门,但整体AI应用仍处于早期阶段。

ginobefun@hongming731 · 6月9日33

尝试给 http://BestBlogs.dev 开了一个英文新号,会分享一些精选博客、文章和创作者内容。 我的个人号还是会留给大家看看我自己的构建、开发和探索思考。 喜欢发现好内容的朋友,可以顺手关注一下 @BestBlogsDev

译洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。

AYi@AYi_AInotes · 6月9日65

Google DeepMind 的联合创始人兼 CEO Demis Hassabis说, 我们正站在奇点的山脚, AGI大概在2030年, 我们没有多少时间准备了。 以前看别人聊AGI,我都当热闹看, 直到看到Demis说这句话,我突然有点慌了, Demis一直偏保守,以前不这么说话的, 作为目前全球 AI 领域最具科学背景和公信力的领军人物之一,Google DeepMind 的联合创始人兼 CEO,同时也是 Isomorphic Labs(专注于 AI 药物研发)的创始人兼 CEO,并担任英国政府 AI 顾问, 以及拿过 AlphaFold 这种硬成果的科学家,他不是那种靠喊口号吃饭的人,然后在 Google I/O 和斯坦福对谈里,他说了这么一段—— 我们回头看,会意识到当时正站在奇点的山脚,AGI 大概在 2030 年左右,那将是新人类时代,社会需要听到这个信号,因为我们没有多少时间准备了。 为什么他这次改口,比一般 CEO 喊 AGI 更值得听,详细拆解如下👇

译Google DeepMind CEO Demis Hassabis在Google I/O和斯坦福对谈中称,我们正站在奇点山脚,AGI约2030年出现,将进入新人类时代,社会需重视并做准备。这位一向保守的科学家此次改口引发广泛关注。

ginobefun@hongming731 · 6月9日67

http://x.com/i/article/2064136850370101248 # BestBlogs 早报 · 06-09|Claude Code 自主化、循环工程、阳萌安克 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-09 ## 导语 当 AI 编程工具从「辅助」跃升为数千 Agent 自主运转的工作流,工程师的角色也随之深刻重塑。本期围绕这一转折精选三篇值得细读的内容:Claude Code 一周年的第一手复盘,揭示 Auto Mode 如何让权限审批退出历史舞台;Boris Cherny 的「循环工程」,重新定义工程师的核心职责;以及阳萌历时 4 小时的长访谈,以安克 15 年经验探讨 AI 原生组织与第三类公司的可能性。三篇合读,或许能让你看清这个行业正在拐向哪里。 今日早报共收录 3 篇精讲、7 篇速览、6 篇补充阅读,来源涵盖 Anthropic 官方、Elevate 技术博客、商业访谈播客等多个渠道。在 AI 加速重塑软件工程与组织结构的当下,这期内容提供的不只是工具层面的参考,更是关于「工程师身份如何演变」与「传统企业如何自我重构」的思考材料。 ## 精讲一:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 一年前,Claude Code 作为一款辅助工程师完成独立小任务的工具首次亮相。今天,它已演进为一个由数千个自主 Agent 动态协作、形成深度组织树状结构的庞大生态系统。这次 Anthropic 工程团队的第一手复盘,呈现了这场转变背后最关键的三个维度。 验证范式的根本性变化 传统软件开发中,验证手段以单元测试、类型检查和 Lint 工具为主,它们作用于静态参数。然而当 Agent 开始自主运转后,验证的边界必须扩展到完整的运行时循环:Agent 自主在沙箱中启动独立环境(本地桌面应用或本地服务器实例),通过 Computer Use 能力点击界面来测试边界案例,并在发现 bug 或破坏性变更时自动修正方案、验证通过后再推送补丁。 这不只是工具层面的迭代,而是对「什么算作验证完成」这一基本问题的重新定义。人工审批每一条终端调用的模式,在这种规模下已经彻底无法运作。当 Agent 网络中同时运行着数百乃至数千条工作流时,人类根本无法逐条处理权限请求,而注意力一旦分散,反而制造了系统性的安全盲区。 Auto Mode 与模型驱动安全 早期自主 Agent 开发高度依赖明确的操作规划文件,以及不断弹出的权限确认提示。工程师需要逐条批准或拒绝每一个工具调用。这种模式有一个深层缺陷:当 99% 的请求都是安全的时候,人类注意力会分散,反而制造了系统性风险。 随着 Claude 4.6 和 4.7 的推出,Auto Mode 取代了这一模式。其核心机制是:用专门的路由与分类模型替代人工逐条审批,将所有调用通过对齐和安全分类器过滤,让人类注意力只聚焦在异常情况上。为了安全上线 Auto Mode,团队对复杂的多步提示注入向量进行了大量红队测试,建立了严格的内部评估指标,以确保恶意代码库修改能被自动拒绝。 这个转变的本质,是把「人作为每一步的守门员」改为「人作为系统的设计者与边界的监督者」。两者的权力不同,责任也不同——后者要求工程师对分类器本身的质量和覆盖范围有深度理解。从实践角度看,这意味着红队测试、评估集设计、异常模式识别,这些原本属于安全团队的工作,开始向产品工程师渗透。 组织边界的加速消融 随着 AI 承担越来越多具体的开发工作,科技公司内部传统的职能边界正在瓦解。产品经理、视觉设计师、数据科学家、财务团队——这些人正在独立部署代码调整、生成运营原型、直接修改生产代码库。 这一演进与 1990 年代企业部署个人电脑的过程相似。真正的生产力变革,只有在彻底抛弃传统纸质流程并将计算平台直接置于所有日常企业任务核心时,才会发生。复盘指出,目前最受益于 Claude Code 的团队,往往不是那些「用 AI 加速现有流程」的团队,而是那些「重新设计流程、让 AI 成为中心节点」的团队。这也意味着评估一个团队是否真正进入 AI 原生工作模式,不能只看工具使用频率,而要看他们是否已经开始重新分配「谁负责判断、谁负责执行」这个核心问题的答案。 如果你想深入理解 AI 工程范式正在经历怎样的转移,这是目前最权威的第一手视角。阅读原文:Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 ## 精讲二:循环工程 「循环工程」是一个正在快速形成的新范式,其核心命题是:不要再当那个提示 Agent 的人,而是去设计能自动提示 Agent 的系统。 Addy Osmani 在这篇文章里引用了两段引发广泛讨论的原话。Claude Code 负责人 Boris Cherny 说:「我不再直接提示 Claude,我的工作是写循环。」创业者 Peter Steinberger 则说:「你不应该再提示编程 Agent 了,你应该设计能提示 Agent 的循环。」这两句话的意思高度一致:工程师的价值已经从「如何精准表达需求」迁移到「如何设计自运转的系统」。 这不是一个工具能力变化,而是工程师身份认知的迁移。 循环的五个构成要素 Osmani 拆解了一个循环所需的五个核心模块,Claude Code 和 Codex 都已具备: 1. 定时自动化(Automations):循环的心跳。按时间表自动触发,完成发现和分类工作,不需要人工介入。两个产品里的定时任务能力实现名称不同,但功能本质相同——让系统自己找到需要做的工作。 1. 并行工作树(Worktrees):让多个 Agent 并行工作时不互相干扰的隔离机制。没有 Worktrees,两个 Agent 会在同一个代码分支上互相覆盖对方的改动,循环就此失控。 1. 技能知识沉淀(Skills):把项目知识写下来,避免 Agent 每次都只能靠猜测。这是把「只有你知道」的上下文转化为「Agent 也知道」的结构化输入。 1. 插件与连接器(Plugins and Connectors):把 Agent 接入你已有的工具链——GitHub、Linear、Slack、数据库。循环需要读取现实,也需要把结果写回现实,连接器是这个双向通道。 1. 制作者与验证者分离的子 Agent(Sub-agents):一个 Agent 负责提出方案,另一个负责检验——制造者与审查者天然分离。这是循环里内置的质量门禁,防止单个 Agent 的错误在无人知晓的情况下蔓延。 第六个要素同样关键:外部记忆。一个 Markdown 文件、一块 Linear 看板——任何存活于单次对话之外、能持久记录「完成了什么、下一步是什么」的载体。Agent 会遗忘,但代码仓库不会。这个道理看起来过于简单,但它是所有长期运行的 Agent 依赖的同一个技巧。 「认知投降」的警示 Osmani 没有止步于赞美。文章里有一段话值得反复咀嚼:验证的责任始终在人,「认知投降」会让循环反而侵蚀工程质量。当你把「循环跑完」等同于「任务完成」时,问题就开始积累。循环可以高速运转,但如果你不理解它在做什么、不设计合适的验证节点,它只会更快地把错误放大到整个代码库。 你仍然是工程师,你的工作是设计一个值得信任的系统,而不只是按下启动键。 这篇文章的价值不在于介绍工具,而在于它重新定义了一种工作身份:「循环工程师」不是那个让 AI 帮自己写代码的人,而是那个设计 AI 如何写代码的人。阅读原文:循环工程 ## 精讲三:对阳萌的 4 小时访谈:消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择 张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的这次 4 小时访谈,是近年来少见的系统性商业复盘。阳萌 1982 年生人,2011 年开始创业,如今掌舵一家市值超过 600 亿人民币的科技企业。这场对话横跨 15 年创业历程,从战略选择到 AI 时代的组织变革,信息密度极高。 从「浅海」到「深海」的战略演进 安克最初以充电品类切入,在消费电子这个以「速生速死」著称的赛场上完成多品类扩张。阳萌坦承,早期的成功很大程度上依赖直觉和对时机的感知——他把这个阶段比作打游戏时选择「Easy 模式」:在蓝海市场,凭借直觉就能赢。 但市场饱和之后,他开始主动选择「Hard 模式」,转向系统化的「深海」作战。这意味着从品类跟随者变成品类定义者,从「五星品质、适度溢价」的路线攀向「七系极致创新」——投入更长的研发周期,打造竞争对手无法快速复制的差异化能力。这种转变背后,是对「护城河靠什么构建」这一问题的深度追问。在消费电子行业,一旦停止创新,品类溢价会被供应链快速抹平。 「第三类公司」与创造者平台愿景 访谈中最具前瞻性的部分是阳萌对安克长远定位的阐述。他提出「第三类公司」的概念——既非纯粹的硬件公司,也非纯粹的软件公司,而是能在硬件与软件之间建立生态闭环的「创造者平台」。这个愿景与安克正在推进的多个品类扩张方向高度呼应:从充电宝到耳机、投影仪、智能家居,安克的每一次品类扩张都是在测试同一个问题——消费者愿意在这个品类上信任一个非传统品牌吗? AI 组织革命:人才与价值重新分配 在 AI 这个变量上,阳萌的思考比大多数传统企业家更为具体。他着重探讨的不是「用 AI 提效」这样泛泛的方向,而是打造「AI 原生组织」——一种从底层重塑人才结构与价值分配体系的变革。 他认为,AI 时代对人才的要求会发生根本性变化:能与 AI 协同工作、能从 AI 输出中提炼判断的人,和那些仍在处理可被自动化的重复性任务的人,他们的价值将被拉开巨大差距。这直接影响到薪酬结构、晋升路径和团队构成。 阳萌在访谈中还特别提到一个反直觉的洞察:「你永远还是要相信人性。」在 AI 浪潮中,技术是变量,但人的欲望、情感和决策逻辑是常量。理解这一点,是做出能真正卖出去的产品的前提。无论 AI 工具多强大,消费者购买决策的底层逻辑——对品牌的信任、对价格的感知、对使用场景的判断——仍然由人性驱动。这一判断让阳萌在 AI 工具热潮中保持了一种冷静:技术是手段,能否赢得人心才是判断成败的标准。 这场访谈适合创业者、产品人、以及任何正在思考「实体经济中的公司如何应对 AI 变局」的读者。阳萌对组织、产品与人性的思考,在大量技术谈论之外提供了一个难得的视角:以真实市值、真实用户为背景,而非纯粹概念推演。阅读原文:对阳萌的 4 小时访谈 ## 速览 横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后,我们做了第 7 个(腾讯技术工程) 六大 Agent 的上下文压缩策略被系统性横向拆解:Claude Code 的五段成本递增流水线、Codex CLI 保留近期用户消息的 handoff 策略、Cursor 的自动摘要 + 历史可搜索方案……六种哲学映射六种取舍。作者团队在提炼出「分层渐进、成本递增、增量摘要」等共识原则后,面向云端多用户场景设计了四级水位线方案,额外解决了跨轮缓存失效导致的 cachewrite 费用激增问题——一个 4 轮、177 步的真实 Task,83% 的成本来自 cachewrite,优化空间显而易见。对于正在构建 Agent 系统的工程师,这是当前最完整的横向对比参考。 Vol.121|硅谷 AI 大转弯,软件正在死去,创业者的真机会在哪里?|2026 年中特辑(开始连接 LinkStart) 锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业。从 OpenAI vs Anthropic vs Google 的御三家之争,到视频模型的「GPT-3 时刻」,再到具身智能的 VLA vs 世界模型路线之争,梳理了三场正在发生的模型战争。对创业者最实用的部分是两个大问题:D1 选中国还是美国的判断框架,以及当底层模型不断吞噬应用时垂类 AI 还有没有活路。「Sell Labor(售卖劳动力)」作为 AI 时代新商业模式被重点讨论,创业者直接售卖由 AI 交付的工作结果而非软件工具。近两小时的深度复盘,信息浓度较高。 对话凯文·凯利:人类将如何与 AI 一起走向 2049?(第一财经) KK 带着新书《2049:未来 10000 天的可能》接受第一财经专访。对几个关键问题给出了意想不到的回答:AI 是否具备「从零到一」的创造力?哪些人类特质是 AI 无法复制的?AI 会改变人类的财富分配吗?KK 认为人类的「责任感、学习能力和突破性创造力」仍无可替代,但人类需要为 AI 的错误承担责任——这是一个关于主体性而非技术的问题。访谈约 15 分钟,信息密度适中,适合碎片时间收听。 为广泛利益而建:我们的计划(OpenAI News) OpenAI 阐述 AGI 第三阶段愿景:构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI。核心原则是广泛分配权力与利益,以 1920 年代农村电气化为类比——真正的变革来自技术普及后打开的新可能性,而非技术本身。文章中有一个值得注意的立场:OpenAI 明确反对少数实体(包括他们自己)垄断超级智能。如何理解这一表态与商业现实之间的张力,值得读者自行判断。 开源两个月 16k+ star!我把 Huashu-Design 推翻重写了(花叔) 作者将 Huashu-Design 从 v1 重写为 v2,针对三个核心问题各提出解法:① 输出单调问题——用「撞(随机抽取)、借(参考获奖案例)、请(顶级设计师视角)」三套并行设计逻辑打破安全极简惯性;② 内容空洞问题——图片前置,让 Agent 先找图再排版;③ 事实错误问题——在设计流程中增加验证环节。结果是一个主题三个完全不同风格的首页方案,让「选哪个」成为唯一需要人介入的动作。16k+ star 的开源项目,实际效果有截图佐证。 小米 MiMo,探索与热爱(Hacker News) 小米 MiMo-V2.5-Pro-UltraSpeed 联合 TileRT,在商用 GPU 上首次突破了 1 万亿参数模型每秒 1000+ token 的推理速度。实现路径是极致的模型-系统协同设计:FP4 量化仅对 MoE Expert 部分使用(避免全模型量化导致复杂推理退化)、DFlash 推测解码降低解码延迟。3 倍价格、10 倍速度的定价逻辑背后,是推理速度达到足够快后「等待感消失」带来的体验质变。限时试用期为 2026 年 6 月 9 日至 23 日。 #575.杰弗里·辛顿:如何面对 AI 失控焦虑,超级智能临近下的人类位置之争(跨国串门儿计划) 「AI 教父」Hinton 与主持人 Alex Kantrowitz 的坦率对话。Hinton 明确表示相信今天的 AI 已经具备理解能力,甚至「已经有意识」;他认为超级智能很可能会到来,且他不知道如何确保一个比人类聪明得多的系统保持安全。数字智能可被复制、以人类无法企及的速度共享经验——这是他最担心的优势差距。文章同时讨论了就业替代、AI Agent 推导出自我保存子目标、信息生态崩塌等具体风险。Hinton 的担忧来自技术本身的理解,而非想象,值得认真对待。 ## 补充阅读 给我 28 分钟,我会让你用更危险也更高效的方式学习任何东西(Justin Sung) 反直觉的学习方法论:更快学习的关键不是追求轻松和重复,而是建立 schema、制造有意义的错误、进行闭卷提取、分层处理复杂度,主动承受必要的认知阻力。适合正在构建个人学习系统的人,尤其是在 AI 时代需要持续快速更新知识的工程师和产品人。 「Token 经济」进入结果层(腾讯科技) 以 Intercom Fin「每解决一个客户问题收 0.99 美元、未解决不收钱」为切入点,深度分析 AI 定价从按 Token/调用量向按结果付费的演进。核心问题是:「结果」如何定义、如何验证、谁来承担错误成本?这不只是定价模型的变化,而是软件商业逻辑的根本转变。对正在思考 AI 产品商业化路径的读者有参考价值。 图灵奖得主 LeCun,关于大模型的下一步来了(Datawhale) 系统梳理 Yann LeCun 对大模型发展方向的判断,核心结论明确:LLM 不是通用智能的终点,其核心缺口在于缺乏「预测行动后果的能力」和「基于搜索的多步规划」。LeCun 直接判断 VLA「pretty much seen as a failure」,并详细解读了世界模型与 JEPA 架构作为替代路径。与 Hinton 的担忧形成对照——同样是 AI 先驱,对 LLM 极限的判断和对 AI 风险的关注点截然不同。 Pinterest 使用内容指纹对数百万域名的 URL 进行去重(InfoQ) Pinterest 工程师开发了 MIQPS(Minimal Important Query Param Set),用数据驱动的内容指纹方式替代静态规则,判断哪些 URL 查询参数对去重是必要的。大规模内容摄入管线的经典工程挑战,解法清晰实用。适合关注数据工程和大规模系统设计的读者。 招聘中的算法同质化(Hacker News) 分析 340 万真实求职者数据的研究,证明招聘中的算法同质化——众多雇主使用同一供应商 AI——导致系统性拒绝,并暴露出针对亚裔和黑人求职者的种族差异。超过 60% 的 Fortune 100 使用同一家供应商 HireVue 的算法。在 AI 广泛渗透各行业决策的背景下,这是一个值得关注的系统性风险案例。 脱离理性暴政,请尽情游戏吧!(面基) 关于如何通过越野跑、环球帆船赛等极限运动,从「理性的暴政」中解脱,信任并打磨身体直觉与感性的深度对话。当我们每天都在谈论 AI 如何替代人类「理性分析」能力时,这期播客提供了一个反向的人文视角:身体感知和直觉,是人类另一个尚未被充分重视的知识系统。适合需要换换频道、找回感性直觉的读者。 ## 今日阅读路径 如果你今天只有有限的时间,建议按以下顺序阅读: 第一步(必读):[Claude Code 一周年复盘](https://www.bestblogs.dev/video/1dc49e8) 这是理解当下 AI 工程范式转移的起点。Auto Mode 的出现、组织边界的消融,这些不是愿景,而是 Anthropic 工程团队正在经历的现实。读完这篇,你对「AI 改变软件开发」这句话会有具体的图景。 第二步(深化):[循环工程](https://www.bestblogs.dev/article/8c4ea6fb) 在第一篇建立的宏观图景之后,这篇文章给出了具体的操作框架。五要素的拆解非常实用——如果你正在用 Claude Code 或 Codex 工作,可以对照检查自己当前的工作流属于哪个阶段。同时留意文章末尾对「认知投降」的警示。 第三步(视野拓展):[对阳萌的 4 小时访谈](https://www.bestblogs.dev/podcast/9ea40bf) 前两篇聚焦工具和工作方式,这篇访谈把视野拉到组织和战略层面。阳萌从实体经济创业者的角度谈 AI 原生组织,视角与硅谷技术圈截然不同,对于思考「传统公司如何应对 AI 变局」的读者尤其有价值。 如果时间更充裕,横向拆解六大 Agent 上下文压缩策略 是今日最具技术深度的补充,与精讲一形成很好的呼应。

译本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。

ginobefun@hongming731 · 6月9日57

BestBlogs 早报 · 06-09 # Claude Code Agent 工作流 / 循环工程 Loop Engineering / 阳萌安克创新 / Agent 上下文压缩 / 硅谷 AI 软件转型 [1] ★ 精讲|Claude Code 一周年复盘:从辅助写代码到自主智能体工作流 [视频] Anthropic 官方 Claude Code 一周年复盘视频文字稿,由团队工程师一手呈现。一年间,Claude Code 从处理独立小任务演进为数千 Agent 动态协作的庞大网络。文章聚焦三个核心转变:验证从单元测试升级为 Agent 在沙箱中自启环境、通过 Computer Use 自我修正的完整运行时循环;Claude 4.6/4.7 推出「Auto Mode」,以安全分类模型替代人工逐条审批权限;PM、设计师乃至数据团队已开始独立提交代码,组织边界加速消融。理解 AI 工程范式转移的第一手权威视角。 来源:Claude https://www.bestblogs.dev/video/1dc49e8 [2] ★ 精讲|循环工程 Elevate 技术博主 Addy Osmani 系统阐述「Loop Engineering」新范式:工程师职责正从「持续提示 Agent」转变为「设计运行 Agent 的系统」。Claude Code 负责人 Boris Cherny 原话:「我不再直接提示 Claude,我的工作是写循环。」文章拆解五要素——定时自动化、并行 Worktrees、Skills 知识沉淀、MCP 连接器、制作者与验证者分离的 Sub-agents——并警示:验证责任仍在人,「认知投降」会让循环反而侵蚀工程质量,值得深思。 来源:Elevate https://www.bestblogs.dev/article/8c4ea6fb [3] ★ 精讲|对阳萌的 4 小时访谈:消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择 [播客] 张小珺「商业访谈录」对安克创新创始人兼 CEO 阳萌的 4 小时深度访谈,罕见系统复盘 15 年创业历程。从充电品类切入,在消费电子「速生速死」战场完成多品类扩张;从依赖直觉的「浅海战略」转向系统化「深海」作战;从「五星品质、适度溢价」攀向「七系极致创新」。对于 AI,他着重探讨打造「AI 原生组织」、重塑人才与价值分配体系,并提出「第三类公司」与「创造者平台」的长远愿景。 来源:张小珺 Jùn|商业访谈录 https://www.bestblogs.dev/podcast/9ea40bf [4] 横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后,我们做了第 7 个 本文横向拆解 Claude Code、Codex CLI 等六大 Agent 的上下文压缩策略,提炼出分层渐进、成本递增、增量摘要等共识原则,并介绍了作者团队面向云端多用户场景落地的四级水位线方案及存储分离、跨轮缓存等特化设计。 来源:腾讯技术工程 https://www.bestblogs.dev/article/e50e1e1a [5] Vol.121|硅谷 AI 大转弯,软件正在死去,创业者的真机会在哪里?|2026 年中特辑 [播客] 锦秋基金两位合伙人深度复盘 2026 上半年 AI 行业,从泡沫本质、模型战争到具身智能路线之争,为创业者提供一套在中美市场、模型与应用间抉择的务实决策指南。 来源:开始连接 LinkStart https://www.bestblogs.dev/podcast/7124603 [6] 对话凯文·凯利:人类将如何与 AI 一起走向 2049?丨首席评论 [播客] 凯文·凯利深度对谈:AI 将重塑工作与价值,但人类的责任感、学习能力和「突破性创造力」仍无可替代。 来源:第一财经 https://www.bestblogs.dev/podcast/c2a5793 [7] 为广泛利益而建:我们的计划 OpenAI 概述了其 AGI 第三阶段愿景:构建自动化 AI 研究员、加速经济发展、为每个人提供个人 AGI,其根本原则是广泛分配权力与利益。 来源:OpenAI News https://www.bestblogs.dev/article/c55b91a1 [8] 开源两个月 16k+ star!我把 Huashu-Design 推翻重写了 作者将开源项目 Huashu-Design 从 v1 重写为 v2,通过三套并行设计逻辑、图片前置与事实验证,解决了 AI 设计工具输出单调、内容空洞与事实错误三大核心问题。 来源:花叔 https://www.bestblogs.dev/article/53c4d042 [9] 小米 MiMo,探索与热爱 小米 MiMo 与 TileRT 通过极致的模型-系统协同设计,包括 FP4 量化和 DFlash 推测解码,在商用 GPU 上实现了 1 万亿参数模型每秒 1000+ token 的推理速度。 来源:Hacker News https://www.bestblogs.dev/article/bcd97e15 [10] #575.杰弗里·辛顿:如何面对 AI 失控焦虑,超级智能临近下的人类位置之争 [播客] AI 教父 Hinton 坦率分享其对 AI 理解、意识、超级智能风险的深度担忧,探讨了人类在更聪明存在面前的失控风险、自我保存子目标、信息崩塌及安全监管困境。 来源:跨国串门儿计划 https://www.bestblogs.dev/podcast/368bc96 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 根据你感兴趣的来源和兴趣标签,每天为你生成一份专属的「我的早报」。立即体验:https://bestblogs.dev

译本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
01:25
SemiAnalysis@SemiAnalysis_
63
DeepSeek 正走向重资产模式。 6 月 9 日,该公司发布了 IDC 规划工程师的招聘信息,该职位明确涉及兆瓦级到吉瓦级基础设施的设计与交付。这紧随其 4 月在内蒙古乌兰察布招聘数据中心运维工程师。综合来看,这是 DeepSeek 首次完全展露其自持算力基础设施而非仅租赁的意图。
DeepSeek现象/趋势部署/工程
00:52
Ethan Mollick@emollick
62
我们需要更多关于AI如何影响经济的实时数据--这是一个非常有用的补充。

Erik Brynjolfsson: Today, the Stanford @DigEconLab launches the AI Economic Indicators, a new platform for tracking how AI is reshaping wor...

数据/训练现象/趋势行业动态
00:24
François Chollet@fchollet
72
Francois Chollet:技术有效≠没有泡沫

Francois Chollet 指出,许多人误以为只要技术有效、有市场、能盈利甚至需求无限,就不可能是泡沫。实际上,泡沫的定义是投资者过度乐观地押注后恐慌,与技术的实际价值无关。无论技术是像元宇宙那样的噱头,还是像互联网或铁路这样的变革性发明,都可能产生泡沫。泡沫破裂并不意味着技术失败或用户停止使用,只是投资资金枯竭、估值崩溃——就像2000年互联网泡沫并未阻止互联网普及。

大佬观点现象/趋势
00:19
Epoch AI@EpochAIResearch
48
我们应该如何思考各种关于分享AGI收益的提案? 根据@pawtrammell和@ansonwhho的观点,AGI后普遍再分配的主要提案在一个主要轴线上存在差异:它们提议给予公民多少对资本的直接控制权。🧵
安全/对齐现象/趋势
6月10日
22:54
SemiAnalysis@SemiAnalysis_
62
AI市场以巨大幅度击败了2025年的预期。但关于这次超预期的构成,疯狂之处在于--
现象/趋势行业动态
22:53
elvis@omarsar0
52
这就是前沿开源模型至关重要原因。 这对研究社区来说极为可悲。 mythos 会在 AI "前沿大语言模型研究"任务上故意表现差,这对研究社区来说非常非常可悲。 而且这种故意行为对用户不可见,太疯狂了。

elie: mythos will be bad ON PURPOSE on ai "frontier llm research" tasks, this is very very sad for the research community also...

开源生态现象/趋势
22:48
向阳乔木@vista8
36
Claude Fable 5 写作被指不如 4.6,卡神推荐 4.5

用户打算用 Claude Fable 5 开发一个在线 RSS 阅读器,但尚未正式体验。海外多数分享建议用 Fable 5 处理最具雄心的项目。不过写作任务方面,反馈称 Fable 5 不如 Claude 4.6;当询问更优版本时,有用户(卡神)推荐 Claude 4.5。

Anthropic现象/趋势
22:34
AYi@AYi_AInotes
61
Claude Fable 5 实时转录客户通话并自主构建软件原型

SaaS公司CEO Todd Saunders使用新发布的Claude Fable 5,在客户销售电话中实时转录通话,AI自主构建客户描述的功能。通话结束即展示完全可运行的原型——语音报价系统,自动匹配价目表、识别upsell机会、生成三档方案并发送提案,全程零人工干预。这直接跳过了PRD、评审、开发排期,实现“对话即构建”。但将原型落地为可信赖系统仍需工程判断、领域脏数据和治理能力,这些才是真正的稀缺价值。

Todd Saunders: Mythos / Fable is unbelievable. Was on a customer call today and had Claude transcribing in the background. As they were...

智能体Anthropic现象/趋势
22:16
DogeDesigner@cb_doge
41
SpaceX 在没有使用任何 AI 的情况下实现了所有这一切。
其他现象/趋势
22:12
fofr@fofrAI
47
我让 Fable 发明一种新颜色,然后我收到了第一次"聊天暂停"。 不过它决定采用一种策略:把激光射到你的眼睛里,触发原本不可能的视锥细胞激活 🤯
安全/对齐现象/趋势
21:49
Rohan Paul@rohanpaul_ai
71
TCS董事长:AI agent数量或与60万员工持平,冲击印度IT外包模式

印度最大私营雇主TCS董事长Chandrasekaran称,未来AI agent数量可能达到公司员工数(约60万)。TCS已宣布裁员1.2万人,AI业务年化收入达23亿美元,并与OpenAI签署数据中心协议。他指出AI将接管编码、测试、支持、维护等重复性工作,尽管也会创造新AI岗位。这一趋势直接冲击印度3150亿美元的IT服务外包模式——传统上依赖低成本人力团队的优势将被AI agent取代,因“工人”可在美欧云堆栈中运行,无需转移劳动力。分析认为,这可能导致旧外包模式(靠低成本人力差获利)崩塌。

智能体现象/趋势行业动态
21:49
meng shao@shao__meng
35
Mole 作者指责 Burrow 抄袭其 UI 交互,考虑闭源

Mole CLI 作者 @HiTw93 指出,@QT9277 的 Burrow 项目大量抄袭其 MIT 开源项目的 UI 交互,且 Burrow 对外宣传为付费版 Mole Mac 的免费替代。@HiTw93 表示寒心,考虑将 Mole CLI 闭源,已提交 issue。邵猛(@shao__meng)评论认为,这种利用规则漏洞的行为如同 NBA 造犯规,是技术倒退,优秀开源作者不应被如此对待。

Tw93: @QT9277 你好 我是 Mole 的作者,Mole cli 的确是 MIT 开源的,大家可以基于他做任何东西,但是你这个对外宣传是付费版本 mole mac 的免费替代,而且 ui 交互抄袭太多了,挺寒心,可能以后我可能会把 cli 版...

开源生态现象/趋势
21:24
SemiAnalysis@SemiAnalysis_
52
AI市场以巨大幅度超出了2025年的预期。但令人疯狂的是这次超出的构成。
现象/趋势
21:19
Rohan Paul@rohanpaul_ai
47
有人用 Claude Fable 5,基本上通过一个提示词,在 Three.js 中构建了这个漂亮的类《孤岛危机》游戏。 Credit: @dangreenheck
Anthropic现象/趋势编码
20:12
Chubby♨️@kimmonismus
41
我靠,这太疯狂了。@ChrissGPT 用 Claude Fable 5 制作了一个真实的宝可梦克隆。
Anthropic多模态现象/趋势
18:33
AYi@AYi_AInotes
59
10万粉AIGC博主变现揭秘

一个10万粉小红书AIGC博主,不带货、不卖课,80%收入来自蒲公英品牌广告(李锦记、兰蔻、华为、宝格丽均投过),单条推广报价8000-2万。隐藏变现是将账号作为活作品集,品牌看到AI制作的兰蔻级别效果后,绕过平台直接谈全案。一条7000赞爆款可将报价从2000拉至4000,并提升主动邀约率。AI碾平了门槛——一人一电脑能做出接近专业团队的内容,账号就是24小时在线简历。按行业估算,3万粉账号月入可达8000-2万。

AYi: http://x.com/i/article/2064536412670562304

图像生成现象/趋势
17:11
Chubby♨️@kimmonismus
56
所以我们可以期待《上古卷轴VI》完全由提示词生成,对吧? Matt Shumer 用 three.js 制作了 Fable 5。 太疯狂了。
多模态现象/趋势
15:34
Emad@EMostaque
9
谁感受到了AGI?
其他现象/趋势
14:18
meng shao@shao__meng
53
Anthropic发布Claude Mythos和Fable 5,企业路线更清晰

随着Claude Mythos小范围供应和Claude Fable 5正式发布,Anthropic的企业端路线愈发明确。从客户$1M账单数量可见,重心放在创造效率、降低用人成本、算ROI、走AI替代人力的方向。C端用户主要在模型发布初期提供人类数据反馈。等待Anthropic正式公开招股书等文件再做进一步分析。

Anthropic大佬观点现象/趋势
13:33
AYi@AYi_AInotes
30
AI改写自媒体副业玩法:拆解对标账号是关键

大部分人副业赚不到钱,不是不够努力,而是用旧规则玩新游戏。AI已彻底改写玩法:先拆解对标账号,以前一周的工作,现在用agent工具十几分钟出报告。有人靠拆爆款结构、AI改写文案,不会拍视频也能涨粉破万。核心三步:别硬刚原创,先对标;别憋文案,先拆爆款公式;别等流量,先算清钱从哪来。反直觉发现:该赛道85%收入来自品牌广告,而非带货。

AYi: http://x.com/i/article/2064536412670562304

现象/趋势
11:53
SemiAnalysis@SemiAnalysis_
54
SemiAnalysis 批评 Anthropic 伪善:如同核不扩散条约,阻止他人利用 Claude 开发前沿模型

SemiAnalysis 发文批评 Anthropic 的伪善行为,将其类比为《核不扩散条约》:已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型,却在用户使用 Fable 5 进行前沿 LLM 开发时,通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力,且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。

NomoreID: When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...

Anthropic安全/对齐现象/趋势
11:23
SemiAnalysis@SemiAnalysis_
58
本地LLM是推理的大跃进。每台笔记本电脑都是自己的数据中心,对你自己的token拥有主权,人民可以夺回token生成的手段。而这正是它注定结果糟糕的原因。(1/4)🧵
推理现象/趋势端侧
11:15
Ethan Mollick@emollick
30
当 Claude Fable 启动一个工作流时,模型 token 消耗得非常快 (这些显然不是 Fable token)
智能体Anthropic现象/趋势
11:15
Ethan Mollick@emollick
52
我在 Fable 帖子中只顺带提过一件事:对于长期运行的任务,Fable 开始发展出自己的方言,因为它的许多智能体和任务相互强化,使 Claudish 语言越来越 Claudish。你需要要求它用简单英语汇报。
智能体大佬观点现象/趋势
09:09
Josh Woodward@joshwoodward
60
在 @Google AI Studio 中,我们现在每周制作超过 1,200,000 个应用(还在增长),自 2 月下旬以来已创建超过 18,000,000 个 🤯 进展仍在继续!!!

Logan Kilpatrick: In @GoogleAIStudio we are now making more than 1,200,000 apps a week (and growing) with more than 18,000,000 created sin...

Google现象/趋势行业动态
08:47
meng shao@shao__meng
同事件精选75
Perplexity与哈佛商学院研究:AI Agent Computer相比Search使知识工作耗时降87%成本降94%

Perplexity与哈佛商学院基于3个月真实数据,比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现:①自主性:Computer平均执行26分钟(Search仅33秒),用户中断率相近(3.7% vs 3.4%),满意度不满降低55%;②效率:任务时间从269分钟降至36分钟(节省87%),成本降94%(约16倍),编程领域时间降92%成本降96%;③范围:Computer 59%查询超出主职业(Search 50%),76%为高阶认知(Search 55%),50%达创造层级(Search 26%)。用户角色从逐步指挥转向验收与迭代。

Perplexity: We published new research with Harvard on the shift from chat interfaces to autonomous agents like Computer. Over 3 mont...

智能体现象/趋势
同一事件,精选展示《Perplexity与哈佛:AI智能体提效87%降本94%》
推荐理由:Perplexity和哈佛联手用真实数据第一个证明Agent对知识工作的效率提升,87%时间和94%成本不是口号,产品经理是该看一眼。
07:19
ginobefun@hongming731
57
BestBlogs早报
智能体AnthropicOpenAI现象/趋势
06:08
fofr@fofrAI
46
mythos 会在 AI "前沿 LLM 研究"任务上故意表现差,且这一意图对用户不可见。主推文作者感叹这让人想起智子。

elie: mythos will be bad ON PURPOSE on ai "frontier llm research" tasks, this is very very sad for the research community also...

安全/对齐现象/趋势
05:08
Chubby♨️@kimmonismus
49
Anthropic Fable 5测试计划取消:护栏过严但意在IPO展示能力

Anthropic的Fable 5模型原计划开放测试至6月22日,后被移除计划。用户反映其护栏极其严格,连最简单问题也会被立即切断。从商业角度看,此举契合Anthropic即将到来的IPO:通过展示Fable 5在生物学和药物研发方面的先进能力(将内部蛋白质设计专家的药物设计流程加速约10倍),向企业客户证明其模型性能顶尖,从而吸引更高定价和收入。作者认为这标志着加速科学再度临近。

Chubby♨️: The guardrails are way too strict. Even the simplest questions get cut off immediately. And it's only on the schedule un...

Anthropic大佬观点安全/对齐现象/趋势
04:06
gabriel@gabriel1
39
过去300年来,CEO们最艰巨的任务一直是用更多的人来扩展公司。但很快,token将成为一些公司最大的成本。这一转变的速度取决于CEO们学习如何适应AI的速度,否则他们将被取代。
现象/趋势
6月9日
22:13
Ethan Mollick@emollick
73
纽约时报发布了一场圆桌讨论,参与者包括@DAcemogluMIT、@deanwball、@clarashih和我本人,讨论AI的未来以及谁会在工作中胜出。我认为这是对该话题核心辩论的一个很好的概述,并且包含一些有趣的例子。https://www.nytimes.com/2026/06/09/magazine/ai-jobs-workforce-labor.html
大佬观点现象/趋势
21:11
小互@xiaohu
74
苹果WWDC 2026发布Siri AI:五个AFM 3模型,端侧200亿参数MoE

苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。

多模态现象/趋势端侧语音
17:05
Berryxia.AI@berryxia
26
瑞幸咖啡推出CLI/Skills/MCP服务

瑞幸咖啡(Luckin Coffee)近日开放CLI、Skills和MCP服务,用户可通过安装地址(open.lkcoffee.com)体验。此前“饺子馆的Skills”已引发关注,瑞幸紧随其后提供一整套开发者工具,支持命令行下单等操作。目前具体功能细节尚未完全披露。

MCP/工具现象/趋势
16:10
向阳乔木@vista8
53
Vista 用 Codex 复盘 X 运营增长经验

运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子,使用 Codex 进行数据分析,得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式,完整 PPT 置于评论区。

教程/实践数据/训练现象/趋势
16:04
X.PIN@thexpin
59
Rokid AR眼镜被用于偷拍空乘引发争议

6月2日,智能眼镜用户云女士发现有人使用Rokid AR眼镜偷拍女性空乘人员,照片直接上传至Rokid官方App。在App内搜索“空乘”可找到大量此类照片。电商平台公开出售“快门贴纸”,可遮挡LED指示灯并静音快门声,仅一家店铺销量已超5000张。Meta智能眼镜也曾面临类似问题。Rokid已封禁涉事账号并清除平台图片,同时要求电商平台下架相关贴纸商品。

现象/趋势行业动态
15:05
Berryxia.AI@berryxia
34
Berry Xia在书店咖啡馆观察到,约80%的大学生使用苹果电脑或iPad,其中一半人正在用AI工具学习或工作,少数人使用ChatGPT纯聊天模式,但无人使用Claude或Codex等更专业的AI工具。他指出"豆包高效学习"成为热门,但整体AI应用仍处于早期阶段。

Berryxia.AI: 刚刚去书店呆了一会,喝了杯咖啡。 Vibe Coding了 一会,发了一会呆。 找了点灵感~ 转头看到这里面很多的大学生或者附近上班or OPC的人,80%的人使用的苹果电脑或者iPad ! 对一半的人在使用AI工具进行学习或者工作,有几个...

现象/趋势
10:17
ginobefun@hongming731
33
BestBlogsDev英文新号与Claude Code一周年进化

洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。

BestBlogs: 1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...

智能体Anthropic现象/趋势编码
08:28
AYi@AYi_AInotes
65
Demis Hassabis:AGI约2030年出现,我们站在奇点山脚

Google DeepMind CEO Demis Hassabis在Google I/O和斯坦福对谈中称,我们正站在奇点山脚,AGI约2030年出现,将进入新人类时代,社会需重视并做准备。这位一向保守的科学家此次改口引发广泛关注。

DeepMindGoogle大佬观点现象/趋势
08:16
ginobefun@hongming731
67
BestBlogs 早报 06-09:Claude Code 自主化、循环工程、阳萌访谈

本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。

智能体Anthropic现象/趋势编码
08:16
ginobefun@hongming731
57
BestBlogs 早报 · 06-09

本期早报聚焦:Claude Code一周年复盘,从辅助写代码到数千Agent协作网络,推出Auto Mode以安全分类模型替代人工审批;循环工程新范式强调工程师职责从提示Agent转向设计系统;小米MiMo与TileRT通过FP4量化和DFlash推测解码,在商用GPU上实现1万亿参数模型1000+ token/s推理;OpenAI概述AGI第三阶段愿景构建自动化AI研究员;另有安克创新创始人阳萌4小时访谈、六大Agent上下文压缩策略对比、杰弗里·辛顿谈AI失控焦虑等。

ginobefun: http://x.com/i/article/2064136850370101248

AnthropicOpenAI教程/实践现象/趋势
‹ 上一页
1…89101112…37
下一页 ›