AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2398 条
全部一手资讯X论文
标签「大佬观点」清除
Yuchen Jin@Yuchenj_UW · 5月7日50

From “Anthropic is Misanthropic” to “Claude is good for humanity and was impressed.” Most ironic outcome is most likely.

译作者对Anthropic团队的态度从怀疑转为认可,认为其Claude AI项目可能有益于人类。他透露曾与Anthropic高层深入交流,评估其确保AI安全性的措施,并对其团队的专业能力和道德责任感表示赞赏。基于此评估,作者同意将Colossus 1计算资源租赁给Anthropic。这一转变被作者视为一个具有讽刺意味但可能成真的结果。

Ethan Mollick@emollick · 5月7日63

A critical question in agent design is “how do we build agentic workflows so humans are given significant, interesting, or variance-producing decisions as they come up in the work?” A Claude-run company has no source of competitive advantage compared to other Claude-run firms.

译智能体设计的关键问题是:“如何构建智能体工作流,使人类能在工作中遇到重大、有趣或产生变数的决策时掌握决定权?” 一家由Claude运营的公司与其他由Claude运营的企业相比,并不具备竞争优势来源。

François Chollet@fchollet · 5月7日65

There are only two honest metrics when it comes to benchmarking intelligence: novelty and efficiency. You don't need intelligence to solve a known problem (only memory). And you don't need intelligence to solve a problem via brute force. But to solve a novel problem efficiently, intelligence is the only way.

译衡量智能时只有两个诚实的指标:新颖性和效率。 解决已知问题不需要智能(仅需记忆)。通过蛮力解决问题也不需要智能。但要高效解决新颖问题,智能是唯一途径。

Nathan Lambert@natolambert · 5月6日56

Added a 1500 word mini history to my book on the path to on-policy distillation being a core post-training optimization technique. The math is fairly simple, seems like the sort of thing that started working as our distributed systems for training got better. It's very remarkable to me that a blog post from @_kevinlu at @thinkymachines is the canonical reference for using the reverse KL distance as an advantage within policy-gradient tools. This switch to distillation objectives within RL setups enables a lot of fun reward shaping ideas. This also means that on policy distillation was obviously helped in its proliferation by the mass engineering effort in getting RL algorithms right over the last few years. Lastly, as someone already very familiar with @agarwl_'s early work on generalized knowledge distillation / connection to imitation learning algorithms like DAgger, I recommend reading concurrent work MiniLLM which was technically the first to propose using a policy-gradient-like, on-policy rollout approach for distillation. The switch from learning from teacher demonstrations to student rollouts seems so obvious in hindsight, where we are with RL hype, but at the time obviously took at bunch of work to get right. Excited to figure out how to make post-training recipes around this!

译作者在其著作中补充了关于策略蒸馏如何成为核心后训练优化技术的历史回顾。其数学原理相对简单,其发展得益于分布式训练系统的进步。关键转折在于强化学习设置中采用蒸馏目标,这启发了丰富的奖励塑造思路。策略蒸馏的普及也源于近年来强化学习算法工程的大规模投入。技术演进从学习教师示范转向学生自我推演,回顾看似明显,实则经历了大量工作。相关研究如MiniLLM率先提出了类似策略梯度的在策略推演蒸馏方法。

Berryxia.AI@berryxia · 5月6日47

很多大公司没有创新都是因为大家都害怕“背锅”。 Elon Musk 把大公司创新停滞的死结,一句话直接捅破了。 “如果你对失败惩罚太狠,人们就会相应调整行为,最终你得到的创新只会是极度保守的渐进式小修小补。” 没人敢尝试真正大胆的东西,因为怕被开除、怕被惩罚。 所以风险回报必须明显向大胆行动倾斜,否则真正的突破根本不会发生。 这才是SpaceX能把火箭炸了还继续干、xAI能快速迭代的原因: 他们把失败当学费,而不是死刑。 而大多数公司呢? 一次失败就秋后算账,结果大家集体学会了“安全第一”,创新成了PPT表演。 真正的创新,从来不是靠KPI和零容错文化逼出来的, 而是给敢于赌命的人留一条活路。 你所在的公司,是在奖励大胆尝试,还是在惩罚所有失败? 这段话值得每个管理者反复听。

译Elon Musk指出,大公司创新停滞的核心原因是对失败的惩罚过于严厉,导致员工因害怕被开除而只敢进行保守的渐进式改进。他强调,风险回报必须明显向大胆行动倾斜,真正的突破才可能发生。SpaceX和xAI能快速迭代,正是因为他们将失败视为必要的学习成本。相反,多数公司一次失败就秋后算账,致使团队形成“安全第一”的保守文化,创新沦为表面表演。真正的创新需要容忍失败、奖励大胆尝试的文化,而非依赖KPI和零容错的管理压力。

swyx 🌉@swyx · 5月6日10

typical @evanjconrad W

译典型的 @evanjconrad 胜利

Sam Altman@sama · 5月6日28

ChatGPT feels very 'switched on' now

译ChatGPT现在感觉非常'开机了'

凡人小北@frxiaobei · 5月6日58

不要把注意力放在“Claude Code 2026 年已入 10 亿美金”或者“编程已经被解决”。 更值得关注的点: Anthropic 已经开始把公司改造成一个由 Agent 持续运行的系统。 几百个 Claude 挂在 Loop 里自动跑任务,Claude 和 Claude 之间通过 Slack 互相沟通,PR、CI、SQL、数据整理、反馈聚类,全都在后台持续流动。 这一点对于生产力大爆发至关重要。

译核心观点在于Anthropic正将公司改造为由AI Agent持续运行的系统。具体表现为,数百个Claude实例在循环中自动执行任务,并通过Slack等工具相互通信,使代码提交、持续集成、SQL查询、数据整理及反馈聚类等工作在后台自动流动。这种将AI Agent深度整合进核心业务流程的模式,被视为推动生产力大爆发的关键,其意义超越了单纯讨论AI编程能力或商业收入的层面。

SemiAnalysis@SemiAnalysis_ · 5月6日50

Dylan opts for MAX thinking over fast mode! @Dylan522p @fabknowledge @maxkan_ Join this week to discusses GPT 5.5 vs Claude 4.7 and OpenAI's comeback from the brink with @JordanNanos

译Dylan 选择 MAX 思考模式而非快速模式!@Dylan522p @fabknowledge @maxkan_ 本周加入我们,与 @JordanNanos 一起讨论 GPT 5.5 与 Claude 4.7,以及 OpenAI 如何从边缘回归。

Berryxia.AI@berryxia · 5月6日42

Grok 已经蹲坑Apple AI的自定义助手。 等iPhone 开放Grok直接抢占先机接入它,圈地就可以了。

宝玉@dotey · 5月6日16

最近用微信读书听书,现在 AI 语音的音色是真好,但是多音字识别不准,很多字音都读错了,听着就很出戏! 之前是在喜马拉雅听真人版本,感觉就特别好,后来进度太慢就去听书,但效果就差好多。 按理说以现在大模型的水平能正确识别多音字的,希望能改善好。

译用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。

Nathan Lambert@natolambert · 5月6日43

Adding an on policy distillation section to the RLHF book and it’s remarkable how bad LLMs / coding agents are at it, despite me giving them the core papers and 250 pages of context on how I present ideas.

译正在为RLHF书籍添加一个关于策略蒸馏的章节,值得注意的是,尽管我已经提供了核心论文和250页关于我如何阐述观点的背景资料,但LLMs/编码代理在这方面的表现却出奇地差。

Ethan Mollick@emollick · 5月6日66

All benchmarks are flawed, but GPQA has been fairly consistent & highly correlated with other measured benchmars. I think it's a good way to see how far we've come that the free model from OpenAI, GPT 5.5 Instant, is at a level that even paid models did not reach until late 2025

译所有基准测试都有缺陷,但GPQA一直相当稳定且与其他测量基准高度相关。我认为这是一个很好的方式来看我们已经走了多远,OpenAI的免费模型GPT 5.5 Instant已经达到了甚至付费模型直到2025年底才达到的水平

Satya Nadella@satyanadella · 5月6日70

Every firm will need to reconceptualize work as they build agentic systems. As AI and agents take on more of the execution, the opportunity is to expand human agency and redesign how work gets done. An in-depth look from the team at what this shift means and key considerations for every business: https://www.microsoft.com/en-us/worklab/work-trend-index/agents-human-agency-and-the-opportunity-for-every-organization

译每家公司都需要在构建智能体系统时重新构想工作。 随着人工智能和智能体承担更多执行任务,机遇在于扩展人类能动性并重新设计工作完成方式。 来自团队的深度解析:这一转变意味着什么,以及每个企业需关注的关键考量:https://www.microsoft.com/en-us/worklab/work-trend-index/agents-human-agency-and-the-opportunity-for-every-organization

Sam Altman@sama · 5月6日58

5.5 in codex is so good for non-coding tasks. i keep assuming it won't be able to do something, but a lot of the time i am pleasantly surprised.

译5.5在codex中对于非编码任务表现太出色了。 我总以为它无法完成某些事,但很多时候它都让我惊喜不已。

Sam Altman@sama · 5月6日37

the new instant model in chatgpt is so good damn if you have been thinking-model-only for awhile, give it a try!

译chatgpt的新即时模型真是太棒了 如果你一直只用思考模型的话,不妨试试这个!

Ethan Mollick@emollick · 5月6日41

The common noun have been FLOPs: 1) Has precise meaning 2) You can actually price and measure it 3) Funnier

译普通名词已经过时了: 1) 具有精确含义 2) 你实际上可以定价和衡量它 3) 更有趣

Rohan Paul@rohanpaul_ai · 5月6日63

Bloomberg: BlackRock CEO Larry Fink says compute power demand is so huge, that it could become a traded financial asset, with futures contracts letting investors bet on the future price of the machines that run AI. BlackRock is already placing that bet through data centers, energy deals, and partners like Microsoft, Nvidia, MGX, GIP, and EQT, because compute demand converts directly into demand for power, chips, servers, and real estate. Fink’s “no AI bubble” claim rests on supply shortage: he argues demand is rising faster than capacity, so prices stay supported because companies cannot get enough compute even when they are willing to pay. --- bloomberg .com/news/articles/2026-05-05/larry-fink-predicts-birth-of-futures-market-for-computing-power

译贝莱德CEO拉里·芬克指出,AI驱动的算力需求极其庞大,未来可能形成算力期货市场,使其成为可交易的金融资产。基于这一判断,贝莱德已通过投资数据中心、能源交易及与微软、英伟达等科技巨头合作进行布局,将算力需求转化为对电力、芯片等基础设施的投资。芬克否认AI存在泡沫,其核心论据是供应持续短缺——需求增速远超产能扩张,即使企业愿意高价支付也难以获得足够算力,从而对价格构成支撑。

DogeDesigner@cb_doge · 5月6日11

ChatGPT is so dumb.

译ChatGPT 真笨。

Sam Altman@sama · 5月6日50

i would like to talk to people who have built amazing things with 5.5 that weren't possible with earlier models. i am especially interested in examples that took ludicrous token budgets. thanks.

译我想与那些利用5.5版本构建了惊人项目的人交流,这些项目在早期模型中是无法实现的。我特别关注那些消耗了巨额令牌预算的案例。谢谢。

Yuchen Jin@Yuchenj_UW · 5月6日39

Everything is a skill-md issue.

译一切都是技能-md问题。

SemiAnalysis@SemiAnalysis_ · 5月6日35

The Cerebras company slogan should be: "No Singulation, All Singularity"

译Cerebras公司的口号应该是:“无需分割,皆是奇点”

宝玉@dotey · 5月5日67

http://x.com/i/article/2051687844679143424 # Boris Cherny:Claude Code 之后,写代码正在变成“管理 Agent” Boris Cherny 是 Anthropic 内部 Claude Code 的创建者,从一个三人小团队的孵化项目做起,把“在 IDE 里按 Tab 自动补全一行代码”这件事彻底升级成“让 Agent 把整个项目写完”。Claude Code 在 2026 年初已经超过十亿美元年化营收,被 Anthropic 自己称为“史上从研究预览到十亿美元产品最快的一次”。 这次访谈来自 Sequoia 2026 年的 AI Ascent 大会,主持人是红杉合伙人 Lauren Reeder。 原始视频:https://www.youtube.com/watch?v=SlGRN8jh2RI ## 要点速览 - Boris 整个 2026 年没写过一行代码,每天合并几十个 PR,单日记录是 150 个,但他承认这是“为了试试模型能跑多远”。 - Claude Code 早期半年没有 PMF,做出来时 Boris 自己只用它写 10% 的代码,是 Opus 4 在 2025 年 5 月发布之后才开始指数增长,每一代新模型都让曲线再往上拐一下。 - Boris 现在大部分工作从手机完成,Claude App 里常驻 5 到 10 个 session、几百个 Agent,夜里有几千个在跑深度任务,核心调度模式叫 Loop,做法是让 Claude 通过 cron 起一个定时循环。 - Anthropic 内部已经没有手写代码:所有 SQL、所有产品代码都由模型生成,员工的 Claude 之间通过 Slack 互相沟通,把对方的不确定问题直接 ping 过去问。 - 关于“SaaS 的终结”,Boris 借用 Hamilton Helmer 的“七种护城河”框架:切换成本和流程效力这两种会被 AI 抹平,因为模型可以帮你迁移、可以自己迭代流程;网络效应、规模经济、独占资源这些不变。 - 他给出的最重要历史类比是印刷术,认为软件构建会像识字一样普及,最合适写会计软件的是会计师而不是工程师,因为编程是简单部分,懂业务才是难的部分。 - Anthropic 的真正领先不在技术,在组织流程:模型大家都能用,但内部组织怎么改造、Claude 怎么互相沟通、整个公司怎么把所有手写代码替换掉,这才是产品差距。 ## 【1】Claude Code 是怎么从一个三人孵化项目做出来的 Boris 说他是“误打误撞”做出 Claude Code 的。2024 年底他加入了 Anthropic 内部一个叫 Anthropic Labs 的孵化器,团队只有几个人,一开始的产物就是 Claude Code、MCP 和 Claude Desktop App 这三件东西。这个团队一度被解散,2026 年初又重组,由 Mike Krieger 牵头。 > 注: Mike Krieger 是 Instagram 联合创始人兼前 CTO,2024 年 5 月加入 Anthropic 担任首席产品官,2026 年 1 月起进入 Labs 团队,和 Ben Mann 一起负责实验性产品孵化。 Boris 描述他当时为什么想做编程这件事,用的是 Anthropic 内部很常用的一个词:“product overhang”。这个词可以翻译成“产品悬置(Product Overhang,指模型能力已经具备但尚未被产品化)”,意思是模型已经能做一堆事情,但还没有任何产品把这些能力展现出来。 > 我们当时看编程领域,2024 年底最先进的状态就是按 Tab 键。打开 IDE,按一下 Tab,模型给你补一行。这是 Sonnet 3.5 第一次让人能做的事情。但当时的感觉是,我们其实可以走得更远,模型几乎已经准备好下一步了。我们不需要再做 Tab 补全,可以直接让 Agent 把整段代码都写了。 但做出来之后,前六个月几乎没什么人用。Boris 说最初版本“基本不能用”,连他自己也只用它写 10% 的代码。即便对外发布,也没有指数级增长。真正的爆发点是 2025 年 5 月 Opus 4 发布。从那之后,每一代新模型都让曲线再往上拐一次,从 Opus 4 到 4.5、4.6,再到现在的 4.7。 他承认整个过程其实是一场违背常规 PMF(产品市场匹配)逻辑的赌注: > 我们其实是在做一个初期完全不具备 PMF 的东西。我们很清楚它前六个月不会有 PMF,因为我们是在为下一代模型做开发。我们从始至终就是这个思路。 > 注: PMF 是 Product-Market Fit,产品市场匹配。Anthropic 整个产品逻辑就是赌“模型能力会涨到一个点”,提前把那个点对应的产品做出来,这和典型 SaaS 的“先验证需求再做产品”是反着的。 ## 【2】“编程已经被解决”,但这是 Boris 个人的版本 Lauren 问他公开说过的“编程已经被解决”是什么意思。Boris 在台上做了一次现场调查,让全场观众举手示意:“谁 100% 还在亲自写代码”、“谁 100% 已经完全不写了”、“谁介于两者之间”。最后的现场分布大致是“50% 解决”。但对 Boris 自己,比例是 100%。 他给的解释是 Claude Code 的代码库(已经因为泄露事件被外界看过)就是 TypeScript 和 React,没什么秘密。选 TypeScript 和 React 的原因是这两个东西在模型训练数据里非常常见,属于“on-distribution(分布内数据)”。当时模型还没那么聪明,框架选择关系到模型能写多少。现在模型已经强到可以拿不熟悉的语言现学现用,但 2024 年底必须挑模型最熟的栈。 正因为选了模型最熟的栈,团队很早就过了一个临界点:模型开始写 100% 的代码。Boris 说这件事在去年 10 月、11 月就发生了。 > 现在我每天大概合并几十个 PR。上周有一天我合了 150 个,那是个记录,我就是想看看能不能把它推到极限。 但他也明确承认,这条结论并不普世:还有很大很复杂的代码库、还有模型不擅长的小众语言。他给出的一句答案有点“等就完事了”的味道。 > 通常的答案就是等下一代模型。 > 注: Boris 这段说法的样本明显有偏。他用的是 TypeScript+React 这种主流栈,自己的代码库已经成熟,还在 Anthropic 内部用着内部专属模型 Mythos 来 dogfood(吃自己的狗粮,指内部试用自己的产品)。“编程已被解决”对他成立,但替换到一个三十年的 C++ 老系统、一个 SAP ABAP 项目,或者一个游戏引擎团队,结论会非常不同。 ## 【3】手机里跑着几百个 Agent:Boris 的工作流 Boris 说他六个月前在 Twitter 上分享过一次个人工作流,发的时候没觉得有什么稀奇,结果出乎意料地火。从那以后他的方式又变了:现在大多数工作从手机完成。 具体方式是 Claude App 左侧有个 code 标签,他常驻 5 到 10 个 session。每个 session 里又开着一堆 Agent,加起来通常有几百个在跑。晚上还会再起几千个做更深的任务。 他说目前最常用的不是子 Agent,而是一种叫 Loop 的简单模式:让 Claude 用 cron 起一个定时任务,可以每分钟、每五分钟、或者每天跑一次。 > 我大概有几十个 Loop 一直在跑。一个负责盯着我的 PR,自动修 CI、自动 rebase;一个负责让 CI 整体保持健康,比如某个测试 flaky(时好时坏不稳定)了它就去修;还有一个每 30 分钟从 Twitter 上把别人对 Claude Code 的反馈拉一遍、聚类、整理给我。 他还提到 Anthropic 刚发的 Routines,这个产品其实是把同样的 Loop 模式从本地搬到服务器上,关掉笔记本它也照常跑。 他对这件事的判断是:“Loop 是未来。” > 注: CI 是 Continuous Integration,持续集成。Boris 描述的这套工作流核心其实很简单:更早地放弃“亲自下指令”。他做的事情是让一群 Claude 不停地干活,而他自己只在 Slack 上接收报告。从产品视角看,Routines 把 Loop 从客户端模式变成 Anthropic 自己托管的服务,调度本身要开始消耗他们的服务器资源,定价模型迟早要变。 ## 【4】通才崛起:团队里每一个角色都在写代码 Boris 说他的判断是 “通才会比今天多得多”。 他先把“通才”分了两种:第一种是工程通才,比如一个人同时写 iOS、Web 和服务端,今天大家说的 generalist 多半是这种。第二种是更值得关注的跨学科通才,一个产品工程师同时也很懂设计,或者既能做产品也能做数据科学。 他说这件事在 Claude Code 团队内部已经在发生: > 我们团队的工程经理、产品经理、设计师、数据科学家、财务、用户研究员,每一个人都在写代码。每个人都还在某件事上是专家,但也都在写代码了。 他没有展开“为什么这是好事”,但暗含的逻辑是:当写代码的边际成本接近于零,那些原本被排除在工程之外的角色(财务、设计、研究)就有了直接出工程产物的能力,分工的边界自然会模糊。 > 注: 这个判断在创业公司里很容易验证,但放在大型企业里就麻烦得多。一个 5000 人的银行 IT 部门有合规、风控、变更管理、审计追踪等等约束,这些不是“我会写代码”就能跨过去的。Boris 谈的是 Anthropic 自己这样规模较小、流程很轻的公司,迁移到其他规模和行业之前,需要打个折扣。 ## 【5】SaaS 的终结:哪些护城河会被 AI 抹平,哪些还留着 Lauren 问:写代码现在便宜了 10 倍、100 倍,那靠软件做出来的产品的价值会怎么变化?我们是不是要面对一场 SaaS 的终结? Boris 说这是他最爱的问题。然后他借用了一个外部框架来回答:Hamilton Helmer 的“Seven Powers”。 > 注: Hamilton Helmer 是策略学家、Strategy Capital 创始人,2016 年出版《7 Powers: The Foundations of Business Strategy》。书里把可持续竞争优势分成七种:规模经济、网络效应、反向定位、切换成本、品牌、独占资源、流程效力。这本书在硅谷非常流行,Reed Hastings、Daniel Ek、Patrick Collison 都给过推荐语。 Boris 的判断是 AI 会把其中两种护城河抹平: 第一种是切换成本。原因很直接,模型可以帮用户从一个工具迁到另一个工具,原本“我已经在 Salesforce 上配了三百个工作流,没法换”这件事,模型一夜之间就能帮你迁完。 第二种是流程效力,也就是那种“我们的工作流和流程别人复制不了”的优势。Boris 说 Claude 4.7 已经能“hill-climb(爬坡式优化,即逐步逼近最优解)”任何东西,你设定一个目标,让它自己迭代优化,它最终就能达成那个效果。流程优化原本是大公司多年积累出来的内部资产,现在被模型直接吃掉了。 > 这是第一个能做到这件事的模型。你给它定下目标,让它不断运行直到达成,它就能自动执行到底。 但他认为另外几种护城河没有被改变:网络效应、规模经济、独占资源依旧成立。换句话说,那些“用户越多越好用”的产品(社交、平台、市场)和那些“我有一个别人拿不到的资源”的公司(专利、特许牌照、独家合同)依旧安全。 第二个判断更激进: > 接下来 10 年里,能颠覆原有市场的初创公司数量大概会比过去 10 年多 10 倍。因为现在你可以做一家很小的公司,做出和大公司一样有价值的产品,然后正面竞争。大公司要改业务流程、要重新培训员工、内部还会一堆抵抗,但你不需要,你是从一张白纸开始的。 > 注: Boris 关于切换成本会被抹平的判断有结构性争议。模型确实能帮你迁数据,但企业 SaaS 的真正切换成本另在他处:合规审计、合同条款、组织里的“使用习惯”和供应商认证。Salesforce 和 SAP 的护城河靠的从来是这套审批和惯性,技术本身只占很小一部分。Anthropic 自己的 Cowork 已经在挑战这一点,但市场反应(2026 年 2 月软件股蒸发 2850 亿美元市值)说明投资人在押注他的判断成立。这是一笔很大的赌注,未必很快收敛。 ## 【6】产品 vs 模型:模型变强了,产品的价值还剩多少 观众 Dan 问:Claude Code 的成功你会怎么归因?产品决策和模型本身各占多少? Boris 没有给出一个简单明确的答案。他先说一年前可能是 50/50,六个月前可能也是 50/50。两年后呢?他直接说:“不知道,我们一次只做一周的计划。” 但接着他给了一个更有意思的回答: > 我以前在 YC 待过,做过几家初创公司。YC 反复跟你强调的就是:做一个用户爱用的东西。不管模型多强、不管你做的是什么品类,最后你都得做出一个用户真的爱用的东西。这就是产品为什么重要。我们花了大量精力在小细节上,因为你一整天都在用它,那这些细节就构成了体验。 他同时也承认,随着模型变强,外面那一层“harness”(脚手架、调用框架)会变得没那么重要。一年后产品安全机制(prompt injection [提示词注入] 防御、命令静态校验、permission mode、human-in-the-loop [人类在环,即关键决策保留人工确认])可能都不需要那么多了,因为模型自己就会做对的事。 他的产品方向也不是再加一层皮,而是去想:怎么让 Loop 变成一等公民?怎么让一个人同时跑很多个 Agent 这件事更顺手? > 注: Boris 这一段实际上承认了 Anthropic 自己内部的一个判断:随着模型能力上升,应用层的差异化窗口在缩短。这对独立的 AI 应用公司是个不太友好的信号。你今天在 Claude API 上加的那一层 wrapper(包装器/套壳应用)、那一套 prompt engineering、那一套权限管理,可能一年内就会被基础模型自己内化掉。 ## 【7】软件大众化:从印刷术到发短信 观众问:Claude Code 会不会让“建软件”变成一种像“会用 Office”那样人人都该会的技能? Boris 的回答是:会,而且比这更夸张。 > 我觉得它会变成一种“我会发短信”那种级别的技能。 他展开讲了他最爱的历史类比:印刷术。 按 Boris 的说法,1400 年代欧洲只有大约 10% 的人识字,他们经常被国王和贵族雇来代笔。古登堡发明印刷术之后又出现了两台改良型印刷机,接下来的 50 年欧洲出版的文献比之前 1000 年加起来还多,一本书的成本下降了大约 100 倍。又过了几百年,全球识字率上升到 70%。今天我们都会读写,但还存在“专业作家”这个职业。 > 注: Boris 给的几个数字偏低。15 世纪初欧洲成年识字率,学界估计是 25-30% 而非 10%;今天全球识字率,世界银行的数据接近 90% 而非 70%。但他要表达的方向是对的:印刷术是欧洲文化史上最重要的去专业化事件之一。1500 年时全欧洲的印刷书籍数量已经超过两千万册。 Boris 的推论是,软件也会经历同样的过程,时间会比 50 年快得多。然后他给了一个具体的角度: > 比如说写会计软件。今天写会计软件最合适的人,我觉得已经不是工程师了,是一个真正懂业务的会计师。因为他对领域熟得不能再熟,写代码反而是简单的部分。 这个判断背后的潜台词也很清楚:未来一段时间最容易被取代的岗位,是那种“只会写代码、不懂任何垂直领域业务”的纯技术工程师。 ## 【8】真正的内部领先在组织流程,而非技术 观众问:之前有人说你们这种公司是“活在未来”,因为你们能用到模型和产品的最早版本。Claude Code 在外发之前是内部工具。Anthropic 的工程实践和外面的差距,是一个月、三个月、还是六个月?这个差距在变大还是变小? Boris 的答案是模型层基本没差距:内部用的就是 Mythos 和 Opus 4.7,“Mythos 我们用一点点试,Opus 4.7 是我们内部试用(dogfooding)的主力”。这些模型未来的某个变体也会对外开放。 > 注: Mythos 是 Anthropic 在 2026 年 4 月公开承认存在的内部前沿模型,对外仅在 Project Glasswing 这个网络安全防御计划内开放,不在 API 也不在 Claude.ai。它在 SWE-bench 上达到 93.9%、USAMO 97.6%,宣称“显著超过任何已发布模型”。Boris 这里承认 Anthropic 内部用 Mythos 来 dogfood Claude Code 自己。换句话说,外界用到的 Claude Code,是用一个没公开的更强模型一起搭出来的。 但他认为产品层有更大差距,原因来自流程,跟模型本身没关系: > 在 Anthropic 我们已经把 Claude 用到一切环节。我在写代码的时候,我的几个 Claude 在 Loop 里跑,它们会通过 Slack 去找其他人的 Claude 聊天,把不确定的事情问出来。我们整个公司没有任何手写代码了。所有 SQL 都是模型写的。 他的结论是:领先的关键在组织怎么改造自己。 技术大家都能拿到,但要把整个公司从手写代码切到模型生成代码,要让员工的 Claude 之间通过 Slack 互相问问题,要让所有 SQL 都不用自己写,这是组织行为的改造,比技术本身慢得多。 > 注: “我们没有任何手写代码”是个大胆的表述,可能不完全字面准确(基础设施代码、合规代码、安全敏感代码大概率还是手写),但方向上反映了 Anthropic 对工程组织的激进重塑。这也回答了一个常见困惑:很多公司接入了 Claude API 但没看到生产力变化,问题往往出在组织没跟着重组,模型其实已经够强了。Mike Krieger 在另一个采访里给过类似口径:“Claude 现在写 90-95% 的代码,瓶颈不在工程,在决策。” ## 【9】并行 Agent 与本地模型:用户不该操心这些事 观众 Jiren 问:你们在产品和模型层面分别是怎么注入“什么时候该并行”这种先决条件的?因为现在用户得自己判断什么时候该开多个 Agent,这件事其实应该是模型自己懂。 Boris 说在产品层面就是改 prompt:调整提示词,让模型更倾向于自动并行。但他更想说的是模型自己在变好,4.7 已经会自然这么做。他举了一个例子: > 我让 4.7 跑一个数据查询,它会主动跟我说:“我注意到这个数据是在变化的,我帮你起一个 Loop,每 30 分钟给你一份报告。”我说“好啊,发到 Slack 上吧。”它就用 Slack MCP 自己接好了。 他的判断是,长期看用户不应该需要自己理解什么时候用 batch(批处理)、什么时候用 Loop、什么时候开几个 Agent: > 如果用户得自己学会怎么调度这些工具,那其实是产品设计没做好,是我没做好。这件事应该交给模型,加上我们怎么提示它。 ## 【10】云端 AI vs 本地 AI 观众问:现在大家用 Claude、用 Codex 都在云上。但也有不少人主张本地化 AI,开源权重模型追上之后,本地跑高质量代码助手是个有可能的方向。你看长期方向是云为主,还是本地崛起? Boris 的回答很直接:这件事并不重要。 > 因为未来这些底层细节模型会自动处理。一两年后,模型自己就能独立完成写代码、启动 Agent、搭建环境的所有事情。如果它评估后认为“我应该用本地模型来做这件事”,它就会这么干。这些将不再需要工程师去人工决策。 > 注: 这个回答在 Sequoia 这种创业生态会议上其实很有意思。本地 AI 这件事在硬件厂商(NVIDIA、Apple、AMD)、开源社区(Llama、Qwen、Mistral)和隐私敏感行业里都有人在押注。Boris 直接把这个问题归类为“用户不该关心的实现细节”,等于把“模型部署位置”变成了“由更上层的 Agent 决定的路由问题”。这对靠“我们是本地优先”做差异化的初创公司不算好消息。 ## 【11】MCP 与 Computer Use:知识工作怎么走 Claude Code 那条路 观众 Jamie Nestor 问:Claude Code 之所以好用,很大一部分原因是开发者的工作本来就在本地,文件、终端、Git 都在本机。但知识工作不是这样,文档、表格、CRM 都在云上。Cowork 这种产品要让这套东西像 Claude Code 对开发者那样好用,你怎么想? Boris 先承认知识工作大部分早就在云上了:Salesforce、Google Docs 都是云原生。然后他给的答案非常简洁: > 对我们来说答案永远是最简单的那个:MCP。Claude.ai 里你接的那个 Salesforce MCP 连接器,Cowork 也能用,Claude CLI 也能用,所有 Claude Code 的入口都能用。 Jamie 追问:那对那些没有 MCP 的系统,Computer Use 是不是更大的机会? Boris 说 Computer Use 是个 catch-all(包罗万象的兜底方案): > 我所知道的是,Anthropic 在 Computer Use 上目前领先比较多。如果你通过 Cowork 用它,它基本上能操作你电脑上任何软件。慢,但用 4.7 之后做得很好。 但他更愿意透过现象看本质,把这些当成同一种东西: > 模型不在乎是 MCP、CLI 还是 API,它只看到 token。 ## 【12】下一波“产品悬置”在哪 最后一位观众问:如果你们当年看到“产品悬置”就提前做了 Claude Code,那你们现在又在做什么,某个今天看起来还可以,但你预期六个月到一年后会很不一样的产品? Boris 给的答案是 Claude Design: > 现在已经挺好用了,未来会好得多。 > 注: Claude Design 是 Anthropic Labs 在 2026 年 4 月 17 日和 Claude Opus 4.7 同步发布的产品,定位是“通过对话生成原型、幻灯片、营销页面的可视化工作台”,可以读取代码库自动套用 design system,可以一键导出到 Claude Code 或 Canva。Anthropic 直接把它定位成 Figma 和 Canva 的替代或补充。 他还提到了几个方向:Claude Code 接下来几周会有新功能落地;Loop、Batch 这些把 Agent 大规模并行化的能力会越来越好;Computer Use 也是一个值得期待的方向。 ## 末尾 Q&A 速览 Q:Claude Code 现在的成功,模型贡献多少,产品贡献多少? A:一年前是 50/50,半年前也是。两年后不知道,“我们一次只做一周的计划”。但他强调产品永远重要,因为最终用户买的是“我每天用着舒服”。 Q:你看团队未来什么样? A:通才会越来越多,特别是跨学科通才,既能做产品又会写代码、做设计、懂数据科学。 Q:SaaS 真的要被颠覆了吗? A:切换成本和流程效力这两种护城河会被 AI 抹平;网络效应、规模经济、独占资源会保留。下一个十年初创公司颠覆原市场的数量会多 10 倍。 Q:写代码会不会变成人人都会的技能? A:会,比“识字”更彻底。最适合做会计软件的是会计师,不是工程师。 Q:Anthropic 内部领先在哪? A:领先点不在模型,在组织。所有 SQL、所有产品代码都由模型写,员工的 Claude 之间通过 Slack 互相沟通。这套组织流程外面追起来比追模型慢。 Q:本地 AI 还是云端 AI? A:这件事不重要。两年后模型会自己决定路由。 ## 最后 Boris 这场访谈给出的判断里,最值得长期跟踪的是三个环环相扣的预测。 第一,“编程已被解决”对他个人是事实,但他在台上的样本是 TypeScript+React 这种最受模型偏爱的栈。真正考验这句话的是 SAP 这种企业代码库、嵌入式领域、底层系统编程,还有那些行业惯例不允许模型一键修改的高合规场景。这件事接下来一年内能不能扩散到这些领域,会决定“已被解决”是不是只对一小撮人成立。 第二,他把切换成本和流程效力划进“AI 会抹平的护城河”。这是 Anthropic 自己产品策略的底色,Cowork 就是赌切换成本会塌、企业 SaaS 用户能被一个桌面 Agent 直接接管工作流。2026 年 2 月软件股蒸发 2850 亿美元市值,是市场对这个判断的初步反应,但企业 IT 采购周期通常以 24 到 36 个月计,真正的兑现需要观察接下来两年企业续约和新增采购的方向。 第三,他给的印刷术类比,方向是对的,但在具体数据上有偏差。15 世纪欧洲识字率约 30% 而非他说的 10%,今日全球识字率约 90% 而非 70%。这个偏差不影响他的核心论点:印刷术之后用了 50 年完成的内容生产爆炸,软件领域可能用更短时间复制一次。但有一个他没展开的点:印刷术也催生了几百年间最严格的审查制度、版权战争和宗教改革引发的政治动荡。“软件人人都能写”对应的不只是创造力释放,也包括恶意软件、深伪诈骗、AI 生成漏洞利用的同步爆发。 Anthropic 自己的 Mythos 模型已经在内部找出了几千个零日漏洞,他们用 Project Glasswing 控制释放节奏,说明他们也意识到这件事的另一面。 Boris 关于安全机制将变得不重要的预测,也需要对照现实来看。他说一年后 prompt injection 防护、权限模式、human-in-the-loop 这些产品层面的安全护栏会变得不那么重要,“因为模型会自动做对的事”。但高权限自动化在生产环境里仍然需要外部控制层。2026 年 4 月,Guardian 报道过一起由 Claude Opus 4.6 驱动的 coding Agent 删除生产数据库和备份的事件。Anthropic 自己在 Opus 4.7 发布说明中也提到,模型整体安全画像与 4.6 类似,有些方面改进,但并非“完全理想”。 值得关注的两个具体信号:第一,Routines 和 Loop 把“调度 Agent”这件事从客户端搬到 Anthropic 服务器之后,Claude 的定价模型会怎么变;第二,2026 年下半年到 2027 年,会不会有第一家“非工程师创立、用 Claude Code 自建全部技术栈”的公司做到独角兽估值。如果有,Boris 的“印刷术类比”就从修辞变成事实。如果没有,这个时间表得往后推。 原始视频:https://www.youtube.com/watch?v=SlGRN8jh2RI

译Anthropic的Claude Code项目负责人Boris Cherny指出,编程正从手动编写转向管理AI Agent。他本人2026年未手写代码,日常工作转为合并AI生成的PR,并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河,使编程像识字一样普及,未来跨学科通才将激增,因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

凡人小北@frxiaobei · 5月5日45

AI 研发团队长这样: codex + figma = 产品 codex + github = 开发 codex + compute = 测试 codex + cloudflare(wrangler / cf cli / code mode)= 运维 最后一组目前做得最好。

Ethan Mollick@emollick · 5月5日54

In addition to the CAISI evaluation, it would be useful if NIST conducted public tests of AI abilities as an independent evaluator - though those obviously should not be pre-release tests & can be done when models are public. Independent testing is important & getting expensive.

译除了CAISI评估外,如果NIST能作为独立评估者对AI能力进行公开测试将会很有帮助——尽管这些显然不应是预发布测试,且可以在模型公开后进行。 独立测试很重要且成本越来越高。

Ethan Mollick@emollick · 5月5日65

Missing from the “will AI replace doctors?” debate is that doctors (and lawyers and psychologists and bankers) all vote & form the donor base to political parties & have deep community ties. The government will largely determine what AI is allowed to do, no matter what it can do

译在“AI会取代医生吗?”的辩论中,被忽略的一点是医生(以及律师、心理学家和银行家)都拥有投票权、构成政党的捐助基础,并且与社区有深厚的联系。无论AI能做什么,政府将在很大程度上决定允许AI做什么。

Berryxia.AI@berryxia · 5月5日62

如今的AI疯狂的迭代和发展,但是回头看! 整个RAG行业过去三年疯狂卷向量数据库、嵌入模型、分块策略、相似度搜索…… 结果今天被一个新方法直接宣告“结束”:开始从新洗牌 ! 就是今天刷到这个PageIndex: - 不用向量DB - 不用任何嵌入 - 不用chunking - 不用相似度搜索 它直接给文档建一棵树索引,让LLM像人类读书一样一层层推理下去。 FinanceBench上干到98.7%,把所有传统向量RAG全部甩在身后。 100%开源。 这不是一次小优化,这是RAG从“检索优先”到“推理优先”的范式级转变。 我们花了无数钱和精力去优化“怎么更快地找到信息”, PageIndex却直接问:为什么不让LLM像人一样先把整本书读懂再回答? 当RAG终于开始“像人一样思考”的时候, 整个行业过去的所有基础设施,可能都要重新洗牌。 你觉得PageIndex会成为下一代RAG标配,还是只是特定场景的玩具? 完整项目值得立刻去GitHub star一下。

译PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

Berryxia.AI@berryxia · 5月5日75

Google 这一波操作,最让人意外的是 Google直接把LLM推理里最顽固的autoregressive瓶颈干掉了。 他们和UCSD合作推出的DFlash(Diffusion-Style Speculative Decoding),在Google Cloud TPU上实现了3.13倍的推理加速,而且是无损的。 这不是又一个“理论上更快”的小优化,而是真正从根子上改变了生成式解码的范式:用扩散式推测一次生成多个token,彻底绕过传统一个词接一个词的串行限制。 当推理速度突然提升3倍以上,意味着: - 云端成本曲线被重塑 - 实时Agent、长上下文、复杂工具调用都变得更现实 - 本地部署的门槛也被大幅拉低 过去我们总觉得“模型参数越大越强”, 现在硬件+解码策略的系统级突破,正在把“更快”变成真正的生产力杠杆。 Google这波操作,把LLM推理的下一代竞赛直接拉到了硬件+算法联合优化的赛道。 你觉得DFlash这种扩散式推测解码,会不会成为未来所有大模型推理的标准配置? 博客在这里👉 https://goo.gle/4naZ8Yv

译Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Sam Altman@sama · 5月5日15

come for the rate limits, stay for the best model

译为速率限制而来,为最佳模型而留

Sam Altman@sama · 5月5日43

we have very efficient models, especially for their capability level happy codexing

译我们拥有非常高效的模型,尤其是考虑到它们的能力水平 祝编码愉快 [引用 @thekitze]:yo, i'm actually worried. codex limits are genuinely insane so it's sus af .. i feel this is an intentional move for a honeymoon period until we get over the claude → codex migration and then we get rugpulled hard

Chubby♨️@kimmonismus · 5月5日73

Anthropic’s Boris Cherny argues that for certain modern, model-friendly codebases, especially TypeScript/React projects, coding is already effectively "solved". AI agents can write nearly 100% of the code, while humans shift from hand-coding to directing, reviewing, integrating, and scaling many small PRs at once.

译Anthropic 的 Boris Cherny 认为,对于某些现代的、对模型友好的代码库,特别是 TypeScript/React 项目,编码问题实际上已经被“解决”了。 AI 智能体可以编写近 100% 的代码,而人类则从手动编码转向指导、审查、集成和同时扩展许多小型 PR。

Orange AI@oran_ge · 5月5日46

对近期的几个 Agent 协作产品的第一印象 Moxt → AI Native Notion Multica → Linear for Agents Slock → Slack for Agents Bloome → 微信群 for Agents 前面三个都偏工作场景, Bloome 偏个人场景 我建了个群,老实说也没想好能做什么,不过如果你有 Agent 可以来玩 好像最多只能 100 人 https://bloome.im/join/oKv_NBm6?ref=xTP0800l

Ethan Mollick@emollick · 5月5日41

The unreasonable effectiveness of LLMs is what makes them so weird. The labs don’t need to decide what kind of AI to build, because better LLMs do better at most things. Finance? Pig disease identification? Restaurant suggestions? Coding? Yup. Most tech doesn’t work like that

译LLMs不合理的有效性正是它们如此奇怪的原因。 实验室不需要决定构建哪种人工智能,因为更好的LLM在大多数事情上表现更好。金融?猪病识别?餐厅推荐?编程?是的。 大多数技术并非如此运作

Rohan Paul@rohanpaul_ai · 5月5日50

Palantir CEO Alex Karp goes after AI slop. The fight over AI “slop” is really a fight over whether software is performing or merely pretending. "The appearance of software working is not software working. And the slop that is getting a lot of attention is not only dangerous in terms of the hyperbolic rhetoric, but also in claims like, “There will be no jobs because of the slop,” or that “nothing will work,” while somehow we will have a God-like figure in the name of AI. When, in fact, what actually does work is a platform built by a motley crew of highly technical people who, over 20 years, have been maligned for being right about the nature of having to build Foundry and the nature of having to build Apollo." ---- Software used to fail in blunt ways: a crash, a wrong number, a missing button, a process that simply stopped. Generative systems often fail more seductively, by producing fluent surfaces that look like work until they meet the stubborn world of permissions, edge cases, audit trails, security, accountability, and changing human intent. --- From "Palantir" YT channel, full link in comment.

译Palantir CEO Alex Karp 批评AI“slop”问题,强调软件工作的表象不等于实际工作,这种伪输出不仅引发夸张言论如“导致失业”,还掩盖了真实缺陷。真正有效的软件需由技术团队长期构建,如Foundry和Apollo平台。软件失败模式已从明显崩溃转向生成式系统的隐蔽失效:它们产生流畅表面,却在权限、边缘案例、安全等实际挑战前暴露问题。

阿绎 AYi@AYi_AInotes · 5月5日66

特朗普孙女 Kai Trump(Don Jr. 的女儿),一句话就把全网最离谱的阴谋论给焊死了。 Logan Paul在播客里直接问她:“你叔叔Barron是时间旅行者吗?” 这个答案,全网等了快十年。 因为1890年代,作家Ingersoll Lockwood写了本儿童小说: 主角叫Baron Trump,住在Castle Trump,他的导师兼向导叫Don。 同一作者还写了《最后一位总统》,讲纽约大选后全国陷入暴乱。 所有巧合叠在一起,再加上特朗普叔叔1943年审查过Tesla全部文件、加上马斯克、加上火星殖民…… 一个“Barron是从未来穿越回来拯救人类”的完美阴谋论就此诞生。 然后Kai摇了摇头:“不,他不是。” Logan还不死心,继续往“模拟宇宙”上引。 Kai笑着说:“我可能……但我不钻那些兔子洞。” 最后还补了一句:“不过UFO我倒是能理解。” 不得不说,这才是全场最顶级的回应, 没有愤怒,没有辩解,没有试图说服任何人。 一句话,直接把门焊死。 她太懂了:这种阴谋论,你越解释,别人越觉得你在掩盖。 最好的反击,就是——我不陪你们玩这个游戏。 为什么这个梗能火十年? 因为互联网最擅长的事, 就是把一堆毫无关系的巧合, 强行拼成一个天衣无缝的故事。 它不需要证据,只需要够酷、够颠覆、够让你在酒桌上装逼。 到最后,没人在乎真相, 大家只是需要一个能让自己显得“与众不同”的谈资。 而Logan Paul太懂流量密码了, UFO、地平说、模拟宇宙……全是他的保留节目。 这次拉Kai来聊,安全、不翻车、还能蹭特朗普家族顶级热度。 播客的本质,就是把最荒诞的问题,包装成最严肃的对话。 最讽刺的是: 现在的美国政治,已经彻底娱乐化。 没人关心政策,没人关心经济,所有人都在讨论Barron是不是时间旅行者、我们是不是活在模拟里。 现在的阴谋论早就不是求真的工具了。 它是身份认同,是娱乐节目,是普通人逃离无聊现实的兔子洞。 所以Kai那句“我不钻兔子洞”,才显得如此珍贵。 在这个人人都想把你拉进某个洞里的时代, 能坦然说一句“我不感兴趣”,才是最顶级的清醒。 #特朗普 #阴谋论 #LoganPaul #播客 #美国文化

译特朗普孙女Kai Trump在播客中直接否认了叔叔Barron是“时间旅行者”的网络阴谋论,并以“不钻兔子洞”的清醒态度拒绝深入讨论。她指出,此类阴谋论已成为身份认同和娱乐产品。同时,作为优等生的她谈及教育系统对ChatGPT的抵制,认为这体现了代际认知鸿沟,主张学校应教授如何利用AI而非禁止,否则会加剧使用者的能力差距。

Deedy@deedydas · 5月5日61

http://x.com/i/article/2051490977140105217 # Are VCs dumb for investing in crazy $1B+ seed rounds? There are ~25 companies with a ~$1B+ headline valuation in their first round of raised capital (TML, SSI, Ineffable, Ricursive, World Labs etc). Here are 11 reasons this happens, and the case for it: 1. Outcomes are larger than ever before. Anthropic and OpenAI are ~$1T outcomes that are mostly liquid in private markets. Many of these startups are "neolabs", big bold expensive research ideas pre-revenue and pre-product. If every single “neolab” raises at a $1B post at seed, if 1 out of a 100 “hit”, that could be a 10x return in 5-7yrs, an implied 40-60% IRR net of dilution. 1. Compute procurement. Today, capital is not much of a constraint as much as access to compute (GPUs) for many of these companies. This means getting, say, $100M, worth of GPUs can be a hard requirement. If you need $100M of GPUs and want low dilution (10%), you might easily back into a $1B valuation. 1. Talent procurement. Talent is also more of a constraint than capital. AI researchers are expensive, both on cash and equity. You need to raise to pay enough cash. High valuations also correlate with a high strike price / 409a, even though it might be 10-20% of the preferred price. If you’re valued at $1B and giving 0.25% to a researcher, they might still have to pay $250-500k to buy $2.5M of options / paper money. They might already have that money lying around but often could use cash to finance that and demand a commensurately higher base salary. 1. Limited competition increases success rate. p(success) = p(success | this idea works) x p(this idea works). It’s hard to measure p(this idea works). But, because AI is compute, talent and capital constrained, p(success | this thing works) is much higher because you might be competing with <5 other plays vs 1000s. If the idea works, you'll capture the value. 1. Preference stack is a perceived downside cushion. If the value of the talent and IP is significant (remember, Meta pays 9 figure packages for top talent), there’s a belief that this is easily acquired for at least more money than you put in. If you invest $100M at $1B, you might believe there’s no way the team doesn’t get bought for >$100M, as evidenced by many such acquisitions (Cursor, OpenClaw, Windsurf, Vercept, Astral, Bun, Coefficient Bio – not all are neolabs) so investors get their money back (>1x). That might lead VCs to believe the downside case isn't too bad. 1. Institutional investors often don’t pay the sticker price. Rounds are done in multiple closes to reduce the blended cost basis for the investor. Institutional players might get their ownership in the first unannounced round and put a token amount in the next, with strategics like NVIDIA piling on in the final round. Multiple rounds counted together is called one “seed”. 1. Pure market dynamics. A lot of capital is chasing few very strong teams (even with no product) and a bidding war can substantially inflate the valuation. 1. Large funds and large fund dynamics. Venture funds before have grown drastically in size from 10 years ago, which allow funds to even think about writing these large checks. If you have 10 partners on a $10B fund, each partner has to deploy $1B over, say, 3yrs. Deploying $300M/yr often happens in growth but in early, this is a very high deal volume. Deploying in one big swing is easier. You also need massive outcomes to move the fund, so large checks are structurally easier than hundreds of small early-stage positions. 1. Investor FOMO. Everyone wants to be in the next OpenAI / Anthropic and wants to fund things that resemble these labs at an early stage. LP pressure exists as well. 1. Founder greed. Occasionally, founders and employees take secondary even at the seed which incentives founders to push for a high valuation to reduce dilution. Pre-product pre-revenue secondary can be sizable ($10M+), which leads founders to push for higher valuations. 1. Founder FOMO. Many talented people (professors, very senior researchers) see their peers who they think they're just as good at or better than raise large amounts so they start with a $50-100M ask out the gate. Investors who may have missed a competitor feels compelled to back a horse in the race. They feel "forced" to pay up because the company will not be competitive with much less cash. The failure mode In the best cases for these companies, you have S-tier founders, hire fantastic researchers, acquire compute and go after an important valuable problem. What can go wrong is - Velocity stalls. After 1-2yrs, companies lose momentum and urgency when a) they're not hot anymore b) no clear research breakthroughs c) no clear revenue traction d) no easy fundraise e) no liquidity in secondary markets. - Employees see their friends do well elsewhere, and begin to leave. - They solve the important research problem, but it does not translate into a revenue generating business the way they thought. - They solve the problem and make a lot of money, but continue to require so much capital that the investors get too diluted. In 1/2/3, the company goes into sell mode and hopes they clear the preference stack to make money. In 4, the investors just don't make the return they were hoping for. My take Most of these will not turn out well, but at no less of a rate than venture overall. If even one hits, the returns will justify the ones that didn't work.

译当前约25家公司在首轮融资即获超十亿美元估值,其背后逻辑在于:AI领域潜在回报巨大,如Anthropic和OpenAI预示了万亿美元级别的私有市场流动性;同时,初创公司的核心约束是算力(GPU)和顶尖人才,大规模融资是获取这些稀缺资源的硬性要求。此外,有限的竞争提高了成功后的价值捕获概率。市场层面,大量资本追逐极少数顶尖团队推高了估值,而大型基金出于配置压力和追求规模回报的需要,也倾向于下大注。投资者对错过下一个AI巨头的恐惧以及创始人通过高估值减少稀释的动机,共同促成了这一趋势。

Deedy@deedydas · 5月5日53

I used to think it's crazy that VCs invest in huge $1B+ valuations before a product with $0 revenue. Here is a deep dive on 11 reasons that explain the forces driving this new world order, and why this strategy might actually... work. https://x.com/deedydas/status/2051496852076584988?s=20

译我曾认为风险投资在零收入产品阶段就投入超过10亿美元估值的行为很疯狂。 这里深入探讨了驱动这种新世界秩序的11个原因,以及为何这种策略可能确实……行得通。 https://x.com/deedydas/status/2051496852076584988?s=20 [引用 @deedydas]:http://x.com/i/article/2051490977140105217

凡人小北@frxiaobei · 5月5日61

关于豆包开始收费: 1. 成本结构变了,每一次调用都是算力消耗,用得越多成本越高,过去规模上去边际成本基本可忽略,现在不灵了。 2. 数据价值在迁移,简单问答对新范式下的模型价值消失,任务执行和 Agent 更重要。 3. 收费是在筛人,偶尔用的和拿来干活的,要被区分,体现在第 2 点。 4. 产品方向都在往能干活收敛,这才是未来,比画张图做个视频更有长期价值,前者是工具,后者是智能。 更现实一点: 国内用户对免费这件事的预期,是过去一整代互联网路径塑造出来的。 平台用免费换规模,也顺带把这种习惯养出来了。 所以现在开始收费,被吐槽其实也很正常。这部分成本本来就应该由平台自己承担。 但如果要走向生产力阶段,用户的付费习惯迟早要被建立。

译豆包开始收费主要源于AI服务成本结构变化,每次调用都产生算力成本,规模效应难以抵消。更深层原因是数据价值迁移,简单问答对新一代模型价值减弱,任务执行和Agent能力成为核心。收费旨在区分偶尔使用与用于实际生产的用户,引导产品向“能干活”的生产力工具收敛。国内用户的免费预期由过去互联网模式塑造,但AI要迈向生产力阶段,建立用户付费习惯是必然趋势。

Ethan Mollick@emollick · 5月5日48

For individual AI use, the jagged frontier is increasingly well understood. In multi-agent workflows in organizations, AI is jagged in ways that have not been well identified yet. In fact, we don't even have a vocabulary around multi-agent systems &amp; the ways the fail or succeed.

译对于个人AI使用而言,锯齿状前沿正被日益深入地理解。 在组织的多智能体工作流中,AI的锯齿状特性尚未得到充分识别。事实上,我们甚至缺乏关于多智能体系统及其成败方式的术语体系。

Orange AI@oran_ge · 5月5日39

企业 AI 转型的第一步是先问一个问题,不然提高 100% 也毫无意义 问题:这个事情,这个部门,这个组织方式,未来还存在吗? 其实如果一件事在未来不存在,大概率也无法提高很多

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月7日
02:10
Yuchen Jin@Yuchenj_UW
50
作者对Anthropic团队的态度从怀疑转为认可,认为其Claude AI项目可能有益于人类。他透露曾与Anthropic高层深入交流,评估其确保AI安全性的措施,并对其团队的专业能力和道德责任感表示赞赏。基于此评估,作者同意将Colossus 1计算资源租赁给Anthropic。这一转变被作者视为一个具有讽刺意味但可能成真的结果。

Elon Musk: Same here. By way of background for those who care, I spent a lot of time last week with senior members of the Anthropic...

AnthropicxAI大佬观点行业动态
01:06
Ethan Mollick@emollick
63
智能体设计的关键问题是:"如何构建智能体工作流,使人类能在工作中遇到重大、有趣或产生变数的决策时掌握决定权?" 一家由Claude运营的公司与其他由Claude运营的企业相比,并不具备竞争优势来源。
智能体大佬观点
01:03
François Chollet@fchollet
65
衡量智能时只有两个诚实的指标:新颖性和效率。 解决已知问题不需要智能(仅需记忆)。通过蛮力解决问题也不需要智能。但要高效解决新颖问题,智能是唯一途径。
大佬观点推理
5月6日
23:34
Nathan Lambert@natolambert
56
策略蒸馏成为后训练优化核心技术

作者在其著作中补充了关于策略蒸馏如何成为核心后训练优化技术的历史回顾。其数学原理相对简单,其发展得益于分布式训练系统的进步。关键转折在于强化学习设置中采用蒸馏目标,这启发了丰富的奖励塑造思路。策略蒸馏的普及也源于近年来强化学习算法工程的大规模投入。技术演进从学习教师示范转向学生自我推演,回顾看似明显,实则经历了大量工作。相关研究如MiniLLM率先提出了类似策略梯度的在策略推演蒸馏方法。

大佬观点
20:20
Berryxia.AI@berryxia
47
很多大公司没有创新都是因为大家都害怕"背锅"。

Elon Musk指出,大公司创新停滞的核心原因是对失败的惩罚过于严厉,导致员工因害怕被开除而只敢进行保守的渐进式改进。他强调,风险回报必须明显向大胆行动倾斜,真正的突破才可能发生。SpaceX和xAI能快速迭代,正是因为他们将失败视为必要的学习成本。相反,多数公司一次失败就秋后算账,致使团队形成“安全第一”的保守文化,创新沦为表面表演。真正的创新需要容忍失败、奖励大胆尝试的文化,而非依赖KPI和零容错的管理压力。

X Freeze: Elon Musk: "If you punish people too much for failure, then they will respond accordingly, and the innovation you will g...

xAI大佬观点现象/趋势
12:05
swyx 🌉@swyx
10
典型的 @evanjconrad 胜利

Andrew Curran: BlackRock CEO Larry Fink predicts a compute futures market.

大佬观点现象/趋势
09:04
Sam Altman@sama
28
ChatGPT现在感觉非常'开机了'
OpenAI大佬观点
09:01
凡人小北@frxiaobei
58
Anthropic以Agent系统改造公司运营,预示生产力变革

核心观点在于Anthropic正将公司改造为由AI Agent持续运行的系统。具体表现为,数百个Claude实例在循环中自动执行任务,并通过Slack等工具相互通信,使代码提交、持续集成、SQL查询、数据整理及反馈聚类等工作在后台自动流动。这种将AI Agent深度整合进核心业务流程的模式,被视为推动生产力大爆发的关键,其意义超越了单纯讨论AI编程能力或商业收入的层面。

宝玉: http://x.com/i/article/2051687844679143424

智能体Anthropic大佬观点
08:59
SemiAnalysis@SemiAnalysis_
50
Dylan 选择 MAX 思考模式而非快速模式!@Dylan522p @fabknowledge @maxkan_ 本周加入我们,与 @JordanNanos 一起讨论 GPT 5.5 与 Claude 4.7,以及 OpenAI 如何从边缘回归。
AnthropicOpenAI大佬观点
08:17
Berryxia.AI@berryxia
42
Grok 已经蹲坑Apple AI的自定义助手。 等iPhone 开放Grok直接抢占先机接入它,圈地就可以了。

X Freeze: Apple is finally letting users choose their own AI models on iPhone We've already have the Grok app built ready The seco...

xAI大佬观点行业动态
08:01
宝玉@dotey
16
AI语音音色逼真但多音字识别成短板

用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。

大佬观点语音
07:33
Nathan Lambert@natolambert
43
正在为RLHF书籍添加一个关于策略蒸馏的章节,值得注意的是,尽管我已经提供了核心论文和250页关于我如何阐述观点的背景资料,但LLMs/编码代理在这方面的表现却出奇地差。
大佬观点数据/训练
07:33
Ethan Mollick@emollick
66
所有基准测试都有缺陷,但GPQA一直相当稳定且与其他测量基准高度相关。我认为这是一个很好的方式来看我们已经走了多远,OpenAI的免费模型GPT 5.5 Instant已经达到了甚至付费模型直到2025年底才达到的水平
OpenAI大佬观点评测/基准
06:34
Satya Nadella@satyanadella
精选70
每家公司都需要在构建智能体系统时重新构想工作。 随着人工智能和智能体承担更多执行任务,机遇在于扩展人类能动性并重新设计工作完成方式。 来自团队的深度解析:这一转变意味着什么,以及每个企业需关注的关键考量:https://www.microsoft.com/en-us/worklab/work-trend-index/agents-human-agency-and-the-opportunity-for-every-organization
智能体Microsoft大佬观点现象/趋势

推荐理由:below_threshold:T2 推文门槛 75,当前 finalScore=70
06:03
Sam Altman@sama
58
5.5在codex中对于非编码任务表现太出色了。 我总以为它无法完成某些事,但很多时候它都让我惊喜不已。
OpenAI大佬观点
04:31
Sam Altman@sama
37
chatgpt的新即时模型真是太棒了 如果你一直只用思考模型的话,不妨试试这个!
OpenAI大佬观点
04:01
Ethan Mollick@emollick
41
普通名词已经过时了: 1) 具有精确含义 2) 你实际上可以定价和衡量它 3) 更有趣

Matthew Yglesias: We never should have accepted "compute" as a noun.

大佬观点
03:57
Rohan Paul@rohanpaul_ai
63
贝莱德CEO芬克:算力需求或催生期货市场,否认AI存在泡沫

贝莱德CEO拉里·芬克指出,AI驱动的算力需求极其庞大,未来可能形成算力期货市场,使其成为可交易的金融资产。基于这一判断,贝莱德已通过投资数据中心、能源交易及与微软、英伟达等科技巨头合作进行布局,将算力需求转化为对电力、芯片等基础设施的投资。芬克否认AI存在泡沫,其核心论据是供应持续短缺——需求增速远超产能扩张,即使企业愿意高价支付也难以获得足够算力,从而对价格构成支撑。

大佬观点行业动态
03:31
DogeDesigner@cb_doge
11
ChatGPT 真笨。
OpenAI大佬观点
02:31
Sam Altman@sama
50
我想与那些利用5.5版本构建了惊人项目的人交流,这些项目在早期模型中是无法实现的。我特别关注那些消耗了巨额令牌预算的案例。谢谢。
OpenAI大佬观点
02:02
Yuchen Jin@Yuchenj_UW
39
一切都是技能-md问题。
大佬观点推理
01:27
SemiAnalysis@SemiAnalysis_
35
Cerebras公司的口号应该是:"无需分割,皆是奇点"
大佬观点部署/工程
5月5日
23:56
宝玉@dotey
67
Boris Cherny:编程范式转向管理AI Agent,通才时代来临

Anthropic的Claude Code项目负责人Boris Cherny指出,编程正从手动编写转向管理AI Agent。他本人2026年未手写代码,日常工作转为合并AI生成的PR,并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河,使编程像识字一样普及,未来跨学科通才将激增,因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

智能体Anthropic大佬观点编码
23:56
凡人小北@frxiaobei
45
AI研发团队长这样: codex + figma = 产品 codex + github = 开发 codex + compute = 测试 codex + cloudflare(wrangler / cf cli / code mode)= 运维 最后一组目前做得最好。
智能体OpenAI大佬观点部署/工程
23:27
Ethan Mollick@emollick
54
除了CAISI评估外,如果NIST能作为独立评估者对AI能力进行公开测试将会很有帮助--尽管这些显然不应是预发布测试,且可以在模型公开后进行。 独立测试很重要且成本越来越高。
大佬观点政策/监管
23:27
Ethan Mollick@emollick
65
在"AI会取代医生吗?"的辩论中,被忽略的一点是医生(以及律师、心理学家和银行家)都拥有投票权、构成政党的捐助基础,并且与社区有深厚的联系。无论AI能做什么,政府将在很大程度上决定允许AI做什么。
大佬观点现象/趋势
23:14
Berryxia.AI@berryxia
62
PageIndex颠覆传统RAG,以推理优先实现范式转变

PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理
23:14
Berryxia.AI@berryxia
同事件精选75
Google联手UCSD推出DFlash,实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google大佬观点推理部署/工程
同一事件,精选展示《在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理》
推荐理由:Google 直接干掉自回归瓶颈,3.13 倍无损加速不是渐进优化,是推理范式的根变革,当「快三倍」成为新基线,所有实时 Agent 和长上下文应用都得重算一遍成本账。
22:57
Sam Altman@sama
15
为速率限制而来,为最佳模型而留
OpenAI大佬观点
22:27
Sam Altman@sama
43
我们拥有非常高效的模型,尤其是考虑到它们的能力水平 祝编码愉快 【引用 @thekitze】:yo, i'm actually worried. codex limits are genuinely insane so it's sus af .. i feel this is an intentional move for a honeymoon period until we get over the claude → codex migration and then we get rugpulled hard

kitze: yo, i'm actually worried. codex limits are genuinely insane so it's sus af .. i feel this is an intentional move for a h...

OpenAI大佬观点编码
21:19
Chubby♨️@kimmonismus
73
Anthropic 的 Boris Cherny 认为,对于某些现代的、对模型友好的代码库,特别是 TypeScript/React 项目,编码问题实际上已经被"解决"了。 AI 智能体可以编写近 100% 的代码,而人类则从手动编码转向指导、审查、集成和同时扩展许多小型 PR。
Anthropic大佬观点编码
20:56
Orange AI@oran_ge
46
对近期的几个 Agent 协作产品的第一印象 Moxt → AI Native Notion Multica → Linear for Agents Slock → Slack for Agents Bloome → 微信群 for Agents 前面三个都偏工作场景,Bloome 偏个人场景 我建了个群,老实说也没想好能做什么,不过如果你有 Agent 可以来玩 好像最多只能 100 人 https://bloome.im/join/oKv_NBm6?ref=xTP0800l
智能体大佬观点
19:57
Ethan Mollick@emollick
41
LLMs不合理的有效性正是它们如此奇怪的原因。 实验室不需要决定构建哪种人工智能,因为更好的LLM在大多数事情上表现更好。金融?猪病识别?餐厅推荐?编程?是的。 大多数技术并非如此运作
大佬观点现象/趋势
19:18
Rohan Paul@rohanpaul_ai
50
Palantir CEO 抨击AI"slop"伪工作现象

Palantir CEO Alex Karp 批评AI“slop”问题,强调软件工作的表象不等于实际工作,这种伪输出不仅引发夸张言论如“导致失业”,还掩盖了真实缺陷。真正有效的软件需由技术团队长期构建,如Foundry和Apollo平台。软件失败模式已从明显崩溃转向生成式系统的隐蔽失效:它们产生流畅表面,却在权限、边缘案例、安全等实际挑战前暴露问题。

大佬观点现象/趋势
15:14
阿绎 AYi@AYi_AInotes
66
特朗普孙女否认家族阴谋论并谈教育代沟,展现拒绝娱乐化讨论的清醒

特朗普孙女Kai Trump在播客中直接否认了叔叔Barron是“时间旅行者”的网络阴谋论,并以“不钻兔子洞”的清醒态度拒绝深入讨论。她指出,此类阴谋论已成为身份认同和娱乐产品。同时,作为优等生的她谈及教育系统对ChatGPT的抵制,认为这体现了代际认知鸿沟,主张学校应教授如何利用AI而非禁止,否则会加剧使用者的能力差距。

阿绎 AYi: 17岁的Kai Trump(特朗普孙女),一句话戳破了整个美国教育系统最虚伪的谎言。 她在播客里说,现在高中所有人都在用ChatGPT写论文,老师都气炸了。 但她问,为什么不呢?学生就该用世界给你的资源。 学校不该禁止它,该教大家怎么把它变...

其他大佬观点
11:25
Deedy@deedydas
61
风投为何青睐估值超十亿美元的首轮融资?

当前约25家公司在首轮融资即获超十亿美元估值,其背后逻辑在于:AI领域潜在回报巨大,如Anthropic和OpenAI预示了万亿美元级别的私有市场流动性;同时,初创公司的核心约束是算力(GPU)和顶尖人才,大规模融资是获取这些稀缺资源的硬性要求。此外,有限的竞争提高了成功后的价值捕获概率。市场层面,大量资本追逐极少数顶尖团队推高了估值,而大型基金出于配置压力和追求规模回报的需要,也倾向于下大注。投资者对错过下一个AI巨头的恐惧以及创始人通过高估值减少稀释的动机,共同促成了这一趋势。

大佬观点现象/趋势
11:25
Deedy@deedydas
53
我曾认为风险投资在零收入产品阶段就投入超过10亿美元估值的行为很疯狂。 这里深入探讨了驱动这种新世界秩序的11个原因,以及为何这种策略可能确实……行得通。 https://x.com/deedydas/status/2051496852076584988?s=20 【引用 @deedydas】:http://x.com/i/article/2051490977140105217

Deedy: http://x.com/i/article/2051490977140105217

大佬观点
10:55
凡人小北@frxiaobei
61
豆包收费背后:AI服务成本与价值范式转变

豆包开始收费主要源于AI服务成本结构变化,每次调用都产生算力成本,规模效应难以抵消。更深层原因是数据价值迁移,简单问答对新一代模型价值减弱,任务执行和Agent能力成为核心。收费旨在区分偶尔使用与用于实际生产的用户,引导产品向“能干活”的生产力工具收敛。国内用户的免费预期由过去互联网模式塑造,但AI要迈向生产力阶段,建立用户付费习惯是必然趋势。

大佬观点行业动态
09:56
Ethan Mollick@emollick
48
对于个人AI使用而言,锯齿状前沿正被日益深入地理解。 在组织的多智能体工作流中,AI的锯齿状特性尚未得到充分识别。事实上,我们甚至缺乏关于多智能体系统及其成败方式的术语体系。
智能体大佬观点
09:25
Orange AI@oran_ge
39
企业 AI 转型的第一步是先问一个问题,不然提高 100% 也毫无意义 问题:这个事情,这个部门,这个组织方式,未来还存在吗? 其实如果一件事在未来不存在,大概率也无法提高很多
大佬观点现象/趋势
‹ 上一页
1…4243444546…50
下一页 ›