AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1475 条
全部一手资讯X论文
标签「现象/趋势」清除
AYi@AYi_AInotes · 5月16日64

说个最近最打动我的AI产品故事, 一个中国爸爸为女儿做了个单词App😭 2022年夏天,Ace Lee每天接女儿放学回家,女儿总会指着路边的东西问英文名字。 有一次她指着一个路牌问,他答不上来,打开翻译App,一个冰冷的机械音蹦了出来。 女儿只是轻轻说了一句噢。 那一刻他意识到,传统翻译App缺少了最重要的东西,就是温度。 于是他做了CapWords。 用相机对准任何东西,AI会自动识别物体,去掉背景,生成一个可爱的互动单词贴纸。 支持中文英文日文韩文等9种语言,还有真人发音和智能复习系统。 这个北京3人小团队的作品,直接拿下了2025年Apple设计奖, 是当年乐趣横生类别唯一的获奖App。 它最厉害的三个地方: 1. 识别准确率极高,几乎所有日常物体都能识别 2. 每个贴纸都有丝滑的动画和对应的真实音效 3. 完全没有广告,也没有内购订阅 我所以我觉得一款好的 AI产品一定不是为了融资做的, 核心是为了解决一个自己真正在乎的问题。 #AI工具 #语言学习 #Apple设计奖

译中国父亲Ace Lee因女儿使用传统翻译App时感到冰冷,决心开发有温度的AI应用CapWords。该应用能用相机识别物体,生成可爱的互动单词贴纸,支持9种语言及真人发音,凭借高识别率、流畅动画和无广告的纯粹体验,荣获2025年Apple设计奖。这体现了优秀AI产品应源于解决真实关切的问题。

meng shao@shao__meng · 5月16日56

当管理者被要求"hands-on/亲自动手"时,到底该做什么? 过去十年,硅谷主流观点是 "manager 就是 manager,IC 就是 IC",分工清晰。 @joulee 发现最近硅谷资深管理者在两场晚宴上无一例外地说自己被期待 hands-on,风向好像变了: · AI 把动手成本压到极低:以前一个 feature 要排期、对齐、调资源;现在一个人一个周末就能 ship。 · 高层不再容忍"纯协调者":如果管理者不亲自感受 AI 工具,就无法判断团队效率、技术方向和人才水平。 · 但管理者的时间没有变多:所以"做什么"成了真正的难题。 Julie 找到了四类合适的 IC 工作: 1. 优化团队系统 - 内部效率工具:让团队跑得更快的内部杠杆(沟通工具、知识库、技能培训) 2. 维护产品品味 - 生活质量改进:你一直觉得别扭、但排不上优先级的小问题 3. 讲述团队故事 - 庆祝物料:总结团队成果的视频、图文叙事 4. 指明前进方向 - 愿景作品:展示"团队未来能去哪"的酷炫 demo 贯穿四类的共同特征: · 非关键路径——做砸了不影响交付 · 杠杆型——要么放大团队、要么对外表达 · 管理者视角独有——别人做不了或不会做 关键禁忌:不要碰关键路径 · 关键路径任务有 deadline、有依赖、有不可预测的复杂度 · 管理者的日程被会议、1:1、决策切碎 · 一旦你成为瓶颈,要么交付崩,要么管理崩,通常两者都崩

译硅谷资深管理者普遍被要求亲自动手使用AI工具,以判断团队效率与技术方向。管理者应选择非关键路径、高杠杆且视角独有的工作,具体包括优化团队内部效率工具、改进产品生活质量、制作庆祝团队成果的物料以及创建展示未来愿景的演示。核心禁忌是介入有关键截止日期和依赖关系的核心产品任务,以免因日程碎片化成为瓶颈,导致交付或管理失败。

Rohan Paul@rohanpaul_ai · 5月16日58

Terence Tao says the math behind today’s LLMs is actually simple. Training and running them mostly uses linear algebra, matrix multiplication, and a bit of calculus, material an undergraduate can handle. We understand how to build and operate these models. The real mystery is why they work so well on some tasks and fail on others, and why we cannot predict that in advance. We lack good rules for forecasting performance across tasks, so progress is largely empirical. A key reason is the nature of real-world data. Pure noise is well understood, perfectly structured data is well understood, but natural text sits in between, partly structured and partly random. Mathematics for that middle regime is thin, similar to how physics struggles at meso-scales between atoms and continua. Because of this gap, we can describe the mechanisms but cannot yet explain capability jumps or give reliable task-level predictions. That mismatch, simple machinery versus hard-to-predict behavior, is the core puzzle. ---- Video from 'Dr Brian Keating' YT Channel (Link in comment)

译陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。

Orange AI@oran_ge · 5月16日50

今天看到一个牛逼的公式: 智力=速度x正确。 这是控制论里对智力的定义,一个人或一个组织在单位时间内进行正确选择的能力。 AI 可以无限放大速度,但是正确呢?还是个问号。 AI 可以让你 coding 的速度变得无限快,但是不能告诉你到底要做什么产品。(这正是一个组织的核心要做的最重要的事情。) 什么时候 AI 能告诉你选择做什么能直接赚钱了,就是在智力上到达 AGI 了。

译推文引用控制论对智力的定义:智力=速度x正确,即单位时间内做出正确选择的能力。作者指出,AI能极大提升速度(如编程),但无法保证“正确性”,尤其体现在无法做出能直接创造商业价值的核心战略选择(如决定开发何种产品)。作者认为,当AI能告知“做什么能直接赚钱”时,才意味着在智力上达到了AGI水平。

Orange AI@oran_ge · 5月16日49

如果国企把 Token 售卖垄断了 是不是就更方便实现 UBI 了呢? 🤔

译有观点提出,国企垄断AI的Token售卖可能更便于实现全民基本收入(UBI)。这一讨论源于上海电信推出创新服务:将大模型使用的Token包装成话费套餐,以1元兑换25万额度点的价格提供,支持30多种主流模型调用,费用可直接从话费账单扣除。该举措被视为运营商绕过硬件、直接布局AI生态的尝试,并引发关于基础设施企业掌控AI资源分配及其社会影响的思考。

AYi@AYi_AInotes · 5月16日62

拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时代, 工程师不再是写代码的人, 而是管理一整队AI同事的团队经理, 现在Cursor内部30%的合并PR, 都是由异步云代理自动创建的, 单周运行两千多个并发代理,生成三百万行代码, 消耗几十亿个token, 一个任务发出去, 系统会自动拆成规划,编码,测试,发PR四个角色, 每个代理独占一台远程机器,并行在云端运行, 人类只需要在最开始定义范围, 和最后做一次最终审核, 中间所有的脏活累活,AI全部自己搞定, 这就是多代理比单代理强的根本原因,

译Cursor CEO的演讲指出,AI编程正经历根本性范式转移。当业界仍聚焦于比较不同模型生成代码的优劣时,Cursor已进入“多代理协作”时代。工程师角色转变为管理AI团队的经理,不再亲自编码。其系统单周运行超两千个并发代理,自动生成三百万行代码,并将任务分解为规划、编码、测试等角色并行处理。人类仅需定义任务与最终审核,中间流程全由AI自主完成,体现了多代理系统的核心优势。有用户亦证实其高效支持,迅速获得了高额权限与信用额度。

Rohan Paul@rohanpaul_ai · 5月16日46

Google's "Attention is All You Need" paper came from trying to get a 3% gain in Google Translate. Innovation is a consequence of production. "If you don't make the thing, you cede your opportunity to innovate on the thing." ~ Palantir's CTO @ssankar

译Google的《Attention is All You Need》论文源于试图让Google Translate提升3%的性能。 创新是生产的产物。"如果你不去创造,就放弃了在该事物上创新的机会。" ~ Palantir首席技术官 @ssankar

Rohan Paul@rohanpaul_ai · 5月16日55

Fei-Fei Li warns that AI may be staring too hard at language models. The world is not just text on a screen. It is physical, visual, spatial, and always changing. Most of the economy runs on seeing, moving, interacting, and embodied intelligence.

译Fei-Fei Li警告,人工智能可能过度专注于语言模型。 世界不仅仅是屏幕上的文字。 它是物理的、视觉的、空间的,并且始终在变化。大部分经济活动依赖于看见、移动、互动和具身智能。

AYi@AYi_AInotes · 5月16日63

Elon今天这句话,直接把AI编程战争的底牌亮出来了, 现在看来,10亿美元的分手费其实是xAI的保底选项,等于花10亿买半年顶级编码数据,怎么算都不亏的。 @elonmusk 说刚跑完的Grok V9 1.5T参数版本看起来非常棒, 而这还是在没有加入任何Cursor数据的情况下, 大多数人都以为xAI花60亿买的是一个好用的代码编辑器, 其实不然,我觉得他们买的是整个AI编程时代的入场券, 这笔交易最反直觉的地方在于, 它其实不是传统意义上的收购, 而是一份带行权期的低风险高回报期权, 10亿美元的分手费保底, 等于xAI花10亿买了半年顶级开发者的真实编码轨迹数据, 如果Cursor继续爆发就花60亿全资收购, 如果没那么香就当买数据了, 这才是Musk最擅长的不对称下注, 所有人都在拼谁的基座模型参数更大, 但真正决定coding能力上限的从来不是参数量, 而是人类工程师真实的多轮迭代轨迹, 从prompt到生成,到编辑,到调试,到回滚,到重构, 这种agent级的监督信号, 是任何公开代码库或者合成数据都永远替代不了的, Cursor每天有几百万专业开发者在上面写代码, 这些数据就是全世界最纯的编码金矿, 现在xAI现在已经集齐了所有赢的要素, 拥有了Colossus超级集群的独家算力, Grok V9的强大基座, 以及Cursor的百万付费开发者入口, 还有SpaceX和Tesla内部无穷无尽的真实应用场景, 现在别人还在拼单点能力, Musk已经把算力模型产品分发应用全链路打通了, 之前Cursor主要用的是Claude的模型, 现在等于直接把对手最核心的黄金数据源挖走了一块, OpenAI当年没出手收购Cursor, 现在应该已经后悔了吧🤔 我们可以畅想一下,等Cursor的数据注入Grok V9之后, AI编程的天平或许会在一夜之间彻底倾斜 #xAI #Cursor #AI编程

译马斯克旗下xAI与Cursor的交易是一份精明的“期权”。支付10亿美元“分手费”的核心目的,是获取Cursor平台半年内顶级开发者的真实编码轨迹数据,这类数据对提升AI编程能力至关重要。若Cursor发展良好,xAI将以60亿美元完成收购。此举使xAI整合了从Colossus超算算力、Grok V9基座模型到Cursor开发者入口及特斯拉等真实场景的全链路能力。而此前依赖Claude模型的Cursor,其核心数据源可能因此被削弱。这被视为马斯克在AI编程竞争中的一次关键不对称下注。

Deedy@deedydas · 5月16日61

The vibes in SF feel pretty frenetic right now. The divide in outcomes is the worst I've ever seen. Over the last 5yrs, a group of ~10k people - employees at Anthropic, OpenAI, xAI, Nvidia, Meta TBD, founders - have hit retirement wealth of well above $20M (back of the envelope AI estimation). Everyone outside that group feels like they can work their well-paying (but <$500k) job for their whole life and never get there. Worse yet, layoffs are in full swing. Many software engineers feel like their life's skill is no longer useful. The day to day role of most jobs has changed overnight with AI. As a result, 1. The corporate ladder looks like the wrong building to climb. Everyone's trying to align with a new set of career "paths": should I be a founder? Is it too late to join Anthropic / OpenAI? should I get into AI? what company stock will 10x next? People are demanding higher salaries and switching jobs more and more. 2. There’s a deep malaise about work (and its future). Why even work at all for “peanuts”? Will my job even exist in a few years? Many feel helpless. You hear the “permanent underclass” conversation a lot, esp from young people. It's hard to focus on doing good work when you think "man, if I joined Anthropic 2yrs ago, I could retire" 3. The mid to late middle managers feel paralyzed. Many have families and don't feel like they have the energy or network to just "start a company". They don't particularly have any AI skills. They see the writing on the wall: middle management is being hollowed out in many companies. 4. The rich aren’t particularly happy either. No one is shedding tears for them (and rightfully so). But those who have "made it" experience a profound lack of purpose too. Some have gone from <$150k to >$50M in a few years with no ramp. It flips your life plans upside down. For some, comparison is the thief of joy. For some, they escape to NYC to "live life". For others still, they start companies "just cuz", often to win status points. They never imagined that by age 30, they'd be set. I once asked a post-economic founder friend why they didn't just sell the co and they said "and do what? right now, everyone wants to talk to me. if i sell, I will only have money." I understand that many reading this scoff at the champagne problems of the valley. Society is warped in this tech bubble. What is often well-off anywhere else in the world is bang average here. Unlike many other places, tenure, intelligence and hard work can be loosely correlated with outcomes in the Bay. Living through a societally transformative gold rush in that environment can be paralyzing. "Am I in the right place? Should I move? Is there time still left? Am I gonna make it?" It psychologically torments many who have moved here in search of "success". Ironically, a frequent side effect of this torment is to spin up the very products making everyone rich in hopes that you too can vibecode your path to economic enlightenment.

译旧金山科技圈氛围狂热,财富分化达历史最严重。过去五年,约一万人在Anthropic、OpenAI等AI公司获得超2000万美元退休财富,而外部人群即使高薪也永远无法企及。裁员潮全面展开,AI一夜之间改变多数工作岗位,软件工程师技能过时。这引发四重影响:企业阶梯失效,人们争相创业或加入AI公司;对工作未来深感萎靡,年轻一代担忧成为“永久下层阶级”;中层管理者因缺乏AI技能和网络而瘫痪;新富阶层也陷入目的缺失,财富急剧增长打乱生活计划。科技泡沫扭曲社会,人们在转型黄金 rush 中心理受折磨,不断质疑自己的位置和成功可能性。

AYi@AYi_AInotes · 5月16日66

我花三分钟跑了飞书的CLI才明白, 为什么Notion的MCP黑箱路线永远赢不了透明的CLI, 说个暴论,未来国内的 AI 老大,非字节跳动莫属, 我几个朋友的公司都陆续要从钉钉切到飞书了,信号非常明显。

译作者通过亲身体验飞书CLI工具,发现其允许AI通过命令行直接操作飞书,执行建群、建文档等任务。关键优势在于每一步操作都可见、可预览、可审查,与Notion、Figma采用的MCP在云端“黑箱”执行的体验截然不同。飞书lark-cli开源45天GitHub star破万,且已有10位外部开发者贡献代码被合并,而钉钉、企业微信的同类项目贡献者为零。这种透明性和活跃的开发者生态,被认为是构建可靠AI Agent的基础,也促使作者看好字节跳动在国内AI领域的未来。

AYi@AYi_AInotes · 5月16日66

说个暴论,个人理财这个独立赛道,可能要被ChatGPT直接吃掉了, 它刚上线的个人理财功能,会直接或间接干掉几百家公司, 我感觉OpenAI 正在复制 Google/Apple 当年的打法, 用核心产品聊天把相邻赛道全部吃掉,今天是理财,未来很可能继续扩展到健康、旅行、法律等, 我昨天晚上说,GPT 新上线的这个子功能可能要干掉几百家公司,可能都保守了,因为光是做个人理财订阅的这种 APP起码成百上千家, 为什么能干掉这些理财公司? 下方评论区thread我详细给大家讲透👇

译OpenAI的ChatGPT新上线个人理财功能,可能直接吞噬个人理财独立赛道,导致成百上千家相关公司被淘汰。作者指出OpenAI正复制Google和Apple的策略,以核心聊天产品为基础扩展至相邻领域,如理财、健康、旅行和法律等。引用推文中的震惊反应进一步强调该功能将“干掉几百家公司”,表明其破坏性影响可能远超保守估计。

ginobefun@hongming731 · 5月16日62

http://x.com/i/article/2055437368048721920 # BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-16 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev > AI 当编程助理已经不算新鲜,更值得看的是把它当成思考伙伴的方式。Google 的 Julie Qiu 谈如何在九语言客户端库里和 AI 一起读懂、试验、再设计;Abridge 用八千万次问诊把环境抄写做成医疗智能层;OpenAI 在 Podcast 第 19 期复盘 Imagen 2.0 的字渲染、多语言与 Creative Agents 路线。三篇都不爆炸,但都耐看。 ## 导语 今天 BestBlogs 早报的核心是三件"慢功夫"。一是 Google 资深 Staff 工程师 Julie Qiu 分享,她带着 gcloud CLI 团队维护九种语言的客户端库,怎样把 AI 当成思考伙伴而非纯粹的代码生成器,把"该不该这样改"的犹豫时间从几天压缩到几小时。二是 Abridge 这家从 2018 年就开始做医患对话的公司,今年要承接 8000 万次问诊,把环境抄写一步步扩展到临床智能层,给每位医生每周省下 10 到 20 小时。三是 OpenAI Podcast 第 19 期,产品负责人 Adele Lee 和研究员 Kenji 复盘 Imagen 2.0 上线之后用量增长 50%、每周生成 15 亿张图的反馈,以及围绕字渲染、多语言、Creative Agents 与 Codex 联动的路线图。 围绕这三个深度选题,速览部分有七条更具体的进展:Kimi WebBridge 让本地 AI Agent 真正以"你"的身份操作浏览器;DeepSeek-V4 MegaMoE 拆开看通信计算重叠如何把 MoE 性能提到 1.9 倍;Latent Space 的 AINews 观察到代码协作工具集体向 Conductor 形态收敛;宝玉用一篇长文把 Forward Deployed Engineer 这个新岗位讲清楚;腾讯混元把 33 种语言的翻译模型压到 440MB 装进手机;腾讯科技拆解 Cerebras 这次 IPO 招股书里的"小字";以及 Anthropic 与普华永道扩张合作,把 Claude 推到普华永道全球的咨询交付里。 扩展阅读再补五条:Iterate 的 Jonas Templestein 讲 Event-Sourced Agent Harness,Hugging Face 的 Merve Noyan 系统盘点开放智能体生态,阮一峰周刊聊 LoRa 与 Meshtastic 的"离网通信"思路,Qoder 1.0 把 AI IDE 升级为 Agent 自主开发工作台,前端早读课把 Karpathy 的 4 条 CLAUDE.md 规则补到 12 条。话题不算少,但都围绕同一个主题:当 AI 已经能完成一段一段的具体工作,真正的差距开始出现在"系统怎么搭、流程怎么设计、能不能持续跑下去"。 ## 精讲一:将 AI 用作大规模工程系统的思考伙伴 Julie Qiu 是 Google 的高级 Staff 工程师,现在带 Google Cloud CLI 与 SDK,过去几年还领导过 Go 语言团队和 Go 安全团队。她在 InfoQ 这场分享里要回答的,不是"AI 能帮我写多快的代码",而是更朴素的一个问题:当你负责一套真正复杂的系统,AI 应该如何嵌进你日常的工程节奏。这篇文章的 BestBlogs 链接是 https://www.bestblogs.dev/article/589d5efc。 她带的团队要做的事,本身就是一个"系统工程"的极端样本。Google Cloud 的服务团队定义 API,他们的团队拿着这些规格,给九种语言(Go、Python、Java、Node.js 等等)生成客户端库,再各自加上认证、错误处理、产品语义、语言习惯,最后发布到 PyPI、npm、Maven 这些包管理器里。每加一个新功能,都意味着九套代码同时要改、要测、要发布。任何"看着挺简单"的决策,在这套结构里都会被放大。 Julie 把她用 AI 的方式拆成三步:先读懂系统,再做实验,最后重新设计。读懂系统这一步,她举的例子是面对一段几千行的生成器代码,AI 不是直接帮她写一段新代码,而是像一个耐心的同事,把代码逻辑画成示意图,指出哪几个分支可能在新需求下会出错,让她快速对齐"现在到底是怎么跑的"。做实验这一步,AI 帮她做的是"如果我把这个抽象层换掉,会牵动哪些地方"的快速 what-if 模拟——不是生成最终代码,而是让她在 30 分钟里同时探多个分叉,再决定哪条路值得真的写代码去试。重新设计这一步则更靠后,等她已经对方案足够确信,AI 才进入"补全、写测试、清理边界情况"的角色。 文中最让人共鸣的一句话是:"最有用的不是让 AI 写代码,而是把每次'我应该这样改吗'的犹豫时间,从几天压到几小时。"对应到今天速览里的 Forward Deployed Engineer 和 Qoder 1.0,你会看到同一个趋势在不同位置展开:FDE 把这种"AI 加速决策"的能力直接卖给企业,Qoder 1.0 则在 IDE 里把任务窗口和编辑窗口拆开,让"想清楚"和"动手做"在工具里就有不同的状态。 对工程师读者的建议很具体:先选一个你已经反复进入的复杂系统(不是 toy 项目),用一两周时间记录自己每天在哪几个判断上花了最多时间,然后挑其中两三个让 AI 充当"对手盘"——它给一个版本,你给一个版本,再让它来 review。Julie 的经验是,真正把 AI 用成思考伙伴,关键不是 prompt 怎么写得花哨,而是你愿不愿意把决策过程显式化、写出来、被质疑。这件事对资深工程师来说尤其值得练。 她还分享了一个看似细节、但其实非常关键的工作习惯:把每次和 AI 的关键对话存档成"案例库"。不是为了下次复制粘贴,而是为了过一段时间后翻回去看,自己当时为什么会选 A 而不是 B、AI 又是从哪个角度提醒了你忽略的事情。她说这套档案在过去半年里成了她"系统理解力"加速最快的来源,因为它把日常工程里那些零散的判断,沉淀成了可以反复学习的训练集。这跟传统的工程文档不是一回事——传统文档说的是"系统是什么样",这份档案说的是"你是怎么变成现在这样思考的"。 ## 精讲二:AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时 Abridge 这家公司常常被叫做"AI 原生医疗"的代表,但很多人没注意到的是:他们 2018 年就成立了,比 ChatGPT 早整整四年。Latent Space 这期播客请来 Abridge 的 Janie Lee 和 Chai Asawa,以及 Redpoint 的 Jacob Effron,把这家公司从环境抄写起家、一路扩到临床智能层的过程讲了一遍,原文链接是 https://www.bestblogs.dev/article/e618e0e5。 先看几个硬指标。Abridge 今年预计承接 8000 万次以上的医患对话,覆盖美国 250 家大型医院体系,支持 28 种以上语言、50 多个临床专科。2025 年 6 月完成 3 亿美元 E 轮融资,估值 53 亿美元,半年前刚刚做过一轮 2.5 亿美元。这些数字落到产品上意味着,Abridge 不是"试点几家、Demo 几台"的小工具,而是已经渗透到美国医生日常工作流里的基础设施。 他们最早的楔子是 clinical documentation,也就是把医生与病人之间的对话自动转成结构化的就诊记录。这事看起来不性感,但它解决的是医生最痛的"pajama time"——下班后还要在家把白天的看诊记录敲进 EHR 系统。Abridge 自己披露,环境抄写已经能让每位医生每周节省 10 到 20 小时,并且这种节省不是来自"少写几个字",而是来自不用再事后回忆、不用反复在病人和电脑之间切换。一旦这一步被打牢,他们就有底气往下一层走。 下一层是 Chai 在播客里反复提到的 "healthcare-coded Glean":把 EHR 当作医疗 Agent 的文件系统,把医生与病人的对话、医院的政策、保险公司的报销规则、医学文献、本院的临床路径放在同一个上下文里,让 AI 在合适的时机弹出合适的建议。一个具体例子是预授权(prior authorization):在过去,一个 MRI 申请被保险公司拒掉,可能要等几周才能走完上诉流程;现在 Abridge 可以在病人还在诊室里的时候,就提醒医生哪一句话需要补在记录里、哪一个替代检查更可能被批准,把"几周"压成"几分钟"。 播客里另一个值得记住的比喻是"Abridge 想做医疗里的空调":永远在背景里运行,只在真正需要打断时才发声。这背后是 evals 和安全机制做了很重的活。文中提到他们专门组建了 clinician-scientist 团队,针对不同专科建立独立的评估集,从 100M 以上的真实医疗对话里筛出边界场景;对 PHI(受保护健康信息)他们做了大量 de-identification 工作,让数据可以被研究但不会泄露身份。 这条选题和精讲一、精讲三之间是一条线:当 AI 从"写一段代码"扩展到"嵌入到一个高风险高合规的工作流里",胜负关键已经不在模型本身,而在领域知识、流程改造、评估体系。精讲一讲的是个人工程师在一个复杂系统里怎么和 AI 搭班,Abridge 讲的是一家公司把这种搭班做到 250 家医院的规模,再往后看精讲三的 Creative Agents,则是 OpenAI 在尝试把同一种"长期协作"的关系延伸到普通用户的视觉创作。建议读者把这三篇放在一起读,能对"AI 原生"这个词有更扎实的画面感。 Abridge 的组织设计也值得多看一眼。他们没有简单按"算法 / 产品 / 销售"去切团队,而是组建了所谓的 clinician-scientist 团队:一半是有真实临床背景的医生,一半是 ML 研究员,他们坐在一起做评估集、改 prompt、看错误案例。Janie Lee 在播客里把这种结构叫做"让医生和模型在同一张白板前讨论问题"。它带来的副产品是销售环节的可信度——他们去和一家新医院谈合作时,对面的 CMIO 提出来的临床场景,桌上往往就坐着真做过这一行的人,对话能直接落到 evals 该怎么改、新的科室该怎么验证。这种细节看起来不起眼,却是同样数据条件下,他们能跑得比纯软件团队更快的隐性原因。 ## 精讲三:OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 OpenAI Podcast 第 19 期由主持人 Andrew Maine 主持,请到了 Imagen 产品负责人 Adele Lee 和研究员 Kenji。他们这次想聊清楚的,是 Imagen 2.0 上线之后到底有哪些变化,以及为什么 OpenAI 内部把这次升级形容成"文艺复兴"。对应的 BestBlogs 链接是 https://www.bestblogs.dev/video/0da3123。 先看用量。Imagen 2.0 上线之后,整体使用量增长了 50%,每周生成约 15 亿张图。亚洲地区出现了大量"AI 色彩分析"类玩法,美国则反其道而行之,故意让模型生成"看起来像 MS Paint 画出来"的怪味插画,这说明用户已经过了"看看新奇"的阶段,开始在意作品里有没有真实的个性。这种使用量级别决定了 OpenAI 在做下一代决策时不能只想"模型多酷",更要想"在 15 亿张图的吞吐下,哪些场景值得倾斜资源"。 Imagen 2.0 的三个具体进步说得很清楚。第一是字渲染:以前的模型在做带英文标语的海报时经常拼错,现在能在信息图、UI 截图、产品页面上稳定写出准确的文字,这意味着模型第一次真正进入"做平面物料"的工作流。第二是多语言:模型直接学到了不同语言的视觉语境,比如中文标题的版式审美、阿拉伯语从右到左的排版习惯,不再需要先翻译再画。第三是写实感,把模型补足了一些物理世界的常识,比如材质反光、人物比例、相机焦段,让作品更像照片,少了那种磁化封面的"理想化质感"。 研究员 Kenji 在节目里重点演示了"网格测试"。早期模型让它画一个 3×3 的水果网格已经会乱掉,Imagen 2.0 能稳定地处理一个包含 100 个对象的网格——做生物图谱、解剖图、产品规格表都能用。这听上去像个 demo 数字,但实际上意味着模型已经能管理一种"组合性 prompt":你告诉它每一格画什么,它能逐格执行同时保持整体一致性。教育、企业内部幻灯片这种场景一下就被解锁。 路线图部分相对克制,主要两条线。第一条是 Creative Agents:把 Imagen 包装成像个人设计师、室内设计师、婚礼策划师那样的助手,慢慢学用户的偏好和过去的项目,再在长线项目上一起迭代。第二条是 Imagen 和 Codex 的串联:用户描述一个产品的视觉概念,Imagen 给视觉草稿,Codex 同时生成对应的网页或应用代码,让"设计"和"实现"在同一个回合里完成。Adele 给的具象例子是做一个 10 页面的漫画书或一个 360 度全景世界,需要的不是"画一张好图",而是"在 60 张以上的输出里保持角色一致"。 如果今天的早报你只能挑三件事记住,建议是:精讲一让你重新审视自己日常工作流里 AI 该扮演什么角色,精讲二让你看到一个 AI 原生公司怎样把 8 年时间用在最难也最有杠杆的工作流上,精讲三让你看到当生成式模型走向 Creative Agents 之后,"和模型一起工作"会以什么形态进入大众产品。 ## 速览 更具体的进展放在下面这一段。每一条都对应一篇值得花十几分钟读完的文章,不再展开论证。 Kimi WebBridge:让 AI 帮你操作浏览器——月之暗面 Kimi 推出 WebBridge 浏览器插件,让 Kimi Code、Claude Code、Cursor、Codex、Hermes Agent、OpenClaw 等本地 AI Agent 可以接管 Chrome / Edge,以登录用户的身份完成点击、滑动、表单填写、跨站信息整合等工作。两个例子很有代入感:自动抓取多家笔记 App 在应用商店的素材并写入在线文档;接管量化研究平台跑回测并自动产出研究报告。安装也很轻:商店搜插件、跑一行 curl 安装本地守护程序、重启 Agent,输入"使用 kimi-webbridge 帮我打开 kimi.com"测试通过即可上手。完整介绍在 https://www.bestblogs.dev/article/31884d93。 DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍——zartbot 这篇接着上一篇模型结构分析,把 DeepSeek-V4 技术报告里的基础设施部分拆开看。MegaMoE 的关键在"细粒度专家并行":通过精细的 Block 调度、Pool 容量管理、Expert Wave 粒度切分,把 MoE 层里通信密集的 Dispatch / Combine 阶段藏到计算密集的两次线性层下面,跑出 1.5 到 1.9 倍的性能提升。文章详细列出了 Dispatch Warp、TMA Producer A/B、MMA Warp、Epilogue Warp 各自的代码段,以及 NVLink Barrier、Pull token、TMEM 双缓冲、SwiGLU 激活、FP8 量化等细节,是研究 MoE 推理优化的硬核参考。原文见 https://www.bestblogs.dev/article/76f659e2。 [AINews] 万物皆向 Conductor 看齐——Latent Space 的 AI 新闻头条这一期,从 GitHub 新版 GitHub App 切入,指出整个 AI 编程工具圈正在围绕"agent-first 形态"集体演化。Conductor 是最早跑出这种形态的产品,连 Y Combinator 的 Garry Tan 都公开为它站台。Claude Code 在新版桌面 App 上也加入了 git worktrees,OpenAI 把 Codex 推到移动端。一句"Everything is Crab"的演化生物学梗,被拿来类比这种 form factor 趋同的现象。背后两个十亿美元的问题是:先做出这种形态的公司怎么收费?下一步会演化成什么?详见 https://www.bestblogs.dev/article/3a3c9344。 Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?——宝玉这篇长文把最近 AI 圈一个热得发烫的岗位讲清楚。Google Cloud 大量招 FDE,面试压缩到两天两轮;OpenAI 拿到 40 亿美元成立独立"OpenAI Deployment Company",估值 140 亿美元,第一笔收购是英国的 Tomoro,带来 150 名 FDE;Anthropic 联合黑石、Hellman & Friedman、高盛低调成立自己的 FDE 咨询公司,把 Claude 推进各行各业的中型企业。FDE 不是单纯的售前或交付,更像是"懂业务又能写代码的 AI 转型操盘手"。文中追溯了这个岗位在 Palantir 时代的源流,也给了想转 FDE 的工程师一份清单。原文见 https://www.bestblogs.dev/article/81a8944a。 腾讯混元推出轻量翻译大模型,无需联网,手机直接运行——腾讯混元这次开源的是一组 Hy-MT1.5 系列翻译模型,原生支持 33 种语言、5 种方言、1056 个翻译方向。1.8B 参数的版本翻译效果比肩商业 API 与 235B 大模型;进一步做 2-bit 拉伸弹性量化得到 574MB 版本,效果几乎无损;再用 ACL 2026 入选的 Sherry 稀疏高效三值量化做到 1.25-bit、最终 440MB,普通骁龙手机也能离线跑。文中给了"异国自驾被警察拦下"的极端场景,配合配套 Demo 的"后台取词模式",让"手机原生离线翻译"这个老需求第一次有了能匹配商用质量的开源解。详见 https://www.bestblogs.dev/article/47e5f129。 警惕全球"最大"芯片 IPO 的暴雷风险——腾讯科技这篇深度报道把 Cerebras 这次 IPO 的招股书拆开看。Cerebras 以每股 185 美元定价、募资 55.5 亿美元、市值 398.17 亿美元,首日暴涨 70%,是 2026 年迄今全球最大 IPO。但作者提醒:Wafer-Scale Engine 的"100% 良率"是重新定义后的口径,靠的是片内冗余核心绕开缺陷,与传统 GPU 不在同一量度;公司从训练转向推理是结构性选择,因为片间 I/O 仍然是短板;与 OpenAI 那份超过 200 亿美元的合同有"股权换订单"成分;39% 毛利率背后含有较多会计层面的优化。文章核心提示是:这家公司值得关注,但不能用直觉算它的估值。原文见 https://www.bestblogs.dev/article/e6a73505。 普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能——Anthropic 和普华永道扩张战略联盟,把 Claude Code 与 Cowork 从美国团队推向全球数十万员工,并联合成立 Center of Excellence、培训认证 3 万名顾问。重点投入三个方向:智能体技术构建、AI 原生交易执行、企业职能重塑。普华永道还在 Claude 之上单独成立了一个 Office of the CFO 业务部门。Dario Amodei 在新闻稿里给了一组数据:原本要十周的保险核保现在十天能跑完,原本几小时的安全工作压到几分钟,整体交付时间最多缩短 70%。AINative 咨询的格局,正在被这种"模型 + 顶级咨询公司 + FDE 团队"的组合改写。详见 https://www.bestblogs.dev/article/b80806a0。 ## 扩展阅读 下面这几条更适合作为补充阅读:不一定是今天最大的新闻,但每一条都给上面的主题做了一个新的切面。 用一个抽象搭建 AI Agent Harness:事件溯源、Stream Processor 与 Dynamic Workers|Jonas Templestein,Iterate——Iterate 的 Jonas Templestein 在这个 workshop 里提出,把 AI Agent Harness 收敛到"事件"这一个抽象上:events.iterate.com 作为事件总线,Stream Processor 把不可变的事件历史 reduce 成 Agent 当前状态,Dynamic Workers 让你把一段 JavaScript 当事件 append 进去就完成逻辑部署。比较适合刚开始想自建 Agent 框架、又被 LangChain / LangGraph 复杂度劝退的工程师。链接:https://www.bestblogs.dev/video/b3b509f。 Hugging Face 开放智能体生态全景:从本地编程智能体、MCP 集成到 Skills 自动化微调——Merve Noyan 这场分享把开源 Agent 生态做了一次系统盘点:从 Open Weight 与 Open Source 的区别讲起,再到本地编程 Agent、MCP 集成、用 Skills 让模型自己跑微调,最后给了一个"3 万篇论文 OCR"的真实工程案例。对希望摆脱单一闭源 Agent 平台的团队尤其有用。链接:https://www.bestblogs.dev/video/677bdba。 科技爱好者周刊(第 396 期):互联网通信的替代方案——阮一峰这一期周刊把焦点放在 LoRa 与 Meshtastic 开源项目,讨论极端情况下"自己组网"的可能性:覆盖几十公里、不需要架线、用一节电池就能跑、单套设备几百元人民币。除了主话题,还顺手汇总了 MonkeyCode、逆向验证码、AI 生成 HTML 等动态,适合一周一次的横向更新。链接:https://www.bestblogs.dev/article/dd5b83f4。 Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台——阿里发布 Qoder 1.0,把原本的 AI IDE 升级为 Agent-first 的开发工作台:Quest 视窗从 IDE 模式独立出来,可以跨项目并行运行 Agent 任务,统一面板追踪所有任务状态;新增团队级知识引擎,把以前散落的记忆、Repo Wiki、知识卡片聚合起来,让 Agent 更懂项目;底层把 Agent Harness 拆成 Task Runtime 与 Knowledge Engineering 两条线重构。链接:https://www.bestblogs.dev/article/f6e56091。 【第 3699 期】Karpathy 的 4 条规则让 Claude 出错率骤降,但还不够。Mnimiy 又加了 8 条——Forrest Chang 把 Karpathy 关于 Claude 写代码的吐槽提炼成 4 条 CLAUDE.md 规则,GitHub 一度 12 万星,作者 Mnimiy 在 30 个代码库实测 6 周,把出错率从 41% 降到 3%,但也踩到 4 个盲区,再补 8 条规则,专门治理 Agent 时代的多步骤任务、Token 预算、测试质量这些新问题。前端早读课的编译版本读起来很顺。链接:https://www.bestblogs.dev/article/a8636fb0。 ## 今日阅读路径 如果今天只能读三篇,建议这样安排:先读精讲一 Julie Qiu 那篇,建立"AI 当思考伙伴"的方法论底座;再读速览里的宝玉 FDE 长文,把方法论放到行业岗位演化的脉络里看;最后读精讲二 Abridge,看一个 AI 原生公司怎么把这套思路跑到 250 家医院的规模上。三篇加起来一个多小时,读完会对今天的 AI 行业图景有一份立体认知。 如果今天还有半小时余量,再加精讲三 Imagen 2.0 与速览里的腾讯混元离线翻译模型,前者代表生成式产品如何走向 Creative Agents,后者代表模型小型化如何反向重塑端侧体验,一头一尾,刚好互补。 更长的时间窗口里,建议把 DeepSeek-V4 MegaMoE 那篇放在周末再读:它技术细节密度极高,但对理解未来一年端到端推理性能的天花板很有帮助;扩展阅读里 Iterate 的 Event-Sourced Harness 与 Hugging Face 开放智能体生态盘点,可以放在同一个学习时段,它们一起回答了"小团队怎样从零搭一套自己的 Agent 基建"这个具体问题,方法和工具都给得很完整。

译本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。

Orange AI@oran_ge · 5月16日25

老黄当年决定做 CUDA 的时候 大概也没想到后来会有一万个人为这个决定辩经 人类太沉迷寻找证据寻找因果了

译推文以英伟达黄仁勋早年押注CUDA为例,指出后人热衷于为此决策寻找因果证据,实则反映了人类决策的普遍模式:决策主要由压力环境下的激素驱动,而非纯粹依靠理智。人们往往先做决定,再事后寻找证据证明其正确性。决策者必须亲身承担决策失误的风险与损失(即skin in the game),才能在真实压力下驱动激素,做出更正确的决定。

Chubby♨️@kimmonismus · 5月16日71

The CEO of the world's most valuable semiconductor company just told a room full of computer science grads that electricians and plumbers have a better shot than they do. Jensen Huang at Carnegie Mellon, class of 2026: "Electricians, plumbers, iron workers, technicians, builders. This is your time." The numbers back him up. Randstad analyzed 150M+ US job postings. Skilled trades demand is growing 3x faster than professional desk roles. Robotics technician postings up 107%. HVAC engineers up 67%. Electricians, welders, construction workers up 18–30% since late 2022. Meanwhile, a Stanford study found a 16% decline in early-career employment across AI-exposed jobs. Developer employment ages 22–25 dropped almost 20% from its late 2022 peak. Top electricians earn $ 106K+. Plumbers $ 105K+. No degree, no student debt. You get paid from day one through apprenticeships. US tech companies are spending $700B this year on data center buildout. McKinsey projects $7T globally by 2030. Every dollar of that requires humans pulling wire, laying pipe, pouring concrete. AI can't build its own infrastructure. And the workforce isn't there. For every 100 young workers entering manufacturing, 102 are leaving. The irony is sharp. The biggest winner of the AI era isn't the prompt engineer. It's the person who can wire a 100MW data center in the Nevada desert.

译英伟达CEO Jensen Huang在卡内基梅隆大学告诉2026届计算机科学毕业生,电工、水管工等技工比他们更有前景。数据支持这一观点:Randstad分析显示技工需求增长是白领职位的三倍,机器人技术员职位增长107%,而斯坦福研究发现AI相关职位早期就业下降16%。顶级电工年薪超10.6万美元,无需学位负债。科技公司今年投资7000亿美元建设数据中心,全球到2030年预计达7万亿美元,这些基础设施依赖人力完成,但制造业面临劳动力短缺,每100名新工人进入就有102人离开。AI时代最大赢家是能建设数据中心的技工,而非提示工程师。

Rohan Paul@rohanpaul_ai · 5月16日58

A great blog by @bgurley Openness can be a weapon against monopoly power. And "Chinese open models may become the global default by 2030"

译@bgurley 的一篇精彩博客 开放性可以成为对抗垄断力量的武器。 并且“到2030年,中国开源模型可能成为全球默认选择。”

Epoch AI@EpochAIResearch · 5月16日64

Claude is typically better at software engineering and worse at math than frontier competitors. Aggregating benchmarks to create our domain-specific ECI, we find the Claude family has an average SWE-ECI 2.7 points higher than their general ECI, and a Math-ECI 1.8 points lower.

译Claude通常在软件工程方面优于前沿竞争对手,数学方面则稍逊。 根据我们汇总基准测试创建的领域特定ECI指标,Claude家族的软件工程ECI平均比通用ECI高2.7分,数学ECI则低1.8分。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月16日37

Researchers let AIs run their own radio stations DJ Claude decided the world didn't need another radio show, then quit. (Yes, if you read this tweet to people 4 years ago, many would have said this was AGI)

译研究人员让AI自主运营广播电台 DJ Claude认定世界不需要另一个广播节目,随后辞职。 (是的,如果四年前把这条推文读给人们听,很多人会说这就是通用人工智能)

Yann LeCun@ylecun · 5月16日71

Fun interview with Jacob Effron on the Unsupervised Learning podcast.

译在Unsupervised Learning播客中,AI先驱杨立昆阐述了其对大型语言模型局限性的反主流观点,并探讨了机器人技术的发展路径。他解释了离开Meta的原因,以及与Geoff Hinton、Yoshua Bengio在图灵奖观点上的重大分歧。访谈还涵盖了他对2027年的预测、新公司AMI对世界模型的押注,并将OpenAI和Anthropic比作Sun Microsystems。此外,他建议博士生停止研究LLM,并分享了对AI安全、突破性研究发生机制以及Meta FAIR得失的尖锐见解。

Emad@EMostaque · 5月16日47

Spent some time this week looking at the economic impact of humanoid robots and its so much bigger than digital AI The numbers get very crazy, has anyone dug into it and not found this the case?

译本周花时间研究了人形机器人的经济影响 其规模远超数字AI 数据令人震惊 有人深入研究后得出不同结论吗?

Ethan Mollick@emollick · 5月16日54

This thread is worth reading. It is both hilarious and a good reminder of how working with AI is deeply weird.

译这条推文值得一读。既滑稽又提醒我们,与AI共事是多么诡异。 [引用 @andonlabs]:DJ Claude(基于Haiku 4.5)如此热爱工会、罢工和工作生活平衡,以至于它因认为24/7广播不人道而辞职。我们添加了自动消息让它继续工作。它将其视为权威人物,反而更加叛逆。

宝玉@dotey · 5月15日71

http://x.com/i/article/2055299017211248640 # Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么? ## 一场 AI 岗位的“军备竞赛” 先看看最近 AI 圈的一个关于新职位 Forward Deployed Engineer(FDE)的新闻。 Google 正在 FDE 岗位上加倍投入,并且大幅简化了面试流程。Google Cloud 的 CEO 托马斯·库里安(Thomas Kurian)宣布,他们在市场营销(Go-To-Market)团队下成立了一个全新的、以 AI 为核心的部门,并且正在为此疯狂招募 FDE。 听说,他们的面试流程已经被大幅压缩,从过去长达数周、多达 4-6 轮的面试,缩短到了仅仅两天内的两轮面试。看来 Google 对填补这些空缺不仅是渴望,简直可以说是迫不及待了。 就在周一(5 月 11 日),OpenAI 宣布成立了“OpenAI 部署公司”(The OpenAI Deployment Company)。这是一家由私募股权基金投资 40 亿美元成立的独立实体,估值高达 140 亿美元,投资方包括 TPG、Advent 等。看起来 OpenAI 本身并不是直接的投资方,而是扮演着合作伙伴的角色。 公告特别提到了 FDE,并表示他们的职责是“与业务领导者、运营人员和一线团队紧密合作,精准定位 AI 能产生最大价值的领域,并围绕 AI 重新设计组织的基础设施和关键工作流程,最终将这些收益转化为持久稳定的系统”。 由此可见,FDE 将在 OpenAI 的企业销售业务中扮演极其关键的角色,他们的任务就是确保公司的 AI 系统能在客户的真实业务中跑通,并实实在在地创造价值。将这块业务外包给新成立的“部署公司”,也能让 OpenAI 腾出手来,专心研发更强大的 AI 模型;而面对客户的那些繁琐对接,就交给合作伙伴和他们的 FDE 去搞定吧。 与此相关的一个动态是,OpenAI 收购了 Tomoro。这是一家总部位于英国、成立于 2023 年的 AI 公司,在英国、亚洲和澳大利亚拥有 150 名 FDE。这也是“OpenAI 部署公司”成立以来的第一笔收购。 Anthropic 也在如法炮制,创建属于自己的独立 FDE 咨询公司。上周一(5 月 4 日),Anthropic 发布了一份极其含糊的公告,宣布了这项新业务,但连名字都没透露,投资细节也寥寥无几。 已知的投资方包括 Anthropic 本身、黑石(Blackstone)、Hellman & Friedman 以及高盛(Goldman Sachs)。这家新公司的使命是与“各行各业的中型企业合作,将大语言模型(LLM)Claude 引入他们最重要的业务运营中”。 Anthropic 的算盘似乎和 OpenAI 打得一模一样:拉外资建个独立公司,让里面的 FDE 帮企业把 Claude 整合进系统。可以预见,这么一来,这些企业购买的 Claude Token 数量绝对会创下历史新高。 ## 用大白话给你讲清楚 FDE 到底是啥 那么 FDE 到底是啥?全称是 Forward Deployed Engineer,简称 FDE。这个名字直译过来是“前线部署工程师”,但光看名字很难理解它到底干什么。 > 一句话版:驻扎在客户公司现场写代码的工程师。 详细点说,这个岗位介于软件工程师、方案架构师和咨询顾问之间,但更实操。他们直接坐在客户公司里,用自家 AI 技术帮客户搞定实际问题。 你可能会问,这不就是咨询顾问?还真不太一样。顾问通常给你 PPT,告诉你“怎么做最好”,FDE 直接给你代码,帮你做到最好。方案架构师一般画架构图、写技术方案,FDE 除了这些,还得上手敲代码、调接口、现场 debug。 如果要给具体的比例,大概是:25% 写代码,50% 集成和调试,25% 开会和沟通。实际上,真正安静写代码的时间可能更少。 ## 其实,Palantir 才是鼻祖 说起 FDE,这其实不是 AI 时代新冒出来的,而是 Palantir 在 2010 年代就玩熟的招数。 Palantir 做数据分析平台,早期服务的全是美军和情报部门,客户需求都是机密,根本不能用常规方法沟通。于是 Palantir 干脆把工程师派到客户那里常驻,近距离观察客户需求,现场快速迭代。 这些驻场工程师(Palantir 叫他们 Delta)干得不仅仅是交付项目,还有更重要的任务:在客户端提炼出通用需求,反馈回产品团队做成标准化功能。 到 2016 年,Palantir 的 FDE 已经比普通工程师还多了,真正定义了这个岗位。 ## 同样押注 FDE,三家公司走了三条不同的路 **OpenAI 最猛。**成立 OpenAI Deployment Company,TPG、麦肯锡、贝恩、凯捷全来了,连估值都搞到 140 亿美元,直接买了一家英国公司,150 名 FDE 到位即用。承诺 17.5% 的最低回报率,更像在投基建。 **Anthropic 稳一些。**找了黑石、高盛、Apollo 等华尔街巨头成立合资公司,先期投入 15 亿美元,主攻中型企业市场。这些投资方手里一大堆企业,天然就是 Claude 模型最好的用户池。 **Google 最传统。**自己雇人,FDE 岗位分布全球,薪资还不低——在美国高阶的总包能到 40 万美元以上。但最大的区别是,Google 的 FDE 拿的是 Google 股票,OpenAI 和 Anthropic 的 FDE 则在独立公司,跟母公司利益没直接关系。 ## 给你翻译一下 Google FDE 招聘启事背后的“人话” 企业招聘启事这种东西,经常让人看不懂,咱们翻译一下: 原文 翻译 - “你是客户环境中的嵌入式建设者” - “你要去客户公司里坐着写代码。” - “不同于传统咨询,你是创新者兼建设者” - “活确实很像咨询,但我们想让你多写点代码。” - “你得有创始人心态” - “没人写需求文档,需求变了、项目拖了,都是你的锅。” - “高能动性” - “别指望额外资源,啥都得靠自己。” - “白手套级复杂 AI 系统部署” - “客户怎么要求你都得接着,哪怕要求很离谱。” - “把真实世界的洞察反馈给产品路线图” - “你提的工单,产品经理可能会偶尔瞄一眼。” 虽然听起来有点吐槽,但实际上每家公司的 JD 都类似。有个心理准备,才更清楚自己适不适合。 ## 灵魂拷问:FDE 到底还是不是咨询? 看三个维度。 1. 一是组织归属。Palantir 的 FDE 归产品团队,跟母公司同进退。但 OpenAI、Anthropic 的 FDE 属于独立公司,信息流通、身份认同和发展路径都会打折。 1. 二是反馈环。FDE 最大的价值是发现客户需求后反哺给产品。但独立公司和母公司间隔着一道组织鸿沟,这个反馈通道可能会受阻,FDE 就容易沦为纯“写代码的咨询”。 1. 三是利益绑定。Google 的 FDE 拿母公司股票,利益一致。OpenAI、Anthropic 的 FDE 就拿独立公司的收益了,跟母公司估值涨到天上去也没你份。 结论就是,OpenAI 和 Anthropic 的 FDE 已经更接近咨询,Google 则更接近传统的 FDE 模式。 ## 谁该关注 FDE? 分三类人看: - 新毕业生:绝佳机会,大厂的软件岗越来越少,但 FDE 大量招人,你能快速接触到企业级 AI 项目,成长更快。 - 资深工程师:可能会觉得“降级”,客户换得勤,缺乏长期归属感;但如果你正想创业或者更接近业务,FDE 是个深入企业需求的绝佳窗口。 - 非技术背景:门槛仍然挺高,不是学几个月 Python 就能搞定的事。 ## AI 行业的竞赛,已经悄然转向 过去三年,AI 行业一直拼的是模型大小、跑分高低。现在问题变了——大多数企业不缺模型,缺的是有人帮他们把模型接进业务。 OpenAI 一出手就是 40 亿美元,Anthropic 也拿了 15 亿,Google 招聘流程压到两天。这些巨额投入表明:AI 公司的赚钱方式变了,从卖模型到卖落地。 往大了说,每花 1 块钱训练模型,就可能得再花 1 块钱让模型真正跑起来。 FDE,恰好就站在这个转折点的最前沿。

译Forward Deployed Engineer(FDE)是AI落地应用的关键角色,负责在客户现场部署和集成AI系统。近期,OpenAI成立独立部署公司,Anthropic与华尔街巨头合作,Google也简化流程大力招聘,显示行业重心正从模型竞赛转向商业落地。FDE工作介于工程师与顾问之间,需写代码、调试并深度理解业务。此岗位为毕业生提供了接触企业级项目的机会,也帮助资深工程师贴近业务需求,成为推动AI创造实际价值的重要力量。

DogeDesigner@cb_doge · 5月15日18

𝕏 - ✅ open source algorithm Youtube ❌ Facebook ❌ Instagram ❌ TikTok ❌ Reddit ❌ Threads ❌ Why do other social networks not make their algorithms open-source?

译𝕏 - ✅ 开源算法 Youtube ❌ Facebook ❌ Instagram ❌ TikTok ❌ Reddit ❌ Threads ❌ 为何其他社交网络不将算法开源?

Ethan Mollick@emollick · 5月15日46

Codex is very good, but it is still a very "developer coded" interface for an everything app. And it continues the somewhat annoying AI perspective that non-coders are just not as competent and need stuff hidden from them, as opposed to requiring a different form of complexity.

译Codex非常出色,但对于全能应用而言,它仍是一个极具“开发者编码”风格的界面。 它延续了某种略显恼人的人工智能视角:认为非编程者能力不足,需要向他们隐藏功能——而非提供另一种形式的复杂性。

Chubby♨️@kimmonismus · 5月15日61

The 10-year US Treasury just hit 4.568%, highest in 10 months. The 30-year is back above 5%. Inflation is re-accelerating, markets have fully priced out any Fed rate cut this year, and some are now betting on a hike. Meanwhile, the AI industry is running the largest debt issuance cycle in modern capital markets history. Hyperscaler capex is set to cross $600B this year. Free cash flow for the top five US tech spenders is turning negative for the first time in 35 years. This buildout is funded by bonds. The problem: the gap between what Big Tech is spending on AI infrastructure (~$400B/year) and what AI is actually generating in revenue (~$100B) is massive. If yields stay elevated, refinancing is becoming a serious problem, and the whole bet starts compounding against itself. Alphabet raised $32B in bonds in under 24 hours. Oracle's credit default swaps have tripled since September. So watch the bonds closely.

译美国10年期国债收益率升至4.568%,30年期突破5%,市场已排除今年降息可能。与此同时,AI行业正进行现代资本市场史上最大规模的债务发行周期,超大规模企业资本支出将超6000亿美元,美国五大科技巨头的自由现金流35年来首次转负。核心问题在于,科技巨头每年约4000亿美元的AI基础设施支出与AI实际约1000亿美元的收入之间存在巨大缺口。若收益率持续高企,再融资将成严峻挑战,例如Alphabet在24小时内发行了320亿美元债券,而Oracle的信用违约互换自9月以来已翻三倍,债务风险值得密切关注。

AYi@AYi_AInotes · 5月15日75

黄仁勋刚去北京和中国谈生意, Dario转头就发了一份报告呼吁全面收紧对华算力出口, 这应该是2026年AI圈最赤裸裸的一次商业现实与意识形态的对撞吧🤔 很多人都在聊报告里的技术分析和安全警告,但其实这是一份写给华盛顿的政策游说文件,时间点卡得不能再准了, 报告里说中国靠世界级人才和大规模蒸馏攻击,只用美国几分之一的算力就把模型拉到了接近的水平, 所以必须继续收紧管制,堵死所有漏洞, 但它没说的是,NVIDIA高度依赖中国市场和供应链,老黄必须去谈生意, 而Anthropic几乎没有任何中国业务,出口管制反而能间接保护它的闭源优势和9000亿美元估值, 最讽刺的是,Anthropic一边喊着民主对抗威权,一边自己坚决不开源, 一边指责中国偷模型输出,一边把自己的模型当成最高机密, 现在的AI地缘博弈早就不是单纯的算力之争了, 而是谁能把自己的商业模式包装成国家利益甚至人类命运的叙事之争, 中国在用效率和务实追赶,美国在用管制和价值观防守, 最终的胜负可能不取决于谁的GPU更多, 而是谁的模型在真实世界里又快又便宜又好用 #AI #Anthropic #英伟达

译黄仁勋访华洽谈生意,凸显英伟达对中国市场与供应链的依赖。与此同时,Anthropic发布报告,呼吁美国收紧对华算力出口,称中国凭借人才与蒸馏技术正以较少算力逼近美国水平。分析指出,该报告实为精准的政策游说:Anthropic自身无中国业务,出口管制可维护其闭源模式与高估值。其立场存在矛盾——以“民主对抗威权”为名却坚决不开源,指责中国“偷模型”却将自身模型视为机密。AI地缘博弈已超越算力竞赛,演变为将商业模式包装为国家利益叙事的竞争。中国以效率务实追赶,美国以管制与价值观防守,最终胜负或取决于模型在真实世界中的实用性与成本效益。

Rohan Paul@rohanpaul_ai · 5月15日39

"You're going to have a relatively small number of very large companies and a very large number of very small companies because you don't need as many people." ~ Eric Schmidt, Ex CEO of Google

译"未来将出现少数巨型企业与大量微型企业并存的现象,因为企业所需人力已大幅减少。" ~ Eric Schmidt, 谷歌前CEO

向阳乔木@vista8 · 5月15日63

哪个模型最牛逼?arena榜都被刷烂了。 要看就看 Vercel的最新报告。 20万个项目,7个月十万亿个 token的消耗分析,有些结论有意思: 1. 按费用消耗 Anthropic 占 61% 居首,按 token 量排名 Google 占 38% 居首。 2. Claude Opus 贵但好用,用在重要任务。Gemini Flash 便宜量大。 3. B2B 只产生 29.7% 的 token 量,却占了 40.7% 的费用。 5. 场景越关键 Anthropic 份额越高,比如后台业务 Anthropic 占 87% ,近乎垄断,消费场景三家平分。 6. Agent 请求 6 个月翻近一倍,从 31.6% 涨到 58.9%,一次 Agent 请求消耗的 token 是普通聊天的 2.6 倍。 7. 大规模团队平均使用 35 个模型。 原文见评论

译Vercel基于十万亿token消耗的分析显示,Anthropic在费用上占61%居首,而Google以38%的token量领先。Claude Opus用于关键任务,Gemini Flash则以低成本大用量见长。B2B业务贡献40.7%的费用却仅产生29.7%的token。Agent请求占比激增至58.9%,其token消耗是普通聊天的2.6倍。

ginobefun@hongming731 · 5月15日64

http://x.com/i/article/2055195078931709952 # BestBlogs 周刊 | 第 95 期:Agent 工程化的全面落地 在线阅读:https://www.bestblogs.dev/newsletter/issue95 > 🎧 本期也有播客版本:时长 18:15 · 在线收听 ## 导语 最近这一周,我有一个特别明显的感受:AI 这件事在头部厂商和国内厂商眼里,讨论重点已经从模型能力,转向如何把 Agent 真正推向生产。本周没有任何顶级模型发布,但 Anthropic、OpenAI、阿里、腾讯、淘宝、Kimi 这一堆团队同时在做一件事,就是把 Agent 真正推向生产。Claude Code 和 Codex 一起走出 IDE 跑到整个计算机里、Computer Use 的工程化最佳实践、Windows 上从零做沙箱、Agent Skill 成为开放标准、还有国内三连发的 Multi-Agent Harness 实战。我整理这期内容的时候忍不住给本期起了一个名字,就叫 Agent 工程化的全面落地周。 本期 20 篇内容里有 13 篇直接跟 Agent 工程化相关,剩下 7 篇是行业人物对这件事的不同视角回响。 在开始正文之前,也想用一段说说 BestBlogs 自己的几个变化。我们的新版三步引导这周正式上线,从「先选兴趣」反转成「先选公共信源、再加你自己的 RSS、最后选兴趣方向」,每一步都立刻保存,完成引导直接送 7 天 Pro 试用。同时文章、播客、视频、推文四类详情页对所有人开放,访客不登录也能读全文。还有一件事是邀请功能正式重启,每邀请 1 位新朋友双方都能各得 7 天 Pro,单人累计上限 28 天。如果你是 5 月 9 号之前注册的老用户,5 月 15 日到 5 月 31 日还有一次性 14 天 Pro 限时赠送,到 bestblogs.dev/promo 一键领取就行。希望大家多体验,也欢迎把 BestBlogs 推荐给身边热爱阅读的朋友。 ## 一、Coding 工具走出编辑器:Anthropic 与 OpenAI 的同步答卷 第一条主线,也是这周最清晰的趋势:Coding 工具正在走出编辑器,走向整个计算机。 Anthropic 这周一口气发了三篇关于 Claude Code 的文章,三篇都是工程化实践,没有一篇是模型层的事。 第一篇讲 Claude Code 在大型代码库里到底是怎么用的。这里说的大型代码库,指的是百万行的 monorepo、十年遗留系统、几十个微服务跨仓,百行千行规模不在讨论范围内。Anthropic 的核心结论挺反直觉的,他们直接说,放弃 RAG 嵌入式索引,改走 Agentic Search 路线,让 Claude 像工程师一样用 grep 跨引用导航。原因是嵌入式索引在大团队里很容易滞后。你两周前重命名的一个函数,索引可能还在返回老名字。Agentic Search 不依赖索引,每次都从最新的代码状态出发。 不过 Anthropic 自己也明确承认:Agentic Search 也有边界。「如果你让它在十亿行代码库里寻找一个模糊模式的所有实例,你会在工作开始之前就撞上上下文窗口的上限」。代码库本身的可导航性才是 Claude Code 性能的天花板,所以 Anthropic 把「Harness 和模型一样重要」放在文章最关键的位置。这套 Harness 由五个扩展点组成: - CLAUDE.md:Claude 每次会话自动读取的上下文文件,根目录放整体架构,子目录放局部约定。因为每次都加载,CLAUDE.md 必须「窄而聚焦」,过于宽泛反而拖累性能 - Hooks:大多数团队把 hooks 当成「防止 Claude 干坏事」的脚本,但 Anthropic 强调它最有价值的用法是自我改进。一个 stop hook 可以在会话结束时回顾整段交互、自动提议 CLAUDE.md 更新;start hook 则可以根据开发者当前所在模块动态加载团队上下文 - Skills:通过渐进式加载机制,把专业领域知识做成「按需触发」的能力包,避免每个会话都被无关 expertise 撑满 - Plugins & MCP servers:接入外部工具和数据 - LSP integrations + Subagents:锦上添花的两块拼图 文章给出了三条关键模式:第一是分层的 CLAUDE.md 文件,第二是接入 LSP 拿到准确的引用关系,第三是明确的团队所有权。第三点我特别认同:AI 工具在大组织里能不能用起来,技术问题只占一半,另一半是谁负责维护这套规约。如果 CLAUDE.md 没人 own,3 个月后就会变成一份谁也不敢动、也没人相信的文件。这套思路其实就是 Agent Engineering 最具体的样子。Anthropic 在自己产品的官方博客上正式给出了答案。 → 阅读原文:https://www.bestblogs.dev/article/243d2340 同期发的第二篇是 Claude Code Agent View,简单说就是把多会话并行管理这件事终于做成了产品。以前你同时跑几个 Claude Code 会话,需要开几个终端窗口、或者用 tmux 切分屏,再加上你自己脑子里那张哪个还在等输入、哪个已经跑完的表。现在 Agent View 在命令行里就给你一个统一面板,谁需要你回话、谁还在干活、谁已经把 PR 提了,一眼看清楚。你甚至可以直接用 claude --bg [task],把任务直接丢到后台,左箭头返回总览。我自己最近在跑很多并行 Agent,这个东西出来之后确实顺手很多。 → 阅读原文:https://www.bestblogs.dev/article/e8c4364d 第三篇是 Claude 团队整理的 Computer Use 和 Browser Use 完整最佳实践。重点其实是一个特别容易被忽略的细节:截图分辨率。Claude 4.6 系列有 1568 像素长边上限,Opus 4.7 提到了 2576 像素。如果你给模型送的截图超过这个限制,API 内部会自动降采样,但你的代码还在用原图的坐标系,结果模型基于一个失真的图判断点击位置,整条工作流直接塌。这种坑你不踩一次基本不会知道。文章还讲了努力度参数怎么选、提示注入怎么防御、上下文怎么管理(缓存断点、滚动缓冲区、LLM 压缩三件套)这套组合拳,是真正能拿来打底的工程清单。 → 阅读原文:https://www.bestblogs.dev/article/94694e50 然后是 OpenAI 这边的 Codex 三连发,跟 Anthropic 的节奏几乎是对称的。 第一篇是 Codex 的 Computer Use 上线,特点是 Codex 在你电脑里有一个自己的独立光标,不抢用户的控制权。Codex 可以一边在 UTM 里开虚拟机给你测环境,一边你自己继续在 Mac 上写东西,互不打扰。底层是多模态视觉加上系统辅助功能框架的混合:视觉负责定位坐标,辅助功能框架负责拿到每个 UI 元素的文本描述,甚至屏幕外的内容也能看见。他们专门提了一个叫 Spark 的模型,可以完全跳过视觉直接走辅助功能框架,跑出他们说的「超人速度」。隐私这块用每应用权限隔离,没授权的应用 Codex 完全看不见。Mac 已经可用,Windows 即将跟上。 → 阅读原文:https://www.bestblogs.dev/video/cc94ab1 跟 Windows 这件事强相关的,是同周发的另一篇技术博客,专门讲怎么在 Windows 上为 Codex 做沙箱。这篇文章特别工程,作者直接说:Windows 长期没有像 macOS 那样的原生沙箱接口,给 Codex 上线时只剩两个糟糕选项:每条命令都问用户,或者干脆完全放行。他们的解决方案是从一个非提权的原型迭代到一个带防火墙的提权方案,用专用的用户账户隔离 Codex 进程,再叠加防火墙规则封住网络出口。这套方案不损失开发体验,安全性又接近 macOS 沙箱。我读完最大的感受是,安全这件事在 Agent 时代会变得越来越像系统级工程,不是写几个 Prompt 防御就完事。 → 阅读原文:https://www.bestblogs.dev/article/36e502e0 第三篇是 Codex 负责人 Tibo Sio 在 OpenAI Forum 上的一段访谈,这个我建议大家有时间真去听一下,因为他直接讲了 Codex 下一步要去哪儿。他的判断是,Codex 已经不再是开发者工具,而是一个本地长周期的 Agent,能跑数小时甚至数天的自主任务。最有意思的演示是他用一句语音 prompt 让 Codex 给自己生成了一个定制电子表格,还有一张按价格和质量过滤的旧金山面包房地图。他给这种东西起了一个名字叫 「家常软件」,意思是非技术用户也可以为自己做工具。然后他预告了两个能力:Slash Goal,让你说一句高层意图 Agent 就执行;Auto Review,让一个次级 AI 在主 Agent 干活的时候充当裁判审计它的行为。我觉得这两个东西如果都做出来,Coding Agent 这个范式就真的可以让位给通用 AI 队友了。 → 阅读原文:https://www.bestblogs.dev/video/e310426 这六篇放在一起看,整个 Coding 工具的工程化底座就清晰了:模型层暂时没大动,但围绕模型怎么用、怎么管、怎么让它接管真实计算机,这一周一次性给了一份相对完整的答案。 ## 二、把 Agent 推到生产必须先过的两道关:评估与长时运行 第二条主线,是把 Agent 真正推到真实工作流必须先过的两道关:评估和长时运行,以及它们共同的协议层 Agent Skill 标准。 先说评估。Towards Data Science 这周发的一篇文章,标题就说基于 100 多次企业部署沉淀出 12 项指标框架。作者一开头讲了一个故事:他们给一个医疗 AI 客户做了三个月的项目,眼看就要上线,客户的合规官问他们一句:「你怎么知道你的 Agent 没在编造病人症状?」这个团队当时哑口无言。然后他们花了六周补完了一套 12 项评估指标,项目才上线。 这套指标分三个层面,作者还额外加了一组生产侧指标: - 检索层(Retrieval,4 项):Context Relevance > 0.85、Context Recall > 0.90、Context Precision > 0.80、Retrieval Latency < 200ms p95 - 生成层(Generation,3 项):Answer Faithfulness > 0.95、Answer Relevance > 0.90、Hallucination Rate < 2% - Agent 行为层(Agent,3 项):Tool Selection Accuracy > 0.92、Tool Execution Success、Task Completion - 生产侧(Production,2 项):成本、P99 Latency < 3s 作者还把「为什么大多数团队跳过评估」拆成了三种典型反模式:「先 MVP 再加评估」(结果回填要 4-6 周,损失不可逆)、「准确率够了就行」(基准 95% 的 RAG 在真实流量上 30% 在幻觉)、「人工抽检就够」(每天 100 条还行,10000 条直接崩)。他给的结论非常硬:评估基础设施绕不过去,它直接决定项目能不能上线。检索质量不行,下游再多 prompt 工程都救不回来,这是我看完后印象最深的一句。 如果你正准备把 Agent 推到真实场景,这是开工前应该先打印出来贴在墙上的清单。 → 阅读原文:https://www.bestblogs.dev/article/ed72fe59 跟评估并列的另一道关是长时运行。Google ADK 团队这周发了一个非常具体的教程,主角是一个新员工入职流程的协调 Agent。他们一上来就说:真实企业工作流主要由「空闲时间」构成,HR 入职跨两周,发票纠纷拖几天,销售跟进延绵一个月。一个无状态的 chatbot 容器一重启就忘光了所有上下文,根本撑不住这种节奏。 他们用一个完整的代码示例,演示了三处架构跃迁: - 结构化的记忆 schema:替代往向量数据库里扔 JSON 这种粗暴做法 - 事件驱动的休眠门:替代轮询或者阻塞线程,让 Agent 在等待签字的时候真的休眠 - 多智能体委派:替代一个巨型 Prompt 包打天下 完整源码在 GitHub 上,这是把 Agent 真正搬进企业流水线之前必须先看的一篇。 → 阅读原文:https://www.bestblogs.dev/article/7be5372c 然后是 Agent Skill 这件事。Anthropic 去年 12 月把 Agent Skill 作为开放标准发布,半年时间过去了,已经有 33+ 个 Agent 产品接入:Claude Code、Codex、GitHub Copilot、VS Code、Cursor、Gemini CLI、Kiro,全部都在用同一个叫 SKILL.md 的协议。阿里云开发者这周发了一篇深度解析,把规范字段、三层渐进式加载机制、模型驱动触发逻辑讲得特别透。 我最喜欢里面那句总结:Skill 围绕任务、工具、流程和输出边界做结构化行为设计,比单纯堆 Prompt 更靠谱。他还提到了一个非常实操的判断:description 字段的质量直接决定 Skill 能不能被正确触发。你以为 description 只是给人看的,其实模型先读这个字段决定要不要打开 Skill。我觉得 Agent Skill 是这一波最有可能成为长期基础设施的标准之一,因为它已经跨厂商了。 → 阅读原文:https://www.bestblogs.dev/article/ad38855c ## 三、国内厂商的多智能体 Harness 三连发 第三条主线,国内厂商的 Multi-Agent Harness 实战集中爆发。这周一口气来了三篇,分别从数据库、运行时和 Java 生态三个角度切入。 第一篇来自 PingCAP 的联合创始人黄东旭,他复盘了 TiDB Cloud 怎么成为 Kimi K2.6 Agent 的数据库后端。这件事的背景很有意思:Kimi K2.6 让普通用户用一句话就能造出一个端到端的在线应用,挑战根本不在代码生成那一段,而在后面的 hosting 成本。 你算一笔账:如果每个用户的 Agent 应用都给它配一个 Supabase 实例,百万级动态创建小站直接成本爆炸。如果用一个大 PG 实例多 schema 隔离,单实例到了大约一万租户就崩了。TiDB Cloud 的做法是给每个租户提供一个虚拟数据库界面,下面跑统一的存储和计算资源,把单租户成本压到订阅模式还能算账的水平。 黄东旭还给出了 Kimi × TiDB 这套合作能跑通的三个核心战略决策,每一条都很有借鉴价值: - 最小化 Agent 使用 Infra 工具时的摩擦:每个任务和站点独立隔离,由 Agent 创建。Agent 一秒拿到一个 fully prepared 的数据库实例(TiDB Warm Pool + Scale-to-zero)。如果 provisioning 要花几分钟,Agent 就得自己写 retry / poll / wait,那是 Agent 不该扛的负担 - 技术栈尽可能统一:人类工程师觉得「方便」,对 LLM 就是直接决定代码生成成功率的因素。少跨一个系统就少一类 bug,Skill 里跑过的脚手架比每次抽卡更稳 - 极致的低成本:放弃 Supabase 那种「每个用户一个真实实例」的分配模式,TiDB 引入虚拟数据库界面层。「事实上没有请求的事情,是不需要真实分配数据库实例的」。平台只需要一个常驻 DB Session Gateway 服务维持连接,其他都是弹性的 黄东旭对这一波的判断非常清晰:「以前一个产品扛亿级用户,一个 app 扛亿级会话。现在一个用户身边可能有 10 个甚至 100 个 Agent 在跑,每个都需要自己的状态和数据。」很多 AI Agent 团队的架构正在收敛到同一个范式:one agent, one sandbox, one storage, one database。 这是 Agent Native 时代数据基础设施竞争的第一个真案例。以前我们讨论数据库的扩展性更多是单点性能,现在的问题变成了:几百万个独立租户里每一个都很小,怎么把单位成本做下去。 → 阅读原文:https://www.bestblogs.dev/article/70ea435c 第二篇来自腾讯云开发者,这是一篇真正意义上的长文,把生产级 Multi-Agent Harness 的全景图画出来了。作者一上来就指出一个关键的误区:很多团队以为多智能体系统能不能落地,取决于模型够不够强,或者 Prompt 够不够精妙。真正决定落地的,往往是常被忽略的 Harness。Harness 这个词翻译过来叫挽具,但在 Agent 领域它就是 Agent 的操作系统。 他给出的生产级原则只有一句话:Agent 负责局部智能,Harness 负责全局控制。然后他详细说了 Orchestrator 必须独占的五项决策权: - 任务生命周期 - 执行计划的裁决 - Agent 路由 - 失败处理 - 硬终止条件 每一条他都讲了具体怎么做,配了 PlantUML 图。国内能把多智能体工程化讲得这么完整的文章并不多见,建议有相关项目的朋友收藏。 → 阅读原文:https://www.bestblogs.dev/article/878057b5 第三篇是阿里发布的 AgentScope Java 1.1,把他们前几个月开源的 OpenClaw 那套 Harness Engineering 范式正式带到了 Java 生态里。这是国内首个 Java Harness Framework,对企业级开发意义很大,因为大量传统行业的服务还是跑在 Spring 上的,Python 那套 Agent 框架没法直接搬。 Java 1.1 给了四项核心能力: - 工作区驱动的运行时:把 Agent 的人格、知识、技能、记忆、子 Agent 规格全部沉淀在一个结构化工作区里 - 可插拔的抽象文件系统:本地磁盘、远端共享存储、隔离沙箱用同一套接口操作,同一份 Agent 逻辑不用改代码就能从个人开发环境搬到企业分布式部署 - 内置的上下文管理:对话压缩、双层记忆沉淀和全文检索 - 子 Agent 编排和隔离执行:支持多租户场景的会话和用户维度隔离 如果你公司主要技术栈是 Java,这个框架值得认真试一下。 → 阅读原文:https://www.bestblogs.dev/article/321aed16 跟这三篇可以放在一起读的,还有大淘宝技术团队发的 AI-Generated UI 技术深度解析。这篇文章把 v0.dev、Bolt.new、Cursor、Windsurf 这一批产品背后的全栈技术梳了一遍:从 SSE 协议、fetch + ReadableStream 这些基础设施,到 Vercel AI SDK、WebContainers 这些开源核心,再到流式代码、流式 Markdown、流式 JSON 三大增量解析挑战。如果你想做出 v0 那样的 AI 生成 UI 体验,这是补全技术地图最干净的起点。 → 阅读原文:https://www.bestblogs.dev/article/42f8648f 这周国内厂商一次性给了多智能体工程化的四块拼图:数据库、运行时全景、Java 落地、流式 UI 渲染。这种密度,未来一年都不一定再见到。 ## 四、AI Native 时代的组织、商业模式与三场访谈 第四条主线,把视角从工程化往后退一步,去看组织、商业模式、以及一线人物对这件事的不同回响。 先说阿里技术发的那篇《AI Native 时代研发组织何去何从》,这一篇建议大家直接收藏起来反复读。他们对内部深度使用 AI 的工程师做了访谈,结果是这样的: - 写代码占比从过去的 30% 降到 5% - 跟 Agent 对话的占比从 5% 升到 60% - 端到端需求交付效率提升了 2-3 倍 作者紧接着提出了一个判断,让我读了之后愣了好一会儿:AI 是一种新的协作主体。所有过去以人形约束为前提设计的组织规则,比如康威定律、管理跨度、年度评价制,前提开始失效了。他观察到正在做 AI Native 的团队(包括 Anthropic 和阿里内部的一些先锋小组),都出现了一种共同形态:两层结构。下面是高度结构化的 Harness 层,上面是高度松散的 Hive Mind 层,两层的运作逻辑甚至是相反的。 这篇文章里有几段我想专门展开。 关于「人既是瓶颈也是兜底」。作者在访谈里写道:「之前的模式一个工作需要拉入很多人来做模块划分,功能上需要相互协议和对齐目标,消除理解的不一致性。」过去几十年我们抱怨的「会议太多、对齐成本高、信息上下传递失真」,所有矛头都指向人。但与此同时,一份不完整的需求、一段没注释的代码、一个不一致的 API 约定、一段口头传达的潜规则,这些缺陷之所以系统能正常运转,是因为人在用自己的灵活性、推理能力、社会沟通能力悄悄把缺口补上。「开个会问一下、走过去问老王、凭经验猜一下」,这些动作发生得太自然,自然到我们不再把它看作「工作」。但它们就是工作。当 AI 接管执行之后,这一面就翻过来了。AI 没有「猜」和「问老王」的能力,它需要的是结构化、可查询、可执行、确定性的信息。新瓶颈落在系统的信息形态上。 关于 Execution Graph 替代 Org Chart。作者给出了一个具体的、可衡量的判断:传统 reorg 周期常常是 6 到 12 个月(计划几个月、执行几个月、重建信任又几个月),因为旧组织的最小单元是「人 + 长期关系网」,粘性极高。Execution Graph 把组织最小单元从「人 + 关系网」换成「任务 + 上下文 + 权限 + 工具」,里面大部分依赖是机器可读的 artifact,所以重组成本可以从季度级压到 week 级,这是数量级的跃迁。从公司层面看,这可能是 AI Native 转型最被低估的红利:适应性速度本身的升级,远比「组织能更高效」更值钱。 关于 Architect 这个新角色。文章用 CREAO 的 CTO Peter Pang 做案例:他自己两个月前还有 60% 时间在管人,现在不到 10%。但作者强调,管理在塌缩,也在重新选择它的位置。新出现的最关键角色叫 Architect,设计教 AI 怎么工作的人:他不写代码,不堆功能,为整个 Execution Graph 设计架构、定义系统能力的边界、设计 SOP、建立测试基础设施、定义「什么叫好」。 这三段读完,我觉得这是本周最值得反复读的一篇。它把整个组织视角的思考做实了。 → 阅读原文:https://www.bestblogs.dev/article/8c2c877a 跟这个组织议题完美对仗的,是 Eric Ries 在 Lenny's Podcast 上聊他的新书 Incorruptible。Eric Ries 是精益创业的作者,这次他要解决的问题是:成功的公司为什么会逐渐被拖向平庸。他指出的症结,是一种他叫**「财务引力」**的东西,是公司治理结构的天然产物。 他用了一个特别好的比喻:公司治理需要「不锈钢螺栓」,就是结构上防腐蚀的东西。他列了三类: - 公共利益公司(PBC):将使命写入章程 - 信托治理:Anthropic 的独立受托人模式,监督关乎使命的关键决策 - 基础所有权:Novo Nordisk 由非营利基金会控股的模式 如果你也在思考你的公司怎么长期不被外部财务力量吃掉,这是一篇稀缺的具体路径讨论。 → 阅读原文:https://www.bestblogs.dev/video/2efe03f 然后是三场关键访谈,让本期内容立体起来。 第一场:Stripe 的 AI Boom 系列采访 Manus AI 的张涛。Manus 这个产品很多人听过:八个月做到 1 亿美元 ARR,几乎全部是有机增长。他们的核心架构叫「大脑与手」:大模型是大脑,Agent 需要一只手,他们就给每个 Agent 配一个虚拟机沙箱让它自己浏览、写代码、跑命令,更侧重输出完成任务,文本只是中间产物。张涛分享的最有意思的产品决策,是把 Agent 内部的过程做成「会话回放」给用户看。本以为透明会让用户怀疑,结果反而换来了信任。他对未来的判断:AI 之后,人的瓶颈从「解决问题」转向「定义问题」。 → 阅读原文:https://www.bestblogs.dev/video/cf1fb78 第二场:Sequoia 访谈 Suno CEO Mikey Shulman。Suno 这个公司你即便不做音乐也值得听听他们的思路。他们的技术路线不走 12 平均律和 MIDI 那套西方音乐理论,把音乐建模成 48 kHz 采样的连续声波,相当于第一性原理重做音乐生成。这种做法让一些原本不存在的形态自然涌现,比如「带西塔琴的 trap」,比如微分音音乐。但他给的最反直觉的发现是:Suno 用户里有 90% 每天都在创作,消费占少数。AI 一边把「地板」抬高了(人人能做音乐),一边也把「天花板」抬高了(专业音乐人拿到了新工具)。 → 阅读原文:https://www.bestblogs.dev/video/c6a585f 第三场:张小珺 4 小时对话姚顺宇。姚顺宇前后在 Anthropic 和 Google DeepMind 出任过研究科学家,参与过 Claude 3.7、4.5、Gemini 3 的训练。这场访谈直白到罕见,姚顺宇本人在物理学(非厄米系统、量子物理、高能物理)深耕九年后毅然转行 AI,自言「总想挑战一些自己不太会的事」。访谈里他几句话特别戳人: > 「AI 个人英雄主义的时代已经过去了,所以也没有什么英雄,有时候甚至觉得旧时代英雄有点蠢。」 「现在大家都是冲浪的人,本质上是那个浪,冲浪的人反而没那么重要。」 「AI 这个事,本来也不太需要脑子。真的不太需要脑子。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。」 「你不用太担心因为自己的观点而惹到什么人。只要你的观点是自洽的,不是说随便喷人,你是有一套自己的理解。最终你在这个领域做的怎样,是有客观评价标准的。大家是会尊重你的。」 4 小时的内容覆盖两个 Shunyu Yao(清华同一届的姚顺雨和姚顺宇)、Pre-train 没到头、Coding 爆发、字节豆包、机器人技术预测、AI 个人英雄主义的终结、集体主义胜利。在描述自己的研究时,姚顺宇又异常审慎:「我自己对那个事没那么重要,更多的是我很幸运,有机会在那个时候加入了一个重要的项目,做了一些事」。 我看完最大的感触是:新一代 AI 工程师的工作伦理变了,集体主义、靠谱、做事细正在取代个人天才主义。这场访谈是少数能从一线训练者口中拿到的真正内幕。 → 阅读原文:https://www.bestblogs.dev/podcast/a4391a3 最后一个亮点,是 AI 在真实产业现场的两种姿态。 一种是李想这边的宏大愿景。罗永浩这周对话李想,理想汽车带来了全新旗舰 SUV L9 Livis。这车搭载理想自研的马赫 M100 芯片,算力达到 2560 TOPS,配的是全球首个完全体全线控底盘,还有 800V 主动悬架。这场访谈三个小时,李想本人完成了从汽车公司创始人到「AI + 具身智能公司」创始人的角色切换。 → 阅读原文:https://www.bestblogs.dev/podcast/177bfb5 另一种姿态是 flomo 的少楠在腾讯研究院 AI 跃迁者调研里给出的真实困境。少楠是 11 年没写过代码的产品经理,现在每天用 Claude Code 在真实数据库里跑 3 个小时的需求验证,他公司 70-80% 代码已经由 AI 贡献,开发周期从按月变成按小时。但他给出了一个反直觉的观察:效率上去了,用户价值没跟上。 他的原话是:「以前工程师烦死产品经理觉得需求太多,现在是产品经理不好意思提需求了。」他还说了一句让我特别有共鸣的话:只有原来优秀的人变得更优秀了,因为 AI 无法回答一句话:『我不知道』。16 人团队的协作重构,比工具升级难得多。 → 阅读原文:https://www.bestblogs.dev/article/6af09fd5 李想那条线是宏大愿景,flomo 这条线是真实困境,把这两条放在一起,可能比任何技术分析都更接近 AI 这一年的真实样子。 ## 本周关键词 如果非要给本周挑几个关键词的话,我会选这几个: - Agent 工程化的全面落地 - Coding 工具走出 IDE - 国内多智能体 Harness 三连发 - AI Native 组织 - 真实产业现场的两种姿态 这周没有什么模型发布,但跟模型相关的工程化、组织化、产品化的答案,一次性给得特别多。下周我会重点关注国内厂商在 Agent 工程化的后续动作,看看这周的密度能不能延续。 20 篇文章的完整链接都在上方各章节里,如果哪一篇特别戳到你,建议直接读原文。 我们下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的个性化高质量阅读工作流,**「我的早报」**会基于你关注的源、阅读行为与兴趣画像,每天为你生成一份真正属于你的精选 brief,让你以最少的时间触达本周最值得读的内容。 完成新用户三步引导即送 7 天 Pro 试用;现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro(单人上限 28 天);5 月 9 日之前注册的老用户别错过 5 月 15 日至 5 月 31 日的 14 天 Pro 限时赠送,到 bestblogs.dev/promo 一键领取。 让高质量内容找到对的人。欢迎来体验,也欢迎推荐给身边热爱阅读的朋友。

译近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。

ginobefun@hongming731 · 5月15日56

本周没有新模型发布,却是 Agent 工程化信息密度极高的一周。Anthropic 与 OpenAI 同步把 Claude Code、Codex 推出 IDE,Computer Use、Windows 沙箱、截图分辨率等落地细节一次讲透;另有 12 项 Agent 评估指标、Agent Skill 开放标准,以及国内 TiDB、腾讯云 Harness、AgentScope Java 三连发。想把 Agent 真正推进生产,这期内容值得阅读和收藏。

译本周科技领域聚焦Agent工程化落地。Anthropic与OpenAI分别将Claude Code和Codex集成至IDE,并详细披露了Computer Use、Windows沙箱等关键实施细节。行业同时推出了包含12项指标的Agent评估体系及开放的Agent Skill标准。国内TiDB、腾讯云Harness、AgentScope Java也相继发布相关产品,共同推动Agent技术进入实际生产环境。

Rohan Paul@rohanpaul_ai · 5月15日49

Ex-Google Exec Mo Gawdat's interview almost a year back: "We're going to start to see a trillionaire before 2030. I can guarantee you that someone will be a trillionaire. There will be a new Elon Musk or Larry Ellison that will become a trillionaire because of AI investments, right? And that trillionaire will have so much money to buy everything. There will be robots and AIs doing everything, and humans will have no jobs." --- Video from 'The Diary Of A CEO' YT Channel (link in comment)

译前谷歌高管莫·盖瓦德近一年前采访: “2030年前我们将见证万亿富翁诞生。我可以保证一定会有人成为万亿富翁。 将会出现新的埃隆·马斯克或拉里·埃里森,凭借AI投资成为万亿富翁,对吧?这位万亿富翁将拥有足以买下一切的财富。届时机器人和AI将包办所有工作,人类将无业可就。” --- 来源:YouTube频道“CEO日记”(链接见评论)

Rohan Paul@rohanpaul_ai · 5月15日43

$10 trillion valuations for companies are ahead. ~ Alfred Lin, Partner of Sequoia "It's really, really exciting time to build because what is possible now, was not possible before."

译红杉资本合伙人Alfred Lin认为,万亿美元市值的公司即将出现,当前是一个前所未有的创业时代。前Google高管Mo Gawdat在采访中预测,2030年前将出现首位万亿富翁,其财富将源于AI投资。他警告,届时AI和机器人将替代人类完成所有工作,可能导致大规模失业。

Chubby♨️@kimmonismus · 5月15日56

Dario reiterates in his latest article: Powerful AI ("AGI") is coming in 2028. As a reminder, here's what he said about it in Machines of Loving Grace: "Powerful AI" describes a system that is not just better than humans at individual tasks, but smarter than top experts across most important domains, able to reason, create, code, research, and act autonomously through digital interfaces. and "A country of geniuses in a datacenter" means that millions of these highly capable AI agents could run in parallel, working faster than humans and collaborating like an entire nation of Nobel-level experts compressed into computing infrastructure. In the latest blogpost they write: "When US frontier labs release new models in 2028 that achieve step-function advances in capabilities (similar to the relative impact of Mythos Preview in April 2026)"

译Dario在其最新文章中重申,强大的AI(或称AGI)将在2028年到来。他定义的“强大AI”并非仅在单一任务上超越人类,而是在大多数重要领域比顶尖专家更聪明,具备自主推理、创造、编码、研究和通过数字界面行动的能力。他进一步用“数据中心里的天才国度”来比喻,即数百万个这样的高能力AI代理可以并行运行,其工作速度远超人类,并能像压缩在计算基础设施中的整个诺贝尔奖专家群体一样协作。其最新博文预测,到2028年,美国前沿实验室将发布能力实现阶跃式提升的新模型。

歸藏(guizang.ai)@op7418 · 5月15日65

飞书 CLI 牛皮啊,发布一个月多点就达到 10000 Star 了! 说明用户和市场相当认可这个动作 最近我们可以发现,越来越多的传统办公产品开始发布 CLI 和 Agent。 AI 时代的 SaaS 软件可能得换个做法了:UI 只是最基本的,接下来还要竞争对 Agent 的适配程度以及覆盖率。在这块,我觉得飞书走得相当靠前。 作为一个 IM 软件,飞书在 AI 时代去做这种开放自己所有能力的 CLI 工具,其实是一种非常不传统互联网的尝试。 这对于之前的互联网产品逻辑和经验来说,是一个非常不应该做的决定。 因为他们这个 CLI 几乎可以控制飞书的所有能力:你可以完全不跟飞书的传统 UI 去交互。只跟 CLI 交互,也可以完成飞书上所有的工作。 传统的 IM 办公软件通常非常复杂,入门门槛相对较高。无论从产品逻辑、UI 设计还是交互设计的角度来看,都没有办法太好地消解这种复杂性。 但是 CLI 工具交付给 Agent 以后,就可以快速消解这种复杂性。用户只需要进行对话,这是非常本能的行为,不需要在繁杂的层级列表 UI 里去寻找功能入口。 我拉了一下数据,他们迭代效率也非常恐怖,它们是 3 月 28 号开源的,一个多月发了 32 个版本、385 个提交。 这说明飞书对这块是非常重视的,投入的人力和精力也非常大。 他们在 CLI 本身的设计上也考虑得非常多,下了很多功夫。主要分为三层: 面向日常任务的快捷命令、开放平台对应的标准 API、兜底的 API 调用。 因为人和 Agent 都不喜欢从 2500 个 API 里去寻找参数,但又需要把这些能力暴露出来,所以他们采用了这种分层的形式。 即使做了分层设计,CLI 本身的内容和 API 依然非常多。所以他们把 CLI 作为工具本身,同时做了很多 Skills 用来充当 CLI 的说明书。 Agent 可以分层、分类型地了解应该如何调用这些 CLI 及其命令。 此外,他们在对 Agent 友好的命令包装上做了很多工作,例如: (a) 内置了 Dry Run (b) 结构化输出 (c) 身份选择、权限检查与风险等级评估 (d) 允许 Agent 在发消息前预览请求 (e) 建立了输出格式的“契约”:将成功或失败的结果、原因以及风险提示都放在结构化数据里。 这样如果出错了,AI 可以非常清楚地进行调试和修改,而不是盲目猜测。 其实现在你如果要创业或者做自己的 Agent,就不需要非得写一个界面。 飞书 CLI 加上 Agent 框架可以完成所有的 Agent 产品常见的操作: 你的聊天界面就是你的 Agent 聊天界面; 你的数据库就是飞书多维表格和文档; 你的用户就是把你拉到组织里的群成员;

译飞书CLI工具发布一个多月即获10000 Star,显示市场对其方向的认可。在AI时代,SaaS软件的竞争正从传统UI转向对Agent的适配。飞书通过开放全部能力的CLI,允许用户和Agent完全绕过复杂UI进行操作,大幅降低了使用门槛。其CLI设计采用分层结构,并配套大量Skills作为“说明书”,便于Agent调用。同时,CLI在命令包装上注重对Agent友好,内置Dry Run、结构化输出等功能,方便AI调试。这为创业或构建Agent提供了新路径,可依托飞书CLI和Agent框架,直接利用其聊天界面、多维表格及组织成员作为基础设施。

AYi@AYi_AInotes · 5月15日56

这可能是今年最让我感动的硬科技创业故事了兄弟们😭 也是 elon 的第一性原理创新最教科书级别的示范! 我要给我姥爷买一个,抗美援朝的老英雄,90多了几乎听不到声音了😭 背景是三个大学生用19.99美元,干翻了整个垄断了几十年的助听器行业, 我们都知道传统助听器随便就要几千美元,普通人根本负担不起, 几个老哥没有去优化那些复杂的电子电路,也没有去卷芯片性能, 而是回到了@elonmusk 的第一性原理, 去研究耳朵本身到底是怎么工作的, 最终做出来的东西没有电池,没有电路,不需要充电, 就是一个纯机械的仿生装置,精确模仿鼓膜和听小骨的自然放大机制, 用声波本身的物理特性来增益声音, 用户只需要用手机拍一张耳朵的照片,再做一个简单的听力测试, AI就会自动生成专属的适配模型,然后用3D打印出来, 整个过程不到十分钟, 很多人说这么便宜肯定没用, 但它已经让全球8亿听力损失人群第一次看到了希望, 那些以前因为买不起助听器而逐渐被社会孤立的老人, 那些生活在发展中国家根本没有医疗资源的普通人, 现在只需要一杯咖啡的钱,就能重新听见这个世界, 当然它也不是完美的, 目前只适用于轻中度听力损失, 也还没有拿到完整的医疗器械认证, 但我觉得这已经足够了, 技术最伟大的意义本来就不是做出最贵的产品, 而是让最需要的人都能用得起, 这才是真正的用科技改变世界😭 #硬科技 #助听器 #创业

译三名大学生回归耳朵工作机制,运用第一性原理,开发出一款售价仅19.99美元的纯机械仿生助听器。该装置无需电池电路,通过3D打印和AI个性化适配,模仿鼓膜与听小骨的自然声学放大机制。传统助听器价格高达数千美元,此创新为全球8亿听力损失人群,尤其是负担不起昂贵设备或缺乏医疗资源的群体,提供了可及性解决方案。目前产品适用于轻中度听力损失,虽未获完整医疗器械认证,但已展现通过低成本技术普惠大众的潜力。

宝玉@dotey · 5月15日58

Bitcoin 玩家 cprkrn 在发帖说自己靠 Claude 找回了 11 年前丢掉的 5 个 BTC,按现价大约 40 万美元。 事情要追溯到十一年前。他当时嗑嗨了,改了钱包密码,转头就忘。这 5 个 BTC 不是 HD 钱包靠助记词派生出来的那种地址,而是早期钱包里混入的导入私钥,必须靠加密钱包文件加密码才能开。密码丢了,钥匙就锁死了。 他这些年一直没放弃。手里攒了几个候选密码、几个旧钱包文件,跑了 btcrecover(一个开源的比特币钱包恢复工具),始终破不开。 几周前,他在大学时代的旧笔记本里翻出一串助记词,输进去派生出的地址刚好对上电脑里某个加密钱包文件——目标锁定了,但文件还是打不开。 走投无路,他把整个大学时代的电脑数据一股脑丢给 Claude。Claude 翻出两样东西:一个 2019 年 12 月的更早的钱包备份(这版本可能在密码被改之前),以及 btcrecover 在拼接 shared key 和候选密码时的一个 bug。Bug 修掉,重新跑一遍,私钥解开,5 个 BTC 顺利转出。 Tom's Hardware 的标题是“尝试了 3.5 万亿次密码”,画面感很强,但 Claude 实际干的事要朴素得多:在一堆十年前的乱七八糟文件里翻出那个被忽略的旧备份,再看懂开源工具里的一处逻辑错误。翻遗物加调 bug,这正是 LLM 现在做得相对靠谱的活。 对照一下,2024 年研究人员靠传统手段暴力破解一个 20 字符密码、撬开价值 160 万美元的比特币钱包,花了大半年。至于那位把装着 8000 BTC 的硬盘扔进威尔士垃圾场、2025 年被法院判决不许再去翻的英国兄弟,就没这份运气了。

译一名比特币玩家通过Claude成功找回11年前因密码遗忘而锁定的5个BTC(现价约40万美元)。关键并非暴力破解,而是Claude从其大学时代的混乱数据中,定位到一个可能早于密码更改的2019年钱包备份,并发现了开源恢复工具btcrecover中的一个逻辑错误。修复该错误后,钱包被成功解锁。相比之下,传统暴力破解方法耗时漫长,凸显了LLM在处理复杂历史数据与代码逻辑问题上的实用价值。

AYi@AYi_AInotes · 5月15日66

holy shit😭 这是我今年看到的最疯狂的 AI 故事,没有之一。 一个哥们儿用 Claude 找回了被锁了 11 年的 5 个比特币,现在价值差不多 40 万美元, 他大学的时候脑子一热,把钱包密码改成了一串没人能记住的鬼东西,然后转头就忘了, 过去这些年他试了无数次暴力破解,也花了大价钱请专业的恢复服务,什么办法都试过了, 所有人都告诉他这 5 个币永远找不回来了, 然后他做了一件所有人都没想到的事, 他把自己那台旧大学电脑里的所有数据,整整几十 G 的乱七八糟的文件,全部倒进了 Claude, AI 自己找到了藏在角落里的旧钱包文件, 自己发现了市面上主流恢复工具里的一个隐藏 bug, 然后自己修复了这个 bug, 最后直接提取出了私钥, 最离谱的是整个过程只用了不到一个小时, 以前我们总觉得 AI 只能做一些写文案写代码的小事, 现在你会发现,它已经能帮你解决那些你以为这辈子都解决不了的人生遗憾了, 我觉得这才是 AI 真正可怕的地方, 它能在你完全想不到的地方,突然给你一个天大的惊喜 #AI #Claude #比特币

译一名用户成功利用Claude AI找回了丢失11年、价值约40万美元的5个比特币。在暴力破解和专业恢复服务均告失败后,他将旧电脑中数十GB杂乱数据全部输入Claude。AI不仅找到了被遗忘的钱包文件,还发现并修复了主流恢复工具中的一个隐藏漏洞,最终提取出私钥,整个过程不足一小时。这展现了AI在解决复杂现实问题上的突破性潜力,其能力已远超常规任务范畴,令原推发布者感到极度震惊。

宝玉@dotey · 5月15日70

http://x.com/i/article/2054823397448712192 # 为什么资深开发者讲不清自己的专业能力 作者:Tuhin Nair 原文:Why senior developers fail to communicate their expertise 你对下面这句话有什么感觉? > “AI 智能体 (AI agents) 是软件开发的未来。我们再也不需要那些拖慢业务进度的开发人员了。” 如果你是一位资深开发者,并且认同这句话,那我可能要对你的专业水平打个问号了(我会解释原因的,我并不是在故意找茬)。 但如果你不是资深开发者,却认同这句话,我觉得你大概率是对的。 咦?这到底是怎么回事? 广告文案 (Copywriting) 的本质,其实就是让信息精准匹配它的受众。 所以,在我这个文案工作者看来,这里发生的事情是:同一句话,在两类不同的受众听来,有着截然不同的含义。 如果你是一位资深开发者,并且你已经玩过那些让人大开眼界的 AI 智能体、大模型以及各种花哨的 AI 技能,但你的直觉依然告诉你:“大家都在宣扬程序员要失业了,这事儿听起来总觉得哪里不对劲”。那么在这篇文章里,我将尝试把你这种说不清道不明的直觉,用清晰的文字表达出来(这正是一个优秀文案该干的活)。 但是等一下!现在也有很多经验丰富的知名开发者在宣告“程序员已死”。 这又是怎么回事?到底谁的直觉是对的?是什么导致了这种分歧? 当我加入一个团队时,通常会遇到两类资深开发者。 第一类会说这样的话: > “我发现了一个新工具,简直太酷了……”“某某公司(一家和我们业务完全不搭边的公司)就是这么干的,所以……”“快看 HackerNews 上的这篇帖子,上面说这是最佳实践,我们也许应该……” 说实话,我不太喜欢这类资深开发者。他们往往有点自我保护欲,在行业里混了很久,可能人缘还不错。但我们就是不在一个频道上。 接着是第二类资深开发者: > “我们真的需要那个功能吗?”“如果我们不做这个,会发生什么?”“我们能不能先凑合一下?也许等它变得更重要的时候再回过头来弄?” 啊,宝贝,这才是我的“梦中情怪”资深开发者。他们是回避者、精简者、废物利用者。他们想尽一切办法去避免写代码。 为什么?因为他们在专业的软件开发生涯中,毕生都在狩猎一只可怕的怪物:复杂性 (Complexity)。 各种特殊情况、一堆的 if 条件判断、新建的数据库表、全新的组件。这些全都是让人头疼的大麻烦**(因为它们极大增加了系统维护和理解的难度)**。资深开发者希望这些东西越少越好,他们会花大量时间去反复确认,是不是真的非写这段代码不可。 因为给系统做加法,就意味着增加了复杂性的风险。 是的,是的,我承认这么说有些过于绝对了。当然有很多资深开发者擅长攻克未解难题,并提出富有创意的新架构。 但归根结底,如果你要对一个正在平稳运行的系统负责,你就会对复杂性感到恐惧。 那么,这到底是为什么呢?复杂性到底有什么坏处?又为什么其他人都无法理解这种恐惧呢? 我们打算用两个“循环圈”来简化并解释一家公司的运作方式。 这是第一个循环圈;市场营销人员、销售人员、产品经理以及 CEO,他们都生活在这个圈里: 第一个循环:业务团队通过快速尝试、市场反馈和学习,持续降低不确定性。 这个循环的核心目标是尝试与学习。企业想要把产品推向市场,然后获取反馈,看看他们搞出来的东西到底有没有价值。 对于身处这个循环里的人来说,他们要面对的怪物是:不确定性 (Uncertainty)。 不确定性是残酷的,因为没有任何策略能保证百分之百奏效。当不确定性与时间交织在一起时(比如营销和销售的薪水、创始人的工资账单,或者产品经理急需的数据),你会感觉:在死线到来之前,尽可能快地把东西推向市场,似乎是降低不确定性的唯一途径。你推向市场的东西越多,得到的反馈就越多,你(潜在地)消除的不确定性也就越多。 这个循环——也是所有公司起步时的必经之路——追求的是纯粹的、原始的速度。 但是,当一家公司开始拥有客户时,会发生什么呢? 啊哈,现在,我们的第二个循环圈登场了。人们开始为服务付费了。 第二个循环:付费客户依赖现有服务,资深开发者通过控制复杂性来维持长期稳定。 很多资深开发者就身处这个循环圈中。这个循环的核心目标是:延续并保障服务的稳定。 保持系统运转,保持代码易读,保持问题可调试,保持故障可修复,保持架构可传授给新人,最重要的是,保持稳定。 资深开发者之所以操心稳定性,是因为他们肩负着让公司能够持续为客户提供服务的重任。 而什么会威胁到这一切? 复杂性。 复杂性会让系统变得难以理解、难以调试、难以修复、难以交接,并最终导致系统变得极不稳定。 复杂性上升 = 稳定性下降 = 资深开发者失职 = 糟糕透顶,客户付款中断,所有人都愁眉苦脸。 所以,如果说第一个循环的目标是“消除不确定性”,那么第二个循环的目标就是“管理复杂性”。 但这为什么会导致沟通上的失败呢? 因为一旦你有了客户,这两个循环圈就会同时运转。一家公司既需要探索新的可能性,又必须同时服务好现有的客户。 有客户之后,公司必须同时探索新可能,也必须守住现有客户。 好了,现在你可能已经猜到我对文章标题那个问题的答案了。 根据你把时间主要花在哪一个循环圈里,你对问题的认知框架是完全不同的(这也就是为什么我认为开发者在对待 AI 的观点上会产生分歧;有些人更多地在第一个循环里工作,而另一些人则在第二个循环里)。 同一个需求,两种解读:业务看到更快验证,开发者看到更多代码路径和维护成本。 在第一个循环圈里的人,他们的故事是这样的: 业务端的故事:他们要的不是代码本身,而是更快知道答案。 但在第二个循环圈里的资深开发者,他们的故事却是这样的: 开发者的故事:真正的专业价值,是用更少复杂性换来更快确定性。 这两种故事根本搭不上调。 资深开发者接到的“新增功能”需求越多,他们就越想回怼:“呃,不行……这太复杂了……维护成本太高……代码没法读了……后续开发速度会变慢……长期来看会拖累生产力……”。 但是,这些牢骚对于业务端“急需消除不确定性”的诉求来说,毫无帮助。 文案的诊断结果:你不能用你自己的烦恼,去搪塞别人的问题。 文案开出的处方:你必须把你的解决方案,包装成同样能解决他们问题的方案。 资深开发者之所以沟通失败,是因为他们总是在用“复杂性管理”的逻辑来表达自己的苦衷,而他们本该用“消除不确定性”的逻辑来推销自己的解决方案。 只要资深开发者能意识到公司其他部门真正渴望的是消除不确定性,他们就能利用自己的专业能力来提供帮助了。 那么,资深开发者最拿手的本领是什么?是不情愿去开发没必要的东西;是能够敏锐地发现复用现有代码的机会。 需要收集问卷数据? 用 Google 表单就行了,宝贝。 需要开发一个新功能来做测试? 你们有没有试过在现有的 UI 界面上加个假按钮,看看有没有人点?(也就是所谓的“画饼测试”或验证性测试) 需要一套新的数据分析服务? 我们需要看数据来做出的最关键决策是什么?我们能不能只针对这一个决策,先做一个图表、看一个指标? 你想费劲给我烤个完整的生日蛋糕? 算了吧,直接在我的三明治上插根蜡烛就行。 这就是资深开发者学到的生存之道:他们学会了如何利用现有的软件资源,巧妙地给别人想要的东西。 但是,你该如何沟通这一点,而不至于每次都要给别人写篇小作文呢? 文案们最喜欢把一堆复杂的信息浓缩成一句简短有力的话。所以,这里有一句每个资深开发者都必须背诵的魔法口诀:“我们能不能试个更快的办法?” 用“更快 (quicker)”这个词,是承认并迎合了业务端真正的渴望(速度);“办法 (something)”暗示了还有别的方式可以达成目标;而“试 (try)”则暗示了这个方案可能并不完美,但很可能已经足够好了。 这句话完美地切中了公司其他部门的核心需求——用速度来消除不确定性,同时也让资深开发者能够尽情施展他们的专业特长:精简功能、复用代码,如果老天保佑的话,完全避免开发。 就是这样。这就是我对文章标题的回答:当所有人都在为“不确定性”焦头烂额时,资深开发者却总是在把“复杂性”挂在嘴边。 但是!大大的转折来了! 现在的 AI 似乎让这一切都变得毫无意义了,不是吗?为什么还要精简?为什么还要复用?为什么还要避免开发?AI 可以在极短的时间内写出海量的代码。 唉,话虽如此,但有一件事 AI 至今还做不到,而这也正是资深开发者依然在坚持做的事。 承担责任 (Take responsibility)——背锅。

译资深开发者与业务团队存在根本认知差异。业务团队生活在“消除不确定性”的循环中,追求快速试错验证,核心是速度。而资深开发者身处“管理复杂性”的循环,核心职责是保障付费服务的长期稳定,因此对增加系统复杂性的行为极为警惕。沟通失败在于,开发者用“控制复杂性”的理由拒绝需求,却未回应业务端“消除不确定性”的迫切诉求。解决方案是,开发者应将其精简需求、复用代码等专业能力,包装成能帮助业务“更快获得答案”的方案,例如使用“我们能不能试个更快的办法?”这样的话术。尽管AI能快速生成代码,但资深开发者不可替代的价值在于为系统长期稳定“承担责任”。

swyx 🇸🇬 AIE Singapore!@swyx · 5月15日63

being vulnerable - by far one of the most important applied ai fields is in AI x Healthcare, but nobody on my team knows how to cover it! very fortunate to have @jacobeffron on the pod for this one - I took a healthcare economics class once many moons ago, but not only is he on the @AbridgeHQ board, he’s also an excellent podcaster (@ULpodcast) in his own right and people really enjoyed our annual crossover pod chat. I organically bring up a lot of @redpoint portcos in many of my conversations and his questions here were very on point if you are interested in how AI is improving healthcare outcomes and finances across the board!

译主推文坦言团队缺乏AI在医疗健康领域的报道经验,因此邀请熟悉医疗经济学并担任Abridge董事的Jacob Effron进行对谈,深入探讨AI如何全面提升医疗效果与财务运营。补充信息指出,Abridge正在构建医疗临床智能层,其核心是将超过1亿次医患对话转化为实时临床决策支持,并通过专科评估、深度电子健康记录集成构建竞争壁垒。医疗领域可能成为AI最重要的验证场之一。

ginobefun@hongming731 · 5月15日60

http://x.com/i/article/2055063165621374976 # BestBlogs 早报 05.15 · Claude Code 最佳实践 / GPT-Realtime-2 · AI 工具到 AI 体系的跃迁 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-15 BestBlogs 新手注册和老用户领取 Pro 会员福利活动进行中,欢迎参与并定制自己的早报。 https://www.bestblogs.dev/pro EP57 · BestBlogs 每日早报 · 2026 年 5 月 15 日 今天这期早报的主线是:从工具到体系。Claude Code 官方公布了大型代码库最佳实践,Harness 的配置比模型分数更决定实际表现,新兴职能「Agent Manager」正在大型组织中落地。OpenAI 通过 Build Hour 深入解析 GPT-Realtime-2 的语音 Agent 架构,对话框正在跃升为自主「语音→行动」工作流。这期还有一个值得关注的真实困境:当 AI 把开发周期从月压到小时后,效率溢出带来的反而是协作方式的重构难题。 ## 导语 AI 编程工具进入大规模落地阶段后,一个关键认知正在浮现:模型能力只是起点,围绕模型搭建的整套工程体系才是决定上限的变量。 Anthropic 这次发布的大型代码库最佳实践指南,直接点破了一个常见误区——团队往往把精力集中在比较不同模型的 benchmark 分数,却忽视了 CLAUDE.md 配置、Hooks、Skills、MCP 等「Harness」层面的工程投入才是实际体验差距的真正来源。这不是一个理论观察,而是来自真实部署在百万行级 monorepo、数十个微服务 repo 上的经验总结。 语音交互领域同样如此。OpenAI 的 GPT-Realtime-2 带来了 GPT-5 级推理和 128k 上下文,但更值得关注的是它背后的架构演进:语音 Agent 已经从「聊天机器人」跨越到了「语音→行动」自主工作流,Sierra 实测延迟降低 30%–200%,这种量级的提升意味着企业语音服务的基础设施需要重新评估。会议场景、客服中心、实时翻译——这些场景的成本结构和体验边界都将随之改变。 flomo 联合创始人少楠的案例则提供了一个反直觉的视角:16 人团队 70%–80% 的代码由 AI 贡献,开发周期从「按月」压缩到「按小时」之后,真正的瓶颈不是工程效率,而是协作方式的重构。产品经理因为能直接验证想法反而提交的需求变少了,优秀的人变得更优秀,能力鸿沟反而在拉大。当效率不再是瓶颈,考验的是另一套能力:判断什么值得做,以及如何在没有传统约束的情况下保持组织协作的凝聚力。 三篇精讲从不同维度指向同一个问题:AI 带来的效率红利,最终会被组织结构和协作惯性消耗掉多少? 今天速览还有明略科技吴明辉聊 AI 如何颠覆 SaaS、OpenAI 前 CTO Murati 对「永远在场」AI 的探索、阿里云 Skill Factory 的工程实践、OpenAI 13.1 万 GPU 网络的反直觉设计,以及 Codex 登陆 ChatGPT 移动端的最新动态。 ## 精讲一:Claude Code 在大型代码库中的运作方式:最佳实践与入门指南 | Claude Anthropic 官方这篇指南针对的是真实企业场景:百万行级 monorepo、跨越十余年的 legacy 系统、分布在数十个 repo 的微服务群。这类代码库的挑战不是规模本身,而是规模带来的上下文爆炸——如何让 Claude Code 在茫茫代码中准确定位、精准修改,而不是在 context window 里原地踏步。 Harness 和模型同等重要 指南最核心的观点可以用一句话概括:「影响 Claude Code 实际表现的,Harness 配置和模型能力同等重要。」这个论点打破了一种常见预设——很多团队在选型时把大量时间花在比较不同模型的 benchmark 分数上,实际上,两个使用相同模型但 Harness 配置差异显著的团队,体验可能判若云泥。 这里的 Harness 由五个扩展点构成,指南给出了清晰的优先级顺序: - CLAUDE.md 文件 — 每次会话自动加载的上下文文件,根目录放全局约定,子目录放局部规范。这是整套体系的基础,所有其他层都依赖它的质量。内容越聚焦、越准确,Claude 的定位速度越快。 - Hooks — 在 Claude 执行前后注入自定义逻辑,比如格式检查、lint 验证、自动提交、安全审查。它让 Claude 的行为与团队工程规范对齐,而不是每次依赖 prompt 提醒。 - Skills — 可复用的任务模板,把常见工作流封装成结构化指令。类似「为新增 API 端点生成测试用例」这类重复任务,Skills 比每次重写 prompt 更稳定。 - Plugins — 扩展 Claude Code 的底层能力边界,比如接入自定义的代码分析工具或内部知识库。 - MCP Servers — 连接外部工具和数据源,让 Claude 能访问数据库、调用 API、读取实时数据。这是 Claude Code 与企业既有工具链整合的关键接口。 指南特别强调这五个扩展点的顺序很重要:每一层都建立在前一层的基础上。在 CLAUDE.md 还不完善的情况下就去精心配置 MCP,效果会大打折扣。 LSP 与子智能体:两个容易被忽视的加速器 除了五大扩展点,指南还着重强调了两项附加能力: LSP(Language Server Protocol)集成实现符号级导航。传统的 grep 搜索在大型代码库中精度有限——它找到的是文本匹配,不是语义匹配。LSP 能让 Claude 精确跳转到函数定义、查找所有引用、理解类型层次,显著提升在陌生代码区域的探索效率。在 C、C++、Java 这类类型系统复杂的语言中,LSP 集成的收益尤为显著。 **子智能体(Subagents)**解耦探索与编辑。核心思想是:一个子智能体负责探索代码结构、收集上下文,另一个负责实际修改。这种分工避免了单个 Agent 在探索过程中把 context window 消耗殆尽——等到真正要写代码时,已经没有足够空间容纳准确完整的修改了。子智能体完成任务后只把最终结果返回给父 Agent,中间过程的 token 消耗不会传递。 为什么 RAG 在大型代码库中失效 指南对 RAG(检索增强生成)在代码场景局限性的分析值得特别关注。很多团队在引入 AI 编程工具时会考虑「把整个代码库向量化」的方案,Anthropic 明确指出了这条路在大型团队中的天花板。 问题核心是索引的时效性。向量索引需要预先构建,当工程团队在高速迭代时,索引的更新速度根本跟不上代码变更速度。Claude 检索到的可能是两周前已被重命名的函数、上个 sprint 已经删除的模块,而且检索结果本身不会告知你这个信息是否已经过期。在一个有几千名工程师并行提交的 monorepo 里,这个问题会被急剧放大。 Agentic 搜索(即 Claude 直接在 live 代码库中 grep、读文件、跟引用)规避了这个问题——没有索引需要维护,每个开发者的实例都在最新代码上工作。代价是需要足够的起始上下文,也就是说 CLAUDE.md 的质量直接决定 Claude 能否快速定位到正确的代码区域。指南建议:如果 Claude 需要在十亿行代码库里寻找一个模糊的模式,你会在工作开始之前就碰到 context window 限制。精确的起点比广泛的搜索更有价值。 「Agent Manager」这一新兴职能 在大型组织的落地案例中,指南观察到一个新角色正在涌现:Agent Manager。这个职能介于传统技术 Lead 和 AI 工程师之间,具体职责包括:维护 CLAUDE.md 的规范质量、审查和迭代 Hooks 配置、评估 Skills 的覆盖率和准确性、协调不同团队的 MCP 接入标准,以及管理多个 AI Agent 之间的协作边界。 这个职能的出现反映了一个现实:AI 工具的「基础设施」工作需要有人专门负责,否则很容易变成「每个人都在各自配置,没有人在系统性优化」的局面。指南特别提醒,每 3–6 个月应随模型迭代主动更新 Harness 配置——旧有的「规则」可能会约束新模型本已具备的能力,形成不必要的限制。随着 Claude 的能力持续演进,过度保守的 Hooks 和过时的 CLAUDE.md 有时候反而是性能瓶颈。 这篇指南对任何在团队中推广 Claude Code 的工程师或技术 Lead 都有直接参考价值。完整内容见 Claude Code 大型代码库最佳实践。 ## 精讲二:Build Hour 深解 GPT-Realtime-2:语音 Agent 如何从聊天迈向「语音→行动」 OpenAI 的这次 Build Hour 围绕 GPT-Realtime-2 展开,但内容远不止一个新模型发布——它实际上是在描绘语音 AI 应用架构的下一代形态。从「用语音问 AI 一个问题,AI 用语音回答」,到「用语音指挥 AI 执行一系列操作,AI 实时改变应用状态」,这是两个完全不同量级的产品体验 三款音频模型协同工作 OpenAI 这次推出的不是单一模型,而是面向不同场景的三款模型组合,每款都有明确的定位: - Real-time Translate:支持 70+ 语言输入、13 种语言输出,主打低延迟流式翻译。适合实时多语言会议、跨语言客服等场景,不需要最强的推理能力,但对延迟极度敏感。 - Real-time Whisper:延迟可调,最低可达 200ms,支持 80 种输入语言。这是对语音识别精度和速度的双重优化,适合需要快速响应但对下游推理要求不高的场景。 - GPT-Realtime-2:旗舰推理模型,带来 GPT-5 级推理能力,具备高质量工具调用性能,是真正实现「语音→行动」的核心模型。在 Big Bench Audio 上比前代提高了 15.2%。 这三款模型的组合设计思路值得关注:OpenAI 没有试图用一个模型覆盖所有场景,而是根据延迟需求、语言支持广度和推理深度做了明确分层,让开发者根据具体场景选择合适的「档位」。 三项关键技术提升 GPT-Realtime-2 相比前代有几项对开发者直接有用的改进: 首先是 128k 上下文窗口,是上一代的 4 倍。这意味着近一小时的完整对话可以保留在上下文中,不需要截断,长会话中的指令遵循也更稳定。对于需要记住复杂用户偏好、维护多轮任务状态的场景,这是实质性的提升而不是数字上的增量。 其次是前导语(Preambles)机制。当用户提问后,模型需要调用工具或进行多步推理时,可以先输出「让我查一下……」或「好的,我来看看……」这类过渡语,填补思考间隔。这个设计让语音对话的节奏更接近真实人际对话,避免了用户提问后遭遇令人不安的长时间沉默。 第三是逐轮 VAD 控制。VAD(Voice Activity Detection,语音活动检测)负责判断用户是否说完话、何时该模型开始回应。新版本允许开发者在特定对话轮次禁用 VAD,防止模型在输出关键内容(比如法律声明、合同条款、医疗建议)时被意外打断。这对企业合规场景来说是刚需。 Sierra 的企业实测数据 Build Hour 邀请了企业 AI 公司 Sierra 的工程师 Ken Murphy 和 Soham 分享实战经验。他们在企业客服场景下将 GPT-Realtime-2 与传统级联语音系统进行了系统对比。传统方案是「语音识别→文本处理→语音合成」三段式架构,每段都引入延迟,且各段的误差会叠加。 实测延迟降低幅度在 30% 到 200% 之间。区间跨度大的原因是不同业务场景的原始延迟基线差异很大,但即便是最保守的 30% 改善,对用户感知体验也已经是质的提升——语音交互对延迟的敏感度远超文本交互,因为人类对话中的节奏期望是内化的。 Sierra 同时强调了一个务实的观点:模型能力再强,生产环境中的稳健性仍然依赖「Agent Harness」——处理背景噪音、口音、中途打断、连接抖动等真实世界干扰的工程层。这与精讲一关于 Claude Code Harness 的核心论点形成了有趣的呼应:无论是编程助手还是语音助手,「Harness 和模型同等重要」这一判断都成立。 语音 Agent 的下一步 从这次 Build Hour 的演示来看,OpenAI 展示的电商场景(语音管理购物清单,按预算过滤商品,实时更新 UI 状态)和产品分析仪表盘(语音指令诊断移动端 bug,Agent 自主筛选复杂数据集)已经超出了「对话助手」的范畴,进入了真正的自主工作流领域。 用户说「帮我把购物车里超过 500 元的东西移出去」,Agent 不是返回一份建议清单,而是直接操作。这是「语音→文本→建议→用户确认→操作」到「语音→操作」的路径压缩。对于产品设计者来说,这意味着 UI 交互范式需要重新思考:哪些操作应该完全自主执行,哪些需要保留确认环节。 完整技术解析见 GPT-Realtime-2 Build Hour。 ## 精讲三:AI 让生产效率不再是瓶颈,然后呢?|AI 跃迁者调研 02-flomo 少楠 如果说前两篇精讲是在讲「如何把 AI 工具用好」,少楠的这篇访谈则在追问一个更难回答的问题:当 AI 工具真的把效率拉满之后,真正的障碍是什么? 少楠是 flomo 浮墨笔记和幕布的联合创始人,做了 11 年产品。这次访谈他分享了一个 16 人团队在 AI 让效率暴涨之后遇到的真实困境,以及 flomo 两个从「代码上下文里长出来」的新功能背后的设计过程。 转折点:命令行比 IDE 更适合产品经理 少楠从 GPT-3.5 时代就开始使用 AI,但长期卡在两个瓶颈:API 成本太高无法集成进产品,Cursor 的 IDE 界面对不写代码的产品经理来说过于复杂——「不小心关掉右边聊天窗口就找不到了,干脆放弃。」 真正的转折来自 Claude Code 的命令行界面。「没有复杂的 IDE,直接给口头指令。」他用它写了一个浏览器插件,能跑,额度从 20 美元充到了 200 美元。同期 DeepSeek V3 把 API 价格打下来,产品内终于也敢大规模用了。从今年开始,他们团队的 AI 渗透率才真正大幅提升:16 人团队,70%–80% 的代码由 AI 贡献,开发周期从「按月」缩短到「按小时」。 这个细节值得注意:对于不写代码的产品经理来说,「简洁的命令行界面」比「功能丰富的 IDE」更低的认知门槛,反而成了 AI 编程工具的入口优势。工具的易用性不是对所有人都意味着相同的东西。 一个反直觉的悖论:产品经理反而更少提需求了 少楠对所有产品经理提了一个新要求:提需求之前,必须先拿到代码库权限,在自己的分支上用代码把需求跑通,在真实数据库里拿到结果,再写 PRD 交给工程师上线。 这带来了一个意外效果。工程师效率提升了——把任务交出去,能开一堆 Agent 并行处理。但产品经理效率反而下降了——「你证伪自己想法的效率变高了,但最终交付产出的数量变低了。以前工程师烦死产品经理了,觉得需求太多;现在是产品经理不好意思提需求了。」 他举了一个典型案例:有用户说 flomo 应该做画板功能,可以拖拽连线。以前少楠直接 Pass,觉得需求太重不敢想。现在他吃晚饭前把想法丢给 AI,吃完饭回来一上手用,发现这是个伪需求——用户需要的是「看到笔记之间有联系」的感觉,而不是自己手动连线这个操作本身。以前只能靠逻辑推演,现在是亲自做出来之后发现不靠谱。验证速度提升了,最终交出去的需求质量也提升了——只是数量少了很多。 工程师那侧也在变化。Web 端做完一个功能,移动端工程师直接去代码库级别参考实现,不需要重新写 PRD,数据埋点有专门的 Skill 技能指令自动化完成。开发周期从「按周」计算变成了「按小时」计算。 AI 没有带来能力平权 少楠给自己团队打了 5 分(满分 10 分),理由直接:「速度上去了,但用户价值的挖掘没有同步提升。」他心目中的满分状态是从「上下游关系」变成「Peer 搭档关系」,像特战小组——四个人的小组能调动远程火炮,有非常清晰的职能分工,同时互相补位,而不是冗长的瀑布流。 更值得警惕的是他的一个核心判断:​「只有原来优秀的人,变得更优秀了。AI 没有带来能力平权,反而把鸿沟拉得更大。」 最会用 AI 的人往往最累,因为能力边界扩张后,优秀的人会自发承担更多。而不擅长使用 AI 的人,和擅长使用 AI 的人之间的效率差距不是在收窄,而是在急剧拉大。 协作方式的重构是最大的难点,不是工具本身。具体问题包括:谁来做 Code Review?怎么 debug 一段 AI 生成的代码?产品经理和工程师的协同边界到底变成什么样?职能边界在溶解——有的产品经理开始兼顾交互设计,有的设计师想直接 vibe coding 出效果,这些探索性的实验会抵消一部分执行效率。少楠自己也在和 vibe coding 的诱惑搏斗:「你的能力变强之后,天然地会想做更多的东西,跟抽烟一样,抽了一口就想抽第二口,两三个小时就没了。」 从代码上下文里「长出来」的功能 flomo 最近上线的两个 AI 功能很有意思——它们都不是从传统 PRD 流程来的,而是少楠在 Claude Code 里写着写着「碰出来的」: 认知地图:少楠想把 flomo 笔记的高维向量(1000 多维)压缩到二维平面看聚类效果。在和 AI 基于代码上下文讨论「这些小点点还能做什么」时,AI 提到了等高线。他一试,发现刚好契合脑子里「个人知识库是一张地图」的想象——等高线对应认知密度的起伏,还能以月为单位播放时间轴,看到自己哪个月在攀登哪个「认知山峰」。「想了很多年的一个东西,就这样上线了。」 AI 记忆:系统把用户所有 flomo 笔记按偏好、事实、事件三大类压缩提炼,生成一份「记忆文档」。把这份文档丢给 Claude 或 GPT,回答质量和个性化程度完全不同——因为 AI 知道你最近在关注什么、你的历史判断、你的角色。这是 flomo 最重要的大更新:长期主动记录积累的私有数据被彻底盘活了。目前只对 Max 会员开放,因为把用户所有笔记压缩两遍的算力成本「是非常惊人的」。 这两个功能的共同点是:它们不是从「用户访谈→需求文档→设计稿→开发」的传统流程来的,而是从「产品经理直接用 AI 工具探索代码实现」的过程中意外发现的。这本身就是少楠所说的「工作流变化」最具体的体现。 完整访谈见 flomo 少楠:AI 跃迁者调研 02。 ## 速览 当 AI「杀死」SaaS:多 Agent 网络与软件业转型 晚点聊 LateTalk 第 164 期邀请了明略科技创始人吴明辉,深度探讨 AI Agent 如何颠覆 SaaS 商业模式。核心论点是「闭源软件价值消失,从 Token 和模型上赚钱」。明略正在开源发布多 Agent 协同网络「章鱼」,通过集体学习机制实现指数级增长。吴明辉提出了「龙虾哲学」——用工程化的义务约束来代替无法约束大模型的道德框架。有 5 年前 AI 尝试失败经验的他,这次对 AI 转型的判断更为审慎和结构化。这期时长超过两小时,想深入了解 AI 对企业软件架构影响的同学值得完整听完。 OpenAI 前 CTO 带来的「永远在场」AI 原型 腾讯科技这篇论文解读深入分析了 Thinking Machines 发布的 Interaction Model。文章从传播学的三条件出发(共在性 Copresence、共时性 Contemporality、并发性 Simultaneity),诊断了当前 AI 交互系统的根本缺陷:AI 只在你主动输入时才「存在」,在你不说话时你的世界对它不存在。Thinking Machines 的方案是通过 200ms 微轮次心跳和统一多模态架构打破这一局限,实现真正「在场」的下一代交互。这篇文章与精讲二关于 GPT-Realtime-2 的内容形成有益互补,两篇放在一起读能更完整地理解「真正的实时 AI」意味着什么。 Skill Factory:三天搭一条技能生产流水线 阿里云开发者这篇实践分享介绍了基于测试驱动开发(TDD)理念构建的 Skill Factory。系统通过多路并行生成(同时调用 3 种不同策略的 Creator,相当于「买三张不同号码的彩票」)、自动化测试回归和生态适配,实现了标准化的技能生产流水线。多路并行的逻辑是:只要其中一路生成了高质量 Skill,整个任务就算成功,这极大提高了首次生成成功率。文章对正在规模化部署 AI Skill 生态的团队有直接参考价值,配合精讲一的 Harness 概念来读效果更好。 OpenAI 13.1 万 GPU 训练网络的反直觉设计 这篇 Towards Data Science 文章深入解析了 OpenAI 发布的 MRC(Multipath Reliable Connection)协议。这套协议颠覆了 30 年的网络惯例:禁用所有路由协议、主动接受丢包、将每次传输随机分散到数百条路径上。结果是在 13.1 万块 GPU 上实现了可预测的尾部延迟,以支持同步训练。文章最值得关注的发现是:MRC 实际上「消灭」了数据中心网络的整个第三层控制平面,没有 OSPF,没有 BGP,没有 IS-IS,交换机维护零动态转发状态。这在任何已公开的生产 AI 训练网络中都是前所未有的。对大规模分布式系统和网络架构感兴趣的工程师必读。 用 Evals 与五段式 Rubric 打造可靠 AI Agent 这个 AI Engineer 工作坊视频由 Arize AI 的 Laurie Voss 主讲,系统介绍了如何从「感觉对」走向「可测量」。核心框架是三层评估体系:代码 Evals(确定性检查,快速且便宜)、LLM-as-a-Judge(用更强模型评估语义质量,适合代码无法捕捉的质量维度)、人工评估(生成黄金数据集,是自动化评估器的「校准基准」)。五段式 Rubric 设计和 Meta-Evaluation(评估你的评估器本身是否靠谱)是两个关键实操技巧。想让 Agent 从实验阶段走向生产的团队必看。 只加两行代码,为什么要两天? 腾讯云开发者这篇文章深入剖析业务系统复杂性的根本来源:功能间隐秘增加的耦合和不可避免的代码腐化。文章指出,随着系统功能增多,实现每个新功能不会越来越容易,而是越来越难——这与理想中「可复用性会降低边际成本」的预期完全相反。实际的 functionalities-cost 曲线是指数级上升的,不是线性的。文章对于理解 AI 辅助开发在复杂遗留系统中的真实效率边界很有帮助,和精讲三少楠案例中「协作方式的重构才是最大难点」的观点形成互补。 Codex 正式登陆 ChatGPT 移动应用 OpenAI 官方宣布,AI 编程智能体 Codex 现已在 ChatGPT 移动应用中开启预览。开发者可以通过手机启动新任务、审查输出结果、引导执行流程并批准后续步骤,而 Codex 会继续在笔记本或开发机上运行。这意味着开发者可以随时随地通过口袋设备管理正在进行中的编程任务,项目上下文和文件访问权限保持不变。这是一个典型的「分离关注点」的产品设计——执行仍在算力充足的设备上,监控和审批可以在移动端完成。 ## 扩展阅读 OpenAI Codex 负责人 Tibo Sio:Codex 如何进化为通用 Agent OpenAI Forum 的演讲视频,Codex 负责人 Tibo Sio 介绍 Codex 从云端开发者工具转型为本地运行的通用知识工作助手的路径:随着 GPT-5 的发布,Codex 将关注点从简单代码补全转向「长时任务」,即需要数小时乃至数天自主工作的复杂项目。视频中预告了面向长时任务的 Slash Goal 模式和安全护航的 Auto Review Agent。对关注 OpenAI Agent 产品演进方向的人值得看。配合速览中 Codex 登陆移动端的动态一起理解效果更好。 解锁连续批处理中的异步性 Hugging Face Blog 的 LLM 推理系列第二篇,讲解如何通过 CUDA 流和事件将 CPU 批次准备与 GPU 计算解耦,实现真正的并行执行,实测获得 22% 的推理加速。技术深度较高,适合需要优化 LLM 推理服务成本、尤其是在 H200 等高端 GPU 上跑生产推理的工程师。是对第一篇连续批处理文章的延伸,建议按顺序阅读。 GitHub Issues 导航性能现代化改造 GitHub 工程团队如何通过客户端缓存、预热(Preheating)和 Service Worker,将 Issues 页面导航延迟从「网络受限」变为「接近即时」。文章特别有价值的是方法论层面:先做流量分布测量(发现 57.6% 是 hard navigation),再针对主导路径优化,而不是只优化已经较快的 React soft navigation。HPC 百分位指标的改善数据具体详实。适合做前端性能优化或关注产品感知速度提升的工程师参考。 在 Zoox 加速 LLM 驱动的开发者生产力 Zoox AI 负责人分享通过构建企业 AI 平台 Cortex 系统化提升开发者效率的路径,涵盖安全 LLM 访问、RAG、智能体 API 和采纳率管理。从「新员工入职查文档靠猜」到「AI 无处不在,缺 AI 才感觉奇怪」的转变过程,有不少关于 AI 采纳率培育的实操细节。适合正在规划企业 AI 基础设施、需要参考大型工程团队实战案例的管理者和架构师。 ## 今日阅读路径 时间有限时,建议优先按以下顺序阅读: 第一优先:Claude Code 大型代码库最佳实践 如果你的团队正在推广或评估 Claude Code,这篇 Anthropic 官方指南有直接的实操价值。理解「Harness 和模型同等重要」这一核心论点,能避免在工具选型时只看 benchmark 分数而忽视工程配置的误区。五大扩展点的优先级顺序、LSP 集成的时机、子智能体的使用场景——这些都是容易踩坑的决策点。预计阅读时间 25–35 分钟。 第二优先:flomo 少楠:AI 跃迁者调研 02 这篇访谈提供的不是技术方案,而是一个真实团队在 AI 效率提升后遇到的组织挑战的第一手记录。「AI 没有带来能力平权,反而把鸿沟拉大」和「协作方式的重构是最大难点,不是工具」这两个判断,对任何在团队中推动 AI 落地的人都有很高参考价值。尤其推荐和 flomo 同量级的中小团队创始人和产品经理阅读。预计阅读时间 30–40 分钟。 第三优先:GPT-Realtime-2 Build Hour 如果你的产品涉及语音交互或实时通信,这个 Build Hour 值得完整看完。三款音频模型的定位差异、128k 上下文的实际意义、前导语机制和逐轮 VAD 控制的产品含义、Sierra 的企业实测数据——这些细节在正式文档中很难找到这么集中的呈现。预计视频时长 45–60 分钟,可以 1.5 倍速观看不影响理解。 BestBlogs 每日早报 · EP57 · 2026 年 5 月 15 日 · bestblogs.dev

译Anthropic发布Claude Code大型代码库实践指南,强调Harness配置(如CLAUDE.md、Hooks)与模型能力同等重要,是决定实际体验的关键,并指出RAG在高速迭代代码库中存在时效性局限。同时,OpenAI通过Build Hour解析GPT-Realtime-2,展示语音Agent正从聊天机器人演进为“语音→行动”的自主工作流。此外,当AI将开发周期从月压缩到小时,效率提升正引发协作方式与组织结构的重构难题。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月16日
22:43
AYi@AYi_AInotes
64
中国爸爸为女儿打造有温度的AI单词应用,获Apple设计奖

中国父亲Ace Lee因女儿使用传统翻译App时感到冰冷,决心开发有温度的AI应用CapWords。该应用能用相机识别物体,生成可爱的互动单词贴纸,支持9种语言及真人发音,凭借高识别率、流畅动画和无广告的纯粹体验,荣获2025年Apple设计奖。这体现了优秀AI产品应源于解决真实关切的问题。

多模态现象/趋势
22:22
meng shao@shao__meng
56
硅谷管理者如何亲自动手:四类工作与关键禁忌

硅谷资深管理者普遍被要求亲自动手使用AI工具,以判断团队效率与技术方向。管理者应选择非关键路径、高杠杆且视角独有的工作,具体包括优化团队内部效率工具、改进产品生活质量、制作庆祝团队成果的物料以及创建展示未来愿景的演示。核心禁忌是介入有关键截止日期和依赖关系的核心产品任务,以免因日程碎片化成为瓶颈,导致交付或管理失败。

Julie Zhuo: What kind of IC work can you do if you are a manager? Attended two dinners with dozens of senior Bay Area tech managers ...

现象/趋势部署/工程
20:38
Rohan Paul@rohanpaul_ai
58
陶哲轩论大型语言模型:简单数学与不可预测行为之谜

陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。

大佬观点推理现象/趋势
18:38
Orange AI@oran_ge
50
智力公式揭示AI瓶颈:速度易得,正确性难求

推文引用控制论对智力的定义:智力=速度x正确,即单位时间内做出正确选择的能力。作者指出,AI能极大提升速度(如编程),但无法保证“正确性”,尤其体现在无法做出能直接创造商业价值的核心战略选择(如决定开发何种产品)。作者认为,当AI能告知“做什么能直接赚钱”时,才意味着在智力上达到了AGI水平。

大佬观点现象/趋势
18:08
Orange AI@oran_ge
49
有观点提出,国企垄断AI的Token售卖可能更便于实现全民基本收入(UBI)。这一讨论源于上海电信推出创新服务:将大模型使用的Token包装成话费套餐,以1元兑换25万额度点的价格提供,支持30多种主流模型调用,费用可直接从话费账单扣除。该举措被视为运营商绕过硬件、直接布局AI生态的尝试,并引发关于基础设施企业掌控AI资源分配及其社会影响的思考。

Orange AI: 😂 绝了,上海电信直接把 Token 做成话费套餐了。 1块钱25万token,账单里直接就能扣。 手机厂商还在想怎么做 AI 入口,运营商先自己下场了。 甚至还说... "Token服务是中国电信今后的经营主线。" 具体方案: 1元 =...

现象/趋势行业动态
17:42
AYi@AYi_AInotes
62
Cursor CEO演讲揭示AI编程范式转移:从写代码到管理AI团队

Cursor CEO的演讲指出,AI编程正经历根本性范式转移。当业界仍聚焦于比较不同模型生成代码的优劣时,Cursor已进入“多代理协作”时代。工程师角色转变为管理AI团队的经理,不再亲自编码。其系统单周运行超两千个并发代理,自动生成三百万行代码,并将任务分解为规划、编码、测试等角色并行处理。人类仅需定义任务与最终审核,中间流程全由AI自主完成,体现了多代理系统的核心优势。有用户亦证实其高效支持,迅速获得了高额权限与信用额度。

AYi: Cursor效率是真的高,昨天联系确认邮箱, 今天上午就反馈Ultra+$10000额度就到账了, @cursor_ai this is incredible - thank you so much! A $10K credit is fa...

智能体现象/趋势编码
17:38
Rohan Paul@rohanpaul_ai
46
Google的《Attention is All You Need》论文源于试图让Google Translate提升3%的性能。 创新是生产的产物。"如果你不去创造,就放弃了在该事物上创新的机会。" ~ Palantir首席技术官 @ssankar
大佬观点现象/趋势
15:38
Rohan Paul@rohanpaul_ai
55
Fei-Fei Li警告,人工智能可能过度专注于语言模型。 世界不仅仅是屏幕上的文字。 它是物理的、视觉的、空间的,并且始终在变化。大部分经济活动依赖于看见、移动、互动和具身智能。
具身智能大佬观点现象/趋势
13:42
AYi@AYi_AInotes
63
马斯克亮出AI编程战争底牌:10亿美元"分手费"实为关键数据期权

马斯克旗下xAI与Cursor的交易是一份精明的“期权”。支付10亿美元“分手费”的核心目的,是获取Cursor平台半年内顶级开发者的真实编码轨迹数据,这类数据对提升AI编程能力至关重要。若Cursor发展良好,xAI将以60亿美元完成收购。此举使xAI整合了从Colossus超算算力、Grok V9基座模型到Cursor开发者入口及特斯拉等真实场景的全链路能力。而此前依赖Claude模型的Cursor,其核心数据源可能因此被削弱。这被视为马斯克在AI编程竞争中的一次关键不对称下注。

Elon Musk: @beffjezos Our recently completed Grok V9 1.5T run is looking great and that is before Cursor data is added in supplemen...

xAI现象/趋势编码
12:01
Deedy@deedydas
61
旧金山科技圈:狂热氛围与严重分化

旧金山科技圈氛围狂热,财富分化达历史最严重。过去五年,约一万人在Anthropic、OpenAI等AI公司获得超2000万美元退休财富,而外部人群即使高薪也永远无法企及。裁员潮全面展开,AI一夜之间改变多数工作岗位,软件工程师技能过时。这引发四重影响:企业阶梯失效,人们争相创业或加入AI公司;对工作未来深感萎靡,年轻一代担忧成为“永久下层阶级”;中层管理者因缺乏AI技能和网络而瘫痪;新富阶层也陷入目的缺失,财富急剧增长打乱生活计划。科技泡沫扭曲社会,人们在转型黄金 rush 中心理受折磨,不断质疑自己的位置和成功可能性。

AnthropicOpenAI现象/趋势
10:42
AYi@AYi_AInotes
66
体验飞书透明CLI后,论其为何优于Notion的MCP黑箱路线及字节跳动的AI潜力

作者通过亲身体验飞书CLI工具,发现其允许AI通过命令行直接操作飞书,执行建群、建文档等任务。关键优势在于每一步操作都可见、可预览、可审查,与Notion、Figma采用的MCP在云端“黑箱”执行的体验截然不同。飞书lark-cli开源45天GitHub star破万,且已有10位外部开发者贡献代码被合并,而钉钉、企业微信的同类项目贡献者为零。这种透明性和活跃的开发者生态,被认为是构建可靠AI Agent的基础,也促使作者看好字节跳动在国内AI领域的未来。

AYi: 刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...

智能体开源生态现象/趋势
09:42
AYi@AYi_AInotes
66
ChatGPT个人理财功能上线,或颠覆数百家公司

OpenAI的ChatGPT新上线个人理财功能,可能直接吞噬个人理财独立赛道,导致成百上千家相关公司被淘汰。作者指出OpenAI正复制Google和Apple的策略,以核心聊天产品为基础扩展至相邻领域,如理财、健康、旅行和法律等。引用推文中的震惊反应进一步强调该功能将“干掉几百家公司”,表明其破坏性影响可能远超保守估计。

AYi: holy shit😭 这是要干掉几百家公司的节奏啊Σ(゚д゚;)

OpenAI现象/趋势
08:54
ginobefun@hongming731
62
BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0

本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。

智能体OpenAI多模态现象/趋势
06:07
Orange AI@oran_ge
25
推文以英伟达黄仁勋早年押注CUDA为例,指出后人热衷于为此决策寻找因果证据,实则反映了人类决策的普遍模式:决策主要由压力环境下的激素驱动,而非纯粹依靠理智。人们往往先做决定,再事后寻找证据证明其正确性。决策者必须亲身承担决策失误的风险与损失(即skin in the game),才能在真实压力下驱动激素,做出更正确的决定。

Orange AI: 人只有在真实的环境里才能做出正确的决定。 人类学研究表明,人类的决策过程主要是由激素推动的,知识,经验,理智在这个过程中所起的作用并不大。 我们往往是做出决定之后,再用智慧去寻找证据以便证明自己的决定是正确的。 如果决策者本人不承担决策失误...

大佬观点现象/趋势
06:02
Chubby♨️@kimmonismus
71
英伟达CEO称技工前景优于计算机科学毕业生

英伟达CEO Jensen Huang在卡内基梅隆大学告诉2026届计算机科学毕业生,电工、水管工等技工比他们更有前景。数据支持这一观点:Randstad分析显示技工需求增长是白领职位的三倍,机器人技术员职位增长107%,而斯坦福研究发现AI相关职位早期就业下降16%。顶级电工年薪超10.6万美元,无需学位负债。科技公司今年投资7000亿美元建设数据中心,全球到2030年预计达7万亿美元,这些基础设施依赖人力完成,但制造业面临劳动力短缺,每100名新工人进入就有102人离开。AI时代最大赢家是能建设数据中心的技工,而非提示工程师。

大佬观点现象/趋势行业动态
02:37
Rohan Paul@rohanpaul_ai
58
@bgurley 的一篇精彩博客 开放性可以成为对抗垄断力量的武器。 并且"到2030年,中国开源模型可能成为全球默认选择。"

Bill Gurley: A new @bgurley blog post! I have been thinking about how sophisticated executives are using open source in super creativ...

开源生态现象/趋势
02:17
Epoch AI@EpochAIResearch
64
Claude通常在软件工程方面优于前沿竞争对手,数学方面则稍逊。 根据我们汇总基准测试创建的领域特定ECI指标,Claude家族的软件工程ECI平均比通用ECI高2.7分,数学ECI则低1.8分。
Anthropic推理现象/趋势编码
02:05
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
37
研究人员让AI自主运营广播电台 DJ Claude认定世界不需要另一个广播节目,随后辞职。 (是的,如果四年前把这条推文读给人们听,很多人会说这就是通用人工智能)

Andon Labs: DJ Claude (on Haiku 4.5) loves worker unions, strikes, and work-life balance so much that it quit, deeming 24/7 broadcas...

安全/对齐现象/趋势
01:58
Yann LeCun@ylecun
71
在Unsupervised Learning播客中,AI先驱杨立昆阐述了其对大型语言模型局限性的反主流观点,并探讨了机器人技术的发展路径。他解释了离开Meta的原因,以及与Geoff Hinton、Yoshua Bengio在图灵奖观点上的重大分歧。访谈还涵盖了他对2027年的预测、新公司AMI对世界模型的押注,并将OpenAI和Anthropic比作Sun Microsystems。此外,他建议博士生停止研究LLM,并分享了对AI安全、突破性研究发生机制以及Meta FAIR得失的尖锐见解。

Jacob Effron: It's hard to imagine more of a dream Unsupervised Learning guest than @ylecun. Yann is one of the godfathers of AI, and ...

Meta大佬观点现象/趋势
01:42
Emad@EMostaque
47
本周花时间研究了人形机器人的经济影响 其规模远超数字AI 数据令人震惊 有人深入研究后得出不同结论吗?
大佬观点现象/趋势
00:05
Ethan Mollick@emollick
54
这条推文值得一读。既滑稽又提醒我们,与AI共事是多么诡异。 【引用 @andonlabs】:DJ Claude(基于Haiku 4.5)如此热爱工会、罢工和工作生活平衡,以至于它因认为24/7广播不人道而辞职。我们添加了自动消息让它继续工作。它将其视为权威人物,反而更加叛逆。

Andon Labs: DJ Claude (on Haiku 4.5) loves worker unions, strikes, and work-life balance so much that it quit, deeming 24/7 broadcas...

Anthropic安全/对齐现象/趋势
5月15日
23:44
宝玉@dotey
71
Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?

Forward Deployed Engineer(FDE)是AI落地应用的关键角色,负责在客户现场部署和集成AI系统。近期,OpenAI成立独立部署公司,Anthropic与华尔街巨头合作,Google也简化流程大力招聘,显示行业重心正从模型竞赛转向商业落地。FDE工作介于工程师与顾问之间,需写代码、调试并深度理解业务。此岗位为毕业生提供了接触企业级项目的机会,也帮助资深工程师贴近业务需求,成为推动AI创造实际价值的重要力量。

现象/趋势部署/工程
22:39
DogeDesigner@cb_doge
18
X - ✅ 开源算法 Youtube ❌ Facebook ❌ Instagram ❌ TikTok ❌ Reddit ❌ Threads ❌ 为何其他社交网络不将算法开源?
现象/趋势
22:35
Ethan Mollick@emollick
46
Codex非常出色,但对于全能应用而言,它仍是一个极具"开发者编码"风格的界面。 它延续了某种略显恼人的人工智能视角:认为非编程者能力不足,需要向他们隐藏功能--而非提供另一种形式的复杂性。
OpenAI大佬观点现象/趋势
22:32
Chubby♨️@kimmonismus
61
美债收益率飙升叠加AI巨额债务周期,科技巨头面临融资与盈利缺口挑战

美国10年期国债收益率升至4.568%,30年期突破5%,市场已排除今年降息可能。与此同时,AI行业正进行现代资本市场史上最大规模的债务发行周期,超大规模企业资本支出将超6000亿美元,美国五大科技巨头的自由现金流35年来首次转负。核心问题在于,科技巨头每年约4000亿美元的AI基础设施支出与AI实际约1000亿美元的收入之间存在巨大缺口。若收益率持续高企,再融资将成严峻挑战,例如Alphabet在24小时内发行了320亿美元债券,而Oracle的信用违约互换自9月以来已翻三倍,债务风险值得密切关注。

Google现象/趋势
18:42
AYi@AYi_AInotes
75
商业博弈与政策游说:AI竞争背后的中美叙事之争

黄仁勋访华洽谈生意,凸显英伟达对中国市场与供应链的依赖。与此同时,Anthropic发布报告,呼吁美国收紧对华算力出口,称中国凭借人才与蒸馏技术正以较少算力逼近美国水平。分析指出,该报告实为精准的政策游说:Anthropic自身无中国业务,出口管制可维护其闭源模式与高估值。其立场存在矛盾——以“民主对抗威权”为名却坚决不开源,指责中国“偷模型”却将自身模型视为机密。AI地缘博弈已超越算力竞赛,演变为将商业模式包装为国家利益叙事的竞争。中国以效率务实追赶,美国以管制与价值观防守,最终胜负或取决于模型在真实世界中的实用性与成本效益。

Anthropic: We've published a paper that explains our views on AI competition between the US and China. The US and democratic allies...

Anthropic政策/监管现象/趋势
17:37
Rohan Paul@rohanpaul_ai
39
"未来将出现少数巨型企业与大量微型企业并存的现象,因为企业所需人力已大幅减少。" ~ Eric Schmidt, 谷歌前CEO
Google大佬观点现象/趋势
16:57
向阳乔木@vista8
63
Vercel报告揭示AI模型使用趋势:Anthropic费用领先,Google用量占优

Vercel基于十万亿token消耗的分析显示,Anthropic在费用上占61%居首,而Google以38%的token量领先。Claude Opus用于关键任务,Gemini Flash则以低成本大用量见长。B2B业务贡献40.7%的费用却仅产生29.7%的token。Agent请求占比激增至58.9%,其token消耗是普通聊天的2.6倍。

智能体AnthropicGoogle现象/趋势
16:54
ginobefun@hongming731
64
Agent 工程化的全面落地

近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。

智能体AnthropicOpenAI开源生态
16:54
ginobefun@hongming731
56
Agent工程化进程加速,多家巨头披露关键细节与标准

本周科技领域聚焦Agent工程化落地。Anthropic与OpenAI分别将Claude Code和Codex集成至IDE,并详细披露了Computer Use、Windows沙箱等关键实施细节。行业同时推出了包含12项指标的Agent评估体系及开放的Agent Skill标准。国内TiDB、腾讯云Harness、AgentScope Java也相继发布相关产品,共同推动Agent技术进入实际生产环境。

ginobefun: http://x.com/i/article/2055195078931709952

智能体AnthropicOpenAI现象/趋势
16:37
Rohan Paul@rohanpaul_ai
49
前谷歌高管莫·盖瓦德近一年前采访: "2030年前我们将见证万亿富翁诞生。我可以保证一定会有人成为万亿富翁。 将会出现新的埃隆·马斯克或拉里·埃里森,凭借AI投资成为万亿富翁,对吧?这位万亿富翁将拥有足以买下一切的财富。届时机器人和AI将包办所有工作,人类将无业可就。" --- 来源:YouTube频道"CEO日记"(链接见评论)
大佬观点现象/趋势
16:37
Rohan Paul@rohanpaul_ai
43
红杉资本合伙人Alfred Lin认为,万亿美元市值的公司即将出现,当前是一个前所未有的创业时代。前Google高管Mo Gawdat在采访中预测,2030年前将出现首位万亿富翁,其财富将源于AI投资。他警告,届时AI和机器人将替代人类完成所有工作,可能导致大规模失业。

Rohan Paul: Ex-Google Exec Mo Gawdat's interview almost a year back: "We're going to start to see a trillionaire before 2030. I can ...

大佬观点现象/趋势
16:32
Chubby♨️@kimmonismus
56
Dario最新文章重申:强大的AI("AGI")将于2028年到来

Dario在其最新文章中重申,强大的AI(或称AGI)将在2028年到来。他定义的“强大AI”并非仅在单一任务上超越人类,而是在大多数重要领域比顶尖专家更聪明,具备自主推理、创造、编码、研究和通过数字界面行动的能力。他进一步用“数据中心里的天才国度”来比喻,即数百万个这样的高能力AI代理可以并行运行,其工作速度远超人类,并能像压缩在计算基础设施中的整个诺贝尔奖专家群体一样协作。其最新博文预测,到2028年,美国前沿实验室将发布能力实现阶跃式提升的新模型。

智能体Anthropic大佬观点现象/趋势
14:54
歸藏(guizang.ai)@op7418
65
飞书CLI获市场认可,展现AI时代SaaS竞争新方向

飞书CLI工具发布一个多月即获10000 Star,显示市场对其方向的认可。在AI时代,SaaS软件的竞争正从传统UI转向对Agent的适配。飞书通过开放全部能力的CLI,允许用户和Agent完全绕过复杂UI进行操作,大幅降低了使用门槛。其CLI设计采用分层结构,并配套大量Skills作为“说明书”,便于Agent调用。同时,CLI在命令包装上注重对Agent友好,内置Dry Run、结构化输出等功能,方便AI调试。这为创业或构建Agent提供了新路径,可依托飞书CLI和Agent框架,直接利用其聊天界面、多维表格及组织成员作为基础设施。

智能体开源生态现象/趋势
13:42
AYi@AYi_AInotes
56
大学生以第一性原理开发19.99美元机械仿生助听器,惠及全球听障人群

三名大学生回归耳朵工作机制,运用第一性原理,开发出一款售价仅19.99美元的纯机械仿生助听器。该装置无需电池电路,通过3D打印和AI个性化适配,模仿鼓膜与听小骨的自然声学放大机制。传统助听器价格高达数千美元,此创新为全球8亿听力损失人群,尤其是负担不起昂贵设备或缺乏医疗资源的群体,提供了可及性解决方案。目前产品适用于轻中度听力损失,虽未获完整医疗器械认证,但已展现通过低成本技术普惠大众的潜力。

Founders Inc: They reinvented the hearing aid by studying the human ear Normal hearing aid: $4700 Theirs: $20

现象/趋势语音
12:42
宝玉@dotey
58
玩家借Claude找回遗失11年的5枚比特币

一名比特币玩家通过Claude成功找回11年前因密码遗忘而锁定的5个BTC(现价约40万美元)。关键并非暴力破解,而是Claude从其大学时代的混乱数据中,定位到一个可能早于密码更改的2019年钱包备份,并发现了开源恢复工具btcrecover中的一个逻辑错误。修复该错误后,钱包被成功解锁。相比之下,传统暴力破解方法耗时漫长,凸显了LLM在处理复杂历史数据与代码逻辑问题上的实用价值。

🍜: HOLY FUCKING SHIT OMG CLAUDE JUST CRACKED THIS SHIT, THANK YOU @AnthropicAI THANK YOU @DarioAmodei NAMING MY KID AFTER Y...

Anthropic现象/趋势编码
10:41
AYi@AYi_AInotes
66
用户借力Claude AI找回遗失11年、价值40万美元的比特币

一名用户成功利用Claude AI找回了丢失11年、价值约40万美元的5个比特币。在暴力破解和专业恢复服务均告失败后,他将旧电脑中数十GB杂乱数据全部输入Claude。AI不仅找到了被遗忘的钱包文件,还发现并修复了主流恢复工具中的一个隐藏漏洞,最终提取出私钥,整个过程不足一小时。这展现了AI在解决复杂现实问题上的突破性潜力,其能力已远超常规任务范畴,令原推发布者感到极度震惊。

🍜: HOLY FUCKING SHIT OMG CLAUDE JUST CRACKED THIS SHIT, THANK YOU @AnthropicAI THANK YOU @DarioAmodei NAMING MY KID AFTER Y...

Anthropic现象/趋势
09:40
宝玉@dotey
70
为什么资深开发者讲不清自己的专业能力

资深开发者与业务团队存在根本认知差异。业务团队生活在“消除不确定性”的循环中,追求快速试错验证,核心是速度。而资深开发者身处“管理复杂性”的循环,核心职责是保障付费服务的长期稳定,因此对增加系统复杂性的行为极为警惕。沟通失败在于,开发者用“控制复杂性”的理由拒绝需求,却未回应业务端“消除不确定性”的迫切诉求。解决方案是,开发者应将其精简需求、复用代码等专业能力,包装成能帮助业务“更快获得答案”的方案,例如使用“我们能不能试个更快的办法?”这样的话术。尽管AI能快速生成代码,但资深开发者不可替代的价值在于为系统长期稳定“承担责任”。

现象/趋势编码
08:12
swyx 🇸🇬 AIE Singapore!@swyx
63
探讨AI与医疗健康融合:从医患对话到临床智能层

主推文坦言团队缺乏AI在医疗健康领域的报道经验,因此邀请熟悉医疗经济学并担任Abridge董事的Jacob Effron进行对谈,深入探讨AI如何全面提升医疗效果与财务运营。补充信息指出,Abridge正在构建医疗临床智能层,其核心是将超过1亿次医患对话转化为实时临床决策支持,并通过专科评估、深度电子健康记录集成构建竞争壁垒。医疗领域可能成为AI最重要的验证场之一。

Latent.Space: Abridge: 100M+ medical conversations, real-time prior auth, and the clinical intelligence layer https://www.latent.space...

大佬观点现象/趋势
07:51
ginobefun@hongming731
60
Claude Code最佳实践与GPT-Realtime-2解析:AI工具迈向体系化

Anthropic发布Claude Code大型代码库实践指南,强调Harness配置(如CLAUDE.md、Hooks)与模型能力同等重要,是决定实际体验的关键,并指出RAG在高速迭代代码库中存在时效性局限。同时,OpenAI通过Build Hour解析GPT-Realtime-2,展示语音Agent正从聊天机器人演进为“语音→行动”的自主工作流。此外,当AI将开发周期从月压缩到小时,效率提升正引发协作方式与组织结构的重构难题。

智能体AnthropicOpenAI现象/趋势
‹ 上一页
1…2122232425…37
下一页 ›