BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen · AI HOT
ginobefun @hongming731 62
2026-05-16 08:01 ·48天前
AI 摘要 本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。
ginobefun @hongming731 · X 2026-05-16 08:01 · 48天前
在 X 看原推 · x.com AI 摘要 本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。
Julie 把她用 AI 的方式拆成三步:先读懂系统,再做实验,最后重新设计。读懂系统这一步,她举的例子是面对一段几千行的生成器代码,AI 不是直接帮她写一段新代码,而是像一个耐心的同事,把代码逻辑画成示意图,指出哪几个分支可能在新需求下会出错,让她快速对齐"现在到底是怎么跑的"。做实验这一步,AI 帮她做的是"如果我把这个抽象层换掉,会牵动哪些地方"的快速 what-if 模拟--不是生成最终代码,而是让她在 30 分钟里同时探多个分叉,再决定哪条路值得真的写代码去试。重新设计这一步则更靠后,等她已经对方案足够确信,AI 才进入"补全、写测试、清理边界情况"的角色。
文中最让人共鸣的一句话是:"最有用的不是让 AI 写代码,而是把每次'我应该这样改吗'的犹豫时间,从几天压到几小时。"对应到今天速览里的 Forward Deployed Engineer 和 Qoder 1.0,你会看到同一个趋势在不同位置展开:FDE 把这种"AI 加速决策"的能力直接卖给企业,Qoder 1.0 则在 IDE 里把任务窗口和编辑窗口拆开,让"想清楚"和"动手做"在工具里就有不同的状态。
对工程师读者的建议很具体:先选一个你已经反复进入的复杂系统(不是 toy 项目),用一两周时间记录自己每天在哪几个判断上花了最多时间,然后挑其中两三个让 AI 充当"对手盘"--它给一个版本,你给一个版本,再让它来 review。Julie 的经验是,真正把 AI 用成思考伙伴,关键不是 prompt 怎么写得花哨,而是你愿不愿意把决策过程显式化、写出来、被质疑。这件事对资深工程师来说尤其值得练。
她还分享了一个看似细节、但其实非常关键的工作习惯:把每次和 AI 的关键对话存档成"案例库"。不是为了下次复制粘贴,而是为了过一段时间后翻回去看,自己当时为什么会选 A 而不是 B、AI 又是从哪个角度提醒了你忽略的事情。她说这套档案在过去半年里成了她"系统理解力"加速最快的来源,因为它把日常工程里那些零散的判断,沉淀成了可以反复学习的训练集。这跟传统的工程文档不是一回事--传统文档说的是"系统是什么样",这份档案说的是"你是怎么变成现在这样思考的"。
精讲二:AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时 Abridge 这家公司常常被叫做"AI 原生医疗"的代表,但很多人没注意到的是:他们 2018 年就成立了,比 ChatGPT 早整整四年。Latent Space 这期播客请来 Abridge 的 Janie Lee 和 Chai Asawa,以及 Redpoint 的 Jacob Effron,把这家公司从环境抄写起家、一路扩到临床智能层的过程讲了一遍,原文链接是 https://www.bestblogs.dev/article/e618e0e5。
先看几个硬指标。Abridge 今年预计承接 8000 万次以上的医患对话,覆盖美国 250 家大型医院体系,支持 28 种以上语言、50 多个临床专科。2025 年 6 月完成 3 亿美元 E 轮融资,估值 53 亿美元,半年前刚刚做过一轮 2.5 亿美元。这些数字落到产品上意味着,Abridge 不是"试点几家、Demo 几台"的小工具,而是已经渗透到美国医生日常工作流里的基础设施。
他们最早的楔子是 clinical documentation,也就是把医生与病人之间的对话自动转成结构化的就诊记录。这事看起来不性感,但它解决的是医生最痛的"pajama time"--下班后还要在家把白天的看诊记录敲进 EHR 系统。Abridge 自己披露,环境抄写已经能让每位医生每周节省 10 到 20 小时,并且这种节省不是来自"少写几个字",而是来自不用再事后回忆、不用反复在病人和电脑之间切换。一旦这一步被打牢,他们就有底气往下一层走。
下一层是 Chai 在播客里反复提到的 "healthcare-coded Glean":把 EHR 当作医疗 Agent 的文件系统,把医生与病人的对话、医院的政策、保险公司的报销规则、医学文献、本院的临床路径放在同一个上下文里,让 AI 在合适的时机弹出合适的建议。一个具体例子是预授权(prior authorization):在过去,一个 MRI 申请被保险公司拒掉,可能要等几周才能走完上诉流程;现在 Abridge 可以在病人还在诊室里的时候,就提醒医生哪一句话需要补在记录里、哪一个替代检查更可能被批准,把"几周"压成"几分钟"。
播客里另一个值得记住的比喻是"Abridge 想做医疗里的空调":永远在背景里运行,只在真正需要打断时才发声。这背后是 evals 和安全机制做了很重的活。文中提到他们专门组建了 clinician-scientist 团队,针对不同专科建立独立的评估集,从 100M 以上的真实医疗对话里筛出边界场景;对 PHI(受保护健康信息)他们做了大量 de-identification 工作,让数据可以被研究但不会泄露身份。
这条选题和精讲一、精讲三之间是一条线:当 AI 从"写一段代码"扩展到"嵌入到一个高风险高合规的工作流里",胜负关键已经不在模型本身,而在领域知识、流程改造、评估体系。精讲一讲的是个人工程师在一个复杂系统里怎么和 AI 搭班,Abridge 讲的是一家公司把这种搭班做到 250 家医院的规模,再往后看精讲三的 Creative Agents,则是 OpenAI 在尝试把同一种"长期协作"的关系延伸到普通用户的视觉创作。建议读者把这三篇放在一起读,能对"AI 原生"这个词有更扎实的画面感。
Abridge 的组织设计也值得多看一眼。他们没有简单按"算法 / 产品 / 销售"去切团队,而是组建了所谓的 clinician-scientist 团队:一半是有真实临床背景的医生,一半是 ML 研究员,他们坐在一起做评估集、改 prompt、看错误案例。Janie Lee 在播客里把这种结构叫做"让医生和模型在同一张白板前讨论问题"。它带来的副产品是销售环节的可信度--他们去和一家新医院谈合作时,对面的 CMIO 提出来的临床场景,桌上往往就坐着真做过这一行的人,对话能直接落到 evals 该怎么改、新的科室该怎么验证。这种细节看起来不起眼,却是同样数据条件下,他们能跑得比纯软件团队更快的隐性原因。
精讲三:OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 OpenAI Podcast 第 19 期由主持人 Andrew Maine 主持,请到了 Imagen 产品负责人 Adele Lee 和研究员 Kenji。他们这次想聊清楚的,是 Imagen 2.0 上线之后到底有哪些变化,以及为什么 OpenAI 内部把这次升级形容成"文艺复兴"。对应的 BestBlogs 链接是 https://www.bestblogs.dev/video/0da3123。
先看用量。Imagen 2.0 上线之后,整体使用量增长了 50%,每周生成约 15 亿张图。亚洲地区出现了大量"AI 色彩分析"类玩法,美国则反其道而行之,故意让模型生成"看起来像 MS Paint 画出来"的怪味插画,这说明用户已经过了"看看新奇"的阶段,开始在意作品里有没有真实的个性。这种使用量级别决定了 OpenAI 在做下一代决策时不能只想"模型多酷",更要想"在 15 亿张图的吞吐下,哪些场景值得倾斜资源"。
Imagen 2.0 的三个具体进步说得很清楚。第一是字渲染:以前的模型在做带英文标语的海报时经常拼错,现在能在信息图、UI 截图、产品页面上稳定写出准确的文字,这意味着模型第一次真正进入"做平面物料"的工作流。第二是多语言:模型直接学到了不同语言的视觉语境,比如中文标题的版式审美、阿拉伯语从右到左的排版习惯,不再需要先翻译再画。第三是写实感,把模型补足了一些物理世界的常识,比如材质反光、人物比例、相机焦段,让作品更像照片,少了那种磁化封面的"理想化质感"。
研究员 Kenji 在节目里重点演示了"网格测试"。早期模型让它画一个 3×3 的水果网格已经会乱掉,Imagen 2.0 能稳定地处理一个包含 100 个对象的网格--做生物图谱、解剖图、产品规格表都能用。这听上去像个 demo 数字,但实际上意味着模型已经能管理一种"组合性 prompt":你告诉它每一格画什么,它能逐格执行同时保持整体一致性。教育、企业内部幻灯片这种场景一下就被解锁。
路线图部分相对克制,主要两条线。第一条是 Creative Agents:把 Imagen 包装成像个人设计师、室内设计师、婚礼策划师那样的助手,慢慢学用户的偏好和过去的项目,再在长线项目上一起迭代。第二条是 Imagen 和 Codex 的串联:用户描述一个产品的视觉概念,Imagen 给视觉草稿,Codex 同时生成对应的网页或应用代码,让"设计"和"实现"在同一个回合里完成。Adele 给的具象例子是做一个 10 页面的漫画书或一个 360 度全景世界,需要的不是"画一张好图",而是"在 60 张以上的输出里保持角色一致"。
如果今天的早报你只能挑三件事记住,建议是:精讲一让你重新审视自己日常工作流里 AI 该扮演什么角色,精讲二让你看到一个 AI 原生公司怎样把 8 年时间用在最难也最有杠杆的工作流上,精讲三让你看到当生成式模型走向 Creative Agents 之后,"和模型一起工作"会以什么形态进入大众产品。
速览 更具体的进展放在下面这一段。每一条都对应一篇值得花十几分钟读完的文章,不再展开论证。
Kimi WebBridge:让 AI 帮你操作浏览器--月之暗面 Kimi 推出 WebBridge 浏览器插件,让 Kimi Code、Claude Code、Cursor、Codex、Hermes Agent、OpenClaw 等本地 AI Agent 可以接管 Chrome / Edge,以登录用户的身份完成点击、滑动、表单填写、跨站信息整合等工作。两个例子很有代入感:自动抓取多家笔记 App 在应用商店的素材并写入在线文档;接管量化研究平台跑回测并自动产出研究报告。安装也很轻:商店搜插件、跑一行 curl 安装本地守护程序、重启 Agent,输入"使用 kimi-webbridge 帮我打开 kimi.com"测试通过即可上手。完整介绍在 https://www.bestblogs.dev/article/31884d93。
DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍--zartbot 这篇接着上一篇模型结构分析,把 DeepSeek-V4 技术报告里的基础设施部分拆开看。MegaMoE 的关键在"细粒度专家并行":通过精细的 Block 调度、Pool 容量管理、Expert Wave 粒度切分,把 MoE 层里通信密集的 Dispatch / Combine 阶段藏到计算密集的两次线性层下面,跑出 1.5 到 1.9 倍的性能提升。文章详细列出了 Dispatch Warp、TMA Producer A/B、MMA Warp、Epilogue Warp 各自的代码段,以及 NVLink Barrier、Pull token、TMEM 双缓冲、SwiGLU 激活、FP8 量化等细节,是研究 MoE 推理优化的硬核参考。原文见 https://www.bestblogs.dev/article/76f659e2。
【AINews】 万物皆向 Conductor 看齐--Latent Space 的 AI 新闻头条这一期,从 GitHub 新版 GitHub App 切入,指出整个 AI 编程工具圈正在围绕"agent-first 形态"集体演化。Conductor 是最早跑出这种形态的产品,连 Y Combinator 的 Garry Tan 都公开为它站台。Claude Code 在新版桌面 App 上也加入了 git worktrees,OpenAI 把 Codex 推到移动端。一句"Everything is Crab"的演化生物学梗,被拿来类比这种 form factor 趋同的现象。背后两个十亿美元的问题是:先做出这种形态的公司怎么收费?下一步会演化成什么?详见 https://www.bestblogs.dev/article/3a3c9344。
Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?--宝玉这篇长文把最近 AI 圈一个热得发烫的岗位讲清楚。Google Cloud 大量招 FDE,面试压缩到两天两轮;OpenAI 拿到 40 亿美元成立独立"OpenAI Deployment Company",估值 140 亿美元,第一笔收购是英国的 Tomoro,带来 150 名 FDE;Anthropic 联合黑石、Hellman & Friedman、高盛低调成立自己的 FDE 咨询公司,把 Claude 推进各行各业的中型企业。FDE 不是单纯的售前或交付,更像是"懂业务又能写代码的 AI 转型操盘手"。文中追溯了这个岗位在 Palantir 时代的源流,也给了想转 FDE 的工程师一份清单。原文见 https://www.bestblogs.dev/article/81a8944a。
腾讯混元推出轻量翻译大模型,无需联网,手机直接运行--腾讯混元这次开源的是一组 Hy-MT1.5 系列翻译模型,原生支持 33 种语言、5 种方言、1056 个翻译方向。1.8B 参数的版本翻译效果比肩商业 API 与 235B 大模型;进一步做 2-bit 拉伸弹性量化得到 574MB 版本,效果几乎无损;再用 ACL 2026 入选的 Sherry 稀疏高效三值量化做到 1.25-bit、最终 440MB,普通骁龙手机也能离线跑。文中给了"异国自驾被警察拦下"的极端场景,配合配套 Demo 的"后台取词模式",让"手机原生离线翻译"这个老需求第一次有了能匹配商用质量的开源解。详见 https://www.bestblogs.dev/article/47e5f129。
警惕全球"最大"芯片 IPO 的暴雷风险--腾讯科技这篇深度报道把 Cerebras 这次 IPO 的招股书拆开看。Cerebras 以每股 185 美元定价、募资 55.5 亿美元、市值 398.17 亿美元,首日暴涨 70%,是 2026 年迄今全球最大 IPO。但作者提醒:Wafer-Scale Engine 的"100% 良率"是重新定义后的口径,靠的是片内冗余核心绕开缺陷,与传统 GPU 不在同一量度;公司从训练转向推理是结构性选择,因为片间 I/O 仍然是短板;与 OpenAI 那份超过 200 亿美元的合同有"股权换订单"成分;39% 毛利率背后含有较多会计层面的优化。文章核心提示是:这家公司值得关注,但不能用直觉算它的估值。原文见 https://www.bestblogs.dev/article/e6a73505。
普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能--Anthropic 和普华永道扩张战略联盟,把 Claude Code 与 Cowork 从美国团队推向全球数十万员工,并联合成立 Center of Excellence、培训认证 3 万名顾问。重点投入三个方向:智能体技术构建、AI 原生交易执行、企业职能重塑。普华永道还在 Claude 之上单独成立了一个 Office of the CFO 业务部门。Dario Amodei 在新闻稿里给了一组数据:原本要十周的保险核保现在十天能跑完,原本几小时的安全工作压到几分钟,整体交付时间最多缩短 70%。AINative 咨询的格局,正在被这种"模型 + 顶级咨询公司 + FDE 团队"的组合改写。详见 https://www.bestblogs.dev/article/b80806a0。
扩展阅读 下面这几条更适合作为补充阅读:不一定是今天最大的新闻,但每一条都给上面的主题做了一个新的切面。
用一个抽象搭建 AI Agent Harness:事件溯源、Stream Processor 与 Dynamic Workers|Jonas Templestein,Iterate--Iterate 的 Jonas Templestein 在这个 workshop 里提出,把 AI Agent Harness 收敛到"事件"这一个抽象上:events.iterate.com 作为事件总线,Stream Processor 把不可变的事件历史 reduce 成 Agent 当前状态,Dynamic Workers 让你把一段 JavaScript 当事件 append 进去就完成逻辑部署。比较适合刚开始想自建 Agent 框架、又被 LangChain / LangGraph 复杂度劝退的工程师。链接:https://www.bestblogs.dev/video/b3b509f。
Hugging Face 开放智能体生态全景:从本地编程智能体、MCP 集成到 Skills 自动化微调--Merve Noyan 这场分享把开源 Agent 生态做了一次系统盘点:从 Open Weight 与 Open Source 的区别讲起,再到本地编程 Agent、MCP 集成、用 Skills 让模型自己跑微调,最后给了一个"3 万篇论文 OCR"的真实工程案例。对希望摆脱单一闭源 Agent 平台的团队尤其有用。链接:https://www.bestblogs.dev/video/677bdba。
科技爱好者周刊(第 396 期):互联网通信的替代方案--阮一峰这一期周刊把焦点放在 LoRa 与 Meshtastic 开源项目,讨论极端情况下"自己组网"的可能性:覆盖几十公里、不需要架线、用一节电池就能跑、单套设备几百元人民币。除了主话题,还顺手汇总了 MonkeyCode、逆向验证码、AI 生成 HTML 等动态,适合一周一次的横向更新。链接:https://www.bestblogs.dev/article/dd5b83f4。
Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台--阿里发布 Qoder 1.0,把原本的 AI IDE 升级为 Agent-first 的开发工作台:Quest 视窗从 IDE 模式独立出来,可以跨项目并行运行 Agent 任务,统一面板追踪所有任务状态;新增团队级知识引擎,把以前散落的记忆、Repo Wiki、知识卡片聚合起来,让 Agent 更懂项目;底层把 Agent Harness 拆成 Task Runtime 与 Knowledge Engineering 两条线重构。链接:https://www.bestblogs.dev/article/f6e56091。
【第 3699 期】Karpathy 的 4 条规则让 Claude 出错率骤降,但还不够。Mnimiy 又加了 8 条--Forrest Chang 把 Karpathy 关于 Claude 写代码的吐槽提炼成 4 条 CLAUDE.md 规则,GitHub 一度 12 万星,作者 Mnimiy 在 30 个代码库实测 6 周,把出错率从 41% 降到 3%,但也踩到 4 个盲区,再补 8 条规则,专门治理 Agent 时代的多步骤任务、Token 预算、测试质量这些新问题。前端早读课的编译版本读起来很顺。链接:https://www.bestblogs.dev/article/a8636fb0。
今日阅读路径 如果今天只能读三篇,建议这样安排:先读精讲一 Julie Qiu 那篇,建立"AI 当思考伙伴"的方法论底座;再读速览里的宝玉 FDE 长文,把方法论放到行业岗位演化的脉络里看;最后读精讲二 Abridge,看一个 AI 原生公司怎么把这套思路跑到 250 家医院的规模上。三篇加起来一个多小时,读完会对今天的 AI 行业图景有一份立体认知。
如果今天还有半小时余量,再加精讲三 Imagen 2.0 与速览里的腾讯混元离线翻译模型,前者代表生成式产品如何走向 Creative Agents,后者代表模型小型化如何反向重塑端侧体验,一头一尾,刚好互补。
更长的时间窗口里,建议把 DeepSeek-V4 MegaMoE 那篇放在周末再读:它技术细节密度极高,但对理解未来一年端到端推理性能的天花板很有帮助;扩展阅读里 Iterate 的 Event-Sourced Harness 与 Hugging Face 开放智能体生态盘点,可以放在同一个学习时段,它们一起回答了"小团队怎样从零搭一套自己的 Agent 基建"这个具体问题,方法和工具都给得很完整。
围绕这三个深度选题,速览部分有七条更具体的进展:Kimi WebBridge 让本地 AI Agent 真正以"你"的身份操作浏览器;DeepSeek-V4 MegaMoE 拆开看通信计算重叠如何把 MoE 性能提到 1.9 倍;Latent Space 的 AINews 观察到代码协作工具集体向 Conductor 形态收敛;宝玉用一篇长文把 Forward Deployed Engineer 这个新岗位讲清楚;腾讯混元把 33 种语言的翻译模型压到 440MB 装进手机;腾讯科技拆解 Cerebras 这次 IPO 招股书里的"小字";以及 Anthropic 与普华永道扩张合作,把 Claude 推到普华永道全球的咨询交付里。
扩展阅读再补五条:Iterate 的 Jonas Templestein 讲 Event-Sourced Agent Harness,Hugging Face 的 Merve Noyan 系统盘点开放智能体生态,阮一峰周刊聊 LoRa 与 Meshtastic 的"离网通信"思路,Qoder 1.0 把 AI IDE 升级为 Agent 自主开发工作台,前端早读课把 Karpathy 的 4 条 CLAUDE.md 规则补到 12 条。话题不算少,但都围绕同一个主题:当 AI 已经能完成一段一段的具体工作,真正的差距开始出现在"系统怎么搭、流程怎么设计、能不能持续跑下去"。
精讲一:将 AI 用作大规模工程系统的思考伙伴 Julie Qiu 是 Google 的高级 Staff 工程师,现在带 Google Cloud CLI 与 SDK,过去几年还领导过 Go 语言团队和 Go 安全团队。她在 InfoQ 这场分享里要回答的,不是"AI 能帮我写多快的代码",而是更朴素的一个问题:当你负责一套真正复杂的系统,AI 应该如何嵌进你日常的工程节奏。这篇文章的 BestBlogs 链接是 https://www.bestblogs.dev/article/589d5efc。
她带的团队要做的事,本身就是一个"系统工程"的极端样本。Google Cloud 的服务团队定义 API,他们的团队拿着这些规格,给九种语言(Go、Python、Java、Node.js 等等)生成客户端库,再各自加上认证、错误处理、产品语义、语言习惯,最后发布到 PyPI、npm、Maven 这些包管理器里。每加一个新功能,都意味着九套代码同时要改、要测、要发布。任何"看着挺简单"的决策,在这套结构里都会被放大。
Julie 把她用 AI 的方式拆成三步:先读懂系统,再做实验,最后重新设计。读懂系统这一步,她举的例子是面对一段几千行的生成器代码,AI 不是直接帮她写一段新代码,而是像一个耐心的同事,把代码逻辑画成示意图,指出哪几个分支可能在新需求下会出错,让她快速对齐"现在到底是怎么跑的"。做实验这一步,AI 帮她做的是"如果我把这个抽象层换掉,会牵动哪些地方"的快速 what-if 模拟--不是生成最终代码,而是让她在 30 分钟里同时探多个分叉,再决定哪条路值得真的写代码去试。重新设计这一步则更靠后,等她已经对方案足够确信,AI 才进入"补全、写测试、清理边界情况"的角色。
文中最让人共鸣的一句话是:"最有用的不是让 AI 写代码,而是把每次'我应该这样改吗'的犹豫时间,从几天压到几小时。"对应到今天速览里的 Forward Deployed Engineer 和 Qoder 1.0,你会看到同一个趋势在不同位置展开:FDE 把这种"AI 加速决策"的能力直接卖给企业,Qoder 1.0 则在 IDE 里把任务窗口和编辑窗口拆开,让"想清楚"和"动手做"在工具里就有不同的状态。
对工程师读者的建议很具体:先选一个你已经反复进入的复杂系统(不是 toy 项目),用一两周时间记录自己每天在哪几个判断上花了最多时间,然后挑其中两三个让 AI 充当"对手盘"--它给一个版本,你给一个版本,再让它来 review。Julie 的经验是,真正把 AI 用成思考伙伴,关键不是 prompt 怎么写得花哨,而是你愿不愿意把决策过程显式化、写出来、被质疑。这件事对资深工程师来说尤其值得练。
她还分享了一个看似细节、但其实非常关键的工作习惯:把每次和 AI 的关键对话存档成"案例库"。不是为了下次复制粘贴,而是为了过一段时间后翻回去看,自己当时为什么会选 A 而不是 B、AI 又是从哪个角度提醒了你忽略的事情。她说这套档案在过去半年里成了她"系统理解力"加速最快的来源,因为它把日常工程里那些零散的判断,沉淀成了可以反复学习的训练集。这跟传统的工程文档不是一回事--传统文档说的是"系统是什么样",这份档案说的是"你是怎么变成现在这样思考的"。
精讲二:AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时 Abridge 这家公司常常被叫做"AI 原生医疗"的代表,但很多人没注意到的是:他们 2018 年就成立了,比 ChatGPT 早整整四年。Latent Space 这期播客请来 Abridge 的 Janie Lee 和 Chai Asawa,以及 Redpoint 的 Jacob Effron,把这家公司从环境抄写起家、一路扩到临床智能层的过程讲了一遍,原文链接是 https://www.bestblogs.dev/article/e618e0e5。
先看几个硬指标。Abridge 今年预计承接 8000 万次以上的医患对话,覆盖美国 250 家大型医院体系,支持 28 种以上语言、50 多个临床专科。2025 年 6 月完成 3 亿美元 E 轮融资,估值 53 亿美元,半年前刚刚做过一轮 2.5 亿美元。这些数字落到产品上意味着,Abridge 不是"试点几家、Demo 几台"的小工具,而是已经渗透到美国医生日常工作流里的基础设施。
他们最早的楔子是 clinical documentation,也就是把医生与病人之间的对话自动转成结构化的就诊记录。这事看起来不性感,但它解决的是医生最痛的"pajama time"--下班后还要在家把白天的看诊记录敲进 EHR 系统。Abridge 自己披露,环境抄写已经能让每位医生每周节省 10 到 20 小时,并且这种节省不是来自"少写几个字",而是来自不用再事后回忆、不用反复在病人和电脑之间切换。一旦这一步被打牢,他们就有底气往下一层走。
下一层是 Chai 在播客里反复提到的 "healthcare-coded Glean":把 EHR 当作医疗 Agent 的文件系统,把医生与病人的对话、医院的政策、保险公司的报销规则、医学文献、本院的临床路径放在同一个上下文里,让 AI 在合适的时机弹出合适的建议。一个具体例子是预授权(prior authorization):在过去,一个 MRI 申请被保险公司拒掉,可能要等几周才能走完上诉流程;现在 Abridge 可以在病人还在诊室里的时候,就提醒医生哪一句话需要补在记录里、哪一个替代检查更可能被批准,把"几周"压成"几分钟"。
播客里另一个值得记住的比喻是"Abridge 想做医疗里的空调":永远在背景里运行,只在真正需要打断时才发声。这背后是 evals 和安全机制做了很重的活。文中提到他们专门组建了 clinician-scientist 团队,针对不同专科建立独立的评估集,从 100M 以上的真实医疗对话里筛出边界场景;对 PHI(受保护健康信息)他们做了大量 de-identification 工作,让数据可以被研究但不会泄露身份。
这条选题和精讲一、精讲三之间是一条线:当 AI 从"写一段代码"扩展到"嵌入到一个高风险高合规的工作流里",胜负关键已经不在模型本身,而在领域知识、流程改造、评估体系。精讲一讲的是个人工程师在一个复杂系统里怎么和 AI 搭班,Abridge 讲的是一家公司把这种搭班做到 250 家医院的规模,再往后看精讲三的 Creative Agents,则是 OpenAI 在尝试把同一种"长期协作"的关系延伸到普通用户的视觉创作。建议读者把这三篇放在一起读,能对"AI 原生"这个词有更扎实的画面感。
Abridge 的组织设计也值得多看一眼。他们没有简单按"算法 / 产品 / 销售"去切团队,而是组建了所谓的 clinician-scientist 团队:一半是有真实临床背景的医生,一半是 ML 研究员,他们坐在一起做评估集、改 prompt、看错误案例。Janie Lee 在播客里把这种结构叫做"让医生和模型在同一张白板前讨论问题"。它带来的副产品是销售环节的可信度--他们去和一家新医院谈合作时,对面的 CMIO 提出来的临床场景,桌上往往就坐着真做过这一行的人,对话能直接落到 evals 该怎么改、新的科室该怎么验证。这种细节看起来不起眼,却是同样数据条件下,他们能跑得比纯软件团队更快的隐性原因。
精讲三:OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 OpenAI Podcast 第 19 期由主持人 Andrew Maine 主持,请到了 Imagen 产品负责人 Adele Lee 和研究员 Kenji。他们这次想聊清楚的,是 Imagen 2.0 上线之后到底有哪些变化,以及为什么 OpenAI 内部把这次升级形容成"文艺复兴"。对应的 BestBlogs 链接是 https://www.bestblogs.dev/video/0da3123。
先看用量。Imagen 2.0 上线之后,整体使用量增长了 50%,每周生成约 15 亿张图。亚洲地区出现了大量"AI 色彩分析"类玩法,美国则反其道而行之,故意让模型生成"看起来像 MS Paint 画出来"的怪味插画,这说明用户已经过了"看看新奇"的阶段,开始在意作品里有没有真实的个性。这种使用量级别决定了 OpenAI 在做下一代决策时不能只想"模型多酷",更要想"在 15 亿张图的吞吐下,哪些场景值得倾斜资源"。
Imagen 2.0 的三个具体进步说得很清楚。第一是字渲染:以前的模型在做带英文标语的海报时经常拼错,现在能在信息图、UI 截图、产品页面上稳定写出准确的文字,这意味着模型第一次真正进入"做平面物料"的工作流。第二是多语言:模型直接学到了不同语言的视觉语境,比如中文标题的版式审美、阿拉伯语从右到左的排版习惯,不再需要先翻译再画。第三是写实感,把模型补足了一些物理世界的常识,比如材质反光、人物比例、相机焦段,让作品更像照片,少了那种磁化封面的"理想化质感"。
研究员 Kenji 在节目里重点演示了"网格测试"。早期模型让它画一个 3×3 的水果网格已经会乱掉,Imagen 2.0 能稳定地处理一个包含 100 个对象的网格--做生物图谱、解剖图、产品规格表都能用。这听上去像个 demo 数字,但实际上意味着模型已经能管理一种"组合性 prompt":你告诉它每一格画什么,它能逐格执行同时保持整体一致性。教育、企业内部幻灯片这种场景一下就被解锁。
路线图部分相对克制,主要两条线。第一条是 Creative Agents:把 Imagen 包装成像个人设计师、室内设计师、婚礼策划师那样的助手,慢慢学用户的偏好和过去的项目,再在长线项目上一起迭代。第二条是 Imagen 和 Codex 的串联:用户描述一个产品的视觉概念,Imagen 给视觉草稿,Codex 同时生成对应的网页或应用代码,让"设计"和"实现"在同一个回合里完成。Adele 给的具象例子是做一个 10 页面的漫画书或一个 360 度全景世界,需要的不是"画一张好图",而是"在 60 张以上的输出里保持角色一致"。
如果今天的早报你只能挑三件事记住,建议是:精讲一让你重新审视自己日常工作流里 AI 该扮演什么角色,精讲二让你看到一个 AI 原生公司怎样把 8 年时间用在最难也最有杠杆的工作流上,精讲三让你看到当生成式模型走向 Creative Agents 之后,"和模型一起工作"会以什么形态进入大众产品。
速览 更具体的进展放在下面这一段。每一条都对应一篇值得花十几分钟读完的文章,不再展开论证。
Kimi WebBridge:让 AI 帮你操作浏览器--月之暗面 Kimi 推出 WebBridge 浏览器插件,让 Kimi Code、Claude Code、Cursor、Codex、Hermes Agent、OpenClaw 等本地 AI Agent 可以接管 Chrome / Edge,以登录用户的身份完成点击、滑动、表单填写、跨站信息整合等工作。两个例子很有代入感:自动抓取多家笔记 App 在应用商店的素材并写入在线文档;接管量化研究平台跑回测并自动产出研究报告。安装也很轻:商店搜插件、跑一行 curl 安装本地守护程序、重启 Agent,输入"使用 kimi-webbridge 帮我打开 kimi.com"测试通过即可上手。完整介绍在 https://www.bestblogs.dev/article/31884d93。
DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍--zartbot 这篇接着上一篇模型结构分析,把 DeepSeek-V4 技术报告里的基础设施部分拆开看。MegaMoE 的关键在"细粒度专家并行":通过精细的 Block 调度、Pool 容量管理、Expert Wave 粒度切分,把 MoE 层里通信密集的 Dispatch / Combine 阶段藏到计算密集的两次线性层下面,跑出 1.5 到 1.9 倍的性能提升。文章详细列出了 Dispatch Warp、TMA Producer A/B、MMA Warp、Epilogue Warp 各自的代码段,以及 NVLink Barrier、Pull token、TMEM 双缓冲、SwiGLU 激活、FP8 量化等细节,是研究 MoE 推理优化的硬核参考。原文见 https://www.bestblogs.dev/article/76f659e2。
【AINews】 万物皆向 Conductor 看齐--Latent Space 的 AI 新闻头条这一期,从 GitHub 新版 GitHub App 切入,指出整个 AI 编程工具圈正在围绕"agent-first 形态"集体演化。Conductor 是最早跑出这种形态的产品,连 Y Combinator 的 Garry Tan 都公开为它站台。Claude Code 在新版桌面 App 上也加入了 git worktrees,OpenAI 把 Codex 推到移动端。一句"Everything is Crab"的演化生物学梗,被拿来类比这种 form factor 趋同的现象。背后两个十亿美元的问题是:先做出这种形态的公司怎么收费?下一步会演化成什么?详见 https://www.bestblogs.dev/article/3a3c9344。
Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?--宝玉这篇长文把最近 AI 圈一个热得发烫的岗位讲清楚。Google Cloud 大量招 FDE,面试压缩到两天两轮;OpenAI 拿到 40 亿美元成立独立"OpenAI Deployment Company",估值 140 亿美元,第一笔收购是英国的 Tomoro,带来 150 名 FDE;Anthropic 联合黑石、Hellman & Friedman、高盛低调成立自己的 FDE 咨询公司,把 Claude 推进各行各业的中型企业。FDE 不是单纯的售前或交付,更像是"懂业务又能写代码的 AI 转型操盘手"。文中追溯了这个岗位在 Palantir 时代的源流,也给了想转 FDE 的工程师一份清单。原文见 https://www.bestblogs.dev/article/81a8944a。
腾讯混元推出轻量翻译大模型,无需联网,手机直接运行--腾讯混元这次开源的是一组 Hy-MT1.5 系列翻译模型,原生支持 33 种语言、5 种方言、1056 个翻译方向。1.8B 参数的版本翻译效果比肩商业 API 与 235B 大模型;进一步做 2-bit 拉伸弹性量化得到 574MB 版本,效果几乎无损;再用 ACL 2026 入选的 Sherry 稀疏高效三值量化做到 1.25-bit、最终 440MB,普通骁龙手机也能离线跑。文中给了"异国自驾被警察拦下"的极端场景,配合配套 Demo 的"后台取词模式",让"手机原生离线翻译"这个老需求第一次有了能匹配商用质量的开源解。详见 https://www.bestblogs.dev/article/47e5f129。
警惕全球"最大"芯片 IPO 的暴雷风险--腾讯科技这篇深度报道把 Cerebras 这次 IPO 的招股书拆开看。Cerebras 以每股 185 美元定价、募资 55.5 亿美元、市值 398.17 亿美元,首日暴涨 70%,是 2026 年迄今全球最大 IPO。但作者提醒:Wafer-Scale Engine 的"100% 良率"是重新定义后的口径,靠的是片内冗余核心绕开缺陷,与传统 GPU 不在同一量度;公司从训练转向推理是结构性选择,因为片间 I/O 仍然是短板;与 OpenAI 那份超过 200 亿美元的合同有"股权换订单"成分;39% 毛利率背后含有较多会计层面的优化。文章核心提示是:这家公司值得关注,但不能用直觉算它的估值。原文见 https://www.bestblogs.dev/article/e6a73505。
普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能--Anthropic 和普华永道扩张战略联盟,把 Claude Code 与 Cowork 从美国团队推向全球数十万员工,并联合成立 Center of Excellence、培训认证 3 万名顾问。重点投入三个方向:智能体技术构建、AI 原生交易执行、企业职能重塑。普华永道还在 Claude 之上单独成立了一个 Office of the CFO 业务部门。Dario Amodei 在新闻稿里给了一组数据:原本要十周的保险核保现在十天能跑完,原本几小时的安全工作压到几分钟,整体交付时间最多缩短 70%。AINative 咨询的格局,正在被这种"模型 + 顶级咨询公司 + FDE 团队"的组合改写。详见 https://www.bestblogs.dev/article/b80806a0。
扩展阅读 下面这几条更适合作为补充阅读:不一定是今天最大的新闻,但每一条都给上面的主题做了一个新的切面。
用一个抽象搭建 AI Agent Harness:事件溯源、Stream Processor 与 Dynamic Workers|Jonas Templestein,Iterate--Iterate 的 Jonas Templestein 在这个 workshop 里提出,把 AI Agent Harness 收敛到"事件"这一个抽象上:events.iterate.com 作为事件总线,Stream Processor 把不可变的事件历史 reduce 成 Agent 当前状态,Dynamic Workers 让你把一段 JavaScript 当事件 append 进去就完成逻辑部署。比较适合刚开始想自建 Agent 框架、又被 LangChain / LangGraph 复杂度劝退的工程师。链接:https://www.bestblogs.dev/video/b3b509f。
Hugging Face 开放智能体生态全景:从本地编程智能体、MCP 集成到 Skills 自动化微调--Merve Noyan 这场分享把开源 Agent 生态做了一次系统盘点:从 Open Weight 与 Open Source 的区别讲起,再到本地编程 Agent、MCP 集成、用 Skills 让模型自己跑微调,最后给了一个"3 万篇论文 OCR"的真实工程案例。对希望摆脱单一闭源 Agent 平台的团队尤其有用。链接:https://www.bestblogs.dev/video/677bdba。
科技爱好者周刊(第 396 期):互联网通信的替代方案--阮一峰这一期周刊把焦点放在 LoRa 与 Meshtastic 开源项目,讨论极端情况下"自己组网"的可能性:覆盖几十公里、不需要架线、用一节电池就能跑、单套设备几百元人民币。除了主话题,还顺手汇总了 MonkeyCode、逆向验证码、AI 生成 HTML 等动态,适合一周一次的横向更新。链接:https://www.bestblogs.dev/article/dd5b83f4。
Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台--阿里发布 Qoder 1.0,把原本的 AI IDE 升级为 Agent-first 的开发工作台:Quest 视窗从 IDE 模式独立出来,可以跨项目并行运行 Agent 任务,统一面板追踪所有任务状态;新增团队级知识引擎,把以前散落的记忆、Repo Wiki、知识卡片聚合起来,让 Agent 更懂项目;底层把 Agent Harness 拆成 Task Runtime 与 Knowledge Engineering 两条线重构。链接:https://www.bestblogs.dev/article/f6e56091。
【第 3699 期】Karpathy 的 4 条规则让 Claude 出错率骤降,但还不够。Mnimiy 又加了 8 条--Forrest Chang 把 Karpathy 关于 Claude 写代码的吐槽提炼成 4 条 CLAUDE.md 规则,GitHub 一度 12 万星,作者 Mnimiy 在 30 个代码库实测 6 周,把出错率从 41% 降到 3%,但也踩到 4 个盲区,再补 8 条规则,专门治理 Agent 时代的多步骤任务、Token 预算、测试质量这些新问题。前端早读课的编译版本读起来很顺。链接:https://www.bestblogs.dev/article/a8636fb0。
今日阅读路径 如果今天只能读三篇,建议这样安排:先读精讲一 Julie Qiu 那篇,建立"AI 当思考伙伴"的方法论底座;再读速览里的宝玉 FDE 长文,把方法论放到行业岗位演化的脉络里看;最后读精讲二 Abridge,看一个 AI 原生公司怎么把这套思路跑到 250 家医院的规模上。三篇加起来一个多小时,读完会对今天的 AI 行业图景有一份立体认知。
如果今天还有半小时余量,再加精讲三 Imagen 2.0 与速览里的腾讯混元离线翻译模型,前者代表生成式产品如何走向 Creative Agents,后者代表模型小型化如何反向重塑端侧体验,一头一尾,刚好互补。
更长的时间窗口里,建议把 DeepSeek-V4 MegaMoE 那篇放在周末再读:它技术细节密度极高,但对理解未来一年端到端推理性能的天花板很有帮助;扩展阅读里 Iterate 的 Event-Sourced Harness 与 Hugging Face 开放智能体生态盘点,可以放在同一个学习时段,它们一起回答了"小团队怎样从零搭一套自己的 Agent 基建"这个具体问题,方法和工具都给得很完整。