对不太关注本地 AI 的读者,先补一句背景:Ahmad Osman 是 Osmantic 的创始人,过去几年一直在推动「把模型跑在自己的电脑、工作站或专用硬件上」这件事。在今年 的 AI Engineer World's Fair(AIEWF)上,他办了两场关于本地 LLM 与工作站 Agent 的 workshop,场面爆满到不得不把人挡在门外--来的人既有还在挑第一台 AI 电脑的学生,也有认真考虑模型路由、私有基础设施和数据控制权的企业高管。
访谈里最有意思的一段,是他讲一个朋友买了 RTX 5090 想在本地跑 Qwen 3.5,把 Claude Code 接到本地模型上,让它改显卡的 RGB 灯光,结果失败了;而用托管的 Claude Code 服务却成功了。原因不是模型笨,而是本地那一套没有接搜索--模型训练数据有截止日期,而需要的软件和文档早就变了。给本地系统接上搜索 endpoint 之后,任务就跑通了。
他由此点出一个被广泛忽略的事实:ChatGPT、Claude Code 这类产品之所以好用,是因为模型外面还套着一整套搜索、工具、Agent 的基础设施。「It is not just one thing.」本地 AI 真正缺的,是这一层完整栈,而不是更大的参数量。这也解释了为什么他从企业主权算力和混合架构的角度,认为本地 AI 正在被认真当作基础设施--数据控制、模型路由、私有部署,这些诉求不是极客玩具,而是企业 IT 的刚需。
他在另一个叫「Open Source AI Must Win」的网站上把这个立场说得更直白:「研究、构建、修复、部署、审计、适配、教学、保存和运行智能系统的能力,无需请求许可,这件事具有存在级别的重要性。」Workshop 的参与者构成也佐证了这一点--来的不只是硬件爱好者,还有考虑第一台 AI 电脑的学生,以及认真权衡私有基础设施和数据主权的企业高管。这种人群结构本身,就是本地 AI 正在从「极客玩具」滑向「企业基础设施」的一个信号。
关于市场,他有一套「先发产品,再找市场」的方法论:做好各地的语言包就上线,等用户自己下载、给反馈,再慢慢画出热点图,找到产品和市场的契合点后去「浇水养护」。所以重点市场永远是中国,但巴西(2.1 亿人口、旺盛的社交分享需求)和非洲这种 Day 1 没规划的地方,反而是 RoboNeo、Airbrush 用户最多的市场之一。很多市场判断是后验的--感性判断可以先验,但产品与市场的契合点往往是「长出来之后去浇水」才看清的。很多东西不是策划出来的,而是自然长出来的--这是他对 AI 应用层最核心的判断。
把这篇放在精讲收尾,是因为它和前两篇形成了一个完整的链路:Osman 谈基础设施层的本地 AI 栈,LongCat 谈模型层的训练工程栈,美图谈应用层的方法论栈。三者放在一起,恰好回答了同一个问题--当模型本身逐渐拉平时,竞争力到底从哪里来。美图的答案是:从中台复用、快速验证、允许热爱试错的组织能力里来。如果你做产品或带团队,这篇比另外两篇更贴近你的日常。详见
速览
Google ADK 2.0:把确定性代码执行和 LLM Agent 缝在一起的工作流运行时。
Google Developers Blog 这篇解释了为什么他们要重做 Agent Development Kit。核心痛点是:生产环境里的 Agent 会陷入死循环、因为幻觉绕过关键业务逻辑、或者失败时连干净的异常都不抛。根因是结构性的--让 LLM 去做路由、调度、错误处理这些传统代码本来就更擅长的事,既慢又贵还不稳定;反过来,要让传统工作流覆盖每一个边界情况又复杂到不切实际。ADK 2.0 引入了一个结构化工作流运行时和任务协作模型,把 Agent 的探索能力和确定性执行逻辑的可靠性缝在一起,开发者不必在灵活性和可预测性之间二选一。Python 版 3 月就上了,Go 版刚刚发布。如果你正在把 Agent 从原型推向生产,这篇是必读的工程参考。详见
RAG 的上下文工程:让每个组件输出类型化输入,汇聚成一次可审计的 LLM 调用。
这篇来自 Towards Data Science,用一个「单文档 RAG」的窄场景,把「上下文工程」这件事讲得很清楚。它的立场是企业 RAG 是放大专家而不是替代专家,所以架构上分四块--文档解析、问题解析、检索、生成--每块都输出有类型的片段,最终汇聚到一次 LLM 调用上,带固定的 system prompt 和从上游拼装出来的 user content。文档解析产出关系表,问题解析产出有类型的 ParsedQuestion,检索产出一个过滤后的行子集外加「它为什么选这些行」的审计记录,生成产出一个带引用证据的 Pydantic 答案。作者还配了 GitHub 上可运行的 notebook。适合正在搭 RAG 管道、想让每一步可审计、成本可控的工程师读。详见
高德 GrowLoop:把说不清的「感性对话标准」,变成能生长的理性 Benchmark。
开放域对话的「真人感」评测是个公认的难题--标准难制定、难量化、难统一。高德团队指出三个根本难处:多个标注员独立打分的一致率只有 51.1%;很多判断是写不下来的隐性知识;而且标准会随 AI 能力和用户期待一起漂移。GrowLoop 的思路是用少量种子,加上一套 Rubrics 和题目相互生长的双循环协进化机制,把感性标准转化成可被自动化学习的理性 Benchmark。这套方法不仅适用于陪伴对话,也适用于艺术评价、教育评估、科研评审这种「没有标准答案」的场景。论文已发在 arXiv,代码逐步开源。做对话或评测的读者值得跟进。详见
Anthropic 重新部署 Claude Fable 5(Anthropic 官方)。在与美国政府一系列对话后,Claude Fable 5 全球重新部署,新增针对网络安全任务的分类器(分类器优化期间常规编码调试暂时回退到 Opus 4.8),并由亚马逊、微软、谷歌等 Glasswing 合作伙伴起草评估 AI 越狱严重性的框架。关注模型安全与治理的读者可以追一下原文。详见
今日阅读路径
如果你的时间有限,今天这三篇值得优先读:
精讲一 Ahmad Osman 谈本地 AI--它用最少篇幅帮你重置对「本地 AI 缺什么」的认知,是理解今天其他几篇的坐标系。
精讲三 专访美图 CEO 吴欣鸿--如果你做产品或带团队,这篇的方法论(1 个月上线、半年 10 万美元 ARR、禁止老产品导流)最贴近日常决策。
速览里的 Google ADK 2.0--如果你正在把 Agent 推向生产,这篇的「确定性执行 + LLM Agent」工作流运行时是最直接的工程参考。
对不太关注本地 AI 的读者,先补一句背景:Ahmad Osman 是 Osmantic 的创始人,过去几年一直在推动「把模型跑在自己的电脑、工作站或专用硬件上」这件事。在今年 的 AI Engineer World's Fair(AIEWF)上,他办了两场关于本地 LLM 与工作站 Agent 的 workshop,场面爆满到不得不把人挡在门外--来的人既有还在挑第一台 AI 电脑的学生,也有认真考虑模型路由、私有基础设施和数据控制权的企业高管。
访谈里最有意思的一段,是他讲一个朋友买了 RTX 5090 想在本地跑 Qwen 3.5,把 Claude Code 接到本地模型上,让它改显卡的 RGB 灯光,结果失败了;而用托管的 Claude Code 服务却成功了。原因不是模型笨,而是本地那一套没有接搜索--模型训练数据有截止日期,而需要的软件和文档早就变了。给本地系统接上搜索 endpoint 之后,任务就跑通了。
他由此点出一个被广泛忽略的事实:ChatGPT、Claude Code 这类产品之所以好用,是因为模型外面还套着一整套搜索、工具、Agent 的基础设施。「It is not just one thing.」本地 AI 真正缺的,是这一层完整栈,而不是更大的参数量。这也解释了为什么他从企业主权算力和混合架构的角度,认为本地 AI 正在被认真当作基础设施--数据控制、模型路由、私有部署,这些诉求不是极客玩具,而是企业 IT 的刚需。
他在另一个叫「Open Source AI Must Win」的网站上把这个立场说得更直白:「研究、构建、修复、部署、审计、适配、教学、保存和运行智能系统的能力,无需请求许可,这件事具有存在级别的重要性。」Workshop 的参与者构成也佐证了这一点--来的不只是硬件爱好者,还有考虑第一台 AI 电脑的学生,以及认真权衡私有基础设施和数据主权的企业高管。这种人群结构本身,就是本地 AI 正在从「极客玩具」滑向「企业基础设施」的一个信号。
关于市场,他有一套「先发产品,再找市场」的方法论:做好各地的语言包就上线,等用户自己下载、给反馈,再慢慢画出热点图,找到产品和市场的契合点后去「浇水养护」。所以重点市场永远是中国,但巴西(2.1 亿人口、旺盛的社交分享需求)和非洲这种 Day 1 没规划的地方,反而是 RoboNeo、Airbrush 用户最多的市场之一。很多市场判断是后验的--感性判断可以先验,但产品与市场的契合点往往是「长出来之后去浇水」才看清的。很多东西不是策划出来的,而是自然长出来的--这是他对 AI 应用层最核心的判断。
把这篇放在精讲收尾,是因为它和前两篇形成了一个完整的链路:Osman 谈基础设施层的本地 AI 栈,LongCat 谈模型层的训练工程栈,美图谈应用层的方法论栈。三者放在一起,恰好回答了同一个问题--当模型本身逐渐拉平时,竞争力到底从哪里来。美图的答案是:从中台复用、快速验证、允许热爱试错的组织能力里来。如果你做产品或带团队,这篇比另外两篇更贴近你的日常。详见
速览
Google ADK 2.0:把确定性代码执行和 LLM Agent 缝在一起的工作流运行时。
Google Developers Blog 这篇解释了为什么他们要重做 Agent Development Kit。核心痛点是:生产环境里的 Agent 会陷入死循环、因为幻觉绕过关键业务逻辑、或者失败时连干净的异常都不抛。根因是结构性的--让 LLM 去做路由、调度、错误处理这些传统代码本来就更擅长的事,既慢又贵还不稳定;反过来,要让传统工作流覆盖每一个边界情况又复杂到不切实际。ADK 2.0 引入了一个结构化工作流运行时和任务协作模型,把 Agent 的探索能力和确定性执行逻辑的可靠性缝在一起,开发者不必在灵活性和可预测性之间二选一。Python 版 3 月就上了,Go 版刚刚发布。如果你正在把 Agent 从原型推向生产,这篇是必读的工程参考。详见
RAG 的上下文工程:让每个组件输出类型化输入,汇聚成一次可审计的 LLM 调用。
这篇来自 Towards Data Science,用一个「单文档 RAG」的窄场景,把「上下文工程」这件事讲得很清楚。它的立场是企业 RAG 是放大专家而不是替代专家,所以架构上分四块--文档解析、问题解析、检索、生成--每块都输出有类型的片段,最终汇聚到一次 LLM 调用上,带固定的 system prompt 和从上游拼装出来的 user content。文档解析产出关系表,问题解析产出有类型的 ParsedQuestion,检索产出一个过滤后的行子集外加「它为什么选这些行」的审计记录,生成产出一个带引用证据的 Pydantic 答案。作者还配了 GitHub 上可运行的 notebook。适合正在搭 RAG 管道、想让每一步可审计、成本可控的工程师读。详见
高德 GrowLoop:把说不清的「感性对话标准」,变成能生长的理性 Benchmark。
开放域对话的「真人感」评测是个公认的难题--标准难制定、难量化、难统一。高德团队指出三个根本难处:多个标注员独立打分的一致率只有 51.1%;很多判断是写不下来的隐性知识;而且标准会随 AI 能力和用户期待一起漂移。GrowLoop 的思路是用少量种子,加上一套 Rubrics 和题目相互生长的双循环协进化机制,把感性标准转化成可被自动化学习的理性 Benchmark。这套方法不仅适用于陪伴对话,也适用于艺术评价、教育评估、科研评审这种「没有标准答案」的场景。论文已发在 arXiv,代码逐步开源。做对话或评测的读者值得跟进。详见
Anthropic 重新部署 Claude Fable 5(Anthropic 官方)。在与美国政府一系列对话后,Claude Fable 5 全球重新部署,新增针对网络安全任务的分类器(分类器优化期间常规编码调试暂时回退到 Opus 4.8),并由亚马逊、微软、谷歌等 Glasswing 合作伙伴起草评估 AI 越狱严重性的框架。关注模型安全与治理的读者可以追一下原文。详见
今日阅读路径
如果你的时间有限,今天这三篇值得优先读:
精讲一 Ahmad Osman 谈本地 AI--它用最少篇幅帮你重置对「本地 AI 缺什么」的认知,是理解今天其他几篇的坐标系。
精讲三 专访美图 CEO 吴欣鸿--如果你做产品或带团队,这篇的方法论(1 个月上线、半年 10 万美元 ARR、禁止老产品导流)最贴近日常决策。
速览里的 Google ADK 2.0--如果你正在把 Agent 推向生产,这篇的「确定性执行 + LLM Agent」工作流运行时是最直接的工程参考。