# 今日早报：本地AI补齐工程栈、LongCat万亿模型落地国产算力、美图应用方法论

- 来源：ginobefun (@hongming731)
- 发布时间：2026-07-02 07:25
- AIHOT 分数：39
- AIHOT 链接：https://aihot.virxact.com/items/cmr2pjab60a3vsl8z3d5038f5
- 原文链接：https://x.com/hongming731/status/2072461678714011872

## AI 摘要

本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月，但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0（1.6T参数/48B激活MoE，30T tokens预训练，原生1M上下文），五万卡国产算力集群训练，SWE-bench Pro 59.5领先Gemini 3.1 Pro等，预览版OpenRouter调用量前三。美图CEO吴欣鸿：2025年营收38.58亿元，净利润9.65亿元同比增64.7%，AI影像收入占比76.6%，海外MAU重回1亿。

## 正文

http://x.com/i/article/2072460643744223232

# BestBlogs 早报 · 07-02|本地 AI 补齐工程栈，LongCat 万亿模型落地国产算力，美图讲 AI 应用方法论

在线阅读本期早报

BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。

## 导语

今天的几篇精讲，恰好指向同一件事：AI 的竞争力正从模型本身，慢慢转移到「把它跑起来」的那一整套工程栈上。

Latent.Space 专访了长期倡导本地 AI 的 Ahmad Osman，他用一个朋友买 RTX 5090 跑 Qwen 3.5、却连显卡 RGB 灯光都改不了的例子说明--本地 AI 缺的从来不是模型，而是搜索、工具、Agent 这一层完整的基础设施。

美团技术团队把 LongCat-2.0 这个万亿参数 MoE 模型在五万卡国产算力集群上的训练与推理全流程拆开来讲，从稳定性、正确性到效率，是一份少见的工程实录。

美图 CEO 吴欣鸿则从应用层切入，讲一家 2000 人的公司如何用「自然生长」而非「提前策划」的方式，在影像赛道持续跑出 ARR 接近 50 万美元的 AI 产品。

三篇文章放在一起，恰好覆盖了「基础设施-模型-应用」这条链路，读的时候建议连着看，对照着会更有感觉。其余几篇多是 Agent 工程与组织转型的实操：Google ADK 2.0、RAG 上下文工程、高德 GrowLoop、AWS 迁移 PaaS、人机交互设计原则，以及出门问问从「超级个体」到「超级组织」的转型。可挑感兴趣的看。

## ★ 精讲一：Ahmad Osman 谈本地 AI 为何正在追赶

对不太关注本地 AI 的读者，先补一句背景：Ahmad Osman 是 Osmantic 的创始人，过去几年一直在推动「把模型跑在自己的电脑、工作站或专用硬件上」这件事。在今年 的 AI Engineer World's Fair（AIEWF）上，他办了两场关于本地 LLM 与工作站 Agent 的 workshop，场面爆满到不得不把人挡在门外--来的人既有还在挑第一台 AI 电脑的学生，也有认真考虑模型路由、私有基础设施和数据控制权的企业高管。

他给 Latent.Space 的核心判断很直接：开源模型和闭源前沿模型之间的差距正在持续缩小，目前大约只落后 4 到 8 个月。这句话的分量在于，它来自一个长期被「本地跑不动、跑不好」印象压制的人--他自己也说，外界对本地 AI 的印象还停留在 2022 年，但「之后一切都大幅改善了」。

访谈里最有意思的一段，是他讲一个朋友买了 RTX 5090 想在本地跑 Qwen 3.5，把 Claude Code 接到本地模型上，让它改显卡的 RGB 灯光，结果失败了；而用托管的 Claude Code 服务却成功了。原因不是模型笨，而是本地那一套没有接搜索--模型训练数据有截止日期，而需要的软件和文档早就变了。给本地系统接上搜索 endpoint 之后，任务就跑通了。

他由此点出一个被广泛忽略的事实：ChatGPT、Claude Code 这类产品之所以好用，是因为模型外面还套着一整套搜索、工具、Agent 的基础设施。「It is not just one thing.」本地 AI 真正缺的，是这一层完整栈，而不是更大的参数量。这也解释了为什么他从企业主权算力和混合架构的角度，认为本地 AI 正在被认真当作基础设施--数据控制、模型路由、私有部署，这些诉求不是极客玩具，而是企业 IT 的刚需。

他在另一个叫「Open Source AI Must Win」的网站上把这个立场说得更直白：「研究、构建、修复、部署、审计、适配、教学、保存和运行智能系统的能力，无需请求许可，这件事具有存在级别的重要性。」Workshop 的参与者构成也佐证了这一点--来的不只是硬件爱好者，还有考虑第一台 AI 电脑的学生，以及认真权衡私有基础设施和数据主权的企业高管。这种人群结构本身，就是本地 AI 正在从「极客玩具」滑向「企业基础设施」的一个信号。

把这篇放在今天第一篇，是因为它给后面的 LongCat 和美图定了同一条坐标轴：模型本身正在商品化，真正拉开差距的是把它包起来的那一整套工程。Osman 谈的是「本地」这一侧的栈，美团谈的是「大规模训练」这一侧的栈，美图谈的则是「应用落地」这一侧的栈。读完这篇，再看后面两篇会有更强的对照感。如果你只对本地部署或开源生态感兴趣，这篇是今天的入口。详见

## ★ 精讲二：美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型

先说清楚 LongCat-2.0 是什么。它是美团 6 月 30 日正式发布、并对外开源的新一代大模型，定位是 Agentic Coding--也就是让模型在真实的代码理解、生成、执行任务里更高效、更稳定。几个关键数字：总参数 1.6T（万亿级），平均激活约 48B，动态范围 33B 到 56B 的 MoE 架构；预训练数据超过 30T tokens；原生支持 1M 超长上下文。官方口径里最重的一句，是它是「业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型」。

但这份发布稿真正值得读的，不是这些数字本身，而是美团技术团队把国产算力上跑万亿 MoE 的全链路工程难题，拆成了稳定性、正确性、效率三块讲。稳定性上，通过卡间通信异常处理、弹性扩缩卡和自动故障恢复，把月均日故障率降低了 70% 以上；正确性上，自研确定性算子、Bitwise 一致性验证和参数检测来保证训练可靠；效率上，通过流水线调度、显存优化和算子级控核，把训练 MFU 提升了 1.5 倍，最终稳态日吞吐超过 1T tokens/day。推理阶段则是模型、算子、框架协同优化，用大规模专家并行聚合访存带宽来支撑万亿参数的低延迟解码。

架构设计上也有几个值得记一笔的细节。一是 LongCat Sparse Attention（LSA）稀疏注意力，把长文本处理的计算量从平方级压到线性级，让模型在 100 万 token 的上下文里仍能精准定位信息--官方说传统模型超过 100K 就开始「遗忘」。二是零计算专家加 ScMoE，让 token 级动态激活成为可能：简单的 token 不消耗算力，复杂的 token 自动拿到更多计算资源。三是 MOPD 多专家融合，把 Agent、Reasoning、Interaction 三组专家能力融进一个模型，推理时由门控网络按任务类型动态调度。

评测成绩方面，在考察深层工程能力的 SWE-bench Pro 中拿到 59.5，领先 Gemini 3.1 Pro（54.2）、GPT-5.5（58.6）和 Claude Opus 4.6（57.3）；SWE-bench Multilingual 77.3，与 Claude Opus 4.6（77.8）同水位；Terminal-Bench 2.1 拿到 70.8。真实办公场景的复杂任务上也表现均衡：搜索智能体评测 RWSearch 78.8、生产力场景 FORTE 73.2、BrowseComp 79.9，都达到或接近前沿闭源模型水平，能较好契合企业级 Agent 的落地需求。发布前的预览版已经通过 OpenRouter 和 longcat.ai 面向全球开发者开放，目前跻身 OpenRouter 全球大模型调用量前三，在 Hermes、Claude Code 和 OpenClaw 的调用量分列全球第一、第二和第三。

官方还放了几个内测期间的真实工作单：业务人员用自然语言查询数据，LongCat-2.0 搭的 AI SQL Agent 自动完成从理解意图、规划查询到把结果转成业务洞察的全链路闭环；给它一个旧版插件代码库和一份新版 SDK 文档，它能自行分析整体架构、梳理核心逻辑，把整个插件重构为符合新 API 的实现，编译一次通过；描述一个「儿童 AI 游戏训练场」的创意，它能从技术选型、页面架构、游戏逻辑到视觉细节一步步生成，首页加三个完整可玩的游戏页面全部一次产出。这些例子更像 demo，但它们说明了一件事：万亿参数模型在真实 Agentic Coding 任务里，已经能稳定交付端到端的结果。

把这篇和精讲一对照看会更有意思：Ahmad Osman 讲的是开源模型正在追赶闭源前沿，LongCat-2.0 则是一份「追赶到什么程度」的实证--尤其在 Agentic Coding 这条赛道上，国产万亿模型已经能和闭源前沿在同一张榜上掰手腕。更特别的是，它是少数把国产算力、万亿 MoE、Agentic Coding 全链路讲透的工程实录，对关注训练基础设施的读者来说信息密度很高。如果你做模型选型或基础设施，这篇值得精读；如果只关心应用，看评测和 OpenRouter 调用量那段就够了。详见

## ★ 精讲三：专访美图 CEO 吴欣鸿：做 AI 产品，是一场难以提前策划的游戏

美图这家公司，很多读者的印象可能还停在「美图秀秀」那个修图工具上。但它在 AI 这一波里其实翻身翻得相当彻底：2025 年营收 38.58 亿元，净利润 9.65 亿元，同比增长 64.7%；经过 AI 重构的影像与设计产品，收入占比从一年前的 35% 提升到 76.6%，已经成了造血主力。海外 MAU 时隔多年重回 1 亿，AI 视频编辑工具 Wink 和影像创作 Agent RoboNeo 在东南亚、墨西哥、巴西等地频繁登顶 iOS 下载榜。《智能涌现》这篇专访，价值在于吴欣鸿把这家 2000 人公司怎么在应用层持续跑赢，讲得相当坦诚。

他立了几条在外人看来近乎严苛的规矩。第一，新产品从立项、研发到市场验证和上线，时间控制在 1 个月内--理由是「这个时代，验证 PMF 的时间理论上越短越好，谁也不知道一个月后技术和市场怎么变」。第二，PMF 验证的标准是上线半年内 ARR 必须达到 10 万美元，这是基准线。第三，也是最反直觉的一条：拥有庞大用户基数的「美图秀秀」等老产品，禁止给新产品大力导流--目的是逼新产品靠自然生长证明自己。这套机制背后，是美图花了很长时间搭建的影像产品中台和增长中台，把技术工程、冷启动、投流等管线复用到不同产品上，RoboNeo 新上线的 Agent Teams 一个月就做完了。

但访谈最耐读的部分，是吴欣鸿谈「热爱驱动」而非纯 PMF 驱动的那一面。2026 年美图影像节发布的 4 款 AI 新产品里，AI 人像修图工具 Picchi、影像工作流平台 MeituHub 是自下而上、从用户洞察「长」出来的；而 MV 生成工具 MVLAND 和概念视频创作工具 Artflo，则源自他个人的热爱和对「非共识」领域的押注。他自己说：「我希望美图的产品矩阵中，有我的自留地，让我去做喜欢的事。」结果反倒意外好--MVLAND 是最近一年所有新产品里跑得最好的，内测两三个月 ARR 就到 10 万美元，现在接近 50 万美元。他用这句话总结：「自下而上的产品生命力更强，因为它是自然生长出来的，不是强推的。」

关于市场，他有一套「先发产品，再找市场」的方法论：做好各地的语言包就上线，等用户自己下载、给反馈，再慢慢画出热点图，找到产品和市场的契合点后去「浇水养护」。所以重点市场永远是中国，但巴西（2.1 亿人口、旺盛的社交分享需求）和非洲这种 Day 1 没规划的地方，反而是 RoboNeo、Airbrush 用户最多的市场之一。很多市场判断是后验的--感性判断可以先验，但产品与市场的契合点往往是「长出来之后去浇水」才看清的。很多东西不是策划出来的，而是自然长出来的--这是他对 AI 应用层最核心的判断。

他也很坦率地谈了影像赛道为什么现在能变现。过去工具产品只能靠广告，广告模式变现效率不高，品牌广告还要组建专业团队服务客户，而且广告投放和用户体验本质上是相悖的。订阅模式普及之后，影像产品才开始出现真正的商业化效应--影像覆盖图像、视频、3D，生产力场景极丰富，但又非常分散，很难一家独大。所以他反复强调「我们现在就是在抢时间」。对一个 2000 人的公司来说，能在分散赛道里靠中台复用快速试错，本身就是一种护城河。

把这篇放在精讲收尾，是因为它和前两篇形成了一个完整的链路：Osman 谈基础设施层的本地 AI 栈，LongCat 谈模型层的训练工程栈，美图谈应用层的方法论栈。三者放在一起，恰好回答了同一个问题--当模型本身逐渐拉平时，竞争力到底从哪里来。美图的答案是：从中台复用、快速验证、允许热爱试错的组织能力里来。如果你做产品或带团队，这篇比另外两篇更贴近你的日常。详见

## 速览

Google ADK 2.0：把确定性代码执行和 LLM Agent 缝在一起的工作流运行时。

Google Developers Blog 这篇解释了为什么他们要重做 Agent Development Kit。核心痛点是：生产环境里的 Agent 会陷入死循环、因为幻觉绕过关键业务逻辑、或者失败时连干净的异常都不抛。根因是结构性的--让 LLM 去做路由、调度、错误处理这些传统代码本来就更擅长的事，既慢又贵还不稳定；反过来，要让传统工作流覆盖每一个边界情况又复杂到不切实际。ADK 2.0 引入了一个结构化工作流运行时和任务协作模型，把 Agent 的探索能力和确定性执行逻辑的可靠性缝在一起，开发者不必在灵活性和可预测性之间二选一。Python 版 3 月就上了，Go 版刚刚发布。如果你正在把 Agent 从原型推向生产，这篇是必读的工程参考。详见

RAG 的上下文工程：让每个组件输出类型化输入，汇聚成一次可审计的 LLM 调用。

这篇来自 Towards Data Science，用一个「单文档 RAG」的窄场景，把「上下文工程」这件事讲得很清楚。它的立场是企业 RAG 是放大专家而不是替代专家，所以架构上分四块--文档解析、问题解析、检索、生成--每块都输出有类型的片段，最终汇聚到一次 LLM 调用上，带固定的 system prompt 和从上游拼装出来的 user content。文档解析产出关系表，问题解析产出有类型的 ParsedQuestion，检索产出一个过滤后的行子集外加「它为什么选这些行」的审计记录，生成产出一个带引用证据的 Pydantic 答案。作者还配了 GitHub 上可运行的 notebook。适合正在搭 RAG 管道、想让每一步可审计、成本可控的工程师读。详见

高德 GrowLoop：把说不清的「感性对话标准」，变成能生长的理性 Benchmark。

开放域对话的「真人感」评测是个公认的难题--标准难制定、难量化、难统一。高德团队指出三个根本难处：多个标注员独立打分的一致率只有 51.1%；很多判断是写不下来的隐性知识；而且标准会随 AI 能力和用户期待一起漂移。GrowLoop 的思路是用少量种子，加上一套 Rubrics 和题目相互生长的双循环协进化机制，把感性标准转化成可被自动化学习的理性 Benchmark。这套方法不仅适用于陪伴对话，也适用于艺术评价、教育评估、科研评审这种「没有标准答案」的场景。论文已发在 arXiv，代码逐步开源。做对话或评测的读者值得跟进。详见

从 AWS 迁移到 PaaS：一个 7 人团队量化了基础设施的隐性成本。

freeCodeCamp 这篇是一个 7 人内部工具团队的复盘。他们在一次季度规划里第一次认真问了「我们到底有多少时间花在基础设施上，又有多少花在用户能用上的东西上」，翻完 sprint 历史、事故日志和日历后被自己吓到。他们的 AWS 环境其实不差--ECS 容器化、GitHub Actions 自动部署、CloudWatch 可观测、IAM 权限分环境--架构评审都挑不出毛病，但代价不在账单上，而在日历、在上下文切换、在「基础设施工作」悄悄挤掉真正 backlog 的那些时刻。最终他们用 3 周迁到 Sevalla 这个 PaaS，一个月内效果可量化：每周省下 10 小时工程师时间。这篇对小团队的技术负责人很有参考价值。详见

人机交互设计的 39 条原则：把研究变成产品层面可用的东西。

UX Collective 这篇是一个综合框架，把人机交互、混合主动系统、自动化信任、负责任 AI 的研究，转化成了 39 条产品级可用的设计原则，按九个主题组织：概率基础、预期设定、校准信任、透明度、控制、优雅失败、共同创造、负责任自主、持续依赖。作者反复强调，AI 系统的核心交互问题不是「能不能做」，而是「同一输入会产生不同输出」这件事，传统 UI 规范根本没设计过。核心的设计提问是：怎么帮用户恰当地依赖 AI。做 AI 产品设计或前端交互的读者，这是一篇可以当 checklist 用的长文。详见

出门问问李志飞：把超级个体的产能，转化成组织能力。

腾讯研究院「AI 跃迁者调研」第五期，深度访谈出门问问创始人李志飞。2025 年端午节他一个人三天写出近 20 万行代码，做出「AI 版飞书」原型，然后发现公司完全跟不上，于是花近一年推组织转型：自研 CodeBanana 作为组织操作系统，用 Agent 替代中间管理层，让「任务在哪里，沟通就在哪里」。访谈里几个金句值得记：超级个体的价值被高估、超级组织的价值被低估；AI 产能无限但瓶颈全在人；打造超级组织要有「延迟满足感」。这篇和美图那篇放一起读，是两种风格迥异但都成立的组织方法论。详见

得物 AI UITester：AI Native 的 UI 自动化测试新范式。

得物技术团队这篇介绍了自研的 ai_uitester，一个 AI 原生的 UI 测试工具。它针对传统方案的三个痛点--用例迁移成本高（一个中等模块的描述性用例转化可能要数人天）、调试效率低（失败要人工看截图、对比页面、改脚本、重跑）、三端各写一套（iOS、Android、HarmonyOS 元素定位方式完全不同，UI 改版时三套脚本同步失效）--给出了三块能力：用例平台 JSON 通过一条自动化 Pipeline 加 LLM 增强，自动转化成带 App、Tap、Wait、Assertion、Swipe 步骤的可执行脚本；失败时由 AI 智能调试做根因诊断和用例自愈（带置信度机制，宁可漏点不可误点）；用 VLM 视觉驱动统一三端，底层驱动自动选择。文章还把它和 Appium/Selenium、Test.ai/Applitools 做了路线对比，说明为什么这是「范式转变」而非「工具升级」。做测试工程化的读者可以关注它的 Wiki 知识库闭环设计--它被 5 大场景复用，让工具越用越智能。详见

## 补充阅读

- 掌握智能体技术：AI 智能体强化学习（NVIDIA Technical Blog）。一篇把强化学习应用到 AI Agent 的实践指南，重点讲 RLVR（可验证奖励）和 GRPO，给出从环境选择、奖励构建到训练验证的逐步工作流。适合想把领域成功标准转化成训练信号的读者。详见

- AI Agent 的 Skill 系统设计（大淘宝技术）。核心观点是把 Skill 当成「行为编程」而不是文档，通过 YAML+Markdown、DOT 流程图、检查表做结构化设计，再用门控、合理化防御、说服原则这些约束机制规范 Agent 行为。还讨论了有限上下文窗口下的 Token 经济策略和基于 TDD 理念的 Skill 测试方法。写 Agent skill 或 prompt 工程的读者会很有共鸣。详见

- Anthropic 重新部署 Claude Fable 5（Anthropic 官方）。在与美国政府一系列对话后，Claude Fable 5 全球重新部署，新增针对网络安全任务的分类器（分类器优化期间常规编码调试暂时回退到 Opus 4.8），并由亚马逊、微软、谷歌等 Glasswing 合作伙伴起草评估 AI 越狱严重性的框架。关注模型安全与治理的读者可以追一下原文。详见

## 今日阅读路径

如果你的时间有限，今天这三篇值得优先读：

1. 精讲一 Ahmad Osman 谈本地 AI--它用最少篇幅帮你重置对「本地 AI 缺什么」的认知，是理解今天其他几篇的坐标系。

1. 精讲三 专访美图 CEO 吴欣鸿--如果你做产品或带团队，这篇的方法论（1 个月上线、半年 10 万美元 ARR、禁止老产品导流）最贴近日常决策。

1. 速览里的 Google ADK 2.0--如果你正在把 Agent 推向生产，这篇的「确定性执行 + LLM Agent」工作流运行时是最直接的工程参考。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。