7月2日

04:36

SemiAnalysis@SemiAnalysis_

SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分：prefill 与 decode 用不同芯片；第二步按层拆分：attention 用 HBM 富裕的 GPU，前馈网络用 SRAM 基芯片；第三步按时间拆分：工作负载切片为执行窗口，在集群中交错调度。每次切分回收闲置利用率，从而降低每 token 成本。更便宜的 token 不会压缩需求，反而刺激增长——这是 MLSys 2026 的核心叙事。

推理现象/趋势部署/工程

04:35

Tomer Tunguz 博客（VC 分析）

精选60

构建AI智能体应优先设计路由

构建AI智能体时，应优先设计路由（router）而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上，将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存，在token使用量增长的同时将AI支出减半。路由分三层：技能分类器、路由器、模型选择器。本地计算近乎零成本，异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务，夜间批量评估器更新路由权重。技能蒸馏后，非编码类任务中70-80%智能体流量可由本地模型处理。

大佬观点部署/工程

推荐理由：Tunguz 把代理架构的设计重心从模型选择拉回到路由上，三层分类器-路由器-选择器的划分很清晰，做 AI 应用的团队可以参考，但其中的新东西不多。

03:52

Chubby♨️@kimmonismus

Palantir CEO Alex Karp表示，企业已厌倦那些"过度推销"模型并推行tokenmaxxing的AI实验室。客户希望拥有以Palantir和NVIDIA为核心的完整AI堆栈。FABLE 5已回归。

Chubby♨️: Palantir CEO Alex Karp says enterprises are fed up with AI labs that "oversold" models and pushed tokenmaxxing. Customer...

大佬观点部署/工程

03:03

Rohan Paul@rohanpaul_ai

Meta 计划将自身用于模型、广告等任务的过剩 AI 算力转化为云业务，允许开发者租用数据中心内的模型访问（类似 AWS Bedrock），也可能出租原始算力，旨在为高达 1500 亿美元的资本支出寻找回报，减少对广告收入的依赖。消息公布后 Meta 股价上涨超 10%，而 AI 云公司 CoreWeave 和 Nebius 分别下跌 10.8% 和 12.4%。Zuckerberg 透露几乎每周都有外部公司向 Meta 请求算力，但此举更像为支出过高担忧提供财务安全阀；Meta 要成为 AWS、Azure 级别的云服务商仍需应对计费、安全、开发工具等挑战。

Rohan Paul: Meta is turning excess AI compute into a cloud business after shares jumped more than 10%. Meta built huge AI infrastruc...

Meta 行业动态部署/工程

02:33

Rohan Paul@rohanpaul_ai

第一次AI裁员潮已经开始引发人类重新招聘潮

据Orgvue报告，39%的公司已实施AI相关裁员，其中55%的领导者承认裁错了岗位。问题在于企业裁掉了理解例外情况、升级路径和隐蔽故障模式的员工。AI虽提升生产力，但在依赖判断力和机构记忆的工作中失效。福特因自动化质检系统未能提前发现缺陷，召回约350名资深工程师。澳大利亚联邦银行削减45个AI语音客服岗位后，因呼叫量上升而取消决定。IBM也从AI驱动的HR自动化转向在全美业务部门将初级岗位招聘增加两倍。

行业动态部署/工程

01:39

Meta Engineering Blog（RSS）

精选71

Meta 大规模 AI 存储蓝图

Meta 运营数百 EB 级存储集群，基于 Tectonic 分层存储层构建 BLOB 存储架构，以应对两大挑战：最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟，使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上，利用闪存提供可预测的低 pMax 延迟，避免单 GPU 慢速拖慢整批任务。同时，统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动，提升研究效率。

Meta 数据/训练现象/趋势部署/工程

推荐理由：Meta的存储架构复盘给出了一条明确路径，从重写元数据到分层缓存，他们把GPU利用率和研究者迭代速度同时提升了一个档次，做AI训练平台的值得细读。

01:33

Rohan Paul@rohanpaul_ai

Meta 将过剩 AI 算力转为云业务，股价涨超 10%

Meta 利用为自有模型、广告和助手建设的大型 AI 基础设施产生的过剩算力，计划向开发者出租模型访问（类似 AWS Bedrock）及原始算力。消息引发股价剧烈反应：Meta 涨超 10%，而 AI 云公司 CoreWeave 跌 10.8%、Nebius 跌 12.4%。Zuckerberg 此前透露外部公司几乎每周都向 Meta 请求算力。此举既降低 Meta 对广告收入的依赖，也证明其 AI 建设的外部价值，但云业务涉及计费、安全、工具支持等复杂环节，Meta 难以快速成为 AWS 级别的云服务商。

Meta 行业动态部署/工程

01:17

Google Developers Blog（RSS）

精选68

Google Cloud Workbench Notebooks 扩展发布：在 VS Code 中连接云端 Jupyter 环境

Google Cloud Workbench Notebooks 扩展正式上线，开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境，无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源，可在 GitHub 和 VS Code Marketplace 获取。

Google 产品更新部署/工程

推荐理由：这个扩展把Google Cloud的Jupyter环境直接嵌进VS Code，做ML的开发者不用再切换窗口，工作流会流畅不少，但对行业格局影响不大。