5月30日

18:39

公众号：小米 MiMo

小米发布 MiMo-V2.5 系列模型（含 MiMo-V2.5、MiMo-V2.5-Pro），采用 Hybrid Sliding Window Attention（Hybrid SWA）架构，KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例，70 层中仅 10 层为 Full Attention，60 层为 SWA（窗口大小 128）。团队围绕 KVCache 系统重构（双池管理、按层异步拉取、SWA-aware 前缀缓存树）及分布式缓存 GCache 等环节优化，使存储效率提升约 7×，显著降低长上下文推理成本。

推理教程/实践部署/工程

07:19

OpenRouter：Announcements（RSS）

精选69

Guardrails：保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具，提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能，旨在保护智能体（Agents）、数据与控制成本。

智能体产品更新安全/对齐部署/工程

关联讨论 2 条

推荐理由：OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置，让投喂给 Agent 的流量有了护栏，用 OpenRouter 做生产级应用的团队可以立刻用上，不用自己搞中间件。

5月29日

19:30

Hugging Face：Blog（RSS）

精选71

PyTorch 性能分析系列（一）：torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇，从最简单的矩阵乘法加偏置操作出发，逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系，以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行，面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face 教程/实践部署/工程

推荐理由：PyTorch profiling 的陡峭学习曲线劝退了很多人，这篇用从零开始的方式把 trace 拆解得明明白白，想做性能优化的同学该收藏。

00:34

LMSYS：Blog（Chatbot Arena 团队）

精选69

SGLang 团队与 AMD 合作，使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下，其成本为每百万 token $0.169，比 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，比 B200（SGLang）方案低 40%。吞吐量方面，24 块 AMD GPU 达到 2,436 tok/s/GPU，比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括：MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由：AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%，吞吐还高出1.25倍，这是开源框架SGLang对闭源生态的一次真实挑战，做推理部署的应该点开看看完整的全栈优化。

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选61

LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队（Intel与SGLang）通过Dynamo和SGLang框架，为视觉语言模型（VLM）启用了异构编码-预填充-解耦（EPD）架构。该方案将视觉编码任务从GPU卸载至CPU（如Intel Xeon 6747P），与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中，采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器（能力比R=12）的配置，在ISL/OSL 128/256、1080p 8张图像的负载下，实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升，并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由：做VLM服务部署的可以认真看一下，用CPU头节点做异构EPD分离，几乎零成本换来了TTFT和TPOT的显著提升，有完整脚本和benchmark，能直接上手试。

5月28日

22:00

OpenRouter：Announcements（RSS）

OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资，由 CapitalG 领投，多家机构跟投，现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。

行业动态部署/工程

22:00

OpenRouter：Announcements（RSS）

同事件精选63

OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布获得 1.13 亿美元 B 轮融资，由 CapitalG 领投，NVentures、ServiceNow Ventures 等多家机构参投，现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。

行业动态部署/工程

同一事件，精选展示《OpenRouter 获得1.13亿美元B轮融资》

推荐理由：OpenRouter融了1.13亿美元，领投方CapitalG，跟投名单里几乎全是云计算巨头，这不是一家公司的钱，是基础设施层的一次战略布局，开发者选模型的路由成本可能因此改写。

21:11

Cloudflare Blog

我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台，并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程

18:47

Mistral AI：News（网页）

Mistral AI推出物理AI模型，加速工业工程

Mistral AI通过整合Emmi AI团队，推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学（CFD）和有限元分析（FEM）模拟的瓶颈，后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习，并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石，以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。

产品更新部署/工程

12:41

OpenRouter：Announcements（RSS）

精选72

OpenRouter 获得1.13亿美元B轮融资

AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投，NVentures、ServiceNow Ventures等多家机构参投，现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。

行业动态部署/工程

关联讨论 1 条

推荐理由：OpenRouter 融了 1.13 亿美元，说明模型路由从「小工具」变成正经防线了，开发者选模型不再单一绑定，这个方向钱和战略意义都上来了。

11:35

公众号：面壁智能（MiniCPM）

精选61

PilotDeck 开源：以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck，以 WorkSpace（工作舱）替代传统对话框，每个工作舱拥有独立文件系统、记忆和技能，实现项目隔离。三大核心能力：记忆白盒化，全链路可见可控，支持一键修改和回滚；智能路由，自动识别任务难度动态分配模型，开启后成本节省近 70%，复杂任务仅用 1/6 成本即可反超顶级模型方案；Always-on 常驻任务，AI 主动发现并持续推进工作。支持端云协同，可调用端侧模型作为子 Agent，自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由：PilotDeck把Agent从对话框解放进「工作舱」，记忆可见、成本锐减、能无人值守运行。已开源，值得所有被多任务折磨的开发者试试。

09:36

Claude Code：GitHub Releases（RSS）

同事件精选67

Claude Code v2.1.153 版本更新

Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载；优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题，包括：MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示（如恢复、输入响应、临时文件处理），以及跨 macOS/Windows/VSCode 平台的稳定性。此外，还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。

Anthropic MCP/工具产品更新部署/工程

同一事件，精选展示《Claude Code v2.1.163 发布》

推荐理由：Claude Code 的一次日常小修小补，但修复了 OAuth 凭证泄露和内存泄漏这种真影响使用的 bug，且 /model 现在可以记住默认模型了，升级一下不亏。

5月27日

22:20

Hugging Face：Blog（RSS）

精选61

TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

异步强化学习中，训练器每步需将完整模型权重（如1T参数checkpoint约1 TB）传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点，仅将变化的权重编码为稀疏safetensors文件，上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上，每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景：训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中，权重通过单个Hub bucket流动，无需共享集群、RDMA或VPN。

Hugging Face 教程/实践数据/训练部署/工程

推荐理由：异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了，带宽直接省了两个数量级，还给了可运行的TRL分支，做RL训练的可以直接上手试。

11:35

公众号：面壁智能（MiniCPM）

精选64

AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain，全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%，节省10%算力；在华为昇腾上完整跑通预训练，并训出MiniCPM5-1B模型，综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程

关联讨论 1 条

推荐理由：面壁这波把 AI 写代码从玩具推进到了生产车间，ForgeTrain 跑得比英伟达 Megatron 还快 10%，而且直接在昇腾上训出了 MiniCPM5-1B，国产算力跟 AI 自举这两条线在这一刻交汇了，做训练的可以认真看看。

02:11

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选70

我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险，包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面：通过沙箱、虚拟机和网络出口控制限制智能体运行环境；利用系统提示词和模型训练引导其行为；以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例，阐述了不同产品如何设计对应的隔离架构。

智能体 Anthropic 安全/对齐部署/工程

推荐理由：Anthropic 这次没画饼，实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了，从沙箱逃逸到钓鱼攻击，做 agent 的人读一遍能少踩很多坑。