5月29日

10:21

IT之家（RSS）

华为全面升级星河 AI 网络，Token 生产效率提升 2 至 5 倍

产品更新部署/工程

09:21

IT之家（RSS）

华为鸿蒙开源 SGL 高性能 GPU 加速框架，开发者三行代码即可调用 GPU 滤镜

华为鸿蒙开源了高性能GPU加速框架 SimpleGPULayer（SGL），以简化图像处理、AI推理、2D/3D渲染等场景的GPU调用。开发者无需处理底层设备初始化、显存管理等复杂细节，仅需几行代码（如示例中的3行C++代码）即可接入GPU加速。该框架提供C API和NAPI接口，方便集成到鸿蒙应用中。其图像处理能力已在悟空图像等应用中落地使用。

开源/仓库端侧部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

蒸馏博弈：自适应攻击与高效防御

蒸馏攻击使模型提供面临部署权衡：提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模，得到学生侧自适应评估规则（重加权高价值样本）和教师侧防御模板。基于样本价值代理提出Product-of-Experts（PoE）防御——前向传播中结合教师与代理学生。实验表明，自适应评估揭示巨大被动-自适应差距；PoE与昂贵防御鲁棒性差距缩小，且成本更低、推理轨迹质量更高。结论：强蒸馏难以阻止，抗蒸馏进展应基于自适应学生评估。

arXiv 安全/对齐论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

流水线推测解码

提出一种名为SPD的推测解码框架，通过将目标大语言模型（LLM）划分为n个流水线阶段来并行处理n个token，以加速解码。SPD利用一个推测模块跨流水线深度聚合中间特征以预测下一个token，并与目标模型的流水线步骤严格并行执行，从而实现有限难度、更高接受率和零延迟气泡。实验显示，SPD的理论加速比显著高于主流基线。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

dMoE：面向扩散大语言模型的块级专家混合架构

扩散大语言模型（dLLMs）与混合专家（MoE）架构结合时，存在块并行解码与token级专家选择之间的不匹配，导致推理时激活专家数过多、内存占用高。为此，我们提出dMoE框架，它将每个块内的token级专家分布聚合为统一的块级专家分布，以更协调的方式指导专家路由。实验表明，dMoE将唯一激活专家数平均从69.5降至14.6，保留了原模型99.11%的性能，同时减少76.64%-79.84%的内存使用，并实现1.14至1.66倍的端到端延迟加速。代码已开源：https://github.com/fscdc/dMoE

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Light Interaction：交互式视频世界模型的免训练推理加速

Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算，具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明，该框架无需重新训练模型，可实现最高2.59倍的推理加速，同时保持有竞争力的视觉质量。

推理视频论文/研究部署/工程

05:44

TechCrunch：AI（RSS）

互联网正在为机器重建

AI 智能体正从实验阶段走向生产环境，AWS、Cloudflare 等公司正在重新设计云基础设施，以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。

智能体现象/趋势部署/工程

04:14

TechCrunch：AI（RSS）

Asana收购无代码智能体构建器Stack AI

Asana宣布收购Stack AI。Stack AI是一家专注于构建无代码AI智能体（agent）的公司。此次收购后，Asana将把Stack AI整合到其不断增长的AI工作流工具套件中，以增强其平台上的自动化与智能化能力。

智能体行业动态部署/工程

03:38

Hacker News 热门（buzzing.cc 中文翻译）

我们更换了 Zendesk

tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成，未涉及更具体的替换原因、新平台选择或迁移过程的细节。

教程/实践编码部署/工程

02:44

TechCrunch：AI（RSS）

就像黄金和石油，我们很快就能交易AI token期货了

大型交易所正在设计围绕AI token的衍生品。这些token正日益被视为一种原材料输入，如同电力或带宽，而非仅仅是计算输出。

行业动态部署/工程

00:34

LMSYS：Blog（Chatbot Arena 团队）

精选69

SGLang 团队与 AMD 合作，使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下，其成本为每百万 token $0.169，比 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，比 B200（SGLang）方案低 40%。吞吐量方面，24 块 AMD GPU 达到 2,436 tok/s/GPU，比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括：MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由：AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%，吞吐还高出1.25倍，这是开源框架SGLang对闭源生态的一次真实挑战，做推理部署的应该点开看看完整的全栈优化。

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选61

LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队（Intel与SGLang）通过Dynamo和SGLang框架，为视觉语言模型（VLM）启用了异构编码-预填充-解耦（EPD）架构。该方案将视觉编码任务从GPU卸载至CPU（如Intel Xeon 6747P），与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中，采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器（能力比R=12）的配置，在ISL/OSL 128/256、1080p 8张图像的负载下，实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升，并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由：做VLM服务部署的可以认真看一下，用CPU头节点做异构EPD分离，几乎零成本换来了TTFT和TPOT的显著提升，有完整脚本和benchmark，能直接上手试。

5月28日

23:42

The Decoder：AI News（RSS）

Google Cloud 以平台应对 AI 加速的网络攻击，旨在分钟级弥合安全缺口

Google Cloud 推出“AI Threat Defense”平台，可自动发现、评估并修补企业系统中的安全漏洞。该平台整合了 Google 部分通过收购获得的技术，旨在快速响应由 AI 加速的网络攻击。

Google 产品更新部署/工程

22:42

TechCrunch：AI（RSS）

在 TechCrunch Disrupt 2026 大会上：Databricks 联合创始人谈什么会搞砸企业 AI 交易

企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋，而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。

大佬观点部署/工程

22:00

OpenRouter：Announcements（RSS）

OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资，由 CapitalG 领投，多家机构跟投，现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。

行业动态部署/工程

22:00

OpenRouter：Announcements（RSS）

同事件精选63

OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布获得 1.13 亿美元 B 轮融资，由 CapitalG 领投，NVentures、ServiceNow Ventures 等多家机构参投，现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。

行业动态部署/工程

同一事件，精选展示《OpenRouter 获得1.13亿美元B轮融资》

推荐理由：OpenRouter融了1.13亿美元，领投方CapitalG，跟投名单里几乎全是云计算巨头，这不是一家公司的钱，是基础设施层的一次战略布局，开发者选模型的路由成本可能因此改写。

21:11

Cloudflare Blog

我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台，并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程

18:47

Mistral AI：News（网页）

Mistral AI推出物理AI模型，加速工业工程

Mistral AI通过整合Emmi AI团队，推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学（CFD）和有限元分析（FEM）模拟的瓶颈，后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习，并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石，以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。

产品更新部署/工程

17:12

MarkTechPost（RSS）

Perplexity AI 开源 Unigram 分词器，实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低，同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face 开源/仓库部署/工程

16:28

HuggingFace Daily Papers（社区热门论文）

Clark Hash：神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化

Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下，它将一个余弦搜索向量存储为48字节的固定宽度标量量化码，相比使用f32格式的密集存储（需1536字节），实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示，其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。

检索增强论文/研究部署/工程

16:10

MarkTechPost（RSS）

精选70

pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

本教程在Google Colab中构建一个完整的pgvector实验环境，展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接，并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。

检索增强开源生态教程/实践部署/工程

推荐理由：这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码，用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。

15:15

IT之家（RSS）

阿里达摩院发布"敏迭"求解器 GPU 版

阿里达摩院发布“敏迭”求解器 GPU 版本。该版本利用 GPU 并行加速特性，并引入新算法缓解收敛的“长尾效应”。在约 2000 个通用线性规划算例测试中，其高精度稳定求解率超过 99%，并能支持亿级变量线性规划问题。相比业内主流产品，其在大规模问题上的成功率提升 14% 以上，速度平均提升 2.67 倍。在某数字广告平台案例中，该求解器仅用 1700 秒就对 3.3 亿变量的复杂问题求解到可靠精度。

产品更新部署/工程

12:41

OpenRouter：Announcements（RSS）

精选72

OpenRouter 获得1.13亿美元B轮融资

AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投，NVentures、ServiceNow Ventures等多家机构参投，现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。

行业动态部署/工程

关联讨论 1 条

推荐理由：OpenRouter 融了 1.13 亿美元，说明模型路由从「小工具」变成正经防线了，开发者选模型不再单一绑定，这个方向钱和战略意义都上来了。

11:35

公众号：面壁智能（MiniCPM）

精选61

PilotDeck 开源：以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck，以 WorkSpace（工作舱）替代传统对话框，每个工作舱拥有独立文件系统、记忆和技能，实现项目隔离。三大核心能力：记忆白盒化，全链路可见可控，支持一键修改和回滚；智能路由，自动识别任务难度动态分配模型，开启后成本节省近 70%，复杂任务仅用 1/6 成本即可反超顶级模型方案；Always-on 常驻任务，AI 主动发现并持续推进工作。支持端云协同，可调用端侧模型作为子 Agent，自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由：PilotDeck把Agent从对话框解放进「工作舱」，记忆可见、成本锐减、能无人值守运行。已开源，值得所有被多任务折磨的开发者试试。

11:15

IT之家（RSS）

智能设备迭代更新，酒泉将精准"跟拍"神舟二十一号乘组回家影像

行业动态部署/工程

10:28

HuggingFace Daily Papers（社区热门论文）

OSP-Next：一种高效的高质量视频生成模型

OSP-Next是一种高效的文生视频模型，旨在解决扩散 Transformer 全注意力机制的效率瓶颈。它采用混合全-稀疏注意力架构，稀疏部分基于 Skiparse-2D 注意力。基于此，模型提出了稀疏序列并行策略，相较 Ulysses 序列并行降低了 75% 的通信量。此外，模型集成了 HiF8 量化与 Mix-GRPO 后训练。实验表明，OSP-Next 在 VBench 上超越了 Wan2.1 基线，并在 H200 上实现了最高 1.64 倍单卡与 1.52 倍八卡加速。其量化版本在保持性能的同时，在 Ascend 950PR 上实现了显著的加速。

视频论文/研究部署/工程

10:14

IT之家（RSS）

韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器

韩国企业 FuriosaAI 宣布将与博通合作开发其第三代 AI 推理加速器，目标 2028H1 出样。该芯片将结合 2nm 制程计算裸晶、独立 I/O 裸晶、HBM4 内存堆栈，并采用博通的 SUE 技术实现机架内全连接。FuriosaAI 称其 TCP 架构针对 AI 计算进行了优化，专注于高带宽数据传输。博通方面表示，此合作旨在解决大规模智能体 AI 在通信效率方面的关键瓶颈。

推理行业动态部署/工程

10:14

IT之家（RSS）

小米罗福莉谈 MiMo API 降价：原始推理成本远低于行业平均水平，基本可以维持收支平衡

小米宣布 MiMo-V2.5 系列 API 永久降价，最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释，核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化，将 Token 容量提升 5 倍，相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构，其原始推理成本远低于行业平均水平，此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价，需有相应的架构和优化能力支撑。

产品更新推理部署/工程

09:36

Claude Code：GitHub Releases（RSS）

同事件精选67

Claude Code v2.1.153 版本更新

Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载；优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题，包括：MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示（如恢复、输入响应、临时文件处理），以及跨 macOS/Windows/VSCode 平台的稳定性。此外，还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。

Anthropic MCP/工具产品更新部署/工程

同一事件，精选展示《Claude Code v2.1.163 发布》

推荐理由：Claude Code 的一次日常小修小补，但修复了 OAuth 凭证泄露和内存泄漏这种真影响使用的 bug，且 /model 现在可以记住默认模型了，升级一下不亏。

09:09

MarkTechPost（RSS）

Sakana AI 提出 DiffusionBlocks：一种将残差网络转换为独立可训练去噪模块的分块训练框架

Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络（Residual Networks）的层更新过程解释为反向扩散（reverse diffusion）的去噪步骤，从而将其转换为一系列可以独立训练的块。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

MergePipe：通过预算专家读取实现可扩展的权重空间模型合并

MergePipe 是一个预算感知的执行层，将大语言模型（LLM）权重空间合并转化为专家访问集问题。它在共享权重坐标系下，根据显式 I/O 预算选择要读取的专家增量块，生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上，MergePipe 将专家读取 I/O 最多减少一个数量级，实现最高 11 倍加速；参数偏差约为 $10^{-3}$，且下游基准测试未出现单调退化。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

VideoMLA：面向分钟级自回归视频扩散的低秩潜在 KV 缓存

VideoMLA是首个在视频扩散模型中研究多头潜在注意力（MLA）的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对，将每层每token的KV缓存内存大幅减少92.7%。研究发现，尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立（预训练视频注意力非低秩），但MLA瓶颈本身决定了有效秩，使得模型能在压缩下保持生成质量。在VBench评测中，VideoMLA在长期视频生成中取得了最佳综合分数，并在单块B200上将吞吐量提升了1.23倍。

视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

内存主导但非带宽受限：批量1大语言模型解码在物理AI推理中的差距

研究表明，物理AI系统中的批量1大语言模型解码是内存主导的，但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现，例如在Qwen-2.5-7B（上下文长度2048）场景下，L4能达到其内存地板的81%，而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍，在L4上仅为1.028倍。部署方面，常见的量化路径未能完全兑现预期的4倍权重流量削减，例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step，而GPTQ+ExLlamaV2能达到17.36 ms/step。

推理端侧论文/研究部署/工程

04:38

TechCrunch：AI（RSS）

对亚马逊而言又一利好消息，Snowflake与AWS签署60亿美元AI CPU芯片协议

Snowflake与AWS签署了一项为期五年、价值60亿美元的协议，以确保其AI工作负载所需的CPU芯片供应。此举为Amazon带来了显著利好，并可能对Nvidia在AI芯片领域的市场地位构成压力。

推理行业动态部署/工程

04:08

Ars Technica：AI（RSS）

Nvidia CEO 希望台湾成为"AI革命"的中心，而非美国

Nvidia CEO 表示，Nvidia 将每年投资 1500 亿美元，旨在将台湾打造为“AI中心”。

数据/训练行业动态部署/工程

04:08

TechCrunch：AI（RSS）

薪资初创公司 Remote 称，其每位员工收入增长50%，且未增加员工数量

薪资服务商 Remote 近期年经常性收入（ARR）突破3亿美元，并实现现金流转正。这一增长得益于采用AI技术，使该公司每位员工产生的收入提升了50%，且此过程中未扩充团队规模。

数据/训练行业动态部署/工程

5月27日

23:14

IT之家（RSS）

SpaceX 坦言 AI 芯片供给不足，TeraFab 项目可能无法取得成功

SpaceX 在 IPO 前提交的 S-1 文件中坦言，当前可调配的 AI 芯片数量远不能满足其推进轨道人工智能规模化的需求。公司所有 GPU 均依赖采购订单临时采购，未与供应商签订长期协议。为缓解供应链风险，SpaceX 与特斯拉、英特尔计划在得克萨斯州联合建设专属半导体生产基地 TeraFab，采用英特尔 14A 制程，但该项目存在失败风险，且特斯拉与英特尔均无长期参与义务。

xAI 行业动态部署/工程

22:20

Hugging Face：Blog（RSS）

精选61

TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

异步强化学习中，训练器每步需将完整模型权重（如1T参数checkpoint约1 TB）传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点，仅将变化的权重编码为稀疏safetensors文件，上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上，每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景：训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中，权重通过单个Hub bucket流动，无需共享集群、RDMA或VPN。

Hugging Face 教程/实践数据/训练部署/工程

推荐理由：异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了，带宽直接省了两个数量级，还给了可运行的TRL分支，做RL训练的可以直接上手试。

18:14

IT之家（RSS）

Waymo自动驾驶汽车半路"撂挑子"，客服建议乘客改打 Uber 或 Lyft

本月，一名乘客在旧金山乘坐Waymo自动驾驶出租车，距离酒店仅约0.48公里时车辆突然停止并拒绝前进。Waymo客服称前方存在“巨大阻塞”，并建议乘客改用Uber或Lyft。Waymo事后解释，因获悉当地有“计划中的抗议活动”而对车辆设置了限制。该乘客最终步行返回酒店，其妻子因残障步行不便，Waymo退还了车费。乘客认可Waymo技术表现，但此次经历让他怀疑该服务在纽约等更复杂城市的推广能力。此前，Waymo还曾因车辆误入积水区域而发布召回并暂停了部分城市的服务。

具身智能行业动态部署/工程

16:14

IT之家（RSS）

首批第三方 PCIe Gen6 SSD 将至：十铨 T-CREATE MASTER Ai I6E 顺序读可达 28GB/s

十铨科技将在Computex 2026展出一系列存储器新品。核心产品是面向AI训练、超大规模推理等高性能计算场景的T-CREATE MASTER Ai I6E固态硬盘。作为首批第三方PCIe Gen6 SSD，它采用EDSFF E1.S规格，顺序读取速度可达28GB/s。面向消费市场，将发布以碳纤维设计为核心的CARBON STYLE系列，涵盖DELTA RGB DDR5、XTREEM DDR5内存及基于群联E37T主控的Z54E固态硬盘。此外，整合微型风扇与水冷系统的T-FORCE LIQUID II SSD散热器、CQDIMM版本的T-CREATE EXPERT AI内存条等新品也将亮相。

产品更新数据/训练部署/工程