7月2日

17:31

HuggingFace Daily Papers（社区热门论文）

四种轻量级架构在一个IIoT数据集上训练后，不经重新训练直接在另两个结构不同的IIoT数据集上评估，仅使用三者共有的特征。可解释性分析显示，两个最优模型主要依赖粗粒度端口类别特征，其中最具影响力的类别在源域攻击流量出现频率是目标域的96至435倍，表明粗化端口分辨率只是转移而非消除已知捷径。自然不平衡分布下，评价协议可能反转对哪个目标域更具挑战的判断。对抗鲁棒性与跨网络泛化无关，有限目标域数据适应的恢复效果因架构而异。建议部署就绪性应在真实类别分布下通过跨网络评估。

端侧论文/研究部署/工程

15:28

HuggingFace Daily Papers（社区热门论文）

ELDR：面向PD分离式MoE服务的专家局部性感知解码路由

ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征，构建预测生成阶段所需专家的签名，通过离线平衡K-means聚类将签名空间分配到解码节点，在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引，保证前缀缓存下签名准确。在vLLM实现，最高40块GPU部署测试，相比四种负载均衡基线中最强的一种，在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%，模型输出不变。

推理论文/研究部署/工程

10:05

Rohan Paul@rohanpaul_ai

MCP Server架构模式论文：LLM集成应用工具设计需遵循5种模式、避免4类错误

该论文指出，MCP服务器设计不同于普通API，因为LLM通过纯语言描述选择工具，过多或模糊的工具会导致混淆。作者归纳了5种实际模式（如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API），并警告4个常见错误（大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID）。在54个额外服务器上测试发现，弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。

arXiv MCP/工具论文/研究部署/工程

6月30日

22:34

SemiAnalysis@SemiAnalysis_

JetSpec 是一种投机解码方法，通过因果并行树草稿联合优化草稿成本与质量，采用并行草稿树和树因果验证。在 MATH-500 上实现 9.64x 端到端加速，开放聊天场景达 4.58x 加速，且保持无损。结合 CUDA graph 与内核优化，单块 B200 可实现约 1000 TPS。SemiAnalysis 期待其与推理引擎 vLLM/SGLang 的深度集成。

Hao AI Lab: Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...

推理论文/研究部署/工程

22:26

HuggingFace Daily Papers（社区热门论文）

一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍

异步流水线并行消除同步气泡，但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟，但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设，发现AdamW在一步延迟下退化，而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明，所提策略可缩小异步与同步训练的性能差距，展示大规模异步流水线并行的实用潜力。

数据/训练论文/研究部署/工程

12:02

IT之家（RSS）

Meta 发布自研 Vistara 芯片，复用拆机 DDR4 内存搭配 DDR5 新服务器

Meta 在 ISCA 2026 大会发布自研 Vistara ASIC 方案，通过 CXL 2.0/1.1 规范的 PCIe Gen5 x16 接口将拆机 DDR4 内存桥接到新服务器。每台 MemServer 配备 768GB DDR5 和 256GB DDR4（3:1 配比），单个 ASIC 支持双通道 DDR4 最高 3200 MT/s、最大 256GB。该方案已在数百万台服务器中用于分离式机器学习推理、大数据处理等场景，可将推理服务器数量最多减少 25%，分布式缓存平均延迟降低 29%。

Meta 论文/研究部署/工程

6月28日

01:06

MarkTechPost（RSS）

精选79

DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中，接受长度比 Eagle3 高 26–31%，比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上，关键在于不换模型就能加速，对用 API 做产品的人是立即可用的性能提升。代码和权重都给了，值得一试。

6月26日

08:00

HuggingFace Daily Papers（社区热门论文）

ReFreeKV：迈向无阈值KV缓存压缩

ReFreeKV 提出一种无阈值的 KV 缓存压缩方法，通过自适应调整预算分配来消除对输入特定阈值的依赖，解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明，该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。

arXiv 推理论文/研究部署/工程

03:25

Hao AI Lab@haoailab

JetSpec：通过因果并行树草稿推测解码将LLM生成延迟推向极致

Sky Computing Lab推出JetSpec，一种通过因果并行树草稿（causal parallel tree drafting）联合优化草稿成本与质量的推测解码方法，可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速，开放式聊天达4.58x，且保持无损。结合CUDA graph和kernel优化，在单B200上实现约1000 TPS。

推理论文/研究部署/工程

01:37

Google Research：Blog（网页）

用线性弹性缓存优化云经济

Google Research 与 Google Cloud 提出线性弹性缓存，将缓存管理转为线性成本优化问题，动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架，在租用内存（持续付费）与购买缺失（缓存未命中惩罚）间选择，并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下（每 GiB 内存每天 $3），该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。

Google 论文/研究部署/工程

00:00

Google Research：Blog（网页）

精选55

冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

6月25日

18:13

HuggingFace Daily Papers（社区热门论文）

开放权重LLM中的约束代价：结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时，多个开放权重LLM出现工具调用抑制（Tool Suppression）。控制实验在多模型与部署设置下复现了该现象。分析表明，JSON Schema约束被编译成基于语法的token掩码，导致工具调用token在解码中不可达。研究提出约束优先级反转（CPI）假设，并设计透明两遍执行（Transparent Two-Pass Execution）推理策略，将工具执行与模式约束响应生成解耦，无需重训练即可恢复工具调用并维持结构化输出。结果表明，单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

聚类、路由、升级：面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案，用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型；第二阶段引入质量估计（QE）级联，将低质量输出升级至更强模型。在测试集上，该系统保留了最强模型97-99%的准确性，同时降低了每个输出token的时间（TPOT）。仅需任务正确性标签即可适应模型池变化，无需手动重新配置。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

JetSpec：基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架，通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头，生成与自回归因子分解对齐的候选树，从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中，JetSpec 一致优于双向头和树形基线。在 H100 GPU 上，MATH-500 达 9.64 倍加速，开放对话达 4.58 倍；经 vLLM 集成在现实服务负载下进一步降低延迟。

arXiv GitHub 开源生态推理

6月24日

15:37

MarkTechPost（RSS）

精选74

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出，是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token，再由目标模型并行验证，保证输出无损。相比 EAGLE-3，DFlash 实现最高 2.5 倍加速，在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍（MATH-500 达 6.08×）。在 NVIDIA Blackwell 上（TensorRT-LLM），gpt-oss-120b 模型吞吐量提升最高 15 倍，约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影，使接受长度随草稿深度增长。

推理论文/研究部署/工程

推荐理由：DFlash把扩散模型引入推测解码草案阶段，一次并行生成整块token，单流加速最高6倍，NVIDIA实测吞吐量提升15倍，推理成本下降幅度很大，部署大模型的团队可以立刻关注。

6月23日