7月3日

05:50

Runway：News（网页）

Runway 开发了名为 deckard 的容量控制器，在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰，晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口（如工作日 8:30–12:30 ET 高峰子窗口）提前扩容和回收，每次集群间转移耗时 20–60 分钟。利用排队论（Erlang‑C、Little's Law）确定目标利用率，避免接近 85% 后的队列发散（90% 利用率下等待时间约为服务时间的 10 倍）。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程

05:08

Apple Machine Learning Research（RSS）

Conformal Thinking：计算预算下推理的风险控制框架

推理大语言模型支持测试时扩展，准确率随 token 预算增加而提升，但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题：在最小化计算量的同时限制错误率。该框架引入上阈值（模型足够自信时停止推理，承担输出错误的风险）和下阈值（提前终止无法解决的实例，承担过早停止的风险）。给定目标风险与验证集后，使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明，该方法在遵守用户指定风险目标的同时，通过下阈值与集成停止机制实现了计算效率提升。代码已开源。

推理论文/研究

05:08

Apple Machine Learning Research（RSS）

残差上下文扩散语言模型（Residual Context Diffusion Language Models）

扩散大语言模型（dLLM）可并行解码多个token，但现有分块式dLLM依赖重新掩码机制，仅保留最置信token而丢弃其余，造成计算浪费。本文提出Residual Context Diffusion（RCD）模块，将丢弃token的表示转化为上下文残差并注入下一次去噪步骤，采用解耦两阶段训练绕过内存瓶颈。在长CoT推理（SDAR）和短CoT指令跟随（LLaDA）模型上验证，标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点，在最具挑战的AIME任务上几乎翻倍基线准确率，等效精度下减少4–5倍去噪步数。

推理论文/研究

02:37

LMSYS：Blog（Chatbot Arena 团队）

精选59

Agent辅助的SGLang开发：初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括：SGLang .claude/skills（CUDA调试、内核集成、性能分析等）、SGLang diffusion .claude/skills（扩散模型添加与调优）、BBuf/AI-Infra-Auto-Driven-SKILLS（跨框架SOTA循环）、KDA（MLSys 2026 FlashInfer内核竞赛获胜方案）以及BBuf/KDA-Pilot（已合并三个SGLang集成PR）。Profile证据是性能工作的核心，长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证，Humanize/RLCR添加外部审查，Codex Goal以更低协调开销运行相同循环。评审重要性提升，开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由：这不是一篇普通的开发经验总结，而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册，对于做推理框架和复杂工程的人非常值得一看。

01:08

Apple Machine Learning Research（RSS）

通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为，但复杂推理轨迹在无约束采样中稀疏，标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout，激励探索多样推理模式，并利用重要性采样实现无偏on-policy优化，引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明，Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究

01:08

Apple Machine Learning Research（RSS）

精选62

RL微调VLM的鲁棒性与思维链一致性研究

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由：RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

7月2日