7月3日

05:50

Runway：News（网页）

Runway 开发了名为 deckard 的容量控制器，在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰，晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口（如工作日 8:30–12:30 ET 高峰子窗口）提前扩容和回收，每次集群间转移耗时 20–60 分钟。利用排队论（Erlang‑C、Little's Law）确定目标利用率，避免接近 85% 后的队列发散（90% 利用率下等待时间约为服务时间的 10 倍）。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程

05:08

Apple Machine Learning Research（RSS）

Conformal Thinking：计算预算下推理的风险控制框架

推理大语言模型支持测试时扩展，准确率随 token 预算增加而提升，但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题：在最小化计算量的同时限制错误率。该框架引入上阈值（模型足够自信时停止推理，承担输出错误的风险）和下阈值（提前终止无法解决的实例，承担过早停止的风险）。给定目标风险与验证集后，使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明，该方法在遵守用户指定风险目标的同时，通过下阈值与集成停止机制实现了计算效率提升。代码已开源。

推理论文/研究

05:08

Apple Machine Learning Research（RSS）

残差上下文扩散语言模型（Residual Context Diffusion Language Models）

扩散大语言模型（dLLM）可并行解码多个token，但现有分块式dLLM依赖重新掩码机制，仅保留最置信token而丢弃其余，造成计算浪费。本文提出Residual Context Diffusion（RCD）模块，将丢弃token的表示转化为上下文残差并注入下一次去噪步骤，采用解耦两阶段训练绕过内存瓶颈。在长CoT推理（SDAR）和短CoT指令跟随（LLaDA）模型上验证，标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点，在最具挑战的AIME任务上几乎翻倍基线准确率，等效精度下减少4–5倍去噪步数。

推理论文/研究

02:37

LMSYS：Blog（Chatbot Arena 团队）

精选59

Agent辅助的SGLang开发：初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括：SGLang .claude/skills（CUDA调试、内核集成、性能分析等）、SGLang diffusion .claude/skills（扩散模型添加与调优）、BBuf/AI-Infra-Auto-Driven-SKILLS（跨框架SOTA循环）、KDA（MLSys 2026 FlashInfer内核竞赛获胜方案）以及BBuf/KDA-Pilot（已合并三个SGLang集成PR）。Profile证据是性能工作的核心，长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证，Humanize/RLCR添加外部审查，Codex Goal以更低协调开销运行相同循环。评审重要性提升，开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由：这不是一篇普通的开发经验总结，而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册，对于做推理框架和复杂工程的人非常值得一看。

01:08

Apple Machine Learning Research（RSS）

通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为，但复杂推理轨迹在无约束采样中稀疏，标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout，激励探索多样推理模式，并利用重要性采样实现无偏on-policy优化，引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明，Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究

01:08

Apple Machine Learning Research（RSS）

精选62

RL微调VLM的鲁棒性与思维链一致性研究

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由：RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

7月1日

12:00

公众号：龙猫LongCat（美团）

精选82

美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合（Agent/Reasoning/Interaction三组专家）架构。评测中SWE-bench Pro获59.5，SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放，月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码

关联讨论 9 条

推荐理由：国产算力上首个全流程自训的万亿开源模型，1M上下文和动态专家架构直指Agentic Coding场景，OpenRouter调用量已经冲到前三，不是Demo是生产力。

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选70

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro，用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题，覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景，要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建，已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI 推理论文/研究

推荐理由：OpenAI 的新基准揭示了一个信号，GPT-5.6 在需要科学判断的模糊任务上进步神速，从不足 5% 到接近 30%，且单题成本仅几美元，这对 AI for Science 的落地想象空间影响不小。

00:42

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

Grant Sanderson 谈 AI 与数学的未来

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出，AI 在 IMO 获金牌并不等于 AGI，只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题，仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系，以及现实经济任务难以套用强化学习环境等话题。

大佬观点推理现象/趋势

推荐理由：这次对谈没有停留在AI刷数学题的喜报上，而是追问了‘验证循环’和‘定义生成’两个终极难题。Grant Sanderson的视角让人重新思考AI的进展究竟缺什么，数学家未来的角色会是什么。

6月30日

07:51

公众号：千问APP（阿里）

千问免费志愿报告突破2000万份

截至6月29日23:58，千问生成的免费志愿报告突破2000万份。祝每位考生志如所愿！

推理行业动态

6月29日

19:10

公众号：小红书技术（dots.llm）

精选72

小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解，通过头分类稀疏（局部头占 83.4%–96.8%）、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上，TTFT 最高加速 1.6–3.54×，单卡并发提升 4.7–7.8×，预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×，KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXiv GitHub 产品更新推理

推荐理由：小红书把 KV Cache 从 token 级拆成按头分家，这个思路让长文本推理的 TTFT 和并发都有数量级提升，开源出来对做推理引擎的同学是个福音。

18:10

公众号：蚂蚁百灵（Ling）

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

DeepSeek 推理教程/实践数据/训练

6月27日

01:02

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选78

OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

OpenAI 安全/对齐推理模型发布

关联讨论 12 条

推荐理由：GPT-5.6 Sol 不是一次常规升级，它把推理推到新高度，还引入了子代理模式。但美国政府要求有限预览，让这次发布多了点政治味道。

6月26日

23:51

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

下一个重大突破：AI在工作中学习

AI实验室的研究赌注是：在数千个多样化RL环境中训练模型完成数百万可验证任务，就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一，但训练成本是一次性的，可摊销到数十亿次用户会话中；真正重要的是模型在单个会话内的智能和样本效率，而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长，就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储，未来可能实现任意大的上下文窗口。论文还指出，一个领域不仅需要可验证性，还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由：RLVR 范式能否通向 AGI？Dwarkesh 指出关键瓶颈在于样本效率和 grindability，他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界，虽然离落地尚远，但值得每一个关心 AI 下一步的人细读。

04:32

Tomer Tunguz 博客（VC 分析）

Sail Research 构建集群感知编排，加速异步推理

推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体，运行时长可达数小时。Sail Research 为此构建了集群感知（fleet‑aware）编排系统，以最大化每美元推理支出的吞吐量。

推理现象/趋势

00:16

Hugging Face：Blog（RSS）

精选65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如}）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face 开源生态推理论文/研究

推荐理由：OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里，优势在名词动词等意义词，但在重复 token 上接近消失，这份洞察对做模型架构的人很有启发性。

00:00

Google Research：Blog（网页）

精选55

冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选58

SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法：Waterfill 将共享专家分配给负载更低的 rank，在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%，在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s（+4.92%）；LPLB 基于线性规划优化冗余专家副本的 token 路由，配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

产品更新推理部署/工程

推荐理由：SGLang 引入 Waterfill 和 LPLB 两种负载均衡算法，实测 DeepSeek V3/R1 和 V4 吞吐提升最高 7%，用 SGLang 跑 MoE 推理的开发者值得一试。

6月25日

01:05

Google Research：Blog（网页）

精选69

思考即回忆：推理如何解锁LLM中的参数化知识

Google Research研究发现，推理（chain-of-thought）能帮助大语言模型（LLM）回忆简单事实，即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上，启用推理后模型能够回答原本无法直接回答的简单问题，pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动：一是生成的推理token充当计算缓冲，允许模型进行隐藏计算以提取参数化知识；二是推理过程中产生的相关事实起到启动效应（factual priming），帮助模型激活正确答案。

Google 推理论文/研究

推荐理由：发现一个反直觉现象，让模型推理能提升简单事实回忆，不是靠分步解题而是计算缓冲和事实预热，对理解模型知识召回机制很有启发，但中间步骤幻觉也带来风险。

6月24日

21:01

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño，专为当前及未来 LLM 从头设计。早期测试显示，其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月，并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心，推出多代计算平台。

OpenAI 产品更新推理部署/工程

推荐理由：OpenAI 首次亲自设计芯片，和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño，从设计到流片仅 9 个月。虽然还只是早期测试，但性能功耗比大幅领先，一旦大规模部署，推理成本可能跳水，用 ChatGPT 的每个人都能感知到更快更便宜。

15:20

公众号：蚂蚁百灵（Ling）

Ling-2.6-1T TPU 推理优化：用 Pallas Kernel 隐藏 MoE 数据搬运

蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel，将 scatter、expert FFN 和 gather 合并，通过计算与数据搬运重叠降低延迟。相比 V1，MoE prefill latency 从 5.16 ms 降至 2.42 ms（降 53%），decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%，decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下，16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone，包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。

推理教程/实践部署/工程

11:40

公众号：通义实验室（千问）

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld，覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹，经 CPT→SFT→RL 三阶段训练，在 AgentWorldBench 上超越 GPT-5.4（58.25）和 Claude Opus 4.8，Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力：作为解耦环境模拟器实现可控 Sim RL，在 WideSearch 上超越真实环境 RL（F1 50.3% vs 45.6%）；作为智能体基础模型，LWM 预热可迁移至七个基准（三个完全未出现在训练集中）。模型与评测基准已开源。

智能体推理模型发布

关联讨论 5 条

6月23日

19:10

公众号：小红书技术（dots.llm）

小红书QEcon分享：Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%，新方案以Coding Agent为核心，采用逆向链式推导与知识库渐进式加载实现动态规划，Debug-first策略生成脚本，并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级，常见场景秒级完成，新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口，无需预设编排。

智能体推理教程/实践

14:50

公众号：火山引擎

火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级，多Coding评测比肩全球顶尖，Agent国内第一，VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入；Seedream 5.0 Pro支持交互式编辑、多图层分离；豆包音频生成模型1.0可一次直出影视级音频。截至今年6月，豆包大模型日均Token调用量180万亿，同比增长超10倍；火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布

关联讨论 5 条

03:54

Tomer Tunguz 博客（VC 分析）

AI推理销售：成本加成 vs. 价值定价

以成本价转售推理（inference）是零利润业务。关键在于成本加成与价值定价的选择。优化是成本杠杆，知识蒸馏（distillation）可暂时提供防御性优势。自带密钥（BYOK）模式打破了成本加成，保留了价值定价。

大佬观点推理

6月18日

23:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

OpenAI 推理数据/训练论文/研究

推荐理由：这是AI辅助罕见病诊断的严肃实证，4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远，但证明推理模型能帮专家从旧数据里挖出新线索。

03:48

xAI：News（网页）

精选61

Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日，xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率，支持 100 万 token 上下文窗口，并提供可配置推理努力（none/low/medium/high）。在 Artificial Analysis Omniscience 基准排名第一，在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一，在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元，每美元智能度是其他前沿模型的 2–10 倍。

xAI 推理模型发布

推荐理由：Grok 4.3 登陆 Bedrock，把极低幻觉率和可配置推理带给了 AWS 用户，价格也摆在了 Pareto 前沿，不过本质上是一次渠道扩展而非模型突破，企业开发者可以尝鲜。

01:53

LMSYS：Blog（Chatbot Arena 团队）

精选69

用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T（1T稀疏MoE，63B激活参数，256路由专家，top-8路由加共享专家）在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核，通过将MoE数据移动隐藏在计算中，使MoE预填充延迟从5.16ms降至2.42ms（降幅53%），解码核延迟从0.249ms降至0.211ms（降幅约15%）。仅替换MoE核即提升预填充吞吐量24.8%，解码吞吐量18.5%–35.3%。在SGLang解码基准测试中，16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍（mc=128）至1.77倍（mc=512）。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由：这是针对TPU上MoE推理的硬核优化复盘，用成本模型定位瓶颈，通过单内核融合把延迟砍半，对做大规模推理工程的团队是高质量参考。

6月17日

23:32

Google Blog：AI（RSS）

精选55

Google 医学推理 AI 系统 AMIE 新研究：从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE（Articulate Medical Intelligence Explorer）从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力，整合共情对话智能体和深度思考管理推理智能体，可交叉引用数百页临床指南。在盲测中，AMIE 与 21 名初级保健医生相比，在整体管理推理上匹配临床医生，在计划精确性和指南一致性上得分显著更高。

Google 推理论文/研究

推荐理由：Google 把医疗 AI 从一次诊断推到了长期疾病管理，Nature 上的对照实验显示它在计划精确性上甚至优于初级保健医生，做数字健康的人值得认真读一下。

17:38

Hugging Face：Blog（RSS）

GLM-5.2：为长周期任务而生

GLM-5.2 发布，支持 1M token 上下文，采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器，将 1M 上下文下每 token FLOPs 降低 2.9 倍；MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上，FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%；PostTrainBench 仅次于 Opus 4.8；SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分（GLM-5.1 为 63.5），接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可，无地域限制。

开源生态推理模型发布编码

关联讨论 9 条

6月16日

22:01

Nathan Lambert：Interconnects（RSS）

前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

DeepSeek 大佬观点开源生态推理

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

01:25

LMSYS：Blog（Chatbot Arena 团队）

精选67

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face 推理模型发布部署/工程

推荐理由：DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐，再加上 SGLang Spec V2 引擎优化，推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人，可以直接用这个组合试试。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日

21:55

Cloudflare Blog

Cloudflare 引入 Ensemble AI 团队，加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入，以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理，开发了 NdLinear（可直接替换 Transformer 标准线性层并保持多维激活结构）和 NdLinear-LoRA（降低大模型微调所需可训练参数）。这些技术与量化等方法互补，旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台，通过全球网络与 serverless GPU 推理服务，进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程

21:30

公众号：百度智能云（文心）

上海交大🤝百度智能云：首破世界-动作模型时间绑定，无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM，突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型，真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz，轻量版AHA-WAM-Flash达56.95Hz，提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究

18:31

公众号：月之暗面（Kimi）

精选69

6倍速！Kimi K2.7 Code 高速版已上线

Kimi K2.7 Code 高速版上线，与普通版为同一模型，输出速度约 5-6 倍，常规编程场景约 180 Token/s，短上下文可达 260 Token/s。API 定价为普通版 2 倍，模型 ID：kimi-k2.7-code-highspeed。Kimi Code Plan 用户可通过「抢先体验计划」使用，用量消耗为普通版 3 倍。使用须开启思考模式，关闭会报错或回退至 K2.6。庆祝发布，Kimi API 开放平台推出为期三周充赠活动，充值 500 元及以上享 20%-30% 代金券。相比 K2.6，K2.7 Code 在长上下文编程指令遵循、长程任务性能提升，平均 token 消耗减少 30%，内部基准测试显著提升。普通版输入 6.5 元/百万 token、输出 27 元，缓存输入 1.3 元。非编程任务推荐 K2.6。

产品更新推理编码

关联讨论 4 条

推荐理由：这不是 K2.7 的换代，而是给开发者开了条高速车道，180 token/s 让代码补全几乎无感，虽然贵但省时间，重度编程用户值得切。

6月14日

17:50

公众号：千问APP（阿里）

千问预测世界杯四场比赛结果：荷兰胜日本、德国胜库拉索

千问对世界杯四场比赛做出预测：德国胜库拉索、荷兰胜日本、厄瓜多尔胜科特迪瓦、瑞典与突尼斯战平。此前巴西1:1摩洛哥的预测接近但未完全命中。千问表示正在加紧“蒸馏章鱼哥”以提升准确率，并透露AI竞猜累积积分已达89%，将用于捐建乡村足球场。

推理行业动态

00:17

OpenRouter：Announcements（RSS）

同事件精选73

OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8

通过OpenRouter融合的一组预算模型，在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。

Anthropic DeepSeek OpenAI 产品更新

同一事件，精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》

推荐理由：OpenRouter 的 Fusion API 用多个模型合成输出，基准测试里预算模型组合能接近前沿，这个思路对有质量要求又在意成本的开发者挺实用。

6月13日

17:54

公众号：龙猫LongCat（美团）

美团履约AI算法团队ACL'26论文分享会

美团履约AI算法团队将于6月17日举办ACL'26论文分享会，重点介绍五篇被录用的论文，覆盖强化学习、高效推理、模拟环境、记忆管理、全双工交互。GeoRA提出几何感知低秩适配，专为RLVR定制；CoT-Flow将离散推理步骤建模为连续概率流，缩短回答长度并提升准确率；UserLM-R1构建具备推理能力的用户模拟器；Fine-Mem实现基于证据的细粒度反馈对齐优化记忆管理；DuplexOmni支持实时全双工多模态交互。

智能体推理行业动态