6月10日

17:50

公众号：百度智能云（文心）

精选63

百度百舸联合复旦提出LU-KV框架，被ICML 2026录用

百度百舸团队与复旦大学合作提出Long-horizon Utility KV（LU-KV）框架，将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线，结合凸包松弛与基于边际效用的贪心求解器，在较低开销下得到接近最优的预算配置，可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上，80%压缩比下性能损失小，降低显存占用和推理延迟。相关论文被ICML 2026录用。

推理论文/研究

推荐理由：ICML接收的KV Cache压缩新方法，把缓存预算分配从看当前分数改成全局优化，能显著降低显存占用，做长上下文推理的值得细读。

17:13

Hacker News 热门（buzzing.cc 中文翻译）

里奇·萨顿谈人工智能的创造力与发现

里奇·萨顿（Rich Sutton）在Twitter上讨论人工智能的创造力与发现。该帖子在Hacker News上获得100个HN Points。

大佬观点推理

17:13

Hacker News 热门（buzzing.cc 中文翻译）

用编程打造健康家庭：Gamow Labs 正式亮相

Gamow Labs 正式亮相，创始人通过 vibe coding 方式编程，旨在打造健康家庭。该项目在 Hacker News 上获得 100 个点赞。

推理行业动态

12:56

HuggingFace Daily Papers（社区热门论文）

精选75

混合LLM中的注意力失忆：CoT微调破坏长距离召回及修复方法

CoT监督微调系统性地降低混合线性注意力模型（如HypeNet、Jet-Nemotron）的长上下文召回能力。在NIAH任务上，HypeNet-9B的S2@256K从67.2%降至9.4%，原因是CoT-SFT使注意力梯度偏向短程模式，破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练，从微调前检查点恢复W_Q和W_K，保留其余参数；Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上，QK-Restore将S3@256K从65.4%提升至76.4%，推理性能不变。

推理论文/研究

推荐理由：做长上下文推理的同学注意了，CoT微调居然会弄坏模型的长距离记忆，这篇论文不仅把原因扒清楚了，还给出了零成本修复方案，值得放进参考列表。

12:56

HuggingFace Daily Papers（社区热门论文）

精选73

Flow-DPPO：面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由：用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。