6月29日

19:10

公众号：小红书技术（dots.llm）

精选72

小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解，通过头分类稀疏（局部头占 83.4%–96.8%）、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上，TTFT 最高加速 1.6–3.54×，单卡并发提升 4.7–7.8×，预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×，KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXiv GitHub 产品更新推理

推荐理由：小红书把 KV Cache 从 token 级拆成按头分家，这个思路让长文本推理的 TTFT 和并发都有数量级提升，开源出来对做推理引擎的同学是个福音。

6月25日

09:00

公众号：蚂蚁百灵（Ling）

Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文，重新思考 FP4 预训练中的格式选择。研究发现，主流 E2M1 格式存在先天 Shrinkage Bias，导致数值量化时左右 rounding bin 不对称，该 bias 在训练中累积拖慢收敛。相比之下，E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform（RHT）后，更高的 bucket 利用率能转化为实际量化质量收益，收敛表现优于 E2M1。团队提出 UFP4 方案：在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT，并将 SR 用于 dy 量化。研究认为，细粒度量化与 RHT 引入后，FP4 训练已转向“局部分辨率主导”，uniform 4-bit 格式的价值应被重新评估。

arXiv 数据/训练论文/研究

6月24日

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 5 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

6月19日

02:47

Hugging Face：Blog（RSS）

精选75

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息，单纯提示减少泄露几乎没用，而隐私感知训练把泄露率从34%降到9.9%，且不损伤任务表现，做企业级agent产品的团队要重视。

6月16日

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

6月13日

17:54

公众号：龙猫LongCat（美团）

WBench：面向交互式视频世界模型的首个系统性多轮评测基准

美团 LongCat 团队推出 WBench，首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次，覆盖导航、主体动作、事件编辑、视角切换四种交互方式，从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型（包括 Kling 3.0、HY-World 1.5、Genie 3 等）。核心发现：无全能模型，导航能力与画质无关；多轮交互后所有模型性能下降，导航平均分下降 33 点；开源模型 HY-World 1.5 导航能力突出；视角切换最难（平均分 30.7）。WBench 已开源。

arXiv GitHub 开源生态视频

6月7日

02:11

公众号：阶跃星辰（Step）

精选71

阶跃首席科学家张祥雨合著论文 ResNet 获 CVPR 2026 「时间检验奖」

CVPR 2026 将 Longuet-Higgins Prize「时间检验奖」授予 2015 年发表的《Deep Residual Learning for Image Recognition》（ResNet）。该论文由何恺明、张祥雨、任少卿、孙剑完成，提出的残差学习思想解决了深层神经网络训练难题，已成为现代深度学习基础结构。同获该奖的还有 YOLO v1。ResNet 全球引用量超 32 万次，是 21 世纪被引最多论文。阶跃算法团队正热招大模型技术人才。

arXiv 行业动态

关联讨论 1 条

推荐理由：ResNet拿下CVPR时间检验奖，32万引用是真的硬通货。虽然论文是2015年的，但残差连接至今仍是每个大模型的地基，这个奖实至名归，也提醒我们基础研究才是长期主义的底气。

5月28日