6月7日

17:57

Hacker News 热门（buzzing.cc 中文翻译）

Tokenomics：量化模型token在智能体软件工程中的应用

一篇arXiv论文提出Tokenomics框架，量化分析模型token在智能体软件工程各环节的使用分布，揭示不同任务对token消耗的差异。

智能体 OpenAI 数据/训练编码

16:05

The Decoder：AI News（RSS）

研究揭示大型语言模型为何能学会小型模型无法掌握的技能

小型语言模型在罕见任务上表现不佳，因为频繁任务不断覆盖已学内容。一项涵盖4百万到40亿参数模型的新研究详细揭示了这一机制，并提出实用解决方案：无需扩大模型规模，只需增加目标任务在训练数据中的出现频率。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WaveDiT：分布感知小波流匹配实现高效3D脑MRI合成

WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架，结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径，适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示，相比扩散、潜在和小波基线，生成与真实MRI分布对齐更优，下游脑年龄预测和区域解剖一致性均有提升。代码已开源。

arXiv GitHub 图像生成数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MaskAlign：Token子集表示对齐以实现高效扩散训练

针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题，论文从token级视角发现：完整token对齐中梯度范数大的token具有稳定空间偏好，导致模型过度依赖完整干净图像token集。为此提出MaskAlign，训练时对随机采样的token子集施加表示对齐，减少对完整token集的依赖，增强鲁棒性；并引入轻量级预掩码token混合块，在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PaperMentor：面向AI研究论文的以人为中心的多智能体写作导师（基于Overleaf）

PaperMentor是一个开源的写作辅导系统，在Overleaf中以内联评论形式提供可操作的建议，而不替代作者写作。系统集成了专家技能库和12个专门智能体，覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究（n=14）中，90.6%的评论被评为可操作，67.5%的评论有效，显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。

智能体 arXiv 开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniCap-IF：全能视频描述的指令遵循基准与模型改进

OmniCap-IF 是首个针对全能模态大语言模型（OLLMs）视频描述指令遵循能力的基准，涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型，并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距，并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K，并发布 OmniCaptioner-IF 模型，在复杂指令遵循与通用全能模态描述性能上均取得明显提升。

arXiv 多模态数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

PIPE-Cypher：面向Text-to-Cypher系统的自动企业基准生成

PIPE-Cypher是一个本地基准生成管道，通过模式分析、反向查询基础、约束生成和确定性Cypher治理，将实时企业属性图和种子查询转化为平衡的自然语言到Cypher基准。使用本地Qwen3.5-9B模型进行生成和评判，导出3000个FinBench/SNB示例，完成三项消融实验，并通过人工标注校准评判行为，评估了11个本地下游模型。生成的基准具有区分性：零样本迁移能力弱，少量样本控制表明模式特定示例库可帮助兼容模型家族。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

轨迹精炼蒸馏（TRD）

在同策略蒸馏（OPD）中，密集的逐token教师监督会导致前缀失败（双峰教师混合与碎片化梯度），逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD，在教师指导下修正学生rollout前缀以缓解前缀失败，并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏（OPSD）。在多项基准和多尺度模型上，TRD一致优于先前基线，提升单次准确率并拓宽推理覆盖范围。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OASIS：从仿真数据采集到真实人形机器人全身操作

现有数据来源在轨迹质量与可扩展性间存在矛盾。OASIS 提出仿真数据驱动框架：用 3D 生成模型从真实图像重建物体资产，在仿真中遥操作收集轨迹，再经域随机化后处理增强。基于仿真数据训练的分层视觉运动策略在真实人形机器人零样本部署下，多数任务成功率优于用真实机器人遥操作数据训练的模型，原因是仿真渲染覆盖了更广泛的光照与环境变化。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CoVEBench：视频编辑模型能否处理复杂指令？

CoVEBench 是一个组合视频编辑基准，包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项，覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度，并结合自动指标评估视频质量。实验表明，当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影，组合编辑是重大挑战。

多模态视频论文/研究

04:26

Hacker News 热门（buzzing.cc 中文翻译）

莱比锡的基准测试（Benchmarks in Leipzig）

一篇题为“Benchmarks in Leipzig”的学术论文于2026年6月6日发布在 arXiv 上，并在 Hacker News 上获得 101 个点赞。该论文关注莱比锡相关的基准测试研究，但其具体方法、数据集及结果未在当前摘要页面中详述。该条目来自 buzzing.cc 对 Hacker News 热门帖子的中文翻译，提供了原文链接（arXiv）及 HN 讨论页。

推理论文/研究

6月6日

23:17

IT之家（RSS）

研究称AI模型分析球赛"几乎靠猜"，体育解说暂无忧

北卡罗来纳大学教堂山分校和美国东北大学的一项新研究发现，主流AI模型在分析职业体育比赛时表现很差。研究构建了SVI-bench基准，包含35000小时比赛画面等数据。ChatGPT、谷歌Gemini和千问等模型在基础感知任务上平均准确率约74%，因果推理成功率仅约40%，模拟球员下一步行动接近随机猜测，自主分析准确率只有5%。研究认为AI仅擅长描述画面，无法解释战术为何成功或预判后续发展。

推理论文/研究评测/基准

20:15

HuggingFace Daily Papers（社区热门论文）

Phase Marginalization：解决视觉Transformer patch-grid相位不稳定性

视觉Transformer在固定patch网格上存在相位依赖不稳定：改变patch划分会改变像素可用的token证据，尤其边界处。研究者将patch-grid相位形式化为干扰变量，提出Phase Marginalization后处理方法，评估结构化patch-grid相位、反对齐密集输出并在原始图像坐标系中聚合。核心变体Uniform Phase Marginalization with K=4无需训练，在分割、深度和局部匹配任务上优于标准K=1基线。在Cityscapes实验中，相比通用移位四前向测试时增强(TTA)获得+0.31 mIoU优势。缩放实验表明K=4是实用折中：K=8基本不变，K=16精度提升极小但延迟大增。结论将patch-grid相位定位为可测量干扰变量，Phase Marginalization为密集ViT预测提供了简单诊断和后处理基线。

arXiv 图像生成论文/研究

12:22

Hacker News 热门（buzzing.cc 中文翻译）

Transformers 天生简洁

一篇题为“Transformers are inherently succinct”的论文在 openreview.net 上发布，从理论上论证 Transformer 架构具有内在的简洁性（succinctness）。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

几何主结构（GPS）：面向机器人关节部件感知的可扩展高质量表示

针对机器人操作中关节部件感知的准确性与泛化性需求，提出几何主结构（GPS）表示，在可扩展性与质量间取得平衡。GPS结合便携式VR设备，标注单个物体序列仅需一分钟，质量高于基于点跟踪的affordance方法。利用VR-GPS系统收集6个部件类别下234个物体的41K帧数据，训练出以单张RGB-D图像为输入的泛化GPS模型。无需领域内微调，基于GPS预测的启发式策略在9个物体270个初始状态上达到73%成功率。代码、数据和工具已开源。

arXiv 具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MuJoCo-Drones-Gym：面向控制与强化学习的GPU加速多无人机仿真环境

MuJoCo-Drones-Gym是一个开源多无人机仿真环境，兼容Gymnasium接口，基于MuJoCo物理引擎，支持任意数量Bitcraze Crazyflie 2.x四旋翼。模块化API可选刚体/Python动力学/地面效应、桨叶阻力与下洗流等物理模型，动作接口包括电机转速、归一化推力、速度设定点和PID航点。观测空间含运动学状态、RGB/深度/分割相机图像和邻域信息。内置PettingZoo ParallelEnv支持多智能体强化学习，并提供悬停、速度跟踪、多无人机悬停、航点导航、编队飞行、绕杆竞速、通用多智能体模板七个任务环境。利用MuJoCo改进的接触处理、渲染与并行能力，适用于无人机控制算法开发与强化学习训练。

开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Robust-U1：让MLLM自我恢复损坏视觉内容实现鲁棒理解

Robust-U1提出显式视觉自恢复框架，使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段：监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性，在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力，自恢复成为鲁棒理解的关键机制。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DyCo-RL：动态跨模态协调用于视觉推理

强化学习与可验证奖励（RLVR）是增强多模态大语言模型视觉推理的主流范式，但现有方法只优化结果，忽略生成中的细粒度跨模态协调。token级分析显示，模型在链式推理中无法动态交替提取视觉证据与合成文本上下文，导致推理失败。为此提出DyCo-RL，将动态跨模态协调融入RLVR优化：利用Fisher-Rao测地距离测量模态内注意力转移，为token分配视觉或文本功能角色，基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用，一致改进四种代表性RLVR算法，在七个视觉中心与数学推理基准上取得提升。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

当行为安全评估失效时：一种表征层面的视角

大语言模型（LLM）安全评估通常局限于行为层面，难以反映内部鲁棒性。论文形式化“审计差距”——行为安全与干预下鲁棒性之间的差异。通过构建分离模型（保持安全行为但潜在空间脆弱），提出基于干预的评估框架，包括有害微调与逐层潜在扰动，并设计潜在脆弱性得分（LVS）衡量界限扰动下有害行为的可诱导性。在多个安全与未安全对齐的SOTA模型上验证，分离模型在有害干预下LVS显著升高，中间表征对干预最敏感。结论表明仅依赖行为安全评估无法全面刻画模型鲁棒性，需结合表征感知审计。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Light-WAM：高效世界动作模型与状态融合动作解码

Light-WAM是面向机器人操作的高效轻量级世界动作模型。它采用紧凑视频骨干，在降采样潜在空间中进行未来视频监督，降低视频协同训练成本。动作预测由StateFusionActionExpert完成，从多个骨干层读取状态并通过学习查询池化融合特征，在单次前向中直接预测动作块，避免重型生成式动作专家。该模型仅0.44B可训练参数，在LIBERO上保持强劲性能，在RoboTwin 2.0上达到可用多任务水平，推理延迟72.03ms，峰值GPU内存4.1GiB，并提升了训练吞吐量。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EmpiriGraph-Psy：心理学摘要实证关系图抽取数据集与LLM流程

现有科学关系抽取基准主要面向计算机科学，缺乏心理学等变量导向实证领域的任务。本文提出变量中心实证图抽取任务，将科学摘要映射为以归一化变量为节点、边表示实证与层级关系的类型化图。构建EmpiriGraph-Psy基准，包含210篇经领域标注者标注的心理学摘要。评估表明，分阶段图构建管道（分步进行变量抽取、归一化、层级构建、证据选择、关系抽取和边验证）显著优于直接抽取，最佳配置macro-F1达0.74。错误分析显示，调节关系和概念层级仍是最大难点。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CHIAR-Former：明暗注意力--在黑暗中分配计算

CHIAR-Former 是一种 4 层混合 Transformer，根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力（RBF 核混合在消融中被拒绝）。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54，相比全注意力基线（PPL 66.62）提升 45%，同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明，模型在大规模自然文本中因 token 多样性受益，而全注意力在小数据集和合成任务中仍占优势。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Bayesian-Agent：基于后验引导的技能演化框架

Bayesian-Agent是一个原生跨框架，将可复用的技能和SOP视为关于冻结LLM在特定提示、上下文和环境下能否成功的后验假设。它记录已验证的轨迹证据，维护基于特征条件的分类后验，并将后验状态映射为补丁、拆分、压缩、退役和探索等可检查操作。使用deepseek-v4-flash，该方法使SOP-Bench从80%提升至95%，Lifelong AgentBench从90%提升至100%，RealFin-Bench从45%提升至65%。评估覆盖原生后端及GenericAgent、mini-swe-agent、Claude Code等可选后端，结果包含正、负、饱和及案例研究。源代码已开源。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿

论文提出一个轻量级基于集合的深度学习框架（Set-Based Transformer），以多个不同远距离辐射测量值为输入，联合估计透射率、大气路径辐射和下行谱。使用稀疏自编码器分析学习到的表示，发现若干潜在特征在测试数据的地理一致子集上激活，尽管训练时未使用位置监督。在 MODTRAN 生成的远距离 LWIR 数据集上，所有估计产品均实现低光谱失真。代码和数据集已公开。

开源/仓库论文/研究

03:47

HuggingFace Daily Papers（社区热门论文）

重复博弈中自适应对手的后悔最小化

研究在重复博弈中提出重复策略遗憾（RP-Regret），度量所有玩家基于历史响应时实际效用与事后最佳效用之差。该度量允许更强的比较器和更少约束的对手，且所有玩家最小化时能发现更优均衡。确定了时间亚线性RP-Regret的必要条件。提出三种算法：基于优化先导、最小化凸线性化替代、以及直接最小化（对手缓慢变化时）。所有玩家最小化RP-Regret可学习子博弈完美均衡。实验表明能在鹿猎博弈中带来更高效用的合作解。

智能体论文/研究

03:33

Anthropic：Research（发表成果 · 网页）

精选65

Anthropic：让Claude成为化学家

Anthropic与顶尖化学家合作，提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现：在20个化合物上，对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测（从结构预测谱图）和反向结构解析（从实验谱图推断结构）能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本，以避免选择偏差。

Anthropic 多模态论文/研究评测/基准

关联讨论 2 条

推荐理由：化学家可能几年后回头看会记起这篇，Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw，还顺手做了反向结构解析——专业软件不干的事，它用更接近人类日常输入的方式做到了。

00:47

HuggingFace Daily Papers（社区热门论文）

GeoVR：从视频学习几何表示，重塑多模态大语言模型的空间智能

多模态大语言模型（MLLM）擅长2D语义理解，但缺乏3D空间一致性。GeoVR框架利用纯2D视频序列，通过从预训练3D基础模型蒸馏几何知识，重构MLLM的语义隐空间。其多目标学习策略包含四个互补几何约束：帧间相机位姿估计、密集深度图回归、度量尺度因子预测以及多尺度3D特征对齐。在空间推理基准上，GeoVR达到当前最佳性能（SOTA），为赋予基础模型空间智能提供了新范式。

具身智能多模态论文/研究

00:33

HuggingFace Daily Papers（社区热门论文）

Skill-3D：面向智能体3D空间推理的场景感知技能自演进框架

Skill-3D框架通过场景记忆与技能库协同演化，解决MLLM智能体在3D空间推理中工具使用偏好固化的问题。框架记录智能体的工具使用轨迹，将同类场景的成功轨迹聚合蒸馏成可复用技能，失败轨迹作为教训附于技能。当类似场景再现时，注入对应技能指导智能体，新轨迹反向优化技能，形成记忆与技能库自演进循环。实验表明，该方法在VSI-Bench上将工具利用率从39%提升至78%；在MMSI-Bench上使Gemini-3-Flash提升67%；对Qwen3-VL-8B进行技能轨迹后训练后，在VSI-Bench上提升43%。

智能体多模态论文/研究

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

Benchmark Agent：全自主评测基准构建系统

Benchmark Agent 是一个全自主智能体系统，可端到端完成评测基准构建，涵盖用户查询分析、子任务设计、数据标注与质量控制。系统一次性生成 15 个代表性基准，覆盖文本理解、多模态理解和领域特定推理等评估场景。人工评估、LLM-as-a-judge 和一致性检验表明，Benchmark Agent 能以极少量人工参与产出高质量评测样本。持续评估还发现当前模型在某些领域推理任务上仍有明显短板。预览页面与代码即将公开。

智能体论文/研究评测/基准

23:47

HuggingFace Daily Papers（社区热门论文）

AURA：面向隐式需求的定向探测方法

AURA 在场景感知与工具使用之间插入推理步骤，生成包含隐式需求估计和标量差距分数（gap score）的 IntentFrame，用于控制每查询的探测预算和工具选择。在 100 查询四场景隐式意图基准上，AURA 相比 ReAct 风格探测将隐式需求覆盖率提升 0.07（p < 10⁻⁶），其中三个场景统计显著，且在第二个骨干模型上复现；消融实验将提升归因于差距校准而非答案记忆。在事实查找任务中，控制器以 82% 更少的探测次数和隐私敏感片段零违规换取原始准确率。代码、模拟器和基准已开源。

智能体推理论文/研究

23:47

HuggingFace Daily Papers（社区热门论文）

Code2LoRA：超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架，可生成仓库专属的 LoRA 适配器，在推理时零 token 开销注入仓库知识。它支持两种模式：Code2LoRA-Static 将单一仓库快照转为适配器，适合稳定代码库；Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器，适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中，Code2LoRA-Static 跨仓库 exact match 达 63.8%，仓库内达 66.2%，持平逐仓库 LoRA 上界；演化任务中，Code2LoRA-Evo 跨仓库 exact match 达 60.3%，比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXiv Hugging Face 开源生态编码

23:47

HuggingFace Daily Papers（社区热门论文）

AffordanceVLA：通过具身感知理解增强动作生成的视觉-语言-动作模型

AffordanceVLA 是一种视觉-语言-动作模型，通过引入结构化具身感知预测作为任务导向中间表示，建立更精准的感知-动作映射。模型包含三个互补组件：Which2Act（通过视觉潜变量预测实现目标中心定位以抑制干扰）、Where2Act（通过具身感知图估计定位二维交互区域）、How2Act（进行三维几何推理以引导操控策略）。采用混合 Transformer 架构，结合三阶段训练策略和渐进式数据课程，并配有自动数据增强管道。在仿真和真实世界实验中，模型在多种操控场景中取得强性能。

arXiv 具身智能多模态论文/研究

23:20

Hacker News 热门（buzzing.cc 中文翻译）

纠缠构建了时空。如今，"魔法"赋予了它引力

量子纠缠被认为是时空结构的基础。一项新研究提出，“魔法”（量子计算中的一种资源）可以为时空赋予引力。该文章发表在 Quanta Magazine 上。

编码论文/研究

23:15

IT之家（RSS）

剑桥大学AI设计通用疫苗完成首次人体试验

剑桥大学研究团队利用AI设计的“通用疫苗”完成首次人类临床试验，39名18至50岁健康志愿者接种后未发现明显副作用。该疫苗针对Sarbeco冠状病毒，关键活性成分为计算机设计的抗原，志愿者产生了针对SARS-CoV-2、SARS及相关蝙蝠病毒的保护性免疫反应。研究团队将全球Sarbeco冠状病毒基因序列输入AI模型设计抗原。下一阶段将进行更大规模、更多样参与者的试验。

数据/训练论文/研究

21:47

HuggingFace Daily Papers（社区热门论文）

ForeSci：评估LLM智能体的前瞻性AI研究判断

ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准，包含500个任务，覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库，训练数据止于截止点，后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示，显式证据组织能提升可追溯性和事实支持，但收益因决策族而异；诊断发现证据与决策脱节，智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。

智能体 arXiv 论文/研究评测/基准

21:47

HuggingFace Daily Papers（社区热门论文）

审计基于LLM的在线讨论立场模拟：反事实语境修正框架

本研究提出反事实语境修正框架，用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后，先推断目标用户立场，再对语境施加受控修正策略（纯文本与结合模因的多模态策略）并重新模拟。评估平均方向性立场转变与立场转换率，发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性，同时突出了其模拟在线舆论动态的前景与风险。

arXiv 多模态论文/研究

21:46

HuggingFace Daily Papers（社区热门论文）

Rectified Flows 沿插值路径的成员信号泄露分析

研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线，该差距随训练累积，而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解，并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击（MIA），区分训练集与非训练集样本。

arXiv 安全/对齐论文/研究

21:15

IT之家（RSS）

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法，已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏，引入 Token 位置衰减（TPD）和输出感知度量（OAM），仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速，在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究

19:22

公众号：腾讯混元

精选62

腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

Stem算法通过Token位置衰减（TPD）和输出感知度量（OAM）两项创新，仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化，支持FP8量化与vLLM的Paged KV Cache，在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速，在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由：把稀疏注意力从一刀切升级成按信息流分配预算，算子在Hopper上把理论加速几乎无损转化，3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。

18:47

HuggingFace Daily Papers（社区热门论文）

Dream.exe：视频生成模型能否生成可执行的机器人操作？

Dream.exe 是一个评估视频生成模型物理世界理解能力的框架，通过视频到执行的流水线，将生成的机器人操作视频转化为真实可执行轨迹，并在物理模拟器中验证成功率。研究评估了8个模型，包括GPT-4o、Sora、CogVideoX-5B、Meta-LLaMA 3D、GR-1等，覆盖101个手动设计的操作任务，分为三个物理复杂度等级，评测视觉质量、轨迹保真度和执行成功率。结果显示，多个模型达到了可测量的执行成功率，但视觉质量不能预测可执行性。Dream.exe即将开源。

具身智能论文/研究