7月3日

02:44

Hacker News 热门（buzzing.cc 中文翻译）

单层Transformer即可匹配全参数强化学习训练：Qwen3/Qwen2.5等模型研究

研究发现，训练单个Transformer层即可恢复甚至超越全参数强化学习（RL）后训练带来的收益。研究引入“层贡献度”量化指标，在Qwen3和Qwen2.5两个模型家族的七个模型上，使用GRPO、GiGPO、Dr. GRPO三种RL算法，覆盖数学推理、代码生成和智能体决策任务，发现RL收益高度集中于少数Transformer层，且高贡献层集中在堆栈中间，两端层贡献显著较小。

arXiv 数据/训练论文/研究

7月2日

17:31

HuggingFace Daily Papers（社区热门论文）

图原生强化学习通过概念重组实现可追溯的科学假设生成

研究团队开发 Graph-PRefLexOR，一组图原生推理模型，用 GRPO 微调，将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上，相较基础模型提升 40–65%，最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍；层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明，额外算力主要增加有限语义空间内的长距离概念重组。

arXiv 推理数据/训练论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

域算术：环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换（如从Panda换为UR5e）时通常无法完成已学任务。传统适配需为每个任务收集多次演示，成本高昂。DART（Domain ARiThmetic）提出基于类比推理的方法，通过权重向量算术添加特定领域信息，仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中，DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXiv GitHub 具身智能开源/仓库

11:28

HuggingFace Daily Papers（社区热门论文）

CausalMix：将数据混合优化重构为因果推断问题

CausalMix将大语言模型训练中的数据混合优化重构为因果推断问题，将数据池统计特征作为协变量、领域混合作为处理变量，在512次Qwen2.5-0.5B运行上拟合因果模型估计条件平均处理效应（CATE），外推出800K数据池的最优混合比例并用于训练7B模型。该框架还能泛化至Qwen3-4B-Base的长链式推理数据。通过因果建模隔离混杂偏差，CausalMix动态推断状态依赖的最优数据混合，在多个下游任务上优于RegMix等基线，并借助CATE解释器提供可视化分析。

arXiv 数据/训练论文/研究

7月1日

16:28

HuggingFace Daily Papers（社区热门论文）

GEAR：引导式端到端自回归图像合成

GEAR联合训练向量量化（VQ）分词器与自回归（AR）生成器，通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题，采用双读出机制：硬one-hot分支用于next-token预测训练AR模型，可微分软分支传递对齐损失指导分词器更新，使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA，在ImageNet gFID收敛速度最高提升10倍，并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。

arXiv 图像生成论文/研究

13:28

HuggingFace Daily Papers（社区热门论文）

TerraDiT-Ω：基于任意地理空间基元的卫星图像合成统一空间控制框架

TerraDiT-Ω是一个统一空间控制框架，可直接利用任意地理空间基元（多边形、折线、边界框、点）进行卫星图像生成。它联合使用精确和粗略标注，适应不同标注预算，适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制，将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强，提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。

arXiv GitHub 图像生成数据/训练

11:28

HuggingFace Daily Papers（社区热门论文）

MemLearner：为视频世界模型学习查询上下文记忆

视频世界模型在长时段生成中缺乏记忆，导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法，利用 query tokens 桥接上下文与预测 token，并借助视频生成模型自身的预训练视觉先验进行上下文查询，无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集，辅以相机位姿标注，并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明，MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型，尤其在遮挡和动态场景下。

arXiv 视频论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

BlockPilot：基于实例自适应策略学习的扩散投机解码方法

针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题，BlockPilot 提出一种样本自适应策略，利用预填充层的表示首次预测每个样本的最优块大小，将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低，在 Qwen3-4B 模型、温度 T=1 条件下，实现接受长度 5.92 和 4.20 倍加速，无需牺牲生成质量。

arXiv 推理论文/研究

6月30日

15:26

HuggingFace Daily Papers（社区热门论文）

视频扩散模型在手部运动重建中的惊人有效性

ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态，通过手部叠加渲染目标适配扩散模型特征，保留世界先验的同时专门化手部特征，再由解码器恢复度量级姿态。整个管道直接处理全帧，无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上，ViDiHand 显著优于现有方法，表明视频扩散模型可作为手部运动重建的新基础，并为具身智能的可扩展野外数据收集提供途径。

arXiv 具身智能多模态论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

NeuWorld：通过神经隐式场景实现交互式世界探索

NeuWorld提出场景中心范式Walking in the Implicit，将交互式视频生成的滚动变量从帧级潜变量替换为固定长度的可渲染隐式状态NIS。模型利用Transformer VAE从稀疏有姿态帧学习局部锚定的NIS，并通过扩散Transformer根据未来相机轨迹和几何感知历史演化NIS。通过复用VAE编码器作为统一条件器，将相机、参考图像和历史线索映射到同一NIS模态，避免外部异构编码器。模型在公开姿态视图数据上从头训练，未使用预训练视频骨干或3D重建器，实现了强长程一致性和有利推理效率。

arXiv 视频论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

Orca：一个通用世界基础模型

Orca通过下一状态预测（Next-State-Prediction）统一建模多模态世界信号，学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注，包含无意识学习（连续视频中的密集自然状态转换）和有意识学习（语言描述事件和VQA监督下的稀疏状态转换）。冻结主干后，仅训练轻量级模态特定解码器，即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ASPIRE：通过迭代机器人探索的自主技能编程系统

ASPIRE是一个持续学习系统，在代码即策略范式下自主编写和优化机器人控制程序，并累积经验为可复用的技能库。其三个组件为：闭环执行引擎（提供细粒度多模态轨迹，支持故障诊断、修复验证）、持续扩展的技能库（将修复蒸馏为可迁移知识）、进化搜索（生成多样化任务序列与控制程序）。在LIBERO-Pro扰动测试中比先前方法提升77%，Robosuite双臂交接提升72%，BEHAVIOR-1K长周期家务提升32%。其技能库实现零样本泛化：在LIBERO-Pro Long上ASPIRE成功率31%，对比方法仅4%。模拟发现的技能初步验证了仿真到真实迁移，减少了不同机器人与API上的编程工作量。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AtomiMed：层次化原子事实检查实现通用临床感知的医学报告评估

现有医学报告生成评估指标依赖表层n-gram重叠，无法捕捉临床事实准确性且易忽略灾难性诊断错误。AtomiMed是一种通用、跨模态框架，将医学叙述分解为标准化多层次原子临床事实（疾病级实体与位置、形态、严重程度等属性级描述），并通过在地面真实与预测报告间执行智能体交叉验证循环模拟多放射科医生同行评审，实现诊断检测与描述准确性的解耦评估。配套开源工具包MRGEvalKit与多模态基准OmniMRG-Bench（覆盖X光、CT、MRI、超声）。实验表明，AtomiMed与人类判断相关性显著高于传统及基于模型的指标。代码已开源。

arXiv GitHub 论文/研究

6月29日

19:10

公众号：小红书技术（dots.llm）

精选72

小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解，通过头分类稀疏（局部头占 83.4%–96.8%）、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上，TTFT 最高加速 1.6–3.54×，单卡并发提升 4.7–7.8×，预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×，KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXiv GitHub 产品更新推理

推荐理由：小红书把 KV Cache 从 token 级拆成按头分家，这个思路让长文本推理的 TTFT 和并发都有数量级提升，开源出来对做推理引擎的同学是个福音。

08:00

HuggingFace Daily Papers（社区热门论文）

CogSENet：受鹰视觉启发的盲图像去模糊框架

CogSENet是一种受鹰视觉启发的动态语义对齐重建框架，用于盲图像去模糊。核心模块包括：语义驱动状态空间模块（SDSSM），通过可微分路由实现语义感知的token重组与提示条件长程依赖建模；双频融合块（BFFB），用小波变换分解高低频特征，模拟鹰视网膜功能分化；连续模糊场（CBF），从模糊图像估计算法融合CLIP语义先验，调制深层潜特征以适应空间非均匀模糊。实验表明，CogSENet以更少参数在视觉质量和结构保真度上超越现有去模糊方法，并在去雾、去雨、去噪任务上表现良好。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BrainJanus：融合脑、视觉与语言的统一模型

BrainJanus是首个统一脑模型，在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token，与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构，利用下一token预测实现任意方向生成，包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越，具备零样本泛化能力，并保持可解释的脑拓扑结构。代码已公开。

arXiv GitHub 多模态论文/研究

6月28日

08:00

HuggingFace Daily Papers（社区热门论文）

无姿态多视图的实例结构化3D Token化框架

一项前馈式3D场景重建框架，直接从无姿态多视图图像将场景分解为实例结构化3D token组。每组包含一个捕获实体级身份的实例token和多个编码局部几何与外观的锚点token，解码为一组3D高斯。通过可微渲染联合重建与分割监督学习，无需3D标注。该模型在类无关实例分割上超越逐场景优化基线，在新视图合成上具有竞争力。token组可直接实现实例级场景编辑（移除、平移、插入对象）以及高效开放词汇3D实例检索，检索复杂度随实例数而非基元数增长。

arXiv 具身智能论文/研究

6月27日

08:00

HuggingFace Daily Papers（社区热门论文）

当更多采样反而有害：测试时扩展的模态天花板与相关性天花板

推理系统通过多次采样（测试时扩展）来回答难题，覆盖率随采样次数增加而上升，但系统必须选出唯一答案。选择精度存在上限——模态天花板，在数十次采样内投票结果即趋稳定；相关性天花板则更早达到。超出这两个天花板后，额外采样只会增加计算成本，甚至让模型更确信错误答案，形成“可识别性差距”：模型能产出但无法选出的正确回答。论文将这一截止点量化为有效样本数，指出瓶颈在于识别正确答案而非生成更多候选。

arXiv 推理论文/研究

6月26日

08:00

HuggingFace Daily Papers（社区热门论文）

RocketSmith：智能体驱动的增材制造高功率火箭

RocketSmith 是一个利用大语言模型编排软件工具、自动执行增材制造设计流程的智能体系统，用于开发可发射的高功率火箭。系统通过子智能体与技能包实现零样本或人在回路中的飞行参数迭代优化，验证飞行稳定性并生成参数化火箭组件。研究团队使用多种 FDM 打印机制造了四枚不同电机与装配构型的火箭，经手动评估和现场发射测试，所有火箭均稳定发射，其中两枚成功回收且具备再次飞行条件。高度计数据表明火箭实际飞行高度达到系统预测远地点高度的 80%，验证了仿真与实验的一致性。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Video-MME-Logical：视频时间逻辑推理的受控诊断基准

Video-MME-Logical围绕五种时间逻辑操作（状态跟踪、顺序计数、时序排序、动态空间性、结构组合）构建，包含25个细粒度任务类别，通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型（MLLM）的视频时间逻辑推理能力。实验表明，当前SOTA MLLM与人类之间存在显著差距，且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调，仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TUA-Bench：面向通用终端智能体的基准测试

TUA-Bench是一个通用终端智能体基准测试，包含120个真实世界任务，覆盖文档编辑、邮件管理、实时网页信息搜索及科研与工程工作流五大类别。任务在真实终端中通过确定性脚本执行，采用基于执行的评分协议评估。最强前沿模型Claude Code搭配Claude Opus 4.8最大推理努力，整体性能65.8%，各任务类别间差距显著。该基准旨在推动从窄任务助手向多数字环境可靠运行的通用终端智能体转变。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

ReFreeKV：迈向无阈值KV缓存压缩

ReFreeKV 提出一种无阈值的 KV 缓存压缩方法，通过自适应调整预算分配来消除对输入特定阈值的依赖，解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明，该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型推理轨迹中的认知片段实现可解释的人类题目难度预测

现有方法依赖人工校准或文本表示，缺乏对认知过程的解释。Epi2Diff将Large Reasoning Models的推理轨迹映射为认知片段序列，提取动态特征并与语义表示结合，进行人类题目难度预测。在四个真实数据集上，Epi2Diff全面超越包括有监督LLM微调在内的强基线，在SAT分类基准上平均相对提升8.1%。更难题目引发更费力、迭代且以实现为中心的片段动态，而非仅更长的回答。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于Gist Token的简化稀疏注意力

简化稀疏注意力（SSA）无需改变架构，通过在序列中插入gist token并施加注意力掩码进行继续预训练，使模型将各分块关键信息压缩至gist token。推理时，查询仅与少量gist token打分，选择性展开top-k分块的原始token，避免全KV缓存带宽开销。在LongBench上，SSA在相同压缩比下优于压缩和推理时稀疏注意力基线；在检索增强生成中，经继续预训练后超过全注意力5.7个百分点，归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下，在32倍压缩比时仍维持或提升精度。代码已开源。

arXiv GitHub 推理数据/训练

6月25日

11:12

HuggingFace Daily Papers（社区热门论文）

精选70

Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散，提出教师强制(TF)与自强制(SF)互补训练范式，并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核，首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散，收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63，仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型，实现动作条件生成的交互式世界模型。

arXiv 推理视频论文/研究

推荐理由：把自回归视频扩散蒸馏到1-2步采样，VBench冲到84.63，这个配方让实时视频生成和交互世界模型从论文走进了工程落地，做视频产品的该看。

11:12

HuggingFace Daily Papers（社区热门论文）

DomainShuttle：面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成（S2V）的方法，支持域内（高保真保留参考主体特征）和跨域（允许主体无关属性随文本提示灵活变化）两种场景。该方法引入 Domain-MoT 模块，通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模；提出 Video-Reference DualRoPE 方案，将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模；设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明，DomainShuttle 在多种开放域场景中相比现有方法实现显著提升，兼具高主体保真度与生成灵活性。

arXiv 多模态视频论文/研究

09:00

公众号：蚂蚁百灵（Ling）

Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文，重新思考 FP4 预训练中的格式选择。研究发现，主流 E2M1 格式存在先天 Shrinkage Bias，导致数值量化时左右 rounding bin 不对称，该 bias 在训练中累积拖慢收敛。相比之下，E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform（RHT）后，更高的 bucket 利用率能转化为实际量化质量收益，收敛表现优于 E2M1。团队提出 UFP4 方案：在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT，并将 SR 用于 dy 量化。研究认为，细粒度量化与 RHT 引入后，FP4 训练已转向“局部分辨率主导”，uniform 4-bit 格式的价值应被重新评估。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PolyFlow：面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

自回归Transformer可生成高质量网格拓扑，但串行解码计算量比并行模型慢数个数量级；连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器，将离散顶点位置和法线投影为连续逐顶点嵌入，通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后，任意网格可转换为统一连续顶点状态空间。基于此表示，PolyFlow采用Transformer流匹配框架，对提取的点云特征条件化，实现完全并行顶点状态去噪；推理时通过ODE求解器快速生成，并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上，PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MemoBench：动态变化环境中的世界建模基准测试

MemoBench 是一个针对视频生成模型在动态变化环境中的记忆一致性诊断基准，围绕“消失-重现”范式设计：目标物体经历物理过程后从画面中消失，模型需在其重新出现时正确恢复更新后的状态。基准包含 360 段真实与合成场景的真值片段，结合自动化指标与基于 VQA 的评估，覆盖四个诊断支柱。对八款当前最优模型的评测揭示了消失-重现模式下记忆一致性面临的关键难题与开放挑战。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NeuraDock Agent：低通道脑电图智能体的边界感知上下文接地架构

NeuraDock Agent是一个开源架构，将确定性本地EEG引擎与硬件感知语言层分离。它解析七通道脑电图，执行质量控制与审核后的频谱工作流，生成机器可读结果。大语言模型仅接收经过允许列表筛选的摘要和版本化上下文包，包含硬件描述、工作流、结果字段、实施边界、科学限制及参考案例，原始EEG和密集数组数据保留在本地。评估分三个层面：12份记录在十次数值重复中结果一致；请求捕获与故障注入实验验证了数据边界和本地工件保留；边界意识基准测试对36个普通和对抗性问题在4种上下文消融设置和2个LLM下产生288个输出，证实了硬件与实现感知接地机制的可行性，但未验证临床有效性。

arXiv 其他论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Ko-WideSearch：韩语广度搜索基准

现有网页智能体基准主要测深度搜索，缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准，通过自动化合成-验证流程构建。任务要求从集合父实体（如电视剧季、王朝）中完整列举成员并填充属性表，采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格，覆盖 190 个实体、16 个类别，设三个难度层级，通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示，智能体能恢复集合但无法填充行（Item-F1 92.8，Row-F1 53.7），难度提升准确率下降，增加搜索或花费无法缩小差距；难点在找到正确值而非格式化，自由文本单元格失败率最高。

智能体 arXiv 搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ViQ：任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架，通过两阶段学习（文本对齐预训练与特征离散化）在离散表示中平衡语义与细节，并支持原生分辨率输入。预训练借助语言模型增强语义监督，离散化阶段采用近端表示学习逐步压缩特征空间，结合位置感知多头量化实现任意分辨率处理。多模态任务上，ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力，同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速，适用于不同大语言模型和训练方案。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

JetSpec：基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架，通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头，生成与自回归因子分解对齐的候选树，从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中，JetSpec 一致优于双向头和树形基线。在 H100 GPU 上，MATH-500 达 9.64 倍加速，开放对话达 4.58 倍；经 vLLM 集成在现实服务负载下进一步降低延迟。

arXiv GitHub 开源生态推理

08:00

HuggingFace Daily Papers（社区热门论文）

LISA：基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式（预训练主网络+侧网络）重新解释为基于分数的生成建模：主网络提供无条件先验分数，侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间，与构造的近似似然分数目标计算距离作为正则化损失，并与标准扩散损失联合优化。实验表明，LISA能一致加速训练收敛并提升合成质量，使侧网络特征更解耦，且几乎不增加训练成本、零额外推理成本。

arXiv 图像生成视频论文/研究

6月24日

18:30

Hacker News 热门（buzzing.cc 中文翻译）

Qwen-AgentWorld：通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列，是首批基于语言模型的“语言世界模型”，通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹，经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器，它支持可扩展的可控仿真以增强智能体强化学习；作为统一基础模型，世界模型训练可有效预热下游7个智能体基准的性能。

智能体 arXiv 数据/训练论文/研究

关联讨论 4 条

15:09

HuggingFace Daily Papers（社区热门论文）

FLAT：前馈潜码三角形泼溅实现几何精确场景生成

FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元，首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题，引入射线中心旋转参数化回归三角形，并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。

arXiv 图像生成论文/研究

11:55

HuggingFace Daily Papers（社区热门论文）

DREAM：通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型（LLM）自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头，使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上，使用0.5B至3B参数的嵌入骨干，DREAM均持续优于现有基线。

arXiv 检索增强数据/训练论文/研究

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 4 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

10:49

HuggingFace Daily Papers（社区热门论文）

CF-World：一个用于测试T2I模型因果推理的反事实基准

CF-World是一个反事实基准，用于测试文本到图像（T2I）模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级：事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval，引入两个指标：Prior Resistance Rate（PRR）衡量克服固有先验的能力，Reasoning Retention Rate（RRR）评估无显式视觉线索时的推理依赖生成。实验表明，所有模型在反事实场景中性能急剧下降，原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式，过度依赖训练数据中的频繁视觉共现，在反事实任务中退回至熟悉常识先验。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

验证地平线：编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强，生成长代码方案已不困难，可靠验证反成瓶颈。验证器仅为人类意图的代理，意图天然欠指定，优化会拉大代理与意图差距（奖励破解或信号饱和）。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量，研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论：无固定奖励函数能随策略能力增长保持有效，验证必须与生成协同进化。

智能体 arXiv 编码论文/研究