5月20日

18:07

HuggingFace Daily Papers（社区热门论文）

该框架针对3D高斯溅射训练中参数规模远超GPU内存的难题，提出了核外训练方案。它利用训练过程固有的稀疏性，将GPU内存作为工作集缓存，并通过SSD-CPU-GPU层级结构协同管理参数。关键技术包括虚拟化块几何以提升I/O局部性、异步分层流水线实现计算与I/O重叠、以及轨迹自适应差分流以高效传输增量数据。实验表明，TideGS仅需单张24GB显卡即可训练超过十亿高斯，并在大规模场景中达到了所评测单GPU基线中的最优质量，相比此前方法实现了数量级的规模突破。

数据/训练论文/研究部署/工程

17:07

HuggingFace Daily Papers（社区热门论文）

PixVerve：推进原生超高清图像生成至100MP

本文介绍了PixVerve-95K，一个高质量、开源的超高清（UHR）文生图数据集，包含95K张图像（每张至少100M像素）及七维注释。基于此，研究团队探索了三种训练方案，成功将现有文生图基础模型扩展至原生100MP图像生成。同时，提出了PixVerve-Bench评估基准，全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。

arXiv 图像生成数据/训练论文/研究

16:56

IT之家（RSS）

Take-Two CEO：AI能加速开发，但无法独立创造爆款游戏

Take-Two首席执行官泽尔尼克重申，AI能有效加速游戏开发与素材生成，但无法独立创造出具有原创性和意外感的爆款大作。他以《GTA》系列为例指出，AI基于历史数据擅长模仿，而爆款游戏的核心是超越拼接的创意。泽尔尼克认为，AI工具的普及反而会抬高行业对内容规模与质量的门槛，带来更多而非更少的工作。

大佬观点数据/训练

13:05

HuggingFace Daily Papers（社区热门论文）

PEEK：面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题，本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射，并置于智能体提示中，以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明，在长上下文推理和信息聚合任务上，PEEK相比强基线提升6.3-34.0%，迭代次数减少93-145次，成本比ACE低1.7-5.8倍；在上下文学习任务中，解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%，成本降低1.4倍。这些成果在多种模型和智能体架构（包括OpenAI Codex）上均有效，证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究

12:05

HuggingFace Daily Papers（社区热门论文）

精选72

GoLongRL：面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案，聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法，公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类，涵盖9种任务类型，由真实文档生成的问答对构成；实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外，提出了TMN-Reweight多任务优化方法，通过任务级归一化和难度自适应加权，在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由：开源长上下文RL的配方直接放出来了，数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品，甚至摸到了DeepSeek-R1的水平，做长上下文的值得复现。

11:34

X.PIN@thexpin

突发：阿里巴巴刚刚在2026云峰会上发布了一款128芯片AI超级节点。我们有幸在现场亲眼目睹。

产品更新数据/训练部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

ACL-Verbatim：面向研究的无幻觉问答

针对学术研究中大语言模型（LLM）存在幻觉的问题，研究者将抽取式问答系统VerbatimRAG应用于ACL Anthology论文集，实现用户查询到文档原文片段的直接映射。团队构建了一个新基准数据集，由NLP研究人员基于ScIRGen方法生成的合成用户查询进行人工标注，用于训练和评估多种抽取式模型。其中，一个参数规模为150M的ModernBERT分类器，在基于ScIRGen方法生成的查询和论文片段上进行训练后，在词级F1分数上达到53.6，超越了被评估的最强LLM抽取器（48.7）。

检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RankE：离散文本到图像生成的端到端后训练与解码器协同进化

当前离散自回归文本到图像模型的后训练通常只优化策略网络而固定VQ解码器，导致潜在协变量偏移，使奖励提升但图像质量下降。为此，本文提出首个端到端后训练框架RankE，通过交替优化策略与解码器实现协同进化。在LlamaGen-XL（775M）上，标准RL仅提升CLIP但恶化FID，而RankE同时改善两者（MS-COCO 30K上FID 15.21, CLIP 33.76）。在Janus-Pro（1B）上验证了其稳定转化奖励为图像质量的能力。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Lens：重新思考基础文本到图像模型的训练效率

Lens是一个3.8B参数的文本到图像模型，其性能可与6B以上参数的模型竞争甚至超越，且仅需约19.3%的训练计算量。高效训练源于两大策略：一是通过GPT-4.1生成的Lens-800M数据集（含约109词的密集描述）最大化每批次数据信息密度；二是采用语义VAE和强语言编码器等架构设计以加速收敛。预训练后，模型通过应用RL训练、推理器模块和知识蒸馏实现了4步推理，并支持1:2到2:1的任意宽高比及最高1440^2分辨率。该模型在单张NVIDIA H100 GPU上生成1024^2图像需3.15秒，其蒸馏版可在0.84秒内完成4步生成。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoRubric-T2I：用于文本-图像对齐的基于规则的鲁棒奖励模型

本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题，提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则，以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则，并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明，该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号，在多个基准测试中性能优于强基线，并能有效提升下游生成任务的质量。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DelTA：基于可验证奖励强化学习的判别性Token信用分配

可验证奖励强化学习是提升大语言模型推理能力的关键技术，但奖励信号如何转化为token级概率变化的机制尚不明确。本文提出判别器视角，揭示策略梯度更新方向本质上是区分不同奖励响应的线性判别器。现有方法的正负侧质心易被格式化token等高频模式主导，稀释了关键判别信息。为此，我们提出DelTA方法，通过估计token系数来重塑更新方向，放大特定侧梯度并削弱共享模式权重。实验表明，DelTA在多项数学基准上显著提升了模型性能，并在代码生成与跨域任务中展现出良好的泛化能力。

推理数据/训练论文/研究

04:59

Emad@EMostaque

看来许多自回归模型将被转换为扩散模型。

数据/训练现象/趋势

04:04

HuggingFace Daily Papers（社区热门论文）

SCICONVBENCH：面向计算科学任务构型的LLM多轮澄清能力基准

本研究推出了SCICONVBENCH，这是一个用于评估大语言模型在计算科学任务构型阶段进行多轮澄清能力的基准测试。它覆盖流体力学、固体力学、材料科学与偏微分方程四个领域，重点考察模型获取缺失信息（消歧）与识别纠正内部矛盾请求（一致性解决）的能力。研究采用结构化任务本体与量规评估框架，系统测量了模型的澄清行为、对话依托与最终规格保真度。结果表明，前沿模型在一致性解决上表现较好，但在流体力学消歧任务中最佳模型仅解决了52.7%的问题，且模型常进行未基于对话的隐式假设与规格修复。

arXiv 推理数据/训练论文/研究

03:03

HuggingFace Daily Papers（社区热门论文）

对称兼容优化器设计原则

深度学习中，神经网络结构具有对称性，而主流优化器按坐标独立更新，两者存在不匹配。本研究提出对称兼容原则，要求优化器的梯度更新规则在相应参数块的对称群作用下保持等变性。基于此，研究为通用矩阵层提供了统一视角，并推导了适用于嵌入层、LM头、SwiGLU MLP投影矩阵及MoE路由器等不同对称性参数块的专用优化器，形成端到端的逐层优化器栈。实验表明，在稠密与稀疏MoE模型的预训练中，对称兼容更新相比AdamW一致提升了验证损失，并增强了训练稳定性。

arXiv 数据/训练论文/研究

03:03

Hugging Face：Blog（RSS）

OlmoEarth v1.1：更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族，将计算成本降低最多 3 倍，同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率（10m、20m、60m）的 token 合并为单个 token，大幅缩短输入序列长度，从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸，权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face 开源/仓库数据/训练模型发布

01:48

Google DeepMind：Blog（RSS）

加速遗传线索以逆转细胞衰老

生物学家利用Co-Scientist这一工具，成功发现能够使人类细胞年轻化的新型因子。该研究通过人工智能加速了遗传线索的探索过程，为逆转细胞衰老领域提供了新的关键因素。这一发现标志着利用技术手段干预生物老化进程取得了实质性进展。

数据/训练行业动态

5月19日

08:56

meng shao@shao__meng

Cursor发布最强模型Composer 2.5，与SpaceXAI合作启动Colossus 2算力训练

Cursor发布迄今最强模型Composer 2.5，仍基于Kimi K2.5。模型已与SpaceXAI合作，使用Colossus 2算力开始训练，并计划合作训练一个规模大10倍的全新模型。Composer 2.5在长任务推进、复杂指令遵循及协作自然度方面均有显著提升。关键创新包括：采用定向文本反馈强化学习解决长任务信用分配问题、使用25倍于前代的合成数据进行训练，以及通过Muon优化器与分布式正交化技术优化基础设施层。此外，模型还专门针对沟通风格和投入度校准等协作“软”维度进行了优化。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

数据/训练模型发布编码

08:00

HuggingFace Daily Papers（社区热门论文）

从感知到推理：解耦感知与推理以改进视觉-语言模型的后训练

本研究发现，视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足，而非推理能力。为此，研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段，并使用专门数据进行分阶段训练。实验证明，视觉感知需要针对性优化，应优先通过分阶段训练加以巩固，且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升，使模型推理准确率提高了1.5%，推理过程缩短了20.8%。在开放权重的视觉-语言模型中，该方法在WeMath和RealWorldQA等基准上取得了领先成绩，相比基础模型分别取得了5.2%和3.7%的性能提升。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

反思Muon在预训练之外：VLA和RLVR中的谱失效与高通补救

该研究指出，Muon优化器通过Newton-Schulz迭代进行统一谱白化，虽在LLM预训练中有效，但在两个新场景存在根本局限：在跨模态视觉-语言-动作训练中，低秩动作梯度会放大噪声尾部方向；在带可验证奖励的强化学习中，低信噪比梯度使得白化过程不稳定。为此，研究提出Pion作为替代方案，采用两阶段提升-抑制机制，形成高通谱效应，将主导奇异值锚定于1而抑制噪声分量，并支持按注意力头独立更新。实验表明，在LIBERO的VLA任务中，Pion在1500步训练后达到100%成功率，优于Muon的97.0%和AdamW的32.2%。在基于通义千问（Qwen3）的RLVR后训练中，Pion在MATH和GSM8K上优于AdamW，而Muon在此场景下会崩溃。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

人脑中的柏拉图表征：通用几何结构的无监督恢复

本研究基于强柏拉图表征假说，旨在探究人类大脑中是否存在类似人工神经网络的共享表征几何结构。团队利用自然场景数据集的fMRI数据，提出一种自监督编码器，从每个被试自身的脑数据中学习其专属的嵌入空间。研究发现，这些独立学习的空间可以通过无监督的正交旋转，在不同被试间实现直接转换，无需配对数据或中间模型。进一步将旋转同步到一个统一的共享空间后，跨被试的检索性能得到提升。结果为人类视觉皮层存在共享神经几何结构提供了证据，表明个体的fMRI表征在不同人之间近似等距，并可通过纯几何变换进行转换。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在类别不平衡的CT身体成分分割中，解耦采样策略与训练预算

针对医学图像分割中的类别不平衡问题，本研究将少样本学习中的情景采样引入全监督训练，以构建类别均衡的批次。研究在公开的SAROS数据集上，对比了情景采样、随机采样和加权采样在分割9种肌肉与脂肪组织时的表现。在低数据场景下，情景采样的平均Dice系数达到0.787，优于随机采样（0.758）和加权采样（0.762），主要原因是其训练迭代次数多出12倍。研究关键发现是，训练迭代预算本身是影响采样策略评估的重要混淆因素；情景采样能多训练约三倍的迭代次数才趋于稳定，表明类别均衡批次具有隐式正则化效应，为不平衡任务提供了一种低成本的通用策略。

arXiv 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Toto 2.0：时间序列预测进入规模扩展时代

时间序列基础模型Toto 2.0正式发布，这是一组五个开源权重的预测模型。研究表明，在400万至25亿参数范围内，采用统一训练方案的模型预测质量能持续可靠提升。该模型家族在三大预测基准测试中创下新纪录，包括其可观测性基准BOOM、通用基准GIFT-Eval以及抗污染的TIME基准。所有五个基础模型检查点均基于Apache 2.0协议开放发布。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

扩散对齐的拼接价值模型

StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战，通过将预训练的干净图像奖励模型（如CLIP ViT-L）与固定的扩散主干（如SD 3.5 Medium）轻量级地“拼接”起来。该框架的核心创新在于，使奖励模型能够直接处理噪声潜在值，从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效，仅需约10个GPU小时。实验表明，StitchVM显著提升了下游方法的效率，使DPS推理速度提升3.2倍、显存占用减半，并将DiffusionNFT加速2.3倍。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

思维轨迹：理解真实世界LLM交互中的用户思维

本文发布了首个大规模数据集ThoughtTrace，该数据集首次将真实世界的人机多轮对话与用户的自述思维（即发送提示的原因和对助手回复的反应）进行配对。数据集包含来自20个语言模型的1058名用户、2155段对话及10174条思维标注。分析表明，这些思维捕捉了长周期、主题多样的交互，且与消息本身语义不同，前沿LLM难以从对话中准确推断。研究证实，思维数据可用于改进推理时的用户行为预测，并通过思维引导的改写为个性化助手训练提供细粒度对齐信号，为人机交互的深层认知研究与构建更懂用户的助手奠定了基础。

Hugging Face 数据/训练论文/研究

07:27

Nathan Lambert@natolambert

在线蒸馏有望成为后训练中的持久方法。涉及领域包括：指令微调（SFT/IFT） RLHF 直接偏好优化（DPO等） RLVR 在线蒸馏（OPD）新方法类别实属罕见！期待参与实践。

大佬观点数据/训练

06:04

Hacker News 热门（buzzing.cc 中文翻译）

联邦调查局希望购买覆盖全美的车牌识别系统

美国联邦调查局正寻求采购一项覆盖全美范围的自动车牌识别系统的访问权限。此举旨在大幅提升其全国性的车辆追踪与调查能力。该消息源自404媒体于2026年5月的报道，揭示了FBI的一项大规模数据监控采购意向。目前，该信息在科技社区引发了广泛讨论。

政策/监管数据/训练

05:13

SemiAnalysis@SemiAnalysis_

AI周期的独特性与实际回报获数据分析验证

SemiAnalysis在播客中探讨了本次AI周期是否真正不同于以往技术周期。团队基于分析认为，AI带来的回报是真实的，且呈现为与其他周期不同的结构性趋势。为验证此观点，他们在内部追踪了9个实际工作流程（包括公司研究、财报总结等）中的token消耗成本与人工劳动成本对比，通过具体数据表明AI的效率与经济价值。研究认为这一趋势已显现出区别于历史技术迭代的独特性与持续性。

数据/训练现象/趋势

02:09

elvis@omarsar0

Meta新系统双代理协同，自动设计超越Llama 3.2的神经架构

Meta提出AIRA系统，通过分离策略与实现的双代理架构，实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索，AIRA-Design专注低级机制实现。该系统在24小时计算预算内，于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明，在复杂任务中分离规划代理与实现代理能提升效能，此思路同样适用于流水线组装、查询规划等其他AI代理场景。

智能体 Meta 数据/训练论文/研究

00:52

Hugging Face：Blog（RSS）

精选67

NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型，可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层（to_q, to_k, to_v, to_out.0）和前馈层注入可训练适配器，冻结全部基座权重，在单个 80GB GPU 上即可完成参数高效微调，避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库，利用 92 个机器人操作视频训练集与 50 个 (prompt， image) 测试对进行微调，并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练，切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由：这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了，做机器人合成数据的同行可以直接抄作业，LoRA/DoRA切换也很方便，值得收藏。

5月18日

23:45

IT之家（RSS）

何小鹏：小鹏 Robotaxi 将在广州开启示范运营

小鹏汽车首台前装量产的Robotaxi于广州工厂下线，计划未来数月内在广州启动示范运营。该车型基于旗舰平台GX打造，搭载4颗自研图灵AI芯片，算力达3000TOPS，为全球车端最高，并配备第二代VLA大模型以实现L4级自动驾驶。今年1月，小鹏已获广州智能网联汽车道路测试许可；3月成立Robotaxi业务部。车内提供隐私玻璃、重力座椅及后排娱乐屏等智能座舱体验。

产品更新具身智能数据/训练

23:34

Hacker News 热门（buzzing.cc 中文翻译）

精选80

AI 席卷全球（2026年春季）【pdf】

一份题为《AI席卷全球（2026年春季）》的行业报告于2026年5月发布，并在Hacker News平台引发热议，获得100个点赞。报告聚焦于2026年春季人工智能技术与应用的全球性扩散与影响，暗示AI已从技术议题演变为全面重塑各领域的核心驱动力。

大佬观点数据/训练

推荐理由：Evans 的年度报告是科技圈的风口风向标，今年 AI 渗透率的数据比去年翻了一倍，不看这 200 页 PPT 就不知道明年该押注哪里。

13:03

Hacker News 热门（buzzing.cc 中文翻译）

自我提炼助力持续学习【PDF】

研究发现自我蒸馏技术能够有效提升机器学习模型的持续学习能力。该论文提出，通过模型自身的输出来指导其训练过程，可以在学习新任务时显著减轻对旧知识的遗忘问题。实验表明，这种方法在多个基准测试中提升了模型在连续任务序列上的性能稳定性。研究为解决机器学习中的灾难性遗忘问题提供了一种新的思路。

数据/训练论文/研究

09:54

Berryxia.AI@berryxia

xAI算法开源深度解析，专家创建完整源码wiki

xAI算法开源后，专家岚叔@LufzzLiz深入研究了xai-org/x-algorithm仓库源码，使用Opus-4.7创建了带有明确源码出处的完整wiki。这与引用推文所指出的现状形成对比：市面上95%的分析是AI批量生产的同质化废话，缺乏对源码的真正理解。岚叔的工作提供了有价值的算法拆解，GitHub仓库和在线阅读地址已公开。

Berryxia.AI: xAI 算法开源后,解读内容铺天盖地。我敢说一句颠覆多数人认知的实话: 市面上 95% 的分析,是 AI 批量生产的同质化废话, 连源码文件名都没翻过一次。「多互动」「多发帖」「账号要垂直」这种谁都会说的话,说了等于没说。真正藏在 ...

GitHub xAI 开源/仓库教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

See What I Mean：对齐视觉与语言表示以实现视频细粒度对象理解

本文提出SWIM（See What I Mean）训练策略，旨在使模型仅通过文本提示即可实现细粒度对象理解，无需显式的视觉提示（如掩码或点）。研究分析发现，预训练多模态大语言模型（MLLMs）的跨模态注意力存在系统性偏差：属性词在视觉模态产生清晰、局部的激活，而物体名词的模式则较为弥散。为解决此问题，研究构建了NL-Refer数据集。SWIM通过提取物体名词的多层交叉注意力图并与真实掩码进行空间一致性约束。实验表明，该方法显著提升了文本-视觉对齐，在相关基准测试上优于基于视觉提示的方法。代码与数据已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HINT-SD：针对长期智能体的定向事后知识蒸馏

使用强化学习训练长期LLM智能体面临稀疏奖励挑战，现有反馈方法存在效率低或监督错位问题。本研究提出HINT-SD框架，通过全轨迹事后分析，仅针对导致失败的关键动作区间进行基于反馈的知识蒸馏。实验显示，该方法在BFCL v3和AppWorld基准上相比每轮密集反馈基线最高提升18.80%，同时将每步训练时间降低至1/2.26。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

使用代理指标预测大型语言模型的下游性能

本研究提出了一种通过聚合模型在专家解答上的token级统计量（如熵、top-k准确率、专家token排名）来构建代理指标的方法，旨在替代传统的交叉熵损失和昂贵的下游评估。该方法在三个核心任务中表现突出：在跨架构模型选择中，其性能排名与真实下游表现高度一致；在预训练数据选择中，能以极低的计算成本可靠评估大量候选语料库；在训练过程中，能以远低于现有方法的误差进行下游准确率的长期外推预测。这表明，分析模型对专家知识的token分布是评估其能力的有效信号，能贯穿模型开发全周期，实现可靠、高效的性能预测。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过变分策略蒸馏从语言反馈中学习

针对强化学习从可验证奖励中面临探索瓶颈及现有自蒸馏方法依赖固定教师导致学习停滞的问题，研究提出了变分策略蒸馏框架。该框架将语言反馈学习形式化为变分期望最大化问题，实现教师与学生策略的协同进化：在E步通过自适应信任域更新动态改进教师策略，将文本反馈转化为目标令牌分布；在M步让学生策略内化该分布指导。在科学推理与代码生成任务上的实验表明，该方法在各类诊断性反馈下持续优于标准强化学习与现有自蒸馏基线。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

迷失在折中：交叉验证并非深度集成

本研究指出医学图像分割领域常将K折交叉验证（CV）集成误称为“深度集成”（DE），这种术语混淆影响了不确定性的正确解读。研究在三个模态数据集上对比了5折CV集成与5成员DE，发现DE在保持分割精度的同时，能提升模型校准性与故障检测能力；而CV集成则更能反映标注者间的变异性。因此，集成方法的选择应与目标匹配：追求可靠性的任务（如选择性转诊）宜用DE，对数据模糊性建模则适用CV集成。文章还提供了轻量级修改nnU-Net的方法以支持DE训练。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAGA：一种用于多时间概率预测的序列自适应生成架构与自适应时序保形预测

SAGA是一种基于解码器专用Transformer的序列自适应生成模型，专为处理不规则表格面板数据的时序预测而设计。它结合分割保形校准方法，为个体提供具有有限样本覆盖率保证的预测区间。模型使用瑞典1990年至2022年的纵向登记数据训练，涵盖超214万个体与6100万人次年记录，可预测未来1至30年的年度劳动收入，并通过蒙特卡洛方法聚合为折现终身收入分布。相比传统参数化过程及基线模型，SAGA在十年期预测的连续排序概率评分降低31.9%，二十年期平均绝对误差降低37.7%。其保形区间覆盖率误差不超过0.4个百分点，重构的终身收入基尼系数为0.327，接近实际值0.341，优于GKOS估计的0.378。相关模型与数据已公开以供复现。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向统一多模态模型的语义生成调优

为解决统一多模态模型中视觉理解与生成任务训练脱节的问题，本文首次系统性地探索了生成式后训练方法，并提出“语义生成调优”范式。研究发现，以图像分割为代表的高层语义任务，可作为有效的生成代理，显著弥合理解与生成之间的隔阂；而低层纹理任务反而会干扰模型。该方法通过分割任务生成结构化语义，来对齐和协同多模态能力。机制分析表明，SGT能提升特征线性可分性并优化注意力分配。实验显示，SGT在主流基准测试中持续提高了模型的多模态理解能力与生成保真度。

arXiv 多模态数据/训练论文/研究