5月16日

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选66

Codex 能够帮助数据科学团队根据实际工作输入，自动化生成根本原因简报、影响报告、关键绩效指标备忘录、范围分析以及仪表板规格文档。该工具将自然语言描述转化为结构化分析框架，提升了从数据查询到报告生成的工作流效率，使团队能更快速地将业务问题转化为可执行的数据分析方案。

OpenAI 教程/实践数据/训练

推荐理由：OpenAI Academy 手把手教数据科学团队用 Codex 产出分析报告，prompt 模板可以直接抄，但作为教程新信息不多，适合 Codex 用户按需参考。

11:14

Google DeepMind：Blog（RSS）

WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆

WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量，帮助牙买加等地成功应对了这场历史性的飓风事件，显著增强了灾害预警的时效性。

DeepMind Google 数据/训练现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

动态谱整形视角下的DynMuon优化方法

DynMuon是一种用于高效训练大模型的动态谱整形优化方法。它改进了Muon算法，将更新矩阵从极分解形式UΣV^top调整为UΣ^p V^top。其核心创新在于，训练过程中将谱调整参数p从正值动态调度为轻微负值。此设计基于对损失曲率、梯度噪声和训练阶段的理论分析：早期使用p>0强调高曲率方向以加速收敛；后期转为轻微负p值，将更新强度重新分配给仍含有效信号的低曲率方向。实验表明，该方法在各类设置下均优于Muon，达到相同目标损失所需步数可减少10.6%-26.5%。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

强化学习中可验证奖励语言模型的不可学习现象

研究发现，可验证奖励强化学习虽能提升语言模型的推理能力，但存在一种反直觉现象：在模型初始难以处理的困难样本中，有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析，研究揭示了不可学习样本的根本性表征缺陷，其特征是与其他样本梯度相似性低且推理模式难以泛化，而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象，并指出当前强化学习方法在推理任务上存在根本性局限。

arXiv GitHub 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

E-PMQ：基于合并权重锚定的专家指导后合并量化框架

针对模型量化与合并结合时，量化偏差与合并偏差相互耦合导致性能下降的难题，本文提出了E-PMQ框架。该框架在逐层校准过程中，利用源模型的权重提供专家指导的输出目标，并引入合并权重锚定机制以稳定校准过程，从而有效整合合并模型的行为。实验结果表明，E-PMQ显著提升了量化后模型的性能：在CLIP-ViT-B/32的8任务合并中，4位GPTQ的准确率在Task Arithmetic和TIES-Merging方法下分别从65.0%和69.1%提升至73.6%和74.8%；在更具挑战性的20任务CLIP-ViT-L/14设置上，准确率从34.8%大幅跃升至76.7%。这证明了E-PMQ能够实现高效的后合并量化与低比特部署。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

即插即用、无需训练的LLM记忆模块NGM

本文提出NGM，一种无需训练、即插即用的记忆模块，旨在提升大语言模型的知识检索效率。它包含因果N元组编码器与余弦门控记忆注入器，直接利用模型预训练词嵌入构建N元组表示，无需额外训练或检索步骤。在Qwen3系列模型的多项基准测试中，NGM平均提升性能0.5至1.2分，在代码生成与知识密集型任务中效果尤为显著（如LiveCodeBench提升3.0分，GPQA提升3.03分），并在多模态任务中也带来性能增益。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MixSD：混合上下文的自蒸馏知识注入方法

为解决监督微调（SFT）导致语言模型灾难性遗忘的问题，本文提出了MixSD方法。该方法无需外部教师模型，通过动态混合基础模型自身的“专家条件”（基于注入的事实）和“朴素条件”（模型原有先验）的token来构造监督信号，使训练目标更贴合模型原生分布。在合成数据集与开放域问答基准的实验表明，MixSD在多个模型规模下均优于SFT和自蒸馏基线，能近乎完美地保留基础模型全部未保持能力（高达100%），而标准SFT仅能保留低至1%。该方法降低了监督目标的困惑度（NLL），减少了在Fisher敏感参数方向上的有害更新，为知识注入提供了分布对齐的有效原则。

数据/训练论文/研究

04:49

HuggingFace Daily Papers（社区热门论文）

为图像生成中的球面流匹配对齐潜在几何

研究提出一种球面流匹配方法，改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量，发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径，以高斯噪声的径向投影作为球面先验，冻结编码器微调解码器，并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上，速度目标纯由角度构成。在同等训练条件下，该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标，无需改变扩散架构，也不依赖辅助编码器或表示对齐目标。

图像生成数据/训练论文/研究

5月15日

23:49

HuggingFace Daily Papers（社区热门论文）

通过随机选取少样本指导提升带可验证奖励的强化学习

针对传统RLVR在难题上样本效率低的问题，研究团队提出了少样本演示指导的强化学习算法FEST。该方法仅需从监督微调数据集中随机选取128个演示样本，即可取得显著效果。其成功关键在于结合了监督信号与同策略信号，并通过对少样本SFT数据集设置衰减权重来防止多轮训练中的过拟合。在多个基准测试中，FEST以远少于基线方法所需的SFT数据量实现了更优性能，甚至在使用完整数据集时也能达到与之匹配的水平。

arXiv 数据/训练论文/研究

16:49

HuggingFace Daily Papers（社区热门论文）

FrontierSmith：大规模合成开放式编码问题

FrontierSmith 是一个自动化系统，能从现有封闭式编码任务中迭代演化出开放式问题。它通过改变问题目标、限制输出和泛化输入生成候选变体，并利用量化思维发散指标筛选能激发多元解法的问题，再由智能体生成测试用例与验证器。在两个开放式编码基准测试中，使用合成数据训练后，基础模型性能显著提升：Qwen3.5-9B 在 FrontierCS 上得分提高 +8.82，在 ALE-bench 上基于 Elo 评分的性能提升 +306.36；Qwen3.5-27B 分别提升 +12.12 和 +309.12。合成问题还使智能体进行更多轮次、消耗更多令牌，其特性与人工构建问题相似，表明封闭式问题种子可作为生成长视野编码数据的实用起点。

推理数据/训练编码论文/研究

12:49

HuggingFace Daily Papers（社区热门论文）

动态潜在路由

本文针对奖励函数时变的马尔可夫决策过程，提出了通用迪杰斯特拉搜索方法，证明了通过中间最优子策略的时间组合可恢复全局最优策略。受此启发，作者提出了动态潜在路由，这是一种语言模型后训练方法，能在单一训练阶段通过动态搜索联合学习离散潜在代码、路由策略和模型参数。在低数据微调场景下，该方法在四个数据集和六个模型上达到或超越了监督微调的性能，平均提升6.6个百分点，而先前的离散潜在基线方法则持续表现不佳。机理分析表明，该方法能学习具有不同因果角色的结构化路由行为。

推理数据/训练论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式，以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型，再沿学生自身采样轨迹将能力蒸馏至统一学生，从而解耦单任务探索与多任务整合。理论层面，研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程，推导出闭式逐步 KL 目标，通过均值匹配统一随机 SDE 与确定性 ODE 优化，其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明，DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线，并在全部评估基准上取得领先结果。

arXiv 多模态数据/训练论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

自蒸馏智能体强化学习

强化学习为LLM智能体后训练提供核心范式，但其轨迹级奖励信号对长程交互的监督较为粗略。针对多轮智能体应用策略自蒸馏时，存在多轮不稳定性加剧以及技能条件化特权指导处理不对称的问题。本文提出的SDAR方法将策略自蒸馏作为门控辅助目标，以强化学习为主要优化主干，通过Sigmoid门映射分离的令牌级信号，强化教师认可的正向差距令牌的蒸馏，并软衰减教师的负面拒绝。在多个基准上的实验表明，SDAR显著优于GRPO基线，避免了朴素混合方法的不稳定性，并在不同模型规模上持续超越混合基线。

智能体数据/训练论文/研究

09:48

HuggingFace Daily Papers（社区热门论文）

德国政治文本的意识形态倾向预测研究

研究提出一种基于Transformer的模型，可将德国政治文本的意识形态投射到连续的左-右光谱上（-1到1）。为筛选最优基础模型，团队构建了四个语料库：联邦议院记录、Wahl-O-Mat内容、33家报纸文章及535,200条议员推文。在13个候选模型中，DeBERTa-large在领域内测试获得最高F1分数（0.844），在推文跨域测试中准确率达0.864；Gemma2-2B在报纸跨域测试中表现最优（平均绝对误差0.172）。研究表明，Transformer模型识别德国新闻政治框架的能力可达民意调查水平，且模型架构与领域训练数据的影响可与模型规模相当。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Rule2DRC：基于执行引导测试生成的DRC脚本合成LLM智能体基准测试

为解决将自然语言设计规则转换为可执行DRC脚本过程中成本高、专业门槛高的问题，研究团队提出了Rule2DRC大规模基准测试集。该基准包含1,000个规则到脚本的映射任务及13,921个用于执行评分的芯片布局，并提供基于DRC执行结果的功能正确性评估流程，无需将评估布局作为智能体输入。同时，研究设计了SplitTester测试智能体，它利用执行反馈生成有区分性的测试用例，有效分离先前难以区分的候选脚本，显著提升了该领域中Best-of-N选择策略的性能，为相关研究与开发提供了重要工具。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向数据流的代理式大语言模型强化学习系统AstraFlow

为解决强化学习应用于代理式大语言模型时成本高、扩展难的问题，我们提出AstraFlow。该系统采用数据流导向的组件化架构，替代了传统以训练器为中心的控制模式，将服务、数据流与训练解耦为自治组件。这使系统能原生支持多策略协同训练，并高效利用弹性、异构的跨区域计算资源。在数学、编程、搜索等多类任务评估中，AstraFlow无需修改系统代码即可运行复杂工作负载。实验表明，在多策略协同训练下，它相比现有框架能达到相当或更好的任务准确率，并将训练速度提升2.7倍。

智能体数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

GRASP：基于多人非语言交互的社会推理学习

针对多模态大语言模型在多人视频中难以识别交互关系的问题，研究团队提出了GRASP数据集。该数据集包含29万个问答对，源自4.6万个视频共749小时，建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench，并提出社会情境奖励学习信号，利用这些细粒度事件引导模型推理交互参与者。实验表明，该方法提升了GRASP-Bench性能，并保持了在相关视频问答基准上的零样本能力。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

针对CLIP在微调时易因分布偏移而鲁棒性下降的问题，本文提出SAE-FT方法。该方法仅作用于视觉表征，利用稀疏自编码器识别预训练模型中的语义特征，并在微调中约束这些特征的变化，从而在防止灾难性遗忘的同时提升可解释性。实验表明，SAE-FT计算高效且透明，在ImageNet及相关分布偏移基准上达到或超越现有最优性能，代码已公开。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CM-EVS：用于完整场景覆盖的稀疏全景RGB-D-Pose数据

针对现有3D数据集存在的视图冗余与标注不一致等问题，本研究提出了COVER视角筛选方法。该方法无需训练，通过将多视角观测投影至等距柱状投影探针，以增量式覆盖评分与深度冲突惩罚，筛选出低冗余的稀疏视角。基于此方法，研究构建了CM-EVS数据集，包含来自1,275个室内场景的36,373帧精选全景帧，每帧提供全视角RGB、度量级深度及校准位姿。该数据集室内部分仅用中位25帧/场景即覆盖所有13种统一房间类型，实现了紧凑而完整的场景覆盖。实验表明，COVER方法优化了覆盖与冲突的权衡，使CM-EVS成为一个稀疏、紧凑、可审计的资源，适用于几何一致的全景3D学习。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

解锁视觉语言模型中的稠密度量深度估计

DepthVLM框架通过为大型语言模型主干附加轻量级深度头，并采用统一视觉-文本监督范式与两阶段训练策略，将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出，推理效率更高。实验表明，其性能显著超越现有视觉语言模型和领先的纯视觉模型，并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

三思而后行：大语言模型智能体的自主探索

研究指出，基于大语言模型的智能体常因过早利用先验知识而在陌生环境中失败，根源在于缺乏自主探索能力。为此，团队提出了可验证的度量标准“探索检查点覆盖率”，以量化智能体对环境关键要素的发现广度。评估发现，传统任务导向强化学习训练的智能体行为模式狭窄且重复。为解决此问题，研究提出一种交替进行任务执行与探索的训练策略，并设计了相应的可验证奖励。基于此，团队进一步提出“先探索后执行”范式，将信息收集与任务解决解耦。实验结果表明，系统性的探索学习对于构建可泛化、适应现实世界的智能体至关重要。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

智能体驱动的神经架构自主发现：AIRA-Compose与AIRA-Design

研究提出由LLM智能体自主设计基础模型的双框架。AIRA-Compose通过11个智能体在24小时内探索计算基元，评估百万参数候选架构并外推至更大规模，最终生成AIRAformer和AIRAhybrid两个系列共14个架构。在10亿参数预训练中，这些模型性能持续超越Llama 3.2等基线；下游任务准确率最高提升3.8%，扩展效率最高提升71%。AIRA-Design部署20个智能体编写新型注意力机制与训练脚本，其在长程依赖任务上的表现接近人类最优水平。这表明AI智能体已能自主发现匹配或超越人工设计的架构与优化算法。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

突破舒适区：面向RLVR的高效策略引导探索框架NudgeRL

强化学习与可验证奖励范式面临探索效率瓶颈。为此，研究团队提出NudgeRL框架，其核心是“策略助推”技术，通过为每次策略采样注入轻量级策略级上下文，引导模型产生多样化推理轨迹，无需依赖昂贵的外部监督。该框架进一步提出一个统一目标，将奖励分解为上下文间与上下文内组件，并通过蒸馏目标将有效行为迁移回基础策略。在五个高难度数学基准测试中，NudgeRL的表现优于标准GRPO方法，其效果相当于后者使用高达8倍采样预算的结果，且平均表现超过了依赖特权信息的Oracle引导基线，证明了结构化探索的高效性与可扩展性。

推理数据/训练论文/研究

推荐理由：NudgeRL 首次把结构化探索引入 RLVR，比 GRPO 节省 8 倍 rollout 预算，数学推理效果还更好。做 LLM 推理优化的团队，这篇值得复现。

02:31

Anthropic：Research（发表成果 · 网页）

精选58

2028年全球AI领导地位的两种情景

报告展望2028年中美AI竞争的两种前景。若美国及盟友维持并扩大在关键计算芯片上的优势，通过加强出口管制、遏制技术窃取并加速AI应用，民主国家可确立12-24个月的技术领先，主导AI规则制定。反之，若政策松动，中国可能借助人才优势、利用管制漏洞迅速逼近甚至反超，使威权政权获得大规模自动化压制能力。当前民主国家在计算领域优势显著，但窗口期有限，需立即行动锁定胜局。

Anthropic 安全/对齐政策/监管数据/训练

推荐理由：Anthropic直接下场画了两张2028中美AI路线图，核心就一句话——不堵死漏洞，中国的蒸馏攻击和芯片走私会让美国优势两年内消失。虽然是政策游说稿，但数据扎实，想理解AI地缘政治的必读。

00:46

HuggingFace Daily Papers（社区热门论文）

IndicMedDialog：一个面向印度语言可及医疗服务的平行多轮医疗对话数据集

研究团队发布了IndicMedDialog平行多轮医疗对话数据集，涵盖英语及九种印度语言。该数据集基于MDDial扩展，利用大语言模型生成合成咨询对话，经翻译、母语者验证及脚本感知后处理流程修正错误。基于此，团队对量化小模型进行参数高效微调，得到IndicMedLM模型，可结合患者预上下文实现个性化症状询问。评估表明，该模型优于零样本多语言基线，系统错误分析和医学专家评估均验证了其临床合理性。

数据/训练论文/研究

5月14日

23:15

The Decoder：AI News（RSS）

包括字节跳动在内的约十家中国公司据称获美国AI芯片许可，但被禁止接收

美国已批准阿里巴巴、腾讯、字节跳动等约十家中国公司，每家公司可购买最多7.5万颗英伟达H200 AI芯片。然而，至今没有一颗芯片完成交付。美国商务部长卢特尼克指出，中方为保护国内芯片产业，正在阻止这些采购交易。这一情况使得获批的许可在实质上无法执行。

政策/监管数据/训练

16:46

HuggingFace Daily Papers（社区热门论文）

FrameSkip：在视觉-语言-动作模型训练中从更少但信息量更大的帧中学习

针对视觉-语言-动作模型训练中密集轨迹数据存在的时间监督不平衡问题，研究团队提出了FrameSkip数据层帧选择框架。该框架通过动作变化、视觉-动作一致性、任务进度先验和夹爪状态转换等指标对帧进行评分，并在目标保留率下将训练样本重新映射至高重要性帧。FrameSkip仅作用于数据加载器，无需改变模型架构或训练目标。在三个基准测试中，其主要设定保留20%的唯一帧，宏观平均成功率达到了76.15%，优于全帧训练的66.50%，在成功率与数据保留率之间取得了更优的权衡。

具身智能数据/训练论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

高效训练长上下文视觉语言模型及其超越128K的泛化能力

本研究系统性地探索了长上下文视觉语言模型的持续预训练方法，成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括：长文档视觉问答数据优于OCR转录；均衡的序列长度分布数据比仅聚焦目标长度的数据更有效；检索能力是主要瓶颈，需搭配检索密集型数据。基于此，团队以仅50亿token的预算，从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%，并在未经额外训练的情况下，在256K和512K的上下文长度上保持强劲性能，同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。

多模态开源生态数据/训练论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

长上下文窗口下的思维链上下文学习研究：从检索缓冲到结构化课程

研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现，增加思维链示例数量主要惠及推理导向模型，而对非推理模型效果不稳定；基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效；示例顺序影响显著，性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习，并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法，在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。

arXiv 推理数据/训练论文/研究

09:45

HuggingFace Daily Papers（社区热门论文）

频率偏差与分布外泛化：变系数波动方程下的神经算子研究

本研究通过一维变系数波动方程，探究了傅里叶神经算子与深度算子网络在结构化分布变化下的泛化能力。在输入频率与系数平滑度独立变化的分布外设定中，两种模型对平滑度变化均表现稳定，且FNO误差更低。然而，面对输入频率变化时，FNO在未见高频数据上误差急剧上升，而DeepONet虽整体误差较高，性能下降却更平缓。分析表明，该差异源于两者对频率结构的表示与响应机制不同。结果揭示了神经算子在分布内高性能与分布外泛化间存在根本差距，凸显了架构表示偏差对于开发更可靠、适用于训练分布外物理模拟的神经算子的关键影响。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过字节级模拟解耦子词分词在语言模型训练中的优势

该研究通过构建受控的字节级预训练流程，系统性地隔离并分析了子词分词技术对大语言模型训练效率与性能的具体贡献。实验在样本吞吐量、词表规模扩展以及子词边界的语言学先验等多个维度进行假设检验。研究发现，子词分词模型相较于原始字节模型的性能优势，主要源于训练吞吐量的显著提升，以及将子词边界作为显式先验或归纳偏置的有效整合。这些结论为未来优化字节级与子词级模型的预训练方法提供了关键见解。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Video2GUI：为通用GUI智能体预训练合成大规模交互轨迹

Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹，构建了包含1200万条轨迹的WildGUI数据集，覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后，GUI定位和行动基准测试性能提升5-20%，达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。

多模态开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TopoPrimer：预测模型缺失的拓扑上下文

TopoPrimer是一个将时间序列群体的全局拓扑结构作为显式输入来提升预测模型性能的框架。它通过持久同调与谱束坐标进行一次性的预计算，可作为全训练模型的输入或预训练骨干的轻量化适配器。在多个基准测试中，TopoPrimer显著提升了预测精度，在ECL数据集上最高实现7.3%的MSE改善；它在季节性需求高峰期将模型误差控制在10%以内（传统模型误差增幅达50%），并在无历史数据的冷启动场景中，较无拓扑基线降低了27%的MAE。研究表明，拓扑信号与单序列训练具有互补性，能持续稳定地带来精度增益。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FINESSE-Bench：面向大语言模型的金融领域知识与技术分析层级基准测试套件

针对现有金融基准测试在评估大语言模型（LLM）专业能力上的局限性，研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA（特许金融分析师）等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现，并提出了基于LLM-as-Judge范式的自动化评分方案，为实质性评估LLM的金融专业能力提供了新工具。

Hugging Face 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EndPrompt：通过末端锚定高效扩展长上下文

传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练，计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文，其核心是将原始短上下文作为第一段，附加一个简短的末端提示作为第二段，并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离，同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式，表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时，EndPrompt在LongBench上平均得分最高（76.03），超越LCEG、LongLoRA等方法，且计算量更少，证明长上下文泛化可从稀疏位置监督诱导，挑战了密集训练的必要假设。

arXiv 开源/仓库推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

几何引导的隐状态替换：扩散应从何处进入语言模型？

针对扩散语言模型效果不及自回归模型的问题，本文提出DiHAL混合架构。其核心在于利用几何度量评估Transformer各层，确定最适合进行扩散干预的隐藏状态接口。该方法在选中层以下用扩散桥替换前缀，同时保留上层结构，通过重建隐藏状态而非直接处理离散token，避免了连续到离散转换的困难。实验表明，几何分数能有效预测浅层插入点，且隐状态恢复在匹配训练预算下优于连续扩散基线，为在预训练模型中定位可行的扩散替换位置提供了依据。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysBrain 1.0 技术报告

针对机器人轨迹数据在构建物理常识上的局限性，PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎，从大规模人类第一视角视频中提取结构化的物理常识，用于训练视觉语言模型。随后，通过一种保持能力且语言敏感的适配设计，将这些物理先验知识迁移到视觉语言-动作策略中。实验表明，在多项具身控制基准测试上，PhysBrain 1.0 均达到当前最优水平，尤其在跨域任务中展现出强大性能。

具身智能多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Learning from Failures：基于可验证奖励的纠错导向策略优化

研究提出了一种名为纠错导向策略优化的新方法，用于增强大型语言模型的推理能力。该方法将训练中产生的失败轨迹自动转化为纠错样本，并与标准的可验证奖励强化学习目标联合优化。在涵盖数学推理和代码生成的11个基准测试中，该方法在推理和纠错性能上均显著超越现有基线。实验表明，该方法能提升模型的内在推理能力，而不仅仅是重新分配已有正确答案的概率质量，具体体现在更强的pass@K增益上。

推理数据/训练论文/研究

02:44

HuggingFace Daily Papers（社区热门论文）

精选73

解决循环：语言和推理的吸引子模型

吸引子模型解决了循环Transformer训练不稳定、成本高和深度固定的问题。它通过主干模块生成初始输出嵌入，吸引子模块迭代优化固定点，并利用隐式微分计算梯度，使训练内存与有效深度无关，迭代次数自适应收敛。在语言建模中，相比标准Transformer，困惑度最高降低46.6%，下游任务准确率最高提升19.7%，训练成本更低；一个770M参数的模型性能优于1.3B参数Transformer。在推理任务中，仅2700万参数模型在约1000个示例下，于Sudoku-Extreme和Maze-Hard上准确率分别达91.4%和93.1%，优于Claude、GPT o3等前沿模型。模型还展现出均衡内化现象，训练后初始输出嵌入接近均衡态，推理时可移除求解器而性能几乎无损，实现了迭代优化的可扩展性。

推理数据/训练论文/研究

推荐理由：这可能是要改写语言模型训练范式的架构，把迭代推理变成可学习的固定点，770M 性能超 1.3B Transformer，27M 小模型解数独秒杀 Claude、GPT o3。最反直觉的是，训练后模型能内化迭代过程，推理时直接一步到位。

01:44

HuggingFace Daily Papers（社区热门论文）

快与慢的学习：面向持续适应的大语言模型

研究团队提出一种面向大语言模型的快慢学习框架，将模型参数视为“慢”权重，优化的上下文视为“快”权重。该框架结合了参数更新与上下文学习的优势：快权重通过文本反馈快速吸收任务特定信息，而慢权重则保持接近基础模型以维护通用推理能力。在推理任务中，该方法比仅使用慢学习（如强化学习）的样本效率高出3倍，且达到更高性能上限。同时，训练后的模型更接近基础模型（KL散度降低达70%），显著缓解了灾难性遗忘，并保持了模型的可塑性，使其在持续学习场景中能更有效地适应后续新任务。

推理数据/训练论文/研究