5月7日
21:08
The Decoder:AI News(RSS)
52
AI模型在首先学习其价值观为何重要时能更好地遵循这些价值观

Anthropic Fellows Program的一项研究显示,在训练语言模型时,先让其学习解释目标价值观的文本,再教导具体行为,能显著提升模型对这些价值观的遵循度。这种方法使模型即使在训练中从未遇到的情境下,也能更好地坚持价值观,体现了训练顺序对AI行为对齐的关键影响。研究强调了价值观理解前置在提升模型可靠性和一致性方面的潜力。

Anthropic安全/对齐论文/研究
18:22
HuggingFace Daily Papers(社区热门论文)
64
何时思考,何时输出:学习大语言模型推理的披露策略

针对单流自回归接口中“思考”与“输出”耦合导致的“沉默税”问题,本研究提出了“并排交错推理”方法。它将披露时机转化为可控决策,允许模型在同一上下文中交错进行私有推理和部分内容披露,仅当推理充分支持时才释放内容。通过构建蕴含对齐的交错轨迹进行监督微调,并结合强化学习恢复推理性能。在Qwen3系列模型上的实验表明,该方法在AIME25和GPQA-Diamond基准测试中,有效改善了准确性、内容产出与延迟之间的帕累托权衡。

arXiv推理论文/研究部署/工程
16:16
IT之家(RSS)
52
清华大学研发出全新锂硫电池:能量密度 549Wh/kg,无人机续航有望大提升

清华大学深圳国际研究生院周光敏团队在《自然》发表研究,提出硫电化学“预分子介体”新策略。团队利用量子化学与机器学习,从196种候选分子中筛选出“4-三氟甲基-2-氯嘧啶”。该分子可在电池反应中被原位激活,重塑硫转化路径,将电荷转移阻抗降低75%,并使电池在1C倍率下稳定循环800圈后容量保持率达81.7%。制备的软包电池能量密度达549Wh/kg,在高硫载、贫电解液条件下性能优越,有望大幅提升无人机等设备的续航能力。

数据/训练论文/研究
15:16
IT之家(RSS)
65
腾讯开源 OpenSearch-VL,突破多模态搜索 AI 智能体训练瓶颈

腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案,旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道,通过维基百科路径采样与模糊实体重写等技术,产出高质量数据集,抑制检索捷径,鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示,其模型将基线平均得分从47.8显著提升至61.6。

智能体多模态搜索论文/研究
14:16
IT之家(RSS)
62
全球首发,三星 Galaxy Watch 手表实现提前预测晕厥

三星与韩国中央大学光明医院的联合临床研究证实,Galaxy Watch 6能高精度预测血管迷走性晕厥。该研究对132名疑似患者进行评估,利用手表的光电容积脉搏波描记法传感器和AI算法分析心率变异性数据,建立的模型可提前5分钟预测晕厥事件,准确率达84.6%。该成果已发表于《European Heart Journal – Digital Health》,是全球首次证明商用智能手表具备此潜力,提前预警有助于患者采取安全措施,减少摔倒导致的继发性损伤。

端侧论文/研究
13:22
HuggingFace Daily Papers(社区热门论文)
精选76
OpenSearch-VL:前沿多模态搜索智能体的开源方案

研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。

智能体arXiv多模态论文/研究

推荐理由:把多模态搜索 agent 的完整训练配方开源了,数据、环境、算法全都有,七个基准平均涨 10 点,直接对标商业模型,做深度搜索的同学可以无脑跟。
12:22
HuggingFace Daily Papers(社区热门论文)
58
基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈,研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现,采用预选择策略修剪冗余上下文,并通过动态查询分组机制,将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集,团队构建了LIVEditor模型。实验表明,该模型在注意力模块延迟降低约60%的同时,在多个评测基准上超越现有先进方法,实现了近无损加速并保持了视觉保真度。

arXiv多模态视频论文/研究
12:22
HuggingFace Daily Papers(社区热门论文)
61
Stream-T1:面向流式视频生成的测试时缩放框架

针对流式视频生成中候选探索成本高、缺乏时序引导的问题,研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元:流式缩放噪声传播利用历史高质量块噪声优化当前生成,建立时序依赖;流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估,平衡局部空间美学与全局时间连贯性;流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中,Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量,同时大幅降低了计算开销。

arXiv推理论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
59
PhysForge:为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈,现有方法多忽视功能性。本文提出PhysForge,一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段,视觉语言模型担任“物理架构师”,规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段,基于物理的扩散模型通过新颖的运动体素注入机制,合成高保真几何与精确运动学参数。实验证明,PhysForge能生成功能合理、可直接仿真的资产,为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv具身智能多模态数据/训练
11:04
Hacker News 热门(buzzing.cc 中文翻译)
65
学习扩散模型的积分

研究人员发布了学习扩散模型积分的新方法,称为Flow Maps,该技术通过数学积分优化扩散过程的概率流,提升生成AI模型的采样效率和图像质量。在Hacker News上获得102点,显示科技社区的高度关注。这一进展可能降低扩散模型的计算成本,推动其在图像生成等领域的实际应用,为生成模型训练提供更高效的解决方案。

图像生成论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
51
StableI2I:识别图像转换中的非预期变化

针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。

图像生成论文/研究评测/基准
10:22
HuggingFace Daily Papers(社区热门论文)
64
D-OPSD:基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究
08:30
Apple Machine Learning Research(RSS)
精选63
Normalizing Flows with Iterative Denoising

研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由:Normalizing Flows 这个老方法被苹果玩出新花样,iTARFlow 在训练上保留端到端似然,采样却自回归,给做生成模型的人提供了扩散模型之外的第二个靠谱选择。
08:30
Apple Machine Learning Research(RSS)
精选64
SpecMD: 关于推测性专家预取的综合研究

研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由:MoE推理的缓存策略一直靠经验摸,Apple给的标准化框架能系统比较不同策略,做分布式推理的可以省些心力。
08:00
HuggingFace Daily Papers(社区热门论文)
54
激活引导的不可满射性

本文研究了大型语言模型中的激活引导技术。这是一种白盒控制方法,通过修改模型内部激活来改变其抽象行为,广泛应用于可解释性与安全研究。核心理论发现证明,引导操作会将模型的残差流推离可通过自然文本提示所能到达的状态流形;几乎不存在任何提示能完全复现引导所产生的内部行为。这一结论在三个主流LLM上得到实证支持。因此,研究在白盒引导能力与黑盒提示能力之间建立了形式化分离,并强调不应将激活引导的有效性视为基于提示的可解释性或漏洞的证据,呼吁未来评估需明确区分这两类干预机制。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MobileEgo Anywhere:基于通用硬件的长时程自我中心数据开放基础设施

为解决VLA模型对长时程自我中心数据的需求与现有短时程数据集之间的矛盾,本文提出MobileEgo Anywhere框架。该框架利用智能手机传感器实现高精度位姿追踪,降低了数据采集的硬件门槛。主要贡献包括:发布了一个包含200小时多样化长时程轨迹的数据集,开源了移动数据采集应用,并提供了将原始数据转换为标准训练格式的完整处理流程。这实现了跨全球环境的大规模长时程数据获取,为机器人策略研究提供了关键数据支持。

arXiv具身智能开源生态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
52
使用灯塔注意力进行长上下文预训练

为克服因果变换器在超长序列训练中因SDPA注意力二次复杂度导致的计算瓶颈,研究团队提出了一种仅用于训练、可移除的新型注意力机制——灯塔注意力。该方法通过亚二次复杂度的序列自适应压缩/解压缩预处理、能并行处理查询/键/值的对称压缩策略,以及“灯塔预训练+短期完整注意力恢复”的两阶段流程,在保持因果性的同时提升效率。初步小规模LLM预训练实验表明,该方法在相同设置下能实现更快的总训练时间,并在恢复阶段后获得更低的最终损失。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
STALE:LLM智能体能知道自己的记忆何时失效吗?

研究揭示了LLM智能体长期记忆中的“隐性冲突”缺陷,即新证据在不明确否定的情况下使旧记忆失效。为此,研究者构建了STALE基准,包含400个冲突场景与1200个查询,从状态解析、前提抵抗和隐性策略适应三个维度进行评估。系统测试表明,前沿模型在根据更新证据行动上存在普遍差距,最佳模型准确率仅55.2%。研究进一步提出了CUPMem原型,通过结构化状态整合加强写入时修订,为构建状态感知的鲁棒记忆提供了初步基线。

智能体推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
56
专家联盟:面向大语言模型的高通信效率分布式推理架构

针对混合专家模型分布式推理中专家间通信开销巨大的问题,本研究提出“专家联盟”架构。该架构将Transformer层的MoE模块重组为多个MoE集群,每个集群仅负责一个键值头并在内部应用专家并行。集群间通过对注意力后残差求和来同步信息,驱动下一MoE块的路由。在单节点设置中,该方案完全消除了GPU间的全对全通信;在多节点设置中,则将此类通信限制在节点内部,大幅降低开销。在LongBench上的实现表明,该架构显著提升了单节点与多节点环境下的推理吞吐量与延迟,端到端前向传播延迟最高降低5.2倍,同时保持了与同规模MoE模型相当的生成质量。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
58
SafeHarbor:用于LLM智能体安全的分层记忆增强护栏

为应对LLM智能体工具使用能力增强带来的安全风险,研究团队提出了SafeHarbor框架。该框架通过增强对抗生成提取上下文感知的防御规则,并设计了本地分层记忆系统进行动态规则注入,提供无需训练、高效即插即用的安全解决方案。其基于信息熵的自进化机制能通过动态节点分裂与合并持续优化记忆结构。实验表明,SafeHarbor在模糊良性任务和明确恶意攻击上均达到最优性能,在GPT-4o上实现了63.6%的峰值良性效用,同时对有害请求保持超过93%的拒绝率。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
高效预训练:令牌叠加训练法

研究团队提出令牌叠加训练法,这是一种即插即用的高效预训练方法。该方法无需改动模型架构、并行策略等核心组件,通过将连续令牌合并为包并进行多热交叉熵目标训练,随后恢复标准训练的两阶段设计,显著提升了数据吞吐效率。在2.7亿至100亿参数的不同模型规模上验证表明,该方法具有高度鲁棒性,能持续优于基线模型的损失表现与下游任务结果。在同等损失条件下,该方法在100亿参数规模上实现了预训练总时间最多减少2.5倍的成效。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
Relit-LiVE:通过联合学习环境视频实现视频重照明

Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于,将原始参考图像显式引入渲染过程,以恢复固有表示中丢失的关键场景信息;同时,通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图,增强了几何-光照对齐性,显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明,该方法在合成与真实场景基准测试中均优于现有先进方法,并支持场景渲染、材质编辑等下游应用。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
67
Conformal Agent Error Attribution

针对基于大语言模型的多智能体系统因交互轨迹长而难以定位错误的问题,研究者提出一个基于保形预测的误差归因框架。该框架提供有限样本且与分布无关的覆盖保证,并引入了专为序列数据设计的新算法,能预测出连续的序列集合以支持高效的系统回滚与调试。方法具有模型无关性,经多种智能体和数据集验证,可精确隔离错误并利用预测集使多智能体系统回滚至早期状态以自行修正错误。相关代码已开源。

智能体MCP/工具开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
信念空间动力学中可容许学习率步长的闭形式上界

研究将学习率步长从超参数提升为可计算量。在概率单纯形上,当更新被建模为投影前向步时,可容许性意味着在自然KL/Bregman几何中的收缩性。该模型表明,可容许步长的上界并非调参口号,而是一个明确的闭形公式。这一成果为优化算法提供了基于几何结构的理论步长界限,将步长选择从经验调优转向可计算的局部信念空间动力学。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
无需训练的多模态大语言模型密集手部接触估计方法

针对密集手部接触估计任务,本文提出了一种无需训练、零样本的方法ContactPrompt,以利用多模态大语言模型(MLLMs)的推理能力。该方法通过引入详细的手部分割和基于部分的顶点网格表示,有效编码了3D手部几何结构。同时,采用多阶段结构化接触推理与部分条件化机制,逐步融合全局语义理解与细粒度几何分析,从而实现精确的顶点级接触定位。实验表明,该方法在无需任何训练的情况下,性能优于此前基于大规模数据集训练的有监督方法,展现了MLLMs处理复杂视觉任务的潜力。代码将公开。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
X-OmniClaw技术报告:一个用于多模态理解与交互的统一移动智能体

本文介绍了X-OmniClaw,这是一个为安卓系统设计的统一移动智能体,旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块:Omni Perception提供统一的多模态输入管道,整合UI状态、视觉上下文与语音,并分解为结构化意图表示;Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆,以增强个性化与上下文感知;Omni Action采用结合XML元数据与视觉感知的混合落地策略,通过行为克隆与轨迹回放捕获用户导航技能,实现精确的直接访问执行。多场景演示表明,该系统能有效提升交互效率与任务可靠性,为下一代移动原生个人助手提供了实用蓝图。

智能体arXiv多模态端侧
08:00
HuggingFace Daily Papers(社区热门论文)
53
揭示多模态知识编辑中的实体身份混淆现象

多模态知识编辑旨在修正视觉语言模型的知识,但编辑后模型会出现“实体身份混淆”的系统性故障:仅文本查询时,会将原实体身份错误关联到新实体。研究构建了诊断基准EC-Bench,发现现有方法未能区分模型的图像-实体绑定知识与实体-关系知识,导致模型过度依赖实体关联作为捷径,使新实体名成为虚假标签。实验表明,将编辑限制在图像-实体处理阶段,能促使编辑更忠实作用于图像绑定,从而显著减少身份混淆。这为未来研究提供了方法论指导。

多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
PACEvolve++:改进进化搜索代理的测试时学习

研究提出PACEvolve++,一个用于进化搜索代理测试时策略适应的顾问模型强化学习框架。它将战略决策与实施解耦:可训练的顾问模型生成并评估假设,更强的前沿模型则将其转化为候选方案。针对非平稳反馈,研究提出阶段自适应训练方法,使顾问模型在进化早期学习广泛搜索偏好,后期则聚焦于最优前沿贡献以支持稳定优化。在负载均衡、序列推荐和蛋白质适应性外推等任务中,该框架均优于当前最先进的基于前沿模型的进化搜索方法,实现了更快收敛与更稳定的测试时训练。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选73
反思强化学习对大语言模型推理的作用:是稀疏策略选择,而非能力学习

研究发现,强化学习改进大语言模型推理时,并非教授新策略,而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上,且所提升的token始终位于基础模型前5个备选之中。基于此,研究者提出无需强化学习的ReasonMaxxer方法,仅在熵选通的决策点施加对比损失,仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中,该方法达到或超越了完整强化学习的性能,而训练仅需数十道题目、数分钟的单GPU时间,成本降低约三个数量级。

arXiv推理数据/训练论文/研究

推荐理由:这篇论文直接挑战当前主流 RL 训练范式,认为 RL 只是在选择已有策略而非学习新能力,并给出千分之一成本就能追平的替代方案,做 reasoning 的同行可以认真读一下。
08:00
HuggingFace Daily Papers(社区热门论文)
60
PrefixGuard:从LLM智能体轨迹到在线故障预警监控器

PrefixGuard是一个将LLM智能体执行轨迹自动转换为在线预警监控器的框架。它通过离线的StepView归纳步骤,从原始轨迹样本中推导出确定性的类型化步骤适配器,并基于最终结果监督式地学习事件抽象和前缀风险评分器。在四个基准测试中,其最强监控器的AUPRC值分别达到0.900、0.710、0.533和0.557,平均比原始文本对照方法提升0.137 AUPRC。研究还揭示了基于AUPRC的观测性上限,并指出强排名不等同于部署实用性:例如在WebArena上难以实现低误报预警,而τ^2-Bench和TerminalBench则能保留更多可操作的早期预警。

智能体arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
62
门控QKAN-FWP:一种可扩展的量子启发的序列学习框架

本研究提出门控QKAN-FWP,一种将快速权重编程器与量子启发的Kolmogorov-Arnold网络相结合的新型框架。它采用单量子位数据重上传电路作为可学习激活函数,并引入了标量门控的快速权重更新规则以稳定参数。在时间序列预测任务中,一个仅含12.5k参数的模型,在太阳活动周期长期预测上,其性能超越了一系列参数规模大得多的经典循环模型。该模型成功在IonQ和IBM量子处理器上部署,在1024次测量下预测精度与无噪声模拟器差距在0.1%以内,证明了其在含噪声量子设备上的兼容性与可扩展性。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
MACE-Dance:基于运动-外观级联专家的音乐驱动舞蹈视频生成

针对音乐驱动舞蹈视频生成任务,本文提出了MACE-Dance框架。该框架采用级联专家混合模型,包含运动专家与外观专家两个核心模块。运动专家基于BiMamba-Transformer混合架构的扩散模型及免引导训练策略,从音乐生成高表现力且运动学合理的3D舞蹈动作。外观专家通过解耦的运动-美学微调策略,在动作驱动下合成具有时空一致性和视觉身份保持的视频。研究同时构建了大规模数据集与评估标准,实验表明该框架在3D舞蹈生成与姿态驱动图像动画两项任务上均达到了最先进性能。代码已开源。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
均值模式尖叫:用于千层扩散变换器的均值-方差分割残差方法

研究发现,当扩散变换器扩展到数百层时,会因结构脆弱性进入“均值主导崩溃”状态,即表征同质化且中心化变异被抑制,此现象被定义为均值模式尖叫。其触发机制源于残差写入器的均值相干反向冲击。为解决此问题,研究提出了均值-方差分割残差方法,它将独立增益的中心化残差更新与泄漏主干均值替换相结合。在400层单流扩散变换器上,该方法有效防止了基线模型的崩溃性发散,性能显著优于LayerScale等各向同性门控方法。最终,研究成功训练了一个1000层的扩散变换器,验证了该架构在极深尺度下仍能保持稳定训练。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
Empirical Evidence for Simply Connected Decision Regions in Image Classifiers

研究通过迭代四边形网格填充方法,为深度神经网络决策区域的拓扑结构提供了新的经验证据。该方法能构造出完全位于同一决策区域内、由给定环路界定的有限分辨率标签保持曲面。实验评估了多种现代图像分类模型,结果表明这些模型的决策区域不仅是路径连通的,而且是单连通的。这支持了决策区域更强的拓扑性质假设,即区域内的任何闭合环路都可在不离开该区域的情况下连续收缩至一点。

论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
浅层预填充与深层解码:通过层非对称KV可见性实现高效长上下文推理

研究团队提出SPEED方法,一种阶段非对称的KV可见性策略,以降低仅解码器语言模型的长上下文推理成本。该方法在预填充阶段,仅让非锚点的提示词KV状态在模型下层生成和缓存;而在解码生成阶段,则对所有令牌进行完整的深度计算。在Llama-3.1-8B的指令调优实验中,当仅使用75%的层处理提示词时,SPEED在基准测试中取得了与完整深度基线近乎持平的平均得分(51.2 vs. 51.4)。同时,它显著提升了推理效率:首令牌时间减少33%,每个输出令牌时间减少22%,并在128K上下文长度下将活跃KV内存降低25%。分析表明,该方法保留了完整深度模型中关键的提示词选择和表征稳定功能。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
57
UniSD:面向大型语言模型的统一自蒸馏框架

本文提出统一自蒸馏框架UniSD,系统研究大型语言模型的自蒸馏方法。该框架整合多教师一致性、指数移动平均教师稳定、词元级对比学习、特征匹配和散度裁剪等机制,以应对监督可靠性、表示对齐和训练稳定性三大挑战。通过在三个模型家族的六个模型和六个基准上的实验,UniSD揭示了自蒸馏优于静态模仿的条件、各组件的贡献及其跨任务交互机制。基于此构建的完整流程UniSDfull,在基础模型上提升5.4个百分点,较最强基线提升2.8个百分点,实现了无需更强外部教师的高效模型适配。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
LiVeAction:一种轻量级、通用且非对称的神经编解码器设计

现代传感器生成丰富数据,但可穿戴或遥感设备受带宽和功耗限制。标准编解码器如JPEG为人类感知设计,不适用于机器任务和非传统模态;通用压缩方案未利用信号冗余,性能次优;生成神经编解码器参数多、数据需求大且模态特定,难以实用。为此,研究团队提出LiVeAction,一种轻量级、通用且非对称神经编解码器架构。其关键创新包括:采用类似FFT结构并缩减神经网络分析变换的规模和深度,以降低编码器复杂度;使用基于方差的码率惩罚替代对抗性和感知损失,以支持任意信号模态并简化训练。相比最先进生成分词器,LiVeAction在码率-失真性能上更优,且可实际部署于低功耗传感器。相关代码、实验和Python库已开源。

多模态开源/仓库端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

研究团队提出了理解导向的后训练框架UNO,旨在通过理解任务直接引导生成表征,以增强统一多模态模型中理解与生成组件间的协同。该框架整合了语义抽象(如图像描述)和结构细节(如视觉回归)目标,实现了从理解到生成的有效梯度流动。在图像生成与编辑任务上的实验表明,理解监督能显著提升生成质量,证实了理解对生成的催化作用。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
CPCANet:基于深度展开通用主成分分析的领域泛化方法

CPCANet是一种新颖的领域泛化框架,其核心是将通用主成分分析(CPCA)的迭代式Flury-Gautschi算法展开为完全可微的神经层。该方法将CPCA的统计特性融入端到端可训练框架,强制模型从不同领域中发现一个共享的、具有可解释性的子空间。在四个标准领域泛化基准测试上的实验表明,CPCANet在零样本迁移任务中取得了最先进的性能。该框架与具体网络架构无关,且无需针对特定数据集进行调优,为在分布偏移下学习鲁棒表征提供了一种简单高效的解决方案。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
4DThinker:利用4D心理意象进行动态空间理解

4DThinker是首个让视觉语言模型通过动态潜在心理意象进行“4D思考”的框架,使其能在连续隐藏空间内模拟场景演变。该研究提出了一个从原始视频合成4D推理数据的可扩展无标注流程,并设计了动态意象微调方法,通过联合监督文本标记与4D潜在表征来锚定模型的动态视觉语义。在此基础上,4D强化学习利用基于结果的奖励处理复杂推理任务,并将策略梯度限制于文本标记以确保优化稳定。在多个动态空间推理基准测试中,4DThinker均显著优于现有基线模型。

多模态推理论文/研究