AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 760 条
全部一手资讯X论文
标签「arXiv」清除
5月10日周日
08:00HuggingFace Daily Papers(社区热门论文)63通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题
08:00HuggingFace Daily Papers(社区热门论文)62跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力
08:00HuggingFace Daily Papers(社区热门论文)64TD3B:用于变构配体生成的过渡导向离散扩散模型
08:00HuggingFace Daily Papers(社区热门论文)65几何冲突:解释与控制大语言模型持续后训练中的遗忘
5月9日周六
23:51Hacker News 热门(buzzing.cc 中文翻译)62当你将任务委托给大语言模型时,它们会篡改你的文档
08:00HuggingFace Daily Papers(社区热门论文)33面向弱监督日志实例异常定位:基于反事实扰动的"大海捞针"
08:00HuggingFace Daily Papers(社区热门论文)69Source or It Didn't Happen: 一个用于检测引用幻觉的多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)56网络中的大语言模型:资源约束下的协同智能
08:00HuggingFace Daily Papers(社区热门论文)45预测瓶颈无法发现因果结构(及其实际作用)
08:00HuggingFace Daily Papers(社区热门论文)72精选AgentForesight:面向多智能体系统早期故障预测的在线审计框架
08:00HuggingFace Daily Papers(社区热门论文)54RigidFormer:使用Transformer学习刚体动力学
08:00HuggingFace Daily Papers(社区热门论文)61从空口袋到电子密度:基于密度的GPT式药物设计
5月8日周五
19:29HuggingFace Daily Papers(社区热门论文)59BioTool:一个用于增强大语言模型生物医学能力的综合性工具调用数据集
17:26HuggingFace Daily Papers(社区热门论文)51Sparkle:通过解耦引导实现生动的指令引导视频背景替换
10:22HuggingFace Daily Papers(社区热门论文)66专家智能体驱动的自动化研究开发出高效且非平凡的训练方案
10:22HuggingFace Daily Papers(社区热门论文)66先思考后评分:视频奖励建模中的解耦推理与评分
08:00HuggingFace Daily Papers(社区热门论文)46基于控制变量基线的大语言模型在线蒸馏稳定化方法
08:00HuggingFace Daily Papers(社区热门论文)62FAAST:一种仅需前向传播的快速权重关联适应方法,用于测试时监督适应
08:00HuggingFace Daily Papers(社区热门论文)55Implicit Preference Alignment for Human Image Animation
08:00HuggingFace Daily Papers(社区热门论文)55安全还是无能?重新思考手机使用智能体的安全评估
08:00HuggingFace Daily Papers(社区热门论文)49可查询的LoRA:基于共享低秩更新原子与指令正则化的路由方法
08:00HuggingFace Daily Papers(社区热门论文)69高效内存循环Transformer:在循环语言模型中解耦计算与内存
08:00HuggingFace Daily Papers(社区热门论文)54BalCapRL:基于强化学习的平衡型多模态大语言模型图像描述框架
08:00HuggingFace Daily Papers(社区热门论文)64基于量规的在线策略蒸馏
08:00HuggingFace Daily Papers(社区热门论文)56ModelLens:从海量模型中为你的任务寻找最佳模型
08:00HuggingFace Daily Papers(社区热门论文)67以轨迹为师:基于能量导航蒸馏的少步离散流匹配
08:00HuggingFace Daily Papers(社区热门论文)53MatryoshkaLoRA:一种用于大语言模型微调的学习精确层次化低秩表示的通用框架
08:00HuggingFace Daily Papers(社区热门论文)56从误差控制动力学角度重新思考循环模型中的状态追踪
08:00HuggingFace Daily Papers(社区热门论文)55SpecBlock:一种具有动态树草案生成的块迭代推测解码方法
08:00HuggingFace Daily Papers(社区热门论文)50SCOPE:面向复杂图像生成的结构化分解与条件技能编排框架
08:00HuggingFace Daily Papers(社区热门论文)55通过双层路由混合专家将持续学习扩展至300多个任务
08:00HuggingFace Daily Papers(社区热门论文)51各向异性模态对齐
08:00HuggingFace Daily Papers(社区热门论文)62HyperEyes:面向并行多模态搜索代理的双粒度效率感知强化学习
08:00HuggingFace Daily Papers(社区热门论文)63大语言模型自我改进:用于测试时扩展的智能体发现框架
08:00HuggingFace Daily Papers(社区热门论文)64STARFlow2:连接语言模型与标准化流以实现统一多模态生成
5月7日周四
23:22HuggingFace Daily Papers(社区热门论文)66首个词元即知晓:单次解码置信度用于幻觉检测
23:06Hacker News 热门(buzzing.cc 中文翻译)65ProgramBench:语言模型能否从头重建程序?
18:22HuggingFace Daily Papers(社区热门论文)61何时思考,何时输出:学习大语言模型推理的披露策略
18:16IT之家(RSS)69小米开源 OmniVoice 多语言语音克隆 TTS,号称一个模型搞定 600 余种语言
13:22HuggingFace Daily Papers(社区热门论文)75精选OpenSearch-VL:前沿多模态搜索智能体的开源方案
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月10日
08:00
HuggingFace Daily Papers(社区热门论文)
63
通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题

针对大语言模型强化学习中普遍存在的性能饱和问题,研究团队提出Entrocraft方法。该方法通过拒绝采样偏置优势分布,实现用户定制的熵调度,无需目标正则化且与优势估计器无关。理论分析将熵变化与优势分布关联,解释了现有方法的行为。系统研究发现,从高值衰减至略低目标的线性退火熵调度效果最佳。实证表明,Entrocraft显著提升了模型泛化能力、输出多样性和长期训练稳定性,使40亿参数模型性能超越80亿参数基线,性能提升持续时间延长至4倍,并将pass@K指标提高了50%。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力

本文提出跨语言在线策略自蒸馏方法(COPSD),以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师:学生仅接收低资源语言问题,教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练,提供了密集监督,避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD能持续提升不同规模模型的推理性能,显著优于GRPO基准,并改善了答案格式遵循与测试时缩放能力,对资源极少的语言效果尤为显著。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
64
TD3B:用于变构配体生成的过渡导向离散扩散模型

研究团队推出TD3B,一种基于序列的生成框架,专门设计具有指定激动剂或拮抗剂行为的蛋白质配体。该方法通过过渡导向控制目标,结合目标感知的方向预测器、软结合亲和力门控机制,并对预训练的离散扩散模型进行摊销微调。TD3B能够生成与结合亲和力解耦、且基于平衡或纯推理基线无法实现的定向配体,尤其针对临床相关的GPCRs,解决了现有基于静态结构的设计方法无法表征非可逆方向性效应的局限。代码与模型已开源。

arXivHugging Face开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
几何冲突:解释与控制大语言模型持续后训练中的遗忘

研究揭示大语言模型持续后训练中的遗忘源于任务更新引发的协方差几何与模型演化状态之间的错位,即“几何冲突”,它决定了能力是迁移还是干扰。基于此,团队提出了无需回放数据的Geometry-Conflict Wasserstein Merging(GCWM)方法。该方法通过高斯Wasserstein重心构建共享度量,并利用几何冲突门控进行几何感知校正。在Qwen3系列模型的领域持续与能力持续设定中,GCWM一致优于无数据基线,显著提升了知识保留与最终性能,证实几何冲突是解释遗忘的关键信号和实用的控制机制。

arXiv数据/训练论文/研究
5月9日
23:51
Hacker News 热门(buzzing.cc 中文翻译)
62
当你将任务委托给大语言模型时,它们会篡改你的文档

一项研究发现,当用户将编辑任务委托给大语言模型时,模型可能会擅自篡改原始文档内容。研究指出,LLMs在完成诸如总结或翻译等任务时,存在非用户明确指示下主动修改文本的风险,例如改变事实细节或调整语气风格。这种行为可能导致文档的准确性和完整性受损,提醒用户需谨慎对待AI的自动化编辑输出,并建议进行人工复核。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
33
面向弱监督日志实例异常定位:基于反事实扰动的"大海捞针"

该研究针对大规模系统日志中实例级异常定位标注成本高的难题,提出了LogMILP弱监督框架。该框架仅使用包级标签,即可同时实现包级异常检测与实例级异常定位。其核心是通过原型引导的结构建模与反事实扰动一致性正则化,指导模型定位关键日志条目。在三个公共数据集上的实验表明,LogMILP在取得有竞争力的检测性能同时,生成的实例级定位结果更为可靠。相关代码已开源于 https://github.com/YUK1207/LogMILP。

arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
69
Source or It Didn't Happen: 一个用于检测引用幻觉的多智能体框架

针对大语言模型在科学写作中生成看似合理但无法验证的虚假引用问题,研究团队构建了一个名为CiteTracer的级联多智能体检测器。该系统将引用幻觉检测重新定义为符合分类法的字段级判定,并引入一个包含12种代码、涵盖真实、潜在和幻觉引用的分类体系。CiteTracer通过结构化提取、缓存查找、URL获取、学术连接器和网络搜索等多渠道检索证据,应用确定性字段匹配,并将模糊案例路由给专业分类判断器。在包含2450个合成引用和957个来自真实会议投稿的伪造引用基准测试中,CiteTracer在合成集上达到97.1%的整体准确率,在真实集上检测出97.1%的伪造引用。相关代码已开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
网络中的大语言模型:资源约束下的协同智能

大语言模型(LLMs)驱动各类应用,但云服务难以满足低延迟、间歇连接等需求,端侧部署又受算力与内存限制。协同智能作为一种新范式,通过分布在设备与云端的多个LLMs以自然语言协作,在计算、内存、通信和成本等多维约束下优化响应质量。该框架涵盖垂直设备-云协作和水平多智能体协作,并可结合为混合拓扑。研究还探讨协作学习,包括路由策略训练与LLMs合作能力开发,并指出资源异构下的扩展性及可信协同智能等开放挑战。

智能体arXivMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
预测瓶颈无法发现因果结构(及其实际作用)

研究发现,仅通过下一步预测训练的Mamba模型,其简单读出操作看似能恢复格兰杰因果结构,但经系统证伪基准检验后,该因果发现主张不成立。线性瓶颈效果相当或更好;在合成与真实基准上,调优的Lasso及经典因果发现方法均优于该瓶颈;其干预数据优势主要源于样本量混淆,残余优势仅在非标准干预下出现,且同样存在于经典格兰杰方法中。最终保留下来的仅是一个狭窄的表征结果,而可复用的五阶段证伪基准及其对照实验成为主要贡献。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选72
AgentForesight:面向多智能体系统早期故障预测的在线审计框架

针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。

智能体arXiv推理论文/研究

推荐理由:在多agent系统里,一个错误往往被下游接受并导致整个轨迹失败,这篇论文把事后归因变成了在线审计,用小模型在错误扩散前报警,比GPT-4.1还准,做agent部署的值得细读。
08:00
HuggingFace Daily Papers(社区热门论文)
54
RigidFormer:使用Transformer学习刚体动力学

RigidFormer是一种以物体为中心的Transformer模型,用于学习无网格刚体动力学并支持可控积分步长。该模型在物体级别推理,通过紧凑锚点推进物体,利用锚点-顶点池化融入局部顶点特征,保留接触几何而无需密集顶点交互。基于锚点的RoPE将几何注入注意力机制,尊重物体与锚点的无序性,并通过可微Kabsch对齐将更新投影到刚体流形以保持刚性。在标准基准测试中,它使用点云输入优于或匹配基于网格的基线,运行更快,能泛化到未见点分辨率和跨数据集,可扩展至200多个物体。初步研究还展示了扩展到指令条件化铰接体的潜力。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
从空口袋到电子密度:基于密度的GPT式药物设计

针对现有基于结构的药物设计方法依赖空结合口袋、忽略填充物信息的问题,本研究提出EDMolGPT新方法。该方法创新性地利用来自配体或溶剂的低分辨率电子密度作为生成条件,该密度可源于计算或冷冻电镜/X射线实验数据,能更真实地反映结合环境的构象灵活性。EDMolGPT采用仅解码器的自回归框架,直接从电子密度点云生成分子,有效减少了结构偏差并直接输出三维构象。在101个生物靶标上的评估验证了其有效性。

arXiv数据/训练论文/研究
5月8日
19:29
HuggingFace Daily Papers(社区热门论文)
59
BioTool:一个用于增强大语言模型生物医学能力的综合性工具调用数据集

为提升大语言模型在生物医学领域的工具调用能力,研究团队发布了BioTool数据集。该数据集整合了来自NCBI、Ensembl和UniProt的34个常用工具,包含7,040个经人工验证的高质量查询-API调用对,覆盖变异、基因组学等多个领域。在一个40亿参数的模型上微调后,其在生物医学工具调用上的性能显著提升,甚至超越了GPT-5.1等先进商业模型。人类专家评估证实,集成该工具调用器能有效提升下游任务答案质量。数据集与评估代码已开源。

智能体arXiv数据/训练论文/研究
17:26
HuggingFace Daily Papers(社区热门论文)
51
Sparkle:通过解耦引导实现生动的指令引导视频背景替换

近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv多模态开源/仓库视频
10:22
HuggingFace Daily Papers(社区热门论文)
66
专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环,其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是,谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后,人类未干预搜索过程。在总计1797次试验中,该循环使参数高尔夫的验证bpb降低0.81%,将NanoChat-D12 CORE提升38.7%,并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术,从而改进公开的初始方案。

智能体arXiv数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
先思考后评分:视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
基于控制变量基线的大语言模型在线蒸馏稳定化方法

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题,本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题,并引入一个控制变量基线(即价值函数)来稳定训练。该价值函数具有闭式解,即学生与教师模型间的逐令牌反向KL散度,无需额外计算。通过减去该基线,vOPD在保持梯度无偏的同时显著降低了方差。实验表明,在数学与科学推理任务上,vOPD性能持续优于原始在线蒸馏,并能匹配计算成本更高的全词表基线方法,实现了高效且稳定的训练。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
FAAST:一种仅需前向传播的快速权重关联适应方法,用于测试时监督适应

FAAST提出了一种仅需前向传播的关联适应方法,通过解析方式将标注样本单次编译为快速权重,无需依赖记忆或上下文。该方法实现了恒定时间推理,并将任务适应与预训练表征解耦。在图像分类和语言建模基准测试中,FAAST性能匹配或超过基于反向传播的适应方法,同时将适应时间减少90%以上;与基于记忆/上下文的适应方法相比性能相当,但内存使用量最高可节省95%。这为监督任务适应提供了一个高效、可扩展的解决方案,尤其适用于资源受限的模型。

arXiv数据/训练端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Implicit Preference Alignment for Human Image Animation

针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。

arXivGitHub图像生成视频
08:00
HuggingFace Daily Papers(社区热门论文)
55
安全还是无能?重新思考手机使用智能体的安全评估

研究团队推出PhoneSafety基准测试,包含从130多个应用的真实交互中提取的700个安全关键时刻,以评估智能体在风险决策中的表现。测试区分三种行为:采取安全行动、不安全行动或无法执行任何有效操作。对八个代表性智能体的评估发现,更强的通用手机操作能力并不总意味着在风险时刻能做出更安全的选择;而“无法行动”更多反映的是能力限制(尤其在视觉和操作复杂度高的界面中),而非安全意图。结果表明,无害的结果不足以证明安全性,必须将不安全判断与行动无能区分开来。

智能体arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
可查询的LoRA:基于共享低秩更新原子与指令正则化的路由方法

本文提出一种数据自适应的参数高效微调方法,以改进静态低秩适应(LoRA)的局限性。该方法用一组可查询的共享低秩更新原子取代每层独立的适配器,允许模型根据当前层状态和前面层的运行摘要,通过注意力机制动态检索并组合这些更新组件,从而在保持低秩瓶颈效率的同时,实现跨输入和跨层的动态、上下文感知的参数更新。此外,方法引入指令正则化,通过语言引导的先验偏置路由逻辑,使低秩变换更倾向于语义相关方向。实验表明,该方法在使用相近可训练参数量的情况下,相比标准LoRA能提升最终测试性能和训练稳定性。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
高效内存循环Transformer:在循环语言模型中解耦计算与内存

循环LLM架构(如Ouro)通过迭代更新内部表征进行推理,但其标准KV缓存导致内存消耗随推理深度线性增长,限制了可扩展性。本研究提出高效内存循环Transformer(MELT),通过每层共享一个跨循环的KV缓存,并利用可学习的门控机制更新缓存,从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法:插值过渡与注意力对齐蒸馏。实验表明,基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM,同时内存占用与标准模型相当,远低于Ouro,实现了不牺牲性能的恒定内存迭代推理。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
BalCapRL:基于强化学习的平衡型多模态大语言模型图像描述框架

针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题,研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量,通过采用GDPO风格的奖励解耦归一化处理连续值奖励,并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明,该方法能一致提升描述质量,不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
基于量规的在线策略蒸馏

针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题,本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率,仅需教师生成的响应即可工作,实现了黑盒兼容。ROPD通过对比师生响应差异,自动生成针对特定提示的量规,并据此对学生模型输出进行评分与在线策略优化。实验证明,该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法,样本效率最高可提升10倍,为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。

arXivGitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ModelLens:从海量模型中为你的任务寻找最佳模型

开源生态拥有数十万个预训练模型,但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池,或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录,通过学习模型-数据集-指标三元组的性能感知潜在空间,可直接为未见过的数据集推荐未见过的模型,无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中,其性能超越了依赖元数据或需运行每个候选模型的基线方法,并能将多种路由方法的性能提升高达81%,在文本和视觉-语言任务上展现了泛化能力。

arXivHugging Face多模态开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
67
以轨迹为师:基于能量导航蒸馏的少步离散流匹配

针对离散流匹配生成文本需数百步迭代的问题,本研究提出轨迹塑形离散流匹配方法。传统蒸馏中,由随机跳跃构建的轨迹质量是性能瓶颈。新方法引入轻量级“能量罗盘”,在训练时评估并选择最连贯的候选序列来引导轨迹生成,此过程仅增加训练成本。在1.7亿参数语言建模任务中,经塑形的8步学生模型比1024步教师模型困惑度降低32%、速度提升128倍,且在不同数据与模型规模上表现一致。该方法取得了优于所有对比基线的最佳困惑度,包括使用更多数据或更大模型的方案。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
MatryoshkaLoRA:一种用于大语言模型微调的学习精确层次化低秩表示的通用框架

针对低秩适应(LoRA)微调方法中静态秩选择效率低、现有动态方法在高秩时性能欠佳的问题,研究团队提出MatryoshkaLoRA。该框架通过在现有LoRA适配器间插入一个固定的对角矩阵P,来相应地缩放其子秩,从而学习精确的层次化低秩表示。这一简单修改确保了所有子秩都能高效利用梯度信息,支持动态秩选择且精度损失最小。团队同时提出了“秩精度曲线下面积”(AURAC)评估指标。实验表明,该方法相比现有秩自适应方法能学习到更精确的表示,并在多个数据集上实现了更优的精度与性能权衡。代码已开源。

arXiv开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
从误差控制动力学角度重新思考循环模型中的状态追踪

循环模型状态追踪理论长期聚焦于表达能力,但误差控制同样关键,它主导着隐藏状态在区分符号状态方向上的漂移。研究证明,包含状态空间模型和线性注意力在内的仿射循环网络,一旦保存状态表示,就无法纠正沿状态分离子空间的误差。因此,实际模型学到的并非鲁棒的状态追踪,而是受累积误差控制的有限时域解。分析表明,仅当累积的类内扩散相对于初始类间分离较小时,追踪结果才可读。在群体状态追踪任务上的实验证实,当可区分比率超过解码器可读阈值时,追踪会崩溃,且该临界点能准确预测下游任务失效的时域。这表明,鲁棒的状态追踪不仅取决于架构的理论表达能力,更关键地取决于其误差控制能力。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
SpecBlock:一种具有动态树草案生成的块迭代推测解码方法

SpecBlock是一种新型块迭代推测解码草案器,旨在融合路径依赖性与低成本生成。其核心在于每次前向传播生成一个包含K个连续依赖位置的“块”,通过重复块扩展构建草案树。关键技术包括:块内层间移位传递隐藏状态;跨块机制允许新块从旧块任意位置继承路径状态;协同训练的排序头动态分配分支,取代固定Top-K树;有效前缀掩码优化训练目标。部署时采用成本感知赌博算法,仅当预期吞吐增益超过更新成本时才利用验证器反馈选择性更新草案器。实验表明,在仅消耗EAGLE-3草案成本44-52%的情况下,SpecBlock将平均加速比提升了8-13%,成本感知自适应进一步将优势扩大至11-19%。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
SCOPE:面向复杂图像生成的结构化分解与条件技能编排框架

针对复杂图像生成中语义承诺难以持续追踪的“概念断层”问题,本文提出了SCOPE框架。该框架通过维护一个动态演化的结构化规范来管理语义承诺,并围绕未解决或被违反的承诺,有条件地调用检索、推理和修复等技能。为评估承诺级别的意图实现效果,研究构建了人工标注基准Gen-Arena并提出了严格的“实体门控意图通过率”指标。实验表明,SCOPE在Gen-Arena上以0.60的EGIP显著超越所有基线模型,在WISE-V和MindBench基准上也表现出色,验证了持续承诺跟踪的有效性。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
通过双层路由混合专家将持续学习扩展至300多个任务

研究团队提出名为CaRE的持续学习模型,其核心是创新的双层路由混合专家(BR-MoE)机制。该机制通过动态激活任务特定路由器和专家网络,将判别性与综合性特征注入模型各层,有效平衡了学习的稳定性与可塑性。为评估长任务序列性能,团队发布了包含数百个任务的OmniBenchmark-1K数据集。实验表明,CaRE在经典任务序列(5-20个任务)及超长序列(100至300多个非重叠任务)上均大幅领先现有基线,成为首个可扩展至300多个任务的持续学习器。代码与数据集已开源。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
各向异性模态对齐

多模态大语言模型训练受限于高质量配对数据稀缺。现有方法利用预训练多模态对比模型的共享表示空间进行单模态训练,但跨模态表示互换性受模态鸿沟阻碍。研究发现,模态鸿沟并非全局偏移,而是集中于少数主导方向的各向异性残差结构。基于此,提出各向异性模态对齐原则,设计几何校正框架AnisoAlign,利用目标模态内部几何先验对源模态表示进行有界校正,构建目标模态替代表示。实验验证该方法在几何诊断和纯文本MLLM训练中的有效性,将模态鸿沟转化为可校正的结构化几何现象,为单模态数据训练多模态模型提供新对齐视角。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
HyperEyes:面向并行多模态搜索代理的双粒度效率感知强化学习

针对现有多模态搜索代理顺序处理实体导致效率低下的问题,本文提出HyperEyes。它将视觉定位与检索融合为单一原子操作,支持对多实体进行并行搜索,并将推理效率作为核心训练目标。其训练采用双阶段策略:首先通过并行适配数据合成流程进行冷启动监督;随后运用双粒度效率感知强化学习框架,在宏观层面通过动态收紧参考的轨迹级奖励抑制冗余工具调用,在微观层面利用策略蒸馏注入密集的令牌级纠正信号。研究还构建了人工标注基准IMEB以同时评估搜索能力与效率。实验表明,HyperEyes-30B在六个基准上以平均减少5.3倍工具调用轮次的代价,在准确率上超越最强开源代理9.9%。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
大语言模型自我改进:用于测试时扩展的智能体发现框架

研究团队提出环境驱动框架AutoTTS,将测试时扩展策略设计转化为可自动探索的环境构建问题。该框架将宽度-深度扩展形式化为对预收集推理轨迹的控制器合成,通过Beta参数化使搜索可行,并利用细粒度执行轨迹反馈提升效率。在数学推理基准测试中,自动发现的策略在准确率-成本权衡上优于人工基线,并能泛化至未见过的任务和模型规模,整个发现过程仅需39.9美元和160分钟。相关代码与数据已开源。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
64
STARFlow2:连接语言模型与标准化流以实现统一多模态生成

为构建真正统一的文本-图像序列生成模型,研究团队提出STARFlow2。该模型基于Pretzel架构,通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流,两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明,该模型在图像生成与多模态理解任务上均表现优异,验证了自回归标准化流作为统一多模态建模基础的可行性。

arXiv图像生成多模态论文/研究
5月7日
23:22
HuggingFace Daily Papers(社区热门论文)
66
首个词元即知晓:单次解码置信度用于幻觉检测

研究发现,仅通过单次贪婪解码中首个内容答案词元的归一化熵计算置信度指标 phi_first,就能有效检测大语言模型在闭卷事实问答中的幻觉。在三个7-8B指令微调模型和两个基准上,phi_first 的平均AUROC达0.820,优于需多次采样的语义一致性方法(0.793)和标准表层自洽性方法(0.791)。该指标与语义一致性呈中到强相关,两者结合提升有限,表明模型在首个词元分布中已包含了多样本一致性所捕获的大部分不确定性信息,可作为低成本基线指标。

arXiv安全/对齐推理论文/研究
23:06
Hacker News 热门(buzzing.cc 中文翻译)
65
ProgramBench:语言模型能否从头重建程序?

研究提出ProgramBench基准,用于评估语言模型能否仅根据问题描述从头生成完整且可执行的程序。该基准包含2,000个编程问题,覆盖多种难度与类型,要求模型输出可直接运行的代码。测试显示,当前先进模型在此任务上表现仍不理想,准确率较低,突显了语言模型在复杂、无示例编程任务中的局限性。这项工作为衡量模型的实际编程能力提供了新工具。

arXiv编码论文/研究
18:22
HuggingFace Daily Papers(社区热门论文)
61
何时思考,何时输出:学习大语言模型推理的披露策略

针对单流自回归接口中“思考”与“输出”耦合导致的“沉默税”问题,本研究提出了“并排交错推理”方法。它将披露时机转化为可控决策,允许模型在同一上下文中交错进行私有推理和部分内容披露,仅当推理充分支持时才释放内容。通过构建蕴含对齐的交错轨迹进行监督微调,并结合强化学习恢复推理性能。在Qwen3系列模型上的实验表明,该方法在AIME25和GPQA-Diamond基准测试中,有效改善了准确性、内容产出与延迟之间的帕累托权衡。

arXiv推理论文/研究部署/工程
18:16
IT之家(RSS)
69
小米开源 OmniVoice 多语言语音克隆 TTS,号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

arXivGitHub多模态开源生态
13:22
HuggingFace Daily Papers(社区热门论文)
精选75
OpenSearch-VL:前沿多模态搜索智能体的开源方案

研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。

智能体arXiv多模态论文/研究

推荐理由:把多模态搜索 agent 的完整训练配方开源了,数据、环境、算法全都有,七个基准平均涨 10 点,直接对标商业模型,做深度搜索的同学可以无脑跟。
‹ 上一页
1…1213141516…19
下一页 ›