AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2707 条
全部一手资讯X论文
标签「论文/研究」清除
5月14日周四
10:45HuggingFace Daily Papers(社区热门论文)68非对称流模型
10:45HuggingFace Daily Papers(社区热门论文)63基于主动信息搜索的上下文训练
10:45HuggingFace Daily Papers(社区热门论文)60MAP:一种面向长程交互式智能体推理的先建图后行动范式
10:45HuggingFace Daily Papers(社区热门论文)72精选AgentLens:揭示软件工程智能体评估中的"幸运通过"问题
09:45HuggingFace Daily Papers(社区热门论文)72精选持续更新导致LLM智能体记忆效用衰退
09:45HuggingFace Daily Papers(社区热门论文)57频率偏差与分布外泛化:变系数波动方程下的神经算子研究
08:00HuggingFace Daily Papers(社区热门论文)44EverAnimate:通过潜在流修复实现分钟级人类动画
08:00HuggingFace Daily Papers(社区热门论文)45通过字节级模拟解耦子词分词在语言模型训练中的优势
08:00HuggingFace Daily Papers(社区热门论文)48Video2GUI:为通用GUI智能体预训练合成大规模交互轨迹
08:00HuggingFace Daily Papers(社区热门论文)48通过原子实体分析评估图像编辑中的抽象意图
08:00HuggingFace Daily Papers(社区热门论文)48视频模型可通过可验证奖励进行推理
08:00HuggingFace Daily Papers(社区热门论文)56TopoPrimer:预测模型缺失的拓扑上下文
08:00HuggingFace Daily Papers(社区热门论文)52FINESSE-Bench:面向大语言模型的金融领域知识与技术分析层级基准测试套件
08:00HuggingFace Daily Papers(社区热门论文)53EndPrompt:通过末端锚定高效扩展长上下文
08:00HuggingFace Daily Papers(社区热门论文)50几何引导的隐状态替换:扩散应从何处进入语言模型?
08:00HuggingFace Daily Papers(社区热门论文)54KVPO: 基于KV语义探索的ODE原生自回归视频对齐GRPO方法
08:00HuggingFace Daily Papers(社区热门论文)57审计代理运行框架的安全性
08:00HuggingFace Daily Papers(社区热门论文)55MetaAgent-X:通过端到端强化学习突破自动多智能体系统性能瓶颈
08:00HuggingFace Daily Papers(社区热门论文)55可持久化的遗忘:基于电路归因的量化不变机器卸载
08:00HuggingFace Daily Papers(社区热门论文)50AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听
08:00HuggingFace Daily Papers(社区热门论文)42ChangeFlow -- 用于遥感变化检测的潜空间校正流模型
08:00HuggingFace Daily Papers(社区热门论文)57GQLA:面向硬件自适应的大语言模型解码的分组查询潜在注意力
08:00HuggingFace Daily Papers(社区热门论文)55PhysBrain 1.0 技术报告
08:00HuggingFace Daily Papers(社区热门论文)49从计划到像素:学习规划与协调的开放式图像编辑
08:00HuggingFace Daily Papers(社区热门论文)59Learning from Failures: 基于可验证奖励的纠错导向策略优化
08:00HuggingFace Daily Papers(社区热门论文)50InsightTok:提升自回归图像生成中文本与人脸保真度的离散标记化框架
08:00HuggingFace Daily Papers(社区热门论文)57Solvita:通过智能体演化增强大语言模型的竞技编程能力
08:00HuggingFace Daily Papers(社区热门论文)55FFAvatar:少样本、前馈式、可泛化的虚拟形象重建
08:00HuggingFace Daily Papers(社区热门论文)57MMSkills:面向通用视觉智能体的多模态技能框架
08:00HuggingFace Daily Papers(社区热门论文)56ReactiveGWM:在反应式游戏世界模型中引导非玩家角色
04:44HuggingFace Daily Papers(社区热门论文)42EgoForce:基于前臂引导的单目头戴相机三维手部姿态重建
02:44HuggingFace Daily Papers(社区热门论文)73精选解决循环:语言和推理的吸引子模型
01:44HuggingFace Daily Papers(社区热门论文)66快与慢的学习:面向持续适应的大语言模型
5月13日周三
23:44HuggingFace Daily Papers(社区热门论文)63ORBIT:通过原点调控的权重合并,在生成式检索中保留大语言模型的基础能力
23:44HuggingFace Daily Papers(社区热门论文)60Agent-BRACE:通过语言化状态不确定性在长程任务中解耦信念与行动
21:44HuggingFace Daily Papers(社区热门论文)53UniPath:面向统一多模态推理的理解与生成自适应协调框架
20:39IT之家(RSS)55我国科研人员探索脑机接口神经探针技术,为慢性疼痛治疗提供新路径
18:44HuggingFace Daily Papers(社区热门论文)64Multi-Stream LLMs:通过并行思维、输入与输出流解锁语言模型
17:44HuggingFace Daily Papers(社区热门论文)48用于样本高效连续控制的去偏基于模型表示
17:44HuggingFace Daily Papers(社区热门论文)54Pion:一种基于正交等价变换的谱保持优化器
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月14日
10:45
HuggingFace Daily Papers(社区热门论文)
68
非对称流模型

研究团队提出非对称流建模(AsymFlow),以解决高维流生成中噪声预测的难题。其核心是秩非对称速度参数化,将噪声预测限制在低秩子空间,同时保持数据预测的全维度,并能解析恢复全维速度,无需改变网络架构或训练流程。在ImageNet 256×256任务上,该方法取得了1.57的领先FID分数。此外,AsymFlow首次实现了将预训练潜在流模型微调为像素空间模型的路径:通过子空间对齐进行无缝初始化,使微调主要改善低级特征而非重新学习生成。基于FLUX.2微调得到的像素模型在多项基准测试中超越了其潜在基础模型,建立了像素空间文生图的新技术标杆。

图像生成论文/研究
10:45
HuggingFace Daily Papers(社区热门论文)
63
基于主动信息搜索的上下文训练

研究为大型语言模型的上下文优化器引入维基百科搜索与浏览器工具,使其能够主动获取外部信息。单纯在标准流程中添加工具会降低性能,但配合基于搜索的训练流程——维护并修剪多个候选上下文——后,模型在多个领域实现显著提升。该方法在低资源翻译、健康场景以及强推理任务上均表现一致且高效,同时具备数据利用率高、超参数鲁棒性强等特点,所生成的文本上下文能很好地迁移至不同模型。

检索增强搜索论文/研究
10:45
HuggingFace Daily Papers(社区热门论文)
60
MAP:一种面向长程交互式智能体推理的先建图后行动范式

针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题,本研究提出可插拔的先建图后行动范式(MAP)。该范式将环境理解前置,包含全局探索、任务特定建图与知识增强执行三个阶段,旨在突破认知瓶颈。实验表明,MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中,前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明,基于环境理解的训练优于单纯模仿专家轨迹,验证了先理解环境的核心价值。

智能体推理论文/研究
10:45
HuggingFace Daily Papers(社区热门论文)
精选72
AgentLens:揭示软件工程智能体评估中的"幸运通过"问题

当前软件工程智能体评估仅依赖最终补丁是否通过测试的二元信号,掩盖了解决方案质量的差异。研究分析了2,614条轨迹,发现在可评估的1,815条通过轨迹中,10.7%属于“幸运通过”,表现为回归循环、盲目重试等问题。为此,研究团队提出了用于过程级评估的AgentLens框架,并发布了标注质量分数、冗余信号等信息的AgentLens-Bench数据集。基于质量分数,通过轨迹被划分为幸运、扎实和理想三个等级,不同模型的幸运通过率介于0.5%至23.2%之间。若按质量分数而非通过率排名,部分模型的排名变化显著。相关资源已开源。

智能体论文/研究

推荐理由:SWE-agent评估只看通过率太粗暴了,这篇论文把乱试的“幸运通过”和真方案拆开看,10%的通过其实是蒙的,做agent评估的必读。
09:45
HuggingFace Daily Papers(社区热门论文)
精选72
持续更新导致LLM智能体记忆效用衰退

研究发现,当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时,会产生错误记忆,导致性能不升反降。即使基于完全正确的经验进行整合,GPT-4在部分问题上仍有54%的失败率,而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身,而非原始经验。在受控测试中,默认保留原始经历片段的智能体,其准确率是强制整合版本的两倍;完全禁用整合、仅进行片段管理,能达到与自动管理相当的性能。因此,稳健的智能体记忆系统应将原始经历片段视为首要证据,并明确控制整合的触发条件,而非在每次交互后都自动执行。

智能体检索增强论文/研究

推荐理由:LLM 整合记忆的常规套路被这篇论文掀了桌子。连续更新反而会把有用的经验搞坏,甚至 GPT-5.4 自己解过的题,加上记忆后正确率暴跌。做 agent 的人值得认真看看,记忆架构可能要转向保留原始轨迹。
09:45
HuggingFace Daily Papers(社区热门论文)
57
频率偏差与分布外泛化:变系数波动方程下的神经算子研究

本研究通过一维变系数波动方程,探究了傅里叶神经算子与深度算子网络在结构化分布变化下的泛化能力。在输入频率与系数平滑度独立变化的分布外设定中,两种模型对平滑度变化均表现稳定,且FNO误差更低。然而,面对输入频率变化时,FNO在未见高频数据上误差急剧上升,而DeepONet虽整体误差较高,性能下降却更平缓。分析表明,该差异源于两者对频率结构的表示与响应机制不同。结果揭示了神经算子在分布内高性能与分布外泛化间存在根本差距,凸显了架构表示偏差对于开发更可靠、适用于训练分布外物理模拟的神经算子的关键影响。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
EverAnimate:通过潜在流修复实现分钟级人类动画

EverAnimate是一种高效的后训练方法,用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹,包含两个核心机制:持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘;恢复式流匹配在采样时引入隐式修复目标,通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调,在短时和长时动画设置下均超越现有最优方案,在10秒和90秒动画上均取得了显著的指标提升。

arXiv图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
通过字节级模拟解耦子词分词在语言模型训练中的优势

该研究通过构建受控的字节级预训练流程,系统性地隔离并分析了子词分词技术对大语言模型训练效率与性能的具体贡献。实验在样本吞吐量、词表规模扩展以及子词边界的语言学先验等多个维度进行假设检验。研究发现,子词分词模型相较于原始字节模型的性能优势,主要源于训练吞吐量的显著提升,以及将子词边界作为显式先验或归纳偏置的有效整合。这些结论为未来优化字节级与子词级模型的预训练方法提供了关键见解。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Video2GUI:为通用GUI智能体预训练合成大规模交互轨迹

Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。

多模态开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
通过原子实体分析评估图像编辑中的抽象意图

本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。

图像生成多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
视频模型可通过可验证奖励进行推理

研究人员提出VideoRLVR方法,利用基于规则的反馈优化视频扩散模型,使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹,核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中,Early-Step Focus策略通过将优化集中在早期去噪阶段,减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中,VideoRLVR显著优于监督微调基线,尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型,表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。

推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
TopoPrimer:预测模型缺失的拓扑上下文

TopoPrimer是一个将时间序列群体的全局拓扑结构作为显式输入来提升预测模型性能的框架。它通过持久同调与谱束坐标进行一次性的预计算,可作为全训练模型的输入或预训练骨干的轻量化适配器。在多个基准测试中,TopoPrimer显著提升了预测精度,在ECL数据集上最高实现7.3%的MSE改善;它在季节性需求高峰期将模型误差控制在10%以内(传统模型误差增幅达50%),并在无历史数据的冷启动场景中,较无拓扑基线降低了27%的MAE。研究表明,拓扑信号与单序列训练具有互补性,能持续稳定地带来精度增益。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
FINESSE-Bench:面向大语言模型的金融领域知识与技术分析层级基准测试套件

针对现有金融基准测试在评估大语言模型(LLM)专业能力上的局限性,研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA(特许金融分析师)等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现,并提出了基于LLM-as-Judge范式的自动化评分方案,为实质性评估LLM的金融专业能力提供了新工具。

Hugging Face数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
EndPrompt:通过末端锚定高效扩展长上下文

传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练,计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文,其核心是将原始短上下文作为第一段,附加一个简短的末端提示作为第二段,并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离,同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式,表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时,EndPrompt在LongBench上平均得分最高(76.03),超越LCEG、LongLoRA等方法,且计算量更少,证明长上下文泛化可从稀疏位置监督诱导,挑战了密集训练的必要假设。

arXiv开源/仓库推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
50
几何引导的隐状态替换:扩散应从何处进入语言模型?

针对扩散语言模型效果不及自回归模型的问题,本文提出DiHAL混合架构。其核心在于利用几何度量评估Transformer各层,确定最适合进行扩散干预的隐藏状态接口。该方法在选中层以下用扩散桥替换前缀,同时保留上层结构,通过重建隐藏状态而非直接处理离散token,避免了连续到离散转换的困难。实验表明,几何分数能有效预测浅层插入点,且隐状态恢复在匹配训练预算下优于连续扩散基线,为在预训练模型中定位可行的扩散替换位置提供了依据。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
KVPO: 基于KV语义探索的ODE原生自回归视频对齐GRPO方法

针对流式自回归视频生成器与人类偏好对齐的挑战,现有方法依赖噪声探索和SDE策略,与蒸馏模型的ODE动态不匹配。本文提出KVPO框架,引入因果语义探索范式,将变异源从随机噪声转移至历史键值缓存,构建语义多样的生成分支;同时提出基于轨迹速度能量的速度场代理策略,在流匹配速度空间量化分支可能性,形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。

arXiv视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
审计代理运行框架的安全性

当前对大语言模型代理的安全评估大多仅关注最终输出,忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区,研究者提出了HarnessAudit框架,从边界合规、执行保真度和系统稳定性三个维度,对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现,任务完成并不等于安全执行,违规行为会随轨迹增长而累积;风险在多智能体协作中被放大,且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。

智能体arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
MetaAgent-X:通过端到端强化学习突破自动多智能体系统性能瓶颈

现有自动多智能体系统存在局限,要么依赖测试时搜索,要么仅优化设计者而固定执行者,无法实现端到端联合优化。为此,研究团队提出MetaAgent-X框架,通过强化学习同时优化系统设计与执行。该框架支持脚本化生成、轨迹收集和信用分配,并引入"分层滚动"和"分阶段协同进化"技术确保训练稳定。实验显示MetaAgent-X最高提升性能达21.7%,消融分析表明设计者与执行者协同进化,验证了端到端可训练范式的有效性。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
可持久化的遗忘:基于电路归因的量化不变机器卸载

研究指出了机器遗忘评估与部署现实的关键脱节:标准评估在全精度模型上进行,而部署模型必须量化。研究发现,4位后训练量化系统性逆转了遗忘效果,其根源在于参数更新量远小于量化区间宽度,无法跨越量化边界。为此,研究提出MANSU方法,通过因果电路归因定位最小子图,结合受约束的零空间投影与参数幅度下限,确保遗忘持久且能通过量化。新引入的电路归因散度指标可区分结构擦除与行为抑制。MANSU是首个在有意义遗忘、保持保留、无量化损失及结构擦除四个属性上均达到良好效果的方法。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。

arXivGitHub多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
ChangeFlow -- 用于遥感变化检测的潜空间校正流模型

现有遥感变化检测方法在生成式模型上往往因像素空间生成计算成本高、条件机制复杂而性能落后于判别式模型。本文提出ChangeFlow,一种将变化检测重新定义为潜空间中变化掩膜合成的生成式框架,采用结构轻量的条件信号引导,并利用随机采样实现预测集成。通过聚合多个预测掩膜提升鲁棒性,并基于样本一致性提供置信度估计,突出模糊区域。该方法在四个基准测试中平均F1值达80.4%,较此前最佳方法平均提升1.3个百分点,同时保持与近期强基线模型相当的推理速度。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
GQLA:面向硬件自适应的大语言模型解码的分组查询潜在注意力

本研究提出分组查询潜在注意力(GQLA),对DeepSeek-V2/V3中的多头潜在注意力(MLA)进行最小修改,使其在一套权重上暴露两种等效解码路径:与MLA相同的MQA吸收路径,以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径,无需重新训练。单一的GQLA权重能同时适配H100(采用MQA吸收)与H20(采用GQA及多令牌预测)的硬件性能上限,并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA,可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明,其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%,同时在分组路径上结构性保留了GQA级别的流量效率。

DeepSeek推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
PhysBrain 1.0 技术报告

针对机器人轨迹数据在构建物理常识上的局限性,PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎,从大规模人类第一视角视频中提取结构化的物理常识,用于训练视觉语言模型。随后,通过一种保持能力且语言敏感的适配设计,将这些物理先验知识迁移到视觉语言-动作策略中。实验表明,在多项具身控制基准测试上,PhysBrain 1.0 均达到当前最优水平,尤其在跨域任务中展现出强大性能。

具身智能多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
从计划到像素:学习规划与协调的开放式图像编辑

现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架,包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号,调度器通过最大化奖励进行训练,成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行,生成了比单步或规则基线更连贯可靠的编辑结果。

智能体图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
Learning from Failures: 基于可验证奖励的纠错导向策略优化

研究提出了一种名为纠错导向策略优化的新方法,用于增强大型语言模型的推理能力。该方法将训练中产生的失败轨迹自动转化为纠错样本,并与标准的可验证奖励强化学习目标联合优化。在涵盖数学推理和代码生成的11个基准测试中,该方法在推理和纠错性能上均显著超越现有基线。实验表明,该方法能提升模型的内在推理能力,而不仅仅是重新分配已有正确答案的概率质量,具体体现在更强的pass@K增益上。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
InsightTok:提升自回归图像生成中文本与人脸保真度的离散标记化框架

针对自回归图像生成中文本与人脸保真度不足的核心瓶颈,InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失,专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下,InsightTok在文本和面部重建质量上显著超越先前方法,且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续,生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
Solvita:通过智能体演化增强大语言模型的竞技编程能力

Solvita 是一个无需更新底层大语言模型权重的智能体演化框架,旨在提升模型在竞技编程中的推理能力。它将解题过程重组为由 Planner、Solver、Oracle、Hacker 四个专用智能体执行的闭环系统。每个智能体配备一个可训练的图结构知识网络,系统运行时产生的通过/失败结果、测试质量与对抗漏洞等信号,会转化为对这些网络的强化学习更新,使智能体能基于历史经验动态路由后续查询,持续积累可迁移的推理经验。在多个基准测试及实时编程比赛中,Solvita 在代码生成智能体中取得了新的最优性能,显著超越了现有方法。

智能体推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
FFAvatar:少样本、前馈式、可泛化的虚拟形象重建

FFAvatar提出一种通用前馈框架,仅需数秒即可从少量无姿态人像重建高质量、可动画化的3D高斯头部虚拟形象。它通过多视图查询融合器将多源图像信息统一到规范表示,并端到端预测FLAME参数驱动动画。采用三阶段训练策略:在超百万身份的单目视频数据上预训练;利用少量高质量360度数据微调;支持500步内快速个性化适配。在NeRSemble基准上,其PSNR显著优于现有最优方法5.5分,无需个性化时重建仅需2秒,个性化需10秒,并在单A100 GPU上实现49 FPS实时动画。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
MMSkills:面向通用视觉智能体的多模态技能框架

MMSkills框架旨在为视觉智能体提供可复用的多模态程序性知识。它将每个技能封装为包含文本程序、运行时状态卡片和多视角关键帧的紧凑技能包。该框架通过轨迹到技能的生成器,将公开交互轨迹转化为技能,过程包括工作流分组、程序归纳与视觉定位。使用时,采用分支加载架构:在临时分支中检视选定的状态卡片与关键帧,将其与实时环境对齐并提炼为结构化指导,供主智能体决策。在GUI和游戏基准测试中,该框架能持续提升不同规模多模态智能体的性能,证明外部多模态知识能有效补充模型内部先验。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ReactiveGWM:在反应式游戏世界模型中引导非玩家角色

现有游戏世界模型多从主观玩家视角模拟环境,将非玩家角色(NPC)视为背景像素,难以建模玩家与NPC的动态交互。本文提出ReactiveGWM,该反应式游戏世界模型通过显式解耦玩家控制与NPC行为来解决此问题:玩家动作通过轻量级加性偏置注入扩散主干,而高级NPC响应则通过交叉注意力模块实现。这些模块学习的是与游戏无关的交互逻辑表示,支持零样本策略迁移——学习到的模块可直接插入不同游戏的现成世界模型中,无需针对特定领域重新训练即可实现可引导的NPC交互。在《街头霸王》系列游戏上的评估表明,ReactiveGWM在保持精细玩家可控性的同时,实现了稳健且与提示对齐的NPC策略遵循。

智能体arXiv论文/研究
04:44
HuggingFace Daily Papers(社区热门论文)
42
EgoForce:基于前臂引导的单目头戴相机三维手部姿态重建

本文提出EgoForce框架,通过单个头戴式摄像头从用户视角重建手部的绝对三维姿态与形状。该框架解决了单目RGB方法的深度尺度模糊问题,并能泛化应用于鱼眼、透视等多种摄像头模型。其核心创新在于结合了可微分前臂表征以稳定手部姿态、统一的臂-手Transformer模型从单视图预测几何信息,以及一个光线空间闭式求解器来实现跨设备的绝对三维姿态恢复。在三个第一人称基准测试上的实验表明,EgoForce实现了最先进的三维精度,在HOT3D数据集上将相机空间MPJPE误差降低了最高28%,并在不同摄像头配置下保持了一致的性能。

端侧论文/研究
02:44
HuggingFace Daily Papers(社区热门论文)
精选73
解决循环:语言和推理的吸引子模型

吸引子模型解决了循环Transformer训练不稳定、成本高和深度固定的问题。它通过主干模块生成初始输出嵌入,吸引子模块迭代优化固定点,并利用隐式微分计算梯度,使训练内存与有效深度无关,迭代次数自适应收敛。在语言建模中,相比标准Transformer,困惑度最高降低46.6%,下游任务准确率最高提升19.7%,训练成本更低;一个770M参数的模型性能优于1.3B参数Transformer。在推理任务中,仅2700万参数模型在约1000个示例下,于Sudoku-Extreme和Maze-Hard上准确率分别达91.4%和93.1%,优于Claude、GPT o3等前沿模型。模型还展现出均衡内化现象,训练后初始输出嵌入接近均衡态,推理时可移除求解器而性能几乎无损,实现了迭代优化的可扩展性。

推理数据/训练论文/研究

推荐理由:这可能是要改写语言模型训练范式的架构,把迭代推理变成可学习的固定点,770M 性能超 1.3B Transformer,27M 小模型解数独秒杀 Claude、GPT o3。最反直觉的是,训练后模型能内化迭代过程,推理时直接一步到位。
01:44
HuggingFace Daily Papers(社区热门论文)
66
快与慢的学习:面向持续适应的大语言模型

研究团队提出一种面向大语言模型的快慢学习框架,将模型参数视为“慢”权重,优化的上下文视为“快”权重。该框架结合了参数更新与上下文学习的优势:快权重通过文本反馈快速吸收任务特定信息,而慢权重则保持接近基础模型以维护通用推理能力。在推理任务中,该方法比仅使用慢学习(如强化学习)的样本效率高出3倍,且达到更高性能上限。同时,训练后的模型更接近基础模型(KL散度降低达70%),显著缓解了灾难性遗忘,并保持了模型的可塑性,使其在持续学习场景中能更有效地适应后续新任务。

推理数据/训练论文/研究
5月13日
23:44
HuggingFace Daily Papers(社区热门论文)
63
ORBIT:通过原点调控的权重合并,在生成式检索中保留大语言模型的基础能力

研究指出,为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘,且遗忘程度与微调后和原始模型参数的偏离距离相关。为此,研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离,一旦超过预设阈值,便采用权重平均策略来约束模型在微调过程中的漂移。实验表明,ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法,有效缓解了基础能力的遗忘问题。

arXiv检索增强数据/训练论文/研究
23:44
HuggingFace Daily Papers(社区热门论文)
60
Agent-BRACE:通过语言化状态不确定性在长程任务中解耦信念与行动

针对部分可观测长程任务中LLM智能体面临的历史信息膨胀与状态不确定性问题,研究提出了Agent-BRACE方法。该方法将智能体解耦为信念状态模型与策略模型,通过强化学习联合优化。信念模型以带有序语言化确定性标签(从“确定”到“未知”)的原子化自然语言声明集合,结构化近似表示环境状态的后验分布;策略模型则基于这一紧凑的信念表示而非完整历史进行决策。在部分可观测的具身语言环境中,该方法使Qwen2.5-3B-Instruct和Qwen3-4B-Instruct模型分别实现平均绝对性能提升14.5%与5.3%,且上下文窗口长度几乎不随任务步数增长。分析表明,随着证据积累,学习得到的信念在任务过程中校准度逐渐提升。

智能体arXiv论文/研究
21:44
HuggingFace Daily Papers(社区热门论文)
53
UniPath:面向统一多模态推理的理解与生成自适应协调框架

针对统一多模态模型中理解与生成能力的协调问题,研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”,即针对不同输入动态选择最优推理路径,而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器,并引入轻量级规划器实现输入依赖的路径选择。实验表明,该方法在性能上超越了固定协调策略,同时提供了可解释的中间行为。代码已开源。

多模态推理论文/研究
20:39
IT之家(RSS)
55
我国科研人员探索脑机接口神经探针技术,为慢性疼痛治疗提供新路径

中国科学院长春应用化学研究所张强团队开发出一款植入式水凝胶神经探针,为慢性疼痛治疗提供了新路径。该成果于5月13日发表于《先进材料》期刊。探针采用α螺旋多肽交联剂的超分子水凝胶材料,在模量匹配性、电导率和透光性之间取得平衡,能更好适配脑组织。动物实验显示,植入大脑前边缘皮层的探针可实现长达1年的稳定神经信号记录,并在慢性疼痛模型中有效增强相关脑区活动、提高疼痛阈值、缓解疼痛症状。

具身智能论文/研究
18:44
HuggingFace Daily Papers(社区热门论文)
64
Multi-Stream LLMs:通过并行思维、输入与输出流解锁语言模型

研究提出将语言模型从单一顺序消息处理转向多并行计算流架构。模型在每个前向传播中同时从多个输入流读取,并向多个输出流生成令牌,所有流均因果依赖于先前时间步。这一数据驱动的变革解决了现有智能体无法在阅读时行动、在行动时响应新信息等阻塞问题,同时通过并行化提升了模型效率,通过更好的关注点分离增强了安全性,并改善了模型的可监控性。

智能体推理论文/研究
17:44
HuggingFace Daily Papers(社区热门论文)
48
用于样本高效连续控制的去偏基于模型表示

DR.Q 算法被提出,以解决基于模型表示方法在连续控制中因信息捕获不足和过拟合早期经验而导致的偏差问题。该算法显式最大化当前状态-动作对与下一状态表示之间的互信息,并最小化偏差,同时结合衰减优先经验回放进行过渡采样。在多个连续控制基准测试中,使用单一超参数集进行评估,DR.Q 的表现匹配或超越了近期强基线,有时性能大幅领先。代码已开源。

具身智能论文/研究
17:44
HuggingFace Daily Papers(社区热门论文)
54
Pion:一种基于正交等价变换的谱保持优化器

研究团队推出用于大语言模型训练的优化器Pion,其基于正交等价变换实现谱保持特性。与Adam、Muon等加法型优化器不同,Pion通过左右正交变换更新权重矩阵,使奇异值在整个训练过程中保持不变。该机制能在固定谱范数的前提下调节权重矩阵的几何结构。实验表明,Pion在LLM预训练和微调任务中均能提供稳定且具有竞争力的性能,为传统优化器提供了新替代方案。

arXiv数据/训练论文/研究
‹ 上一页
1…4041424344…50
下一页 ›