AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 759 条
全部一手资讯X论文
标签「arXiv」清除
5月1日周五
08:00HuggingFace Daily Papers(社区热门论文)58用于跨文档检索增强生成的分层抽象树
08:00HuggingFace Daily Papers(社区热门论文)56Stable-GFlowNet:通过对比轨迹平衡实现多样且鲁棒的LLM红队测试
08:00HuggingFace Daily Papers(社区热门论文)55部署中学习:面向通用机器人策略的集群规模强化学习框架
08:00HuggingFace Daily Papers(社区热门论文)55让ViT说话:生成式语言-图像预训练
4月30日周四
10:42HuggingFace Daily Papers(社区热门论文)54通过系统集成推测解码加速强化学习后训练中的生成过程
08:00HuggingFace Daily Papers(社区热门论文)44EviMem: 基于证据缺口的迭代检索框架,用于长期对话记忆
08:00HuggingFace Daily Papers(社区热门论文)44机器人学习中的世界模型:一项全面综述
08:00HuggingFace Daily Papers(社区热门论文)47EDU-CIRCUIT-HW:在真实大学STEM课程学生手写解答上评估多模态大语言模型
08:00HuggingFace Daily Papers(社区热门论文)46Skills-Coach:基于无训练GRPO的自进化技能优化框架
08:00HuggingFace Daily Papers(社区热门论文)55WindowsWorld:一个以流程为中心的专业跨应用环境自主GUI代理基准
08:00HuggingFace Daily Papers(社区热门论文)39评估胰腺导管腺癌血管侵犯:PDACVI基准测试
08:00HuggingFace Daily Papers(社区热门论文)57重复优于多样:面向高效德语建模的高质量数据过滤策略
4月29日周三
17:33IT之家(RSS)65腾讯混元开源手机端离线翻译模型 Hy-MT1.5-1.8B-1.25bit,仅 440MB
08:00HuggingFace Daily Papers(社区热门论文)55HiL-Bench(人在回路基准测试):智能体知道何时该求助吗?
08:00HuggingFace Daily Papers(社区热门论文)54ComboStoc:扩散生成模型中的组合随机性
08:00HuggingFace Daily Papers(社区热门论文)56Prox-E:通过基于基元的抽象实现细粒度3D形状编辑
08:00HuggingFace Daily Papers(社区热门论文)50面向高效计算机使用代理的步骤级优化
08:00HuggingFace Daily Papers(社区热门论文)56合规性与合理性:大语言模型中推理可控性研究
08:00HuggingFace Daily Papers(社区热门论文)56最后一篇人类撰写的论文:智能体原生研究制品
08:00HuggingFace Daily Papers(社区热门论文)53大原子模型与语言模型的智能体融合加速超导体发现
4月28日周二
08:00HuggingFace Daily Papers(社区热门论文)45模型应以多快速度遵从监督?基于Tsallis损失连续体训练推理模型
4月22日周三
22:12HuggingFace Daily Papers(社区热门论文)CityRAG:通过空间锚定视频生成步入城市
20:12HuggingFace Daily Papers(社区热门论文)LLM何以成为优秀优化器?基于轨迹分析的LLM引导进化搜索研究
19:12HuggingFace Daily Papers(社区热门论文)基于深度学习的准确可扩展交换关联方法
13:10HuggingFace Daily Papers(社区热门论文)AnyRecon:基于视频扩散模型的任意视角3D重建
11:10HuggingFace Daily Papers(社区热门论文)PlayCoder:使 LLM 生成的 GUI 代码具备可运行性
11:10HuggingFace Daily Papers(社区热门论文)LoopCTR:解锁循环扩展能力以优化点击率预测
11:10HuggingFace Daily Papers(社区热门论文)ClawNet:面向跨用户自主协作的人机共生代理网络
10:10HuggingFace Daily Papers(社区热门论文)Tstars-Tryon 1.0:面向多样化时尚单品的稳健逼真虚拟试衣系统
08:00HuggingFace Daily Papers(社区热门论文)时间扩展混合专家模型
08:00HuggingFace Daily Papers(社区热门论文)面向LLMs的混合策略蒸馏
08:00HuggingFace Daily Papers(社区热门论文)面向长程任务的协同进化LLM决策与技能库智能体
00:36HuggingFace Daily Papers(社区热门论文)计算机使用智能体的可靠性研究
4月21日周二
16:34HuggingFace Daily Papers(社区热门论文)面向跨会话个性化工具调用的潜在偏好建模
16:34HuggingFace Daily Papers(社区热门论文)通过判别性文本表征将单步图像生成从类别标签扩展到文本
12:34HuggingFace Daily Papers(社区热门论文)ClawEnvKit:面向爪形智能体的自动环境生成工具包
11:34HuggingFace Daily Papers(社区热门论文)单轮多策略情感支持对话建模
10:34HuggingFace Daily Papers(社区热门论文)Stratagem:通过轨迹调制的游戏自博弈学习可迁移推理
08:00HuggingFace Daily Papers(社区热门论文)SAVOIR:基于Shapley值奖励归因学习社交智能
08:00HuggingFace Daily Papers(社区热门论文)基于工具监督强化学习的视觉推理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
08:00
HuggingFace Daily Papers(社区热门论文)
58
用于跨文档检索增强生成的分层抽象树

针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战,研究者提出了Ψ-RAG框架。该框架包含两个核心组件:一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引;二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务,在跨文档多跳问答基准测试中,其平均F1分数显著优于现有先进方法。相关代码已开源。

arXiv检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Stable-GFlowNet:通过对比轨迹平衡实现多样且鲁棒的LLM红队测试

针对大型语言模型红队测试中生成对抗性攻击时面临的训练不稳定与模式崩溃问题,研究团队提出Stable-GFN方法。该方法摒弃了传统生成流网络中的分区函数估计,转而采用基于成对比较的稳定训练目标,并引入鲁棒掩码机制以应对奖励噪声。此外,通过流畅度稳定器防止模型陷入生成无意义文本的局部最优。实验表明,该方法在保持生成流网络最优策略的同时,实现了更稳定的训练过程,其生成的对抗攻击在效果与多样性方面均表现优异。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
部署中学习:面向通用机器人策略的集群规模强化学习框架

研究团队提出了“部署中学习”(LWD)框架,用于对通用视觉-语言-动作(VLA)策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发,利用机器人集群自主运行和人工干预数据,形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据,LWD结合了用于鲁棒价值估计的分布隐式价值学习(DIVL)和用于基于流的动作生成器中策略提取的伴随匹配Q学习(QAM)。在16台双臂机器人集群的八项真实操作任务(包括语义商品补货与长时程任务)验证中,单一通用策略随经验积累平均成功率提升至95%,长时程任务改进尤为显著。

智能体arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
让ViT说话:生成式语言-图像预训练

本文提出生成式语言-图像预训练框架GenLIP,为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT,使其根据视觉token预测语言token,无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强,并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后,GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后,模型在OCR和图表理解等细节敏感任务上表现进一步提升。

arXiv多模态论文/研究
4月30日
10:42
HuggingFace Daily Papers(社区热门论文)
54
通过系统集成推测解码加速强化学习后训练中的生成过程

前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中,在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现,支持同步与异步流水线,允许在RL生成阶段进行推测。实验表明,在8B规模的同步RL推理任务中,推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测,在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
44
EviMem: 基于证据缺口的迭代检索框架,用于长期对话记忆

研究团队提出EviMem系统,包含IRIS闭环框架与LaceMem分层记忆架构,通过显式诊断证据缺口来驱动精准查询优化。该系统在LoCoMo数据集上显著提升长期对话记忆的检索效果:针对时序问题的判断准确率从73.3%提升至81.6%,多跳问题准确率从65.9%提升至85.2%,同时延迟降低至原有方法的1/4.5。核心创新在于实现了从缺口检测、缺失内容诊断到针对性查询优化的完整闭环。

arXiv检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
机器人学习中的世界模型:一项全面综述

世界模型作为预测环境动态的表征,是机器人学习的核心,支撑策略学习、规划与仿真。本文从机器人学习视角系统梳理了其研究现状,涵盖模型与策略的耦合方式、作为强化学习仿真器的功能,以及机器人视频世界模型向可控、结构化及基础模型级范式的演进。综述进一步关联了导航与自动驾驶应用,总结了相关数据集、基准与评估方法,旨在厘清关键范式并指出具身智能中预测建模的未来挑战。为追踪进展,作者将同步维护更新的GitHub资源库。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
EDU-CIRCUIT-HW:在真实大学STEM课程学生手写解答上评估多模态大语言模型

研究团队发布了EDU-CIRCUIT-HW数据集,包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告,同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现,模型识别的手写内容中存在大量潜在错误,表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明,通过识别错误模式进行预先检测与纠正,仅需极少人工干预(例如将3.3%的作业交由人工评分),即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。

arXivGitHub多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Skills-Coach:基于无训练GRPO的自进化技能优化框架

Skills-Coach是一种自动化框架,旨在提升基于大语言模型的智能体的技能自进化能力。它通过四个核心模块解决技能生态系统碎片化:多样化任务生成模块创建测试套件;轻量化优化模块改进技能提示和代码;对比执行模块评估原始与优化技能;可追溯评估模块严格评判性能。框架提供虚拟和真实执行模式。研究使用包含48项技能的Skill-X基准数据集验证,实验结果表明Skills-Coach在广泛技能类别上实现显著性能提升,有助于开发更强大、适应性更强的LLM智能体。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
WindowsWorld:一个以流程为中心的专业跨应用环境自主GUI代理基准

WindowsWorld是一个跨应用工作流基准,旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架,生成包含四个难度级别及中间检查的任务,经人工审核后在模拟环境中执行。基准包含181个任务,平均每个任务有5.0个子目标,覆盖17种常用桌面应用,其中78%为跨应用任务。实验结果显示,当前领先的大模型与代理在跨应用任务上表现不佳(成功率低于21%),远低于简单单应用任务;在需要跨三个及以上应用进行条件判断与推理的任务中大多失败,且执行效率低下。相关代码、基准数据与评估资源已开源。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
39
评估胰腺导管腺癌血管侵犯:PDACVI基准测试

研究团队发布了CURVAS-PDACVI数据集与挑战赛,这是一个针对胰腺导管腺癌术前血管侵犯评估的开放基准。数据集包含每例扫描的五位专家独立标注,支持不确定性感知AI模型的开发。提出的评估框架不仅衡量空间重叠度,还纳入概率校准与侵犯判定。对六种前沿方法的评估表明,全局体积精度高的模型在关键的肿瘤-血管界面未必可靠;而专门建模标注者分歧的方法能生成更校准的概率图,在专家共识低的复杂案例中更具鲁棒性。该基准揭示了体积精度作为手术适用性代理指标的局限性,推动了面向术前决策的不确定性感知模型的发展。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
重复优于多样:面向高效德语建模的高质量数据过滤策略

针对德语等高资源非英语语言,本研究构建分层过滤器处理5亿份网络文档,对比了单次训练大规模低过滤数据与多轮重复训练高质量核心数据的效果。实验表明,重复训练高质量数据在多种模型规模和训练量级下均稳定优于追求多样性的单次训练,即使重复7轮后性能差距依然显著。这证明通过质量过滤实现语义集中,比单纯扩大数据量更能高效推进语言建模。基于此发布的德语模型Boldt,在训练量仅为同类模型1/10至1/360的情况下取得了领先性能,相关清洗后的评估基准已公开。

arXiv开源生态数据/训练论文/研究
4月29日
17:33
IT之家(RSS)
65
腾讯混元开源手机端离线翻译模型 Hy-MT1.5-1.8B-1.25bit,仅 440MB

腾讯混元开源了手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit,其体积仅440MB,可在手机本地离线运行。该模型支持33种语言及1056个翻译方向,基于1.8B参数原型通过极致量化压缩实现。其1.25-bit版本采用稀疏高效三值量化技术,将原始3.3GB模型大幅缩减。官方称其翻译质量优于谷歌翻译等主流系统,并提供了2-bit和1.25-bit两种量化方案以适配不同机型。模型完全离线工作,不收集用户数据,相关资源已全面开源。

arXivHugging Face模型发布端侧
08:00
HuggingFace Daily Papers(社区热门论文)
55
HiL-Bench(人在回路基准测试):智能体知道何时该求助吗?

HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时,能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息,核心指标 Ask-F1 综合衡量提问精准度与障碍召回率,以平衡过度提问与盲目猜测。评估显示,当前前沿模型在判断求助时机上存在普遍缺陷,其完整信息性能仅能恢复一小部分。失败模式主要体现为三种:过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练,一个 32B 模型在求助质量与任务通过率上均获得提升,且能力可跨领域迁移,表明判断力可通过训练改进。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
ComboStoc:扩散生成模型中的组合随机性

本文针对扩散生成模型中未被充分研究的组合复杂性问题,指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间,从而限制模型性能。为此,我们提出了ComboStoc方法,通过构建充分利用组合结构的随机过程,显著加速了图像和3D形状等多种数据模态的网络训练。此外,该方法还支持在测试时生成过程中,为不同维度和属性使用异步时间步,从而实现对它们不同程度的灵活控制。代码已开源。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Prox-E:通过基于基元的抽象实现细粒度3D形状编辑

研究团队提出Prox-E,一个无需训练即可实现细粒度3D控制的框架。该方法先将输入3D形状抽象为一组紧凑的几何基元,再利用预训练的视觉语言模型对该抽象进行基元层级的编辑指定,最终引导3D生成模型完成局部结构修改,同时严格保持物体未变化区域的原始身份。实验表明,该方法在身份保持、形状质量和指令遵循度上,均优于现有的基于2D的3D编辑器和需要训练的方法。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
面向高效计算机使用代理的步骤级优化

现有计算机使用代理在长周期图形界面任务中因每一步都调用大型多模态模型而导致效率低下。此类任务轨迹具有高度异质性:多数步骤可由轻量策略可靠处理,而错误多集中于少数高风险时刻,表现为进度停滞与语义漂移。为此,本文提出一种事件驱动的步骤级级联框架,默认运行轻量策略,仅当轻量监测器识别到风险升高时才升级至强模型。该框架整合了停滞监测器与里程碑监测器,能根据交互进程自适应分配计算资源,将始终开启的前沿模型推理转变为按需调用。该模块化设计无需改变现有代理架构或重新训练大模型即可直接集成。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
合规性与合理性:大语言模型中推理可控性研究

本研究通过推理冲突视角,探讨大语言模型能否将归纳、演绎等基本推理模式与具体问题实例解耦。发现LLMs优先考虑合理性而非合规性,即使指令冲突也倾向任务适用推理。任务准确率不严格由合理性决定,模型依赖内部参数记忆且随规模增强。推理冲突可内部检测,置信度显著下降。实验显示推理类型从中后层线性编码,表明激活层面可控。通过机制干预,成功将模型导向合规,指令遵循率最高提升29%。这表明主动干预能有效解耦逻辑模式与数据,提升可控性、忠实度和泛化能力。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
最后一篇人类撰写的论文:智能体原生研究制品

传统科学论文为追求线性叙事,舍弃了大量失败实验与分支路径,且描述与可执行细节间存在鸿沟,严重阻碍了AI智能体的理解与复现。为此,研究团队提出“智能体原生研究制品”(ARA)协议,以包含科学逻辑、可执行代码、探索图谱及证据层的机器可执行研究包取代传统论文。其生态系统由实时研究管理器、ARA编译器和原生评审系统支持。实验表明,ARA将问答准确率从72.4%提升至93.7%,复现成功率从57.4%提高至64.4%。保存的失败轨迹能加速扩展任务,但也可能限制高能力智能体跳出既有框架。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
大原子模型与语言模型的智能体融合加速超导体发现

研究团队提出名为ElementsClaw的智能体框架,通过协同大型原子模型与大型语言模型来加速材料发现。该框架利用微调自10亿参数原子模型Elements的工具进行原子尺度计算,并借助LLM进行高层语义推理,将材料发现转向集成化、人机交互模式。在超导体搜索中,该框架仅用28个GPU小时便筛选了240万种晶体,识别出6.8万个高置信度候选材料,将已知超导体空间扩大了数个数量级。它不仅成功识别出文献中隐藏的超导体,更发现了四种经实验验证的新型超导体,其中Zr3ScRe8和HfZrRe4的转变温度分别为6.8K和6.7K。

智能体arXivHugging Face论文/研究
4月28日
08:00
HuggingFace Daily Papers(社区热门论文)
45
模型应以多快速度遵从监督?基于Tsallis损失连续体训练推理模型

研究提出基于Tsallis q-对数的损失函数族J_Q,用于在仅有输出级监督的后训练中调整推理模型。该族在利用极(q=0,对应RLVR)和密度估计极(q=1)间连续插值,所有成员共享相同梯度方向,仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题:利用极逃离需Ω(1/p_0)时间,而密度估计极仅需Θ(log(1/p_0)),中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器:梯度放大强化学习(GARL)与后验衰减微调(PAFT)。在多个数据集上,q=0.75的GARL显著缓解了冷启动停滞,在GRPO完全失败时成功逃离;在热启动中,低q的GARL在FinQA上表现主导,而PAFT在q=0.75时为其他数据集提供了稳定梯度,在HotPotQA上达到最佳结果47.9 maj@16。

arXiv推理数据/训练论文/研究
4月22日
22:12
HuggingFace Daily Papers(社区热门论文)
CityRAG:通过空间锚定视频生成步入城市

CityRAG 是一种新型视频生成模型,通过利用大规模地理注册数据作为上下文,将生成内容锚定到真实物理场景。该模型采用时间未对齐的训练数据,学会从瞬态属性中语义解耦底层场景,从而在保持复杂运动和外观变化先验的同时,实现真实世界重建。实验表明,该系统可生成数分钟长的连贯视频序列,在数千帧内保持天气和光照条件的一致性,支持闭环导航和复杂轨迹重建真实地理环境。

arXiv具身智能视频论文/研究
20:12
HuggingFace Daily Papers(社区热门论文)
LLM何以成为优秀优化器?基于轨迹分析的LLM引导进化搜索研究

一项针对15个LLM在8个任务上的大规模轨迹分析表明,零样本问题解决能力仅能部分解释优化效果差异。研究发现,优秀的LLM优化器表现为局部优化器,能在语义空间中持续产生渐进式改进并保持搜索局部化;而较弱模型则呈现大幅语义漂移,虽有偶发突破但易陷入停滞。解决方案的新颖性并非性能预测指标,仅当搜索围绕高性能区域充分局部化时才具价值。该研究为LLM优化系统的设计与训练提供了基于轨迹分析的实践指导。

智能体arXiv推理论文/研究
19:12
HuggingFace Daily Papers(社区热门论文)
基于深度学习的准确可扩展交换关联方法

研究团队推出名为Skala的深度学习交换关联泛函,在GMTKN55主族化学基准测试中实现2.8 kcal/mol的误差,精度超越现有混合泛函,同时保持半局域DFT的低计算成本。该方法通过从数据中学习电子结构的非局域表示,绕过昂贵的手工特征工程,打破了传统密度泛函理论中精度与效率的权衡。基于大规模波函数方法高精度参考数据训练,证明现代深度学习可实现随数据集扩展而系统改进的神经网络交换关联模型,推动第一性原理模拟向更高预测能力发展。

arXiv数据/训练论文/研究
13:10
HuggingFace Daily Papers(社区热门论文)
AnyRecon:基于视频扩散模型的任意视角3D重建

AnyRecon框架通过视频扩散模型实现任意无序稀疏输入的3D重建。该方法构建持久全局场景记忆以支持长距离条件,移除时间压缩保持大视角变化下的帧级对应,并引入几何感知条件策略耦合生成与重建过程。结合4步扩散蒸馏和上下文窗口稀疏注意力降低计算复杂度,解决了传统方法仅依赖1-2帧导致的局限性,在非规则输入、大视角间隙和长轨迹场景下实现稳健可扩展的重建。

arXiv多模态视频论文/研究
11:10
HuggingFace Daily Papers(社区热门论文)
PlayCoder:使 LLM 生成的 GUI 代码具备可运行性

研究团队发布 PlayEval 基准测试与 Play@k 指标,基于43个多语言GUI应用评估大模型生成能力。实验显示10个先进代码LLM的Play@3接近零,暴露逻辑正确性短板。提出的多代理框架PlayCoder通过闭环生成、评估与修复,将开源及闭源模型的Exec@3提升至38.1%、Play@3达20.3%,并能发现传统指标遗漏的静默逻辑错误。

智能体arXiv编码论文/研究
11:10
HuggingFace Daily Papers(社区热门论文)
LoopCTR:解锁循环扩展能力以优化点击率预测

LoopCTR提出一种循环扩展范式,通过递归重用共享模型层将训练计算与参数增长解耦,采用三明治架构结合超连接残差与混合专家,并在各循环深度实施过程监督。该方法实现"训练多循环、推理零循环"策略,单次前向传播即可超越所有基线。实验在三个公开基准及工业数据集上达到SOTA性能,Oracle分析揭示0.02-0.04 AUC的优化空间,且少循环训练模型展现出更高的自适应推理潜力。

arXiv论文/研究部署/工程
11:10
HuggingFace Daily Papers(社区热门论文)
ClawNet:面向跨用户自主协作的人机共生代理网络

现有AI代理仅支持单用户任务自动化,缺乏跨用户协作基础设施。ClawNet首创人机共生代理范式,为每位用户配置永久绑定的专属代理系统,以人类为网络节点实现多用户协作。该框架通过分层身份架构(全局Manager Agent与上下文Identity Agents分离)、范围授权及行动级问责三大治理机制,经由中央编排器强制执行身份绑定与授权验证,确保跨用户代理协作的安全性与全程可审计。

智能体arXiv论文/研究
10:10
HuggingFace Daily Papers(社区热门论文)
Tstars-Tryon 1.0:面向多样化时尚单品的稳健逼真虚拟试衣系统

Tstars-Tryon 1.0 是一款商业级虚拟试衣系统,能够在极端姿势、光照变化和动态模糊等复杂场景下保持高成功率,生成保留服装纹理与材质细节的高保真图像。系统支持多达6张参考图的多图合成,覆盖8个时尚品类,并针对推理速度进行优化实现近实时生成。该技术已在淘宝App大规模部署,服务数百万用户并处理数千万次请求,同时团队发布了综合基准数据集以支持后续研究。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
时间扩展混合专家模型

研究团队基于强化学习options框架提出时间扩展MoE架构,通过在每层添加控制器学习专家切换时机,解决传统MoE频繁切换导致的内存效率问题。在gpt-oss-20b上的实验表明,该方法结合低秩适配器与自蒸馏奖励,将专家切换率从50%以上降至5%以下,同时在MATH等基准测试中保持90%的基础模型准确率。这种轻量级方案使现有预训练模型可转换为内存高效的时间扩展MoE,在切换开销与模型能力间实现灵活权衡。

arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
面向LLMs的混合策略蒸馏

研究团队提出混合策略蒸馏(HPD)方法,通过统一视角将知识蒸馏重新表述为token级重加权对数似然目标。该方法整合前向与反向KL散度的互补优势以平衡模式覆盖与模式寻求,并结合离线数据与轻量级近似在线采样策略。在数学推理、对话及代码任务的验证中,HPD展现出优于现有方法的优化稳定性、计算效率和最终性能,且适用于不同模型家族与规模。

arXiv开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
面向长程任务的协同进化LLM决策与技能库智能体

针对大语言模型在长程交互环境中难以持续决策的问题,本文提出COSPLAY协同进化框架。该框架包含两个互相促进的模块:LLM决策智能体从可学习技能库检索技能指导行动生成;技能库智能体则从智能体无标签轨迹中持续发现、提取和更新可重用技能。在六个游戏环境测试中,基于8B基础模型的COSPLAY在单人游戏基准上较四个前沿LLM基线实现25.1%的平均奖励提升,在多人社交推理场景中也保持竞争力。

智能体arXivHugging Face推理
00:36
HuggingFace Daily Papers(社区热门论文)
计算机使用智能体的可靠性研究

计算机使用智能体虽在网页导航与桌面自动化等任务中表现优异,却面临执行可靠性挑战——即使任务与模型不变,单次成功无法保证重复运行稳定。研究基于 OSWorld 平台对相同任务进行多次执行测试,通过配对统计分析发现:可靠性受执行随机性、任务规范模糊性及行为变异性三重因素影响,其关键在于任务定义方式与跨执行行为的一致性。研究建议采用重复执行评估机制,并优先选择在多次运行中保持稳定的策略。

智能体arXiv论文/研究评测/基准
4月21日
16:34
HuggingFace Daily Papers(社区热门论文)
面向跨会话个性化工具调用的潜在偏好建模

针对用户请求常省略关键细节导致工具调用输入不完整的问题,研究者推出MPT基准测试与PRefine方法。MPT包含265个多会话对话,涵盖偏好回忆、归纳与迁移三大挑战。PRefine通过生成-验证-精炼循环将用户偏好建模为动态假设,从历史提取可复用约束,在仅消耗全历史提示1.24% token的情况下提升工具调用准确率。研究表明,有效的个性化需捕获用户选择背后的原因而非仅记录选择本身。

智能体arXivMCP/工具论文/研究
16:34
HuggingFace Daily Papers(社区热门论文)
通过判别性文本表征将单步图像生成从类别标签扩展到文本

研究人员针对MeanFlow单步生成框架难以有效整合大语言模型文本编码器的问题,提出采用高判别性文本表征的解决方案。通过适配基于LLM的文本编码器并优化生成流程,首次实现高效的文本条件单步图像合成。实验表明,该方法在主流扩散模型上显著提升了生成性能,突破了原有类别标签条件的局限。相关代码已开源。

arXiv图像生成多模态论文/研究
12:34
HuggingFace Daily Papers(社区热门论文)
ClawEnvKit:面向爪形智能体的自动环境生成工具包

ClawEnvKit是面向爪形智能体的自动环境生成管道,通过解析器、生成器和验证器将自然语言转化为多样化、经验证的环境。基于该工具构建的Auto-ClawEval基准包含1,040个环境,覆盖24个类别,成本较人工降低13,800倍且质量相当。跨4个模型家族和8个智能体框架的评估显示,工具链工程较裸ReAct基线提升性能达15.7个百分点。该工具支持实时评估和按需训练环境生成,可根据智能体弱点自适应调整任务分布。

智能体arXiv具身智能论文/研究
11:34
HuggingFace Daily Papers(社区热门论文)
单轮多策略情感支持对话建模

现有情感支持对话系统通常假设每轮仅使用单一策略,但现实中单轮常包含多种支持策略。本研究将ESC任务重新定义为多策略话语生成,提出All-in-One和One-by-One两种方法,分别通过单步解码和迭代方式生成策略-回复对,并引入强化学习引导的认知推理优化策略选择。在ESConv数据集上的实验表明,该方法能有效建模多策略话语,显著提升支持质量与对话成功率,首次系统验证了单轮多策略的可行性和有效性。

arXiv数据/训练论文/研究
10:34
HuggingFace Daily Papers(社区热门论文)
Stratagem:通过轨迹调制的游戏自博弈学习可迁移推理

STRATAGEM 框架通过轨迹调制的游戏自博弈提升语言模型的可迁移推理能力。针对现有方法仅依赖游戏终端结果、难以区分通用推理与特定启发式的问题,该框架引入推理可迁移性系数和推理进化奖励,选择性强化展现抽象领域无关推理的轨迹,并激励自适应推理发展。实验显示,该方法在数学推理、通用推理和代码生成基准测试中取得显著改进,尤其在竞赛级数学任务上表现突出。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
SAVOIR:基于Shapley值奖励归因学习社交智能

研究团队提出基于合作博弈论的SAVOIR框架,结合期望效用(前瞻性评估话语的战略潜力)与Shapley值(公理化保证公平信用分配),解决多轮对话强化学习中的信用分配难题。在SOTOPIA基准测试中,该框架取得全新SOTA成绩,7B参数模型性能匹敌甚至超越GPT-4o和Claude-3.5-Sonnet。实验还发现大型推理模型在社交智能任务上持续表现不佳,揭示社交能力与分析推理存在本质差异。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
基于工具监督强化学习的视觉推理

研究团队提出ToolsRL框架,通过工具监督强化学习提升多模态大语言模型的视觉推理能力。该框架采用课程学习策略,第一阶段利用工具特定奖励训练基础工具操作(包括放大、旋转、翻转、绘制点线等),第二阶段结合准确性奖励进行端到端优化。这种分离式训练避免了异构任务间的优化冲突,使模型先掌握工具调用能力再应用于复杂视觉推理。实验表明,该方法能高效习得可解释的视觉工具使用技能,显著提升复杂视觉推理任务表现。

智能体arXiv多模态论文/研究
‹ 上一页
1…141516171819
下一页 ›