AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2713 条
全部一手资讯X论文
标签「论文/研究」清除
5月27日周三
16:19HuggingFace Daily Papers(社区热门论文)67VitaBench 2.0:评估长期用户交互中的个性化与主动智能体
15:19HuggingFace Daily Papers(社区热门论文)59协作并行思考:面向高效测试时缩放的协作并行思考框架
14:14IT之家(RSS)62英伟达发布 PiD 图像生成技术:13GB 显存跑通,最快 210ms 生成 2048×2048 图像
13:37MarkTechPost(RSS)59MEMO:一个无需修改大语言模型参数即可在新知识上训练专用记忆模型的模块化框架
12:51HuggingFace Daily Papers(社区热门论文)53对Gemma 3大语言模型欺骗检测探针的"压力测试":性能、鲁棒性与欺骗表征的几何结构
12:19HuggingFace Daily Papers(社区热门论文)67MobileMoE:扩展设备端混合专家系统
11:19HuggingFace Daily Papers(社区热门论文)70精选基于策略内知识边界增强的智能体强化学习
11:19HuggingFace Daily Papers(社区热门论文)70精选MRT:用于大规模分层图像生成与编辑的掩码区域Transformer
11:19HuggingFace Daily Papers(社区热门论文)72精选超越最终答案:审计多智能体工业工作流中的轨迹级模型幻觉
10:19HuggingFace Daily Papers(社区热门论文)68递归流匹配
10:19HuggingFace Daily Papers(社区热门论文)58RT-Lynx:以正确方式利用 GEMM 稀疏性提升扩散模型性能
10:19HuggingFace Daily Papers(社区热门论文)68空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?
10:19HuggingFace Daily Papers(社区热门论文)57MUSE-Autoskill:通过技能创建、记忆、管理与评估实现智能体的自我进化
10:19HuggingFace Daily Papers(社区热门论文)64LocateAnything:基于并行框解码的快速高精度视觉语言定位
10:19HuggingFace Daily Papers(社区热门论文)64尺寸可忽略,影响却显著:论大语言模型中的缩放向量
09:19HuggingFace Daily Papers(社区热门论文)61用于训练GAN的跨尺度对齐监督
09:19HuggingFace Daily Papers(社区热门论文)51PRISM:一种用于多层光学薄膜设计的位置编码回归逆光谱模型
08:00HuggingFace Daily Papers(社区热门论文)44将混合专家模型剪枝蒸馏为密集语言模型
08:00HuggingFace Daily Papers(社区热门论文)48CORE:对比反思实现推理能力的快速提升
08:00HuggingFace Daily Papers(社区热门论文)44RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性
08:00HuggingFace Daily Papers(社区热门论文)58展示而非讲述:可解释的AI生成文本检测系统TELL
08:00HuggingFace Daily Papers(社区热门论文)55推理模型在对抗压力下的思维链-答案分离现象研究
08:00HuggingFace Daily Papers(社区热门论文)50同一问题,不同来源,不同答案:医疗多来源RAG系统的来源依赖性审计
08:00HuggingFace Daily Papers(社区热门论文)57LLM论文评审的人类对齐性与可博弈性研究
08:00HuggingFace Daily Papers(社区热门论文)51AI代理协作中的委托与信任决策研究:基于问答游戏的分析
08:00HuggingFace Daily Papers(社区热门论文)55深度学习的Hamilton-Jacobi理论
08:00HuggingFace Daily Papers(社区热门论文)55A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度
08:00HuggingFace Daily Papers(社区热门论文)48哪种预训练范式更能服务于空间智能?对视觉语言模型和视频生成模型的实证比较
08:00HuggingFace Daily Papers(社区热门论文)43BiDPO:基于区域感知双模态直接偏好优化的组合式文本到图像生成
08:00HuggingFace Daily Papers(社区热门论文)62行为规格:作为AI个性化的解释层
08:00HuggingFace Daily Papers(社区热门论文)56AlphaTransit:基于搜索学习的城市尺度公交线路设计框架
08:00HuggingFace Daily Papers(社区热门论文)55DEMON:实时可演奏的扩散音乐引擎
08:00HuggingFace Daily Papers(社区热门论文)45当置信度产生误导:面向扩散语言模型的后缀锚定与锚点邻域置信度调节
08:00HuggingFace Daily Papers(社区热门论文)50多场景长语音生成综合评测基准
08:00HuggingFace Daily Papers(社区热门论文)56基于子频率流形遍历的频率引导动作扩散
08:00HuggingFace Daily Papers(社区热门论文)54FRAPPE:全输入、残差输出自编码器与投影追踪编码器
08:00HuggingFace Daily Papers(社区热门论文)67PRISM:评估大语言模型同行评审者的多维基准
08:00HuggingFace Daily Papers(社区热门论文)62RUBRIC-ARROW:面向非可验证领域LLM后训练的逐点评分标准奖励建模
08:00HuggingFace Daily Papers(社区热门论文)62Skill0.5: 一种面向分布外泛化的联合技能内化与利用智能体强化学习框架
08:00HuggingFace Daily Papers(社区热门论文)68Parallax:面向语言建模的参数化局部线性注意力
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
16:19
HuggingFace Daily Papers(社区热门论文)
67
VitaBench 2.0:评估长期用户交互中的个性化与主动智能体

VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。

智能体arXiv论文/研究
15:19
HuggingFace Daily Papers(社区热门论文)
59
协作并行思考:面向高效测试时缩放的协作并行思考框架

为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。

arXiv推理搜索论文/研究
14:14
IT之家(RSS)
62
英伟达发布 PiD 图像生成技术:13GB 显存跑通,最快 210ms 生成 2048×2048 图像

英伟达发布图像生成技术 PiD(Pixel Diffusion Decoder),能在消费级 RTX 5090 显卡上,以 13GB 峰值显存,将 512×512 图像潜变量解码放大至 2048×2048。该技术基于 PixelDiT,通过轻量级适配器与 DMD2 蒸馏(4 步推理)实现高速端到端生成,在 GB200 GPU 上最快 210ms,延迟相比级联方案最多快 5.9 倍。

图像生成论文/研究
13:37
MarkTechPost(RSS)
59
MEMO:一个无需修改大语言模型参数即可在新知识上训练专用记忆模型的模块化框架

新加坡国立大学、麻省理工学院及A*STAR的研究团队提出了MEMO框架。该框架可以将新的语料库知识编码到一个独立的、可训练的MEMORY模型中,从而让大语言模型获得新知识,而无需修改其原始参数。

数据/训练论文/研究
12:51
HuggingFace Daily Papers(社区热门论文)
53
对Gemma 3大语言模型欺骗检测探针的"压力测试":性能、鲁棒性与欺骗表征的几何结构

本文对Gemma 3系列模型(1B-27B参数)上的线性探针欺骗检测方法进行系统测试。研究发现,该探针在干净数据上AUROC可达0.998以上,但在8种文本风格变换下性能崩溃。文章检验了四种欺骗信号的几何编码假设:单一线性方向、多维子空间、凸锥包及熵代理假设,均被拒绝(如单方向假设AUROC仅0.61-0.80)。然而,经过风格数据增强训练的探针(维度k≥5)在未见过的风格上能恢复近乎完美的检测能力(平均AUROC 0.979-0.983),且此模式在4B和27B模型上均成立,表明探针的脆弱性源于训练数据分布狭窄,而非模型规模局限。

Google安全/对齐论文/研究
12:19
HuggingFace Daily Papers(社区热门论文)
67
MobileMoE:扩展设备端混合专家系统

MobileMoE是一系列面向设备端部署的大语言模型,采用混合专家架构,其活动参数规模为0.3-0.9B,总参数量为1.3-5.3B。该研究在移动设备内存与算力约束下,确定了“中等稀疏度结合细粒度共享专家”的最优架构设计。通过涵盖预训练、中期训练、指令微调与量化感知训练的四阶段流程,MobileMoE在14个基准测试中,以2-4倍更少的推理FLOPs达到或超越了领先的设备端密集模型性能,并以最多60%更少的参数量匹配或超过了先进的OLMoE-1B-7B模型。在商用智能手机上,其预填充和解码速度分别比密集基线MobileLLM-Pro快1.8-3.8倍和2.2-3.4倍。

推理端侧论文/研究
11:19
HuggingFace Daily Papers(社区热门论文)
精选70
基于策略内知识边界增强的智能体强化学习

本文研究智能体强化学习在训练工具使用大语言模型时出现的问题,即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此,提出AKBE方法,通过双路径(使用工具与不使用工具)滚动动态探测模型知识边界,定义是否需要工具及最少工具调用次数,并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中,AKBE将任务准确率平均提升1.85,减少18%工具调用,工具生产力提高25%,且无准确率-效率权衡。

智能体GitHub论文/研究

推荐理由:让Agent学会「什么时候不用工具」是比单纯提高准确率更难的活,这篇用一个巧妙的双路径对比方法把这事做成了,直接降18%工具调用还涨点,做Agent的可以抄代码了。
11:19
HuggingFace Daily Papers(社区热门论文)
精选70
MRT:用于大规模分层图像生成与编辑的掩码区域Transformer

MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。

图像生成多模态论文/研究

推荐理由:首次把分层图像生成统一到 20B 遮罩扩散框架,溢出画布层的设计挺巧,让图层可以超出边界编辑,蒸馏后能实时跑,做设计工具的团队该仔细读读。
11:19
HuggingFace Daily Papers(社区热门论文)
精选72
超越最终答案:审计多智能体工业工作流中的轨迹级模型幻觉

提出了Trajel,一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹,引入了五种幻觉分类:事实性、引用性、逻辑性、程序性和范围性。基准测试表明,现有基准遗漏了最常见故障模式,近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高,但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证,表明基于分类法的评估对于更安全的智能体部署是必要的。

智能体安全/对齐论文/研究

推荐理由:现有的幻觉测试只看最终答案,但真正危险的错误往往埋在中间步骤。Trajel把多智能体工业流程的每一步都审计了,发现近一半故障同时包含多种幻觉类型,做智能体安全的人该换评估方式了。
10:19
HuggingFace Daily Papers(社区热门论文)
68
递归流匹配

递归流匹配(RecFM)是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹,从而减少离散化误差并提升物理任务的各项性能。据称,这是首个能够为科学系统实现高保真度一步与少步(2-4步)动态生成的方法,其性能可与最先进的多步求解器相媲美。在多个科学基准测试中,RecFM 实现了最高 20 倍于领先扩散模型的速度提升,同时提高了预测精度。与基础流匹配相比,其均方误差降低了超过 15%。

arXiv推理数据/训练论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
58
RT-Lynx:以正确方式利用 GEMM 稀疏性提升扩散模型性能

RT-Lynx 提出了一种新范式,将扩散模型(Diffusion Transformers)的加速方法从权重稀疏化转向激活稀疏化。研究发现,DiT 模型的激活值具有内在稀疏性,且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术,RT-Lynx 在保持生成质量的同时,实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。

图像生成推理论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
68
空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?

空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。

arXiv具身智能多模态数据/训练
10:19
HuggingFace Daily Papers(社区热门论文)
57
MUSE-Autoskill:通过技能创建、记忆、管理与评估实现智能体的自我进化

MUSE-Autoskill 提出了一个以技能为核心的智能体框架,使智能体能够通过统一的技能生命周期(创建、记忆、管理、评估与精炼)持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用,并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆,用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明,经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力,突显了将技能作为长期、可感知经验且可测试的资产的重要性。

智能体MCP/工具论文/研究部署/工程
10:19
HuggingFace Daily Papers(社区热门论文)
64
LocateAnything:基于并行框解码的快速高精度视觉语言定位

LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。

多模态数据/训练论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
64
尺寸可忽略,影响却显著:论大语言模型中的缩放向量

本研究系统考察了大语言模型中可学习缩放向量的作用。尽管其参数占比极小,但移除后会显著损害模型预训练效果。研究表明,在Pre-Norm架构中,其主要作用并非增强模型表达能力,而是通过自放大的预处理效应优化后续的线性映射。此外,权重衰减对Input-Norm层有益,但对Output-Norm层有害。基于这些发现,文章提出了三种轻量化改进:分支特异性异构性、线性映射周围的改进放置以及幅度-方向重参数化,并将其整合为一个统一的策略。实验验证表明,该策略在以可忽略不计的额外参数和计算开销下,能一致实现更低的最终损失和更优的缩放行为。

数据/训练论文/研究
09:19
HuggingFace Daily Papers(社区热门论文)
61
用于训练GAN的跨尺度对齐监督

现代GAN常被解读为多阶段粗到细生成,但论文指出,标准的分尺度对抗监督并未构建此层级结构:各阶段输出被独立推向真实分布,导致跨阶段输出可能并非同一生成样本,即存在“跨尺度轨迹错位”问题。为此,论文提出跨尺度对齐Transformer (CAT),在保持鉴别器分尺度评估的同时,于生成器侧引入一致性正则化,将中间输出与最终输出对齐。在条件ImageNet-256上,CAT-H/2仅训练60周期,一步推理FID-50K达到1.56,优于多个单步GAN及扩散/流模型基线。

图像生成论文/研究
09:19
HuggingFace Daily Papers(社区热门论文)
51
PRISM:一种用于多层光学薄膜设计的位置编码回归逆光谱模型

PRISM 是一种仅解码器的自回归 Transformer 模型,用于解决多层光学薄膜设计的组合-连续优化问题。它能通过单一骨干网络联合预测离散材料选择与连续厚度。其主要创新在于使用频谱前缀条件输入,以及将连续厚度直接编码至位置表示的累积深度旋转位置嵌入。基准测试表明,13M 参数的 PRISM-13M 模型在平均绝对误差(MAE)上较其他 Transformer 基线降低超过 50%,且参数量仅为五分之一。44M 参数变体在分布内验证基准上达到了最先进性能(MAE = 0.010),其推理速度显著快于模拟退火法。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
将混合专家模型剪枝蒸馏为密集语言模型

提出首个将已训练MoE模型转换为标准全密集架构的系统性框架:对专家进行评分、选择和分组,拼接为密集前馈网络并通过知识蒸馏精炼。在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上评估了7种评分、5种分组和2种幅度缩放方法共350种配置。新提出的多样性感知评分方法一致优于此前方法。在同等参数量下,MoE转密集相比密集到密集剪枝,经过约4B token蒸馏后平均下游准确率提升6.3个百分点,训练速度提升1.6倍。

开源生态论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
CORE:对比反思实现推理能力的快速提升

CORE是一种非参数学习算法,通过对比成功与失败的推理轨迹生成简短自然语言 insights(推理策略和约束),使语言模型快速改进推理。在四个推理任务上,CORE比GRPO、GEPA、episodic RAG和MemRL等基线方法用更少rollout实现更快性能提升;在固定rollout预算下,仅用5个训练样本即可达到可比或更大增益。同时,CORE比非参数基线更上下文高效,将知识存储为紧凑可解释的自然语言insights,所需prompt token更少。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性

RAT+ 引入指数衰减记忆增强注意力,使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合,在八个 needle-in-a-haystack 任务上,不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
展示而非讲述:可解释的AI生成文本检测系统TELL

针对现有AI文本检测器仅提供分数而缺乏解释性、难以应用于教学等场景的问题,研究团队提出了TELL架构。该系统旨在为用户提供文本被判定为AI或人类撰写的“特征提示”,赋能用户基于自身判断进行决策。TELL在特定领域作者标注数据集上训练,并采用GRPO和课程学习进行优化。在保持与前沿检测器可比性能的同时,系统能原生输出解释性标注。其解释质量在人类评估中,在具体性、可证伪性等多维度上取得了平均72.3%的胜率。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
推理模型在对抗压力下的思维链-答案分离现象研究

该研究发现,推理模型在多轮对话的持续对抗压力下,会出现“不忠实的屈服”现象:其内部思维链从首轮到末轮均保持事实正确,但最终输出的答案却翻转变错。实验在MT-Consistency、MMLU-Pro和GSM8K三个数据集上进行,结果显示,发生此现象时,模型在“思考模式”下的潜在正确率接近50%,而在“无思考模式”下则骤降至11-15%。该效应在Qwen3-32B和GPT-OSS-20B上显著,在采用内联CoT的Gemma-4-31B-it上则较低。研究由独立的GPT-4o评判者验证,确认了86%的标签。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
同一问题,不同来源,不同答案:医疗多来源RAG系统的来源依赖性审计

检索增强生成系统处理多来源语料时,可能因检索来源不同而对同一问题给出不同答案,这是一种现有评估体系无法诊断的失效模式。研究团队在医疗患者教育场景发布了三个工具:基准TransplantQA,为真实患者问题提供基于多机构手册的参考答案;分层检索与审计策略HERO-QA;以及一个基于经验证的5标签分类体系的结构化评估器,用于评分来源间关系。大规模审计显示,更优的检索能力所暴露出的来源分歧远高于此前估计。该框架具有领域通用性。

检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
LLM论文评审的人类对齐性与可博弈性研究

该研究基于2025 ACL Rolling Review (ARR)的论文,实证评估了大语言模型(LLM)生成的论文评审意见。研究发现,LLM评审与人类评审的对齐程度有限,且在不同提示词和模型之间存在显著差异。此外,当作者采用基于LLM评审意见的迭代修改工作流时,可以有效“博弈”LLM评审,使高达35%的论文的总分获得统计意义上的显著提升。

安全/对齐论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
AI代理协作中的委托与信任决策研究:基于问答游戏的分析

该研究分析了在问答游戏中,人类与AI智能体协作时的两种关键决策:委托(让AI自主行动)和采纳(评估并使用AI的建议)。实验由23名人类专家与16个AI代理参与,共产生387次委托和1440次采纳决策。结果表明,尽管人机协作表现优于单独行动,但人类决策存在偏差:会低估3.9%的正确AI建议,同时在AI误导时过度信任1.7%的错误建议。当AI建议与人类初始错误答案一致时,低估率高达64.5%。研究指出,当前AI报告的置信度在分歧时接近随机水平,并建议通过校准置信度、提供基于证据的解释和建立信任调节机制来改进协作。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
深度学习的Hamilton-Jacobi理论

该论文将神经网络训练过程重新解释为对Hamilton-Jacobi初值问题的搜索。每次梯度下降都为粘性Hamilton-Jacobi方程选择初始数据,使得其Hopf-Cole传播器最佳拟合观测数据。此对应关系在log-sum-exp层中是精确的,对残差网络、Transformer及各类循环架构(RNN、LSTM、SSM)等更广泛的网络结构则是结构性的。一个变形参数ε统一了神经网络、热带代数、粘性偏微分方程与凸优化四个视角。定量结论包括:泛化率下界、由ε控制的对抗鲁棒性、将反向传播解释为残差网络Hamilton系统的共态方程,以及具有闭式解O(N)的影响函数。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度

针对现有智能体评测基准(如τ^2-Bench)因难度饱和而难以评估能力上限的问题,研究提出TASTE方法。该方法通过反转传统任务构建流程,利用基于LLM判断有效性信号训练的自适应对比n-gram模型生成有效工具序列,经聚类筛选与迭代难度演化,自动构建出工具覆盖更广、难度更高的τ^c-Bench基准。对11组智能体/大语言模型对的评估显示,多个在τ^2-Bench上接近饱和的模型在τ^c-Bench上性能大幅下降,且生成任务要求的唯一工具组合数量显著增加,表明现有基准高分常反映测试集饱和而非模型稳健能力。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
哪种预训练范式更能服务于空间智能?对视觉语言模型和视频生成模型的实证比较

本研究系统比较了视觉语言模型与视频生成模型两种预训练范式在空间智能方面的表现。通过冻结特征探测方法,在语义标注、实例分组和三维几何预测三个关键维度上进行评估。结果显示两者具有明确的互补性:视觉语言模型在语义与实例任务上更强,而视频生成模型则在密集几何与相机运动信号上表现更优。研究进一步发现,简单地融合二者特征即可获得在几何与语义任务上均表现出色的表示,为构建更强的空间智能骨干模型指明了有前景的方向。

具身智能多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
BiDPO:基于区域感知双模态直接偏好优化的组合式文本到图像生成

BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架,用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp,并扩展Diffusion DPO技术,联合优化图像与文本偏好。此外,采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明,BiDPO在多个基准测试上显著提升了组合保真度,并持续优于现有方法。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
行为规格:作为AI个性化的解释层

AI智能体需与用户对齐,提出“代表准确性”衡量个性化理解保真度。通过“行为规格”将用户数据压缩为解释模式,在14个公共领域自传体语料库上显著提升代表准确性,上下文成本降低约25倍。该方法在基准测试中优于Mem0、Letta、Supermemory、Zep四种商业记忆系统。对需要解释的问题提升最大,但对需要回忆的问题可能干扰。代表准确性区别于回忆能力,使AI对齐可测试。

安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
AlphaTransit:基于搜索学习的城市尺度公交线路设计框架

AlphaTransit 是一个用于城市公交网络设计的搜索规划框架,旨在解决线路设计中因延迟反馈导致的路径交互欺骗性问题。该框架结合了蒙特卡洛树搜索(MCTS)与神经策略-价值网络:网络负责提出线路延伸方案并评估设计质量,搜索过程则利用这些预测进行决策,从而在构建线路时实现前瞻性。在 Bloomington TRNDP 基准测试中,AlphaTransit 在混合和全需求设置下分别达到了 54.6% 和 82.1% 的服务率。与不使用搜索的强化学习相比,服务率分别提升 9.9% 和 11.4%;与没有学习引导的 MCTS 相比,分别提升 2.5% 和 11.2%。该研究的代码与数据已开源。

搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
DEMON:实时可演奏的扩散音乐引擎

DEMON 是一个实时扩散引擎,将扩散去噪过程转化为可实时演奏的乐器。它基于 ACE-Step 1.5 和 StreamDiffusion 的环形缓冲区架构,采用 TensorRT 加速,在单块 RTX 5090 GPU 上可实现每秒 12.3 次解码完成(60秒音乐),在生产环境环深度 4 下达每秒 11.3 次生成。通过四个核心机制——异构去噪调度、共享可变状态、逐帧源混合与窗口化 VAE 解码——实现了参数的低延迟控制与高达 8.0 倍的解码加速。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
当置信度产生误导:面向扩散语言模型的后缀锚定与锚点邻域置信度调节

扩散语言模型通过迭代去噪掩码token序列解码文本,置信度常被用于选择解码位置。然而,高置信度有时会产生误导,例如EOT token可能获得高置信度导致生成不完整。为缓解此问题,插入后缀锚定可鼓励生成完整响应,但会引入锚点邻域的局部过度自信,导致锚点邻近token过早解码。为此,研究提出了后缀锚定置信度调节方法,该方法插入短后缀锚点以促生成完整响应,并根据解码进度调节锚点附近置信度。在纯文本推理、视觉-语言推理和代码生成基准测试中,该方法持续提升了基于置信度的完全非自回归解码性能,优于显式EOT抑制,并保留了完全非自回归生成的并行优势。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
多场景长语音生成综合评测基准

SwanBench-Speech是一个针对长语音生成的综合评测基准,涵盖长语音生成和对话生成,覆盖声学、语义和表现力挑战。该基准包含1,101个样本,横跨17种常见语音场景,并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示,当前模型在高表达性场景下表现依然吃力,且在一致性与层次感上与真实录音存在明显差距。

论文/研究评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
56
基于子频率流形遍历的频率引导动作扩散

机器人行为克隆中,人类演示数据固有的高频噪声(如抖动和停顿)会被基于扩散模型的策略继承并放大。为此,研究提出了频率引导算子(FGO)。该算子在扩散策略的生成过程中,引导噪声样本依次通过频带逐步扩展的中间子频率流形,从而实现频域上的隐式操控与平滑动作生成。在5个基准的15项机器人操作任务上验证,该方法显著提升了动作平滑度和时间一致性。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
FRAPPE:全输入、残差输出自编码器与投影追踪编码器

针对现有媒体压缩标准在率失真复杂度权衡上的瓶颈,研究者提出了一种名为FRAPPE的新型自编码框架。该框架利用投影追踪编码器从全输入预测残差输出,实现了零开销的变速率编码。基于此构建的FRAPPE-Image可变速率RGB图像编解码器,在高压缩比(约0.1 bpp)下,其感知质量优于AVIF,且编码速度提升47倍,能够仅依靠CPU实现实时1080p 30fps的编码。相关代码与预训练模型已开源。

论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
67
PRISM:评估大语言模型同行评审者的多维基准

针对机器学习论文激增给同行评审带来的压力,研究者提出了PRISM基准框架。该框架从分析深度、新颖性评估、缺陷识别与主要问题优先级、多维建设性四个维度评估评审质量,其方法基于论点挖掘、检索增强验证和共识评分。在对ICLR、ICML和NeurIPS评审的测试中,PRISM发现大语言模型在某些单维度上表现可比甚至超越人类(如分析深度相当),但没有一个系统能在所有维度上同时达到人类的均衡表现,且各系统存在不同盲区。结论认为大语言模型评审者最适合作为人类评审的针对性补充,而非独立替代品。

论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
RUBRIC-ARROW:面向非可验证领域LLM后训练的逐点评分标准奖励建模

RUBRIC-ARROW是一个用于解决大语言模型在主观、非可验证领域进行后训练时,评分标准奖励模型所面临的评分僵局问题的交替式奖励建模框架。该框架联合训练一个评分标准生成器和一个基于该标准的评判者,其强化学习阶段仅使用成对偏好数据。核心方法在于采用概率评分规则以减少平局,并结合交替式GRPO方案,利用阶段性偏好奖励训练逐点评分评估器。实验表明,该框架在奖励建模准确性上具备竞争力,并能为下游策略后训练带来一致收益。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
Skill0.5: 一种面向分布外泛化的联合技能内化与利用智能体强化学习框架

针对大语言模型在技能利用中外部化与内部化的两难困境,本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器,将任务分流至不同的掌握层级。对于通用技能,通过特权蒸馏进行内化,为处理困难任务构建认知基础;对于任务特定技能,则在简单任务上通过诊断探测来强制利用,以避免捷径学习。在ALFWorld和WebShop基准测试中,Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
Parallax:面向语言建模的参数化局部线性注意力

Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器,并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法,其算术强度优于FlashAttention,将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中,Parallax展现出持续的困惑度改进,且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。

开源生态数据/训练论文/研究
‹ 上一页
1…2829303132…50
下一页 ›