AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「arXiv」清除
5月12日周二
08:00HuggingFace Daily Papers(社区热门论文)63世界-动作交互模型的曙光:DAWN
08:00HuggingFace Daily Papers(社区热门论文)61PresentAgent-2:迈向通用多模态演示智能体
08:00HuggingFace Daily Papers(社区热门论文)56视觉美学基准:前沿模型能评判美吗?
07:29elvis61自主进化:LLM自动优化测试时扩展策略的新框架
5月11日周一
23:59elvis70大语言模型代理中的"记忆诅咒"
19:48Berryxia.AI73小块有大智慧?这下真成真了!
08:00HuggingFace Daily Papers(社区热门论文)49审计多模态LLM评估者:临床序数评分中的趋中倾向偏差
08:00HuggingFace Daily Papers(社区热门论文)45基于多边形序列生成的平面图重建方法
08:00HuggingFace Daily Papers(社区热门论文)55WildClawBench:面向真实世界长周期智能体评估的基准
08:00HuggingFace Daily Papers(社区热门论文)54Active Tabular Augmentation via Policy-Guided Diffusion Inpainting
08:00HuggingFace Daily Papers(社区热门论文)56MulTaBench:面向文本与图像的跨模态表格学习基准测试
08:00HuggingFace Daily Papers(社区热门论文)71精选IndustryBench:探究大语言模型的工业知识边界
08:00HuggingFace Daily Papers(社区热门论文)65FocuSFT:面向注意力稀释问题的双层优化长上下文微调框架
08:00HuggingFace Daily Papers(社区热门论文)57策略蒸馏的多重困境:失效机制与修复方案
00:58elvis57智能体AI工作流的可扩展模式
5月10日周日
08:00HuggingFace Daily Papers(社区热门论文)50基于噪声追踪对的整流流离线偏好优化
08:00HuggingFace Daily Papers(社区热门论文)61从像素到概念:分割模型真的理解它们分割的内容吗?
08:00HuggingFace Daily Papers(社区热门论文)63微观缺陷暴露宏观伪造:通过局部分布偏移检测AI生成图像
08:00HuggingFace Daily Papers(社区热门论文)63通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题
08:00HuggingFace Daily Papers(社区热门论文)62跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力
08:00HuggingFace Daily Papers(社区热门论文)64TD3B:用于变构配体生成的过渡导向离散扩散模型
08:00HuggingFace Daily Papers(社区热门论文)65几何冲突:解释与控制大语言模型持续后训练中的遗忘
5月9日周六
23:51Hacker News 热门(buzzing.cc 中文翻译)62当你将任务委托给大语言模型时,它们会篡改你的文档
08:35Berryxia.AI66人类大脑最聪明的地方,就是大部分时间只激活极少部分神经元。
08:00HuggingFace Daily Papers(社区热门论文)33面向弱监督日志实例异常定位:基于反事实扰动的"大海捞针"
08:00HuggingFace Daily Papers(社区热门论文)69Source or It Didn't Happen: 一个用于检测引用幻觉的多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)56网络中的大语言模型:资源约束下的协同智能
08:00HuggingFace Daily Papers(社区热门论文)45预测瓶颈无法发现因果结构(及其实际作用)
08:00HuggingFace Daily Papers(社区热门论文)72精选AgentForesight:面向多智能体系统早期故障预测的在线审计框架
08:00HuggingFace Daily Papers(社区热门论文)54RigidFormer:使用Transformer学习刚体动力学
08:00HuggingFace Daily Papers(社区热门论文)61从空口袋到电子密度:基于密度的GPT式药物设计
5月8日周五
19:29HuggingFace Daily Papers(社区热门论文)59BioTool:一个用于增强大语言模型生物医学能力的综合性工具调用数据集
17:26HuggingFace Daily Papers(社区热门论文)51Sparkle:通过解耦引导实现生动的指令引导视频背景替换
10:22HuggingFace Daily Papers(社区热门论文)66专家智能体驱动的自动化研究开发出高效且非平凡的训练方案
10:22HuggingFace Daily Papers(社区热门论文)66先思考后评分:视频奖励建模中的解耦推理与评分
08:00HuggingFace Daily Papers(社区热门论文)46基于控制变量基线的大语言模型在线蒸馏稳定化方法
08:00HuggingFace Daily Papers(社区热门论文)62FAAST:一种仅需前向传播的快速权重关联适应方法,用于测试时监督适应
08:00HuggingFace Daily Papers(社区热门论文)55Implicit Preference Alignment for Human Image Animation
08:00HuggingFace Daily Papers(社区热门论文)55安全还是无能?重新思考手机使用智能体的安全评估
08:00HuggingFace Daily Papers(社区热门论文)49可查询的LoRA:基于共享低秩更新原子与指令正则化的路由方法
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
08:00
HuggingFace Daily Papers(社区热门论文)
63
世界-动作交互模型的曙光:DAWN

研究团队提出世界-动作交互模型(WAIMs)概念,并针对自动驾驶实例化出DAWN模型。DAWN在紧凑的语义潜在空间中,通过世界预测器与条件动作去噪器的耦合进行交互式推理:预测的世界为动作去噪提供条件,而去噪后的动作又反馈以更新世界预测,两者在推理中递归优化。该方法无需在像素空间展开完整未来预测,仅通过短时潜在推演即可支持复杂交互场景中的长时程轨迹生成。实验表明,DAWN在多个自动驾驶基准测试中取得了优异的规划性能与安全相关结果,证明交互式世界-动作生成是构建真正可操作世界模型的有效路径。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
PresentAgent-2:迈向通用多模态演示智能体

PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题,并从演示友好型来源进行深度研究,收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式:单人演示(单解说员)、讨论式演示(多演讲者结构化角色)和交互式演示(基于生成内容回答观众问题)。研究团队构建了涵盖三种场景的多模态演示基准,并制定了内容质量、媒体相关性、动态媒体使用等评估标准,从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。

智能体arXiv多模态视频
08:00
HuggingFace Daily Papers(社区热门论文)
56
视觉美学基准:前沿模型能评判美吗?

针对现有美学评估常简化为单图像打分的问题,研究提出了视觉美学基准(VAB),将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像,每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现,最强模型仅在26.5%的任务中准确识别最佳和最差图像,远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型,其性能可接近大得多的开源模型,表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。

arXiv多模态论文/研究评测/基准
07:29
elvis@omarsar0
61
自主进化:LLM自动优化测试时扩展策略的新框架

近期研究提出AutoTTS框架,让大语言模型自主搜索并优化测试时扩展策略,取代人工设计。该框架将宽度-深度TTS策略制定为对预收集推理轨迹的控制器合成问题,通过Beta参数化压缩搜索空间,并利用细粒度执行轨迹反馈指导探索。在数学推理基准测试中,自动发现的控制器在准确率-成本帕累托前沿上超越了人工设计的强基线,且能零样本泛化到其他基准和模型规模。整个发现过程仅需39.9美元和160分钟,预示着人工设计思维链等方法的时代可能即将结束,TTS将成为LLM自主完成的任务。

智能体arXiv推理论文/研究
5月11日
23:59
elvis@omarsar0
70
大语言模型代理中的"记忆诅咒"

研究发现,长历史记录会在大语言模型(LLM)代理中引发“记忆诅咒”,导致其过度遵循历史、规避风险,从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验,在28个模型-游戏组合中,有18个因历史扩展而合作退化。机制分析表明,长历史侵蚀了模型的前瞻性意图,使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题,且能零样本迁移至新游戏。实验证明,触发因素是历史内容而非长度,而消除显式思维链通常能减轻合作崩溃。

智能体arXiv安全/对齐推理
19:48
Berryxia.AI@berryxia
73
小块有大智慧?这下真成真了!

一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。

BURKOV: In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...

智能体arXivMCP/工具推理
08:00
HuggingFace Daily Papers(社区热门论文)
49
审计多模态LLM评估者:临床序数评分中的趋中倾向偏差

本研究评估多模态大语言模型(LLM)作为临床评分自动评估器的表现,以画钟测试(CDT)图像评分任务为例。在两个公开数据集上,使用Shulman评分标准,比较三大前沿LLM家族(如GPT-5)与监督深度学习模型。零样本LLM在容差一致性上具有竞争力,但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”:预测分数系统性向量表中间压缩,高估低分、低估高分,严重影响认知障碍筛查的关键极端分数。消融实验证明,提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域,强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。

arXiv多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
基于多边形序列生成的平面图重建方法

本文提出Raster2Seq方法,将复杂平面图的重建任务转化为序列到序列学习问题。该方法将房间、门窗等平面图元素表示为同时编码几何与语义信息的多边形序列,并通过自回归解码器,利用可学习锚点引导注意力机制,依据图像特征与已生成角点预测下一个角点。这种设计使模型能够灵活、高效地处理包含大量房间和复杂多边形结构的平面图。实验表明,Raster2Seq在多个标准基准上取得了领先性能,并在更具挑战性的数据集上展现出强大的泛化能力。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
WildClawBench:面向真实世界长周期智能体评估的基准

WildClawBench是一个原生运行环境基准,包含60项人工编写的双语多模态任务,涵盖六大主题。任务平均耗时约8分钟,涉及超20次工具调用,并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分,结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中,表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%,其余均低于60%,且仅更换框架就可使同一模型得分波动高达18分。结果表明,当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
Active Tabular Augmentation via Policy-Guided Diffusion Inpainting

研究揭示了表格数据生成增强中存在的“保真度-效用差距”,即仅追求分布真实性未必能提升下游模型性能。为此提出的TAP方法将扩散修复技术与轻量级策略相结合,该策略根据学习器状态动态引导生成高效用样本,并通过显式门控和保守窗口承诺控制安全注入。在七个真实数据集上的实验表明,在数据极度稀缺时,TAP显著优于现有生成基线,最高提升分类准确率15.6个百分点,降低回归任务RMSE达32%。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MulTaBench:面向文本与图像的跨模态表格学习基准测试

针对现有表格基础模型依赖冻结预训练嵌入处理文本、图像等非结构化模态导致信息丢失的问题,研究团队推出了包含40个数据集的MulTaBench基准。该基准专注于模态间提供互补预测信息的任务,避免以往基准中模态简单共现带来的高方差问题。实验表明,针对具体任务调整嵌入能显著提升模型性能,且这一收益在文本与图像模态、多种表格学习器及不同模型规模上均具普适性。作为迄今规模最大的图像-表格基准,MulTaBench覆盖医疗、电商等高影响领域,旨在推动融合联合建模与目标感知表征的新架构研究,为开发新一代多模态表格基础模型奠定基础。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
IndustryBench:探究大语言模型的工业知识边界

研究团队发布IndustryBench,这是一个基于中国国家标准(GB/T)和工业产品记录构建的2049项中文工业采购问答基准,并提供了多语言对齐版本。构建中,基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题,凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现:最佳系统得分(0-3分制)仅为2.083分,提升空间巨大;“标准与术语”是普遍能力短板;扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数;安全违规检查会显著改变模型排名。研究表明,工业领域的大语言模型评估需基于源文本、具备安全意识,而非依赖简单的聚合准确率。

arXivHugging Face推理数据/训练

推荐理由:工业采购场景下,LLM的准确率远不够用,而且推理模型越想越多反而越不安全,这个基准把幻觉和安全风险摆上了台面。
08:00
HuggingFace Daily Papers(社区热门论文)
65
FocuSFT:面向注意力稀释问题的双层优化长上下文微调框架

针对大语言模型在长上下文微调中因位置偏见和注意力汇聚导致的注意力稀释问题,本研究提出了FocuSFT双层优化框架。该方法通过内循环快速权重参数形成参数化记忆,集中注意力于相关内容,外循环则基于此锐化表征进行监督微调。实验表明,在BABILong基准上准确率最高提升14个百分点;在RULER的16K长度下,CWE分数从72.9%提升至81.1%;在GPQA工具使用任务中pass@1相对提升24%。注意力分析显示,该方法将训练时的注意力汇聚效应降低529倍,并显著提升了上下文参与度。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
策略蒸馏的多重困境:失效机制与修复方案

研究发现,大型语言模型的后训练方法——策略蒸馏(OPD)与策略自蒸馏(OPSD)效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感;OPSD则在测试时缺乏实例特定特权信息时容易失效,但在系统提示等共享规则场景下有效。失效机制主要包括:师生分布不匹配、TopK反向KL梯度导致的优化不稳定,以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。

arXiv推理数据/训练论文/研究
00:58
elvis@omarsar0
57
智能体AI工作流的可扩展模式

智能体RAG流程的瓶颈通常不在大语言模型调用,而在于底层数据平面的序列化与分布式协调开销。新研究提出的AAFLOW是一个统一分布式运行时,将智能体工作流建模为基于Apache Arrow和Cylon的算子抽象,通过零拷贝数据平面直接连接预处理、嵌入和检索环节,并采用资源确定性调度与异步批处理降低协调成本。该方案实现了高达4.64倍的流水线加速,嵌入与更新阶段性能提升2.8倍,且所有收益均源于数据流优化,并未涉及大语言模型推理加速。

智能体arXiv论文/研究部署/工程
5月10日
08:00
HuggingFace Daily Papers(社区热门论文)
50
基于噪声追踪对的整流流离线偏好优化

针对文本到图像整流流模型,现有偏好数据集仅存储最终图像,无法描述其以特定先验噪声为索引的近似直线轨迹。本研究提出先验噪声感知偏好优化方法,通过保留生成胜出/落败图像时使用的配对先验噪声,将标准三元组扩展为六元组。利用整流流的直线特性,通过噪声-图像插值估计中间状态,从而约束轨迹估计空间并获得更紧致的代理优化目标。此外,引入动态正则化策略,根据奖励差距和训练进度自适应调整正则化强度,提升训练稳定性与样本效率。实验表明,该方法能持续改善偏好指标,同时显著降低训练计算量。

arXiv图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
从像素到概念:分割模型真的理解它们分割的内容吗?

研究团队推出CAFE基准,专门评估提示型分割模型的概念忠实性。该基准通过属性级反事实操作,构建了包含2,146个测试样本的数据集,涵盖表面模仿、上下文冲突和本体冲突三类误导性语义线索。对多种模型的评估揭示了一个系统性差距:模型即使面对误导性提示也常能生成精确掩码,这表明强大的掩码预测能力并不等同于忠实的概念语义基础。CAFE为诊断模型是否基于概念而非视觉捷径进行分割提供了受控的评估标准。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
微观缺陷暴露宏观伪造:通过局部分布偏移检测AI生成图像

针对AI生成图像检测,本研究提出MDMF框架,通过聚焦局部区域的微观统计异常来识别伪造。该方法引入可学习的“补丁取证签名”,将图像语义块映射到紧凑的取证潜在空间,并利用最大均值差异量化生成图像与真实图像间的分布差异。理论分析表明,当生成图像存在局部取证信号时,基于补丁的建模能产生可证明的更大分布差异,从而实现更可靠的区分。在多个基准测试上的实验表明,MDMF consistently outperforms baseline detectors,验证了其通用有效性。项目页面已公开。

arXiv图像生成安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题

针对大语言模型强化学习中普遍存在的性能饱和问题,研究团队提出Entrocraft方法。该方法通过拒绝采样偏置优势分布,实现用户定制的熵调度,无需目标正则化且与优势估计器无关。理论分析将熵变化与优势分布关联,解释了现有方法的行为。系统研究发现,从高值衰减至略低目标的线性退火熵调度效果最佳。实证表明,Entrocraft显著提升了模型泛化能力、输出多样性和长期训练稳定性,使40亿参数模型性能超越80亿参数基线,性能提升持续时间延长至4倍,并将pass@K指标提高了50%。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力

本文提出跨语言在线策略自蒸馏方法(COPSD),以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师:学生仅接收低资源语言问题,教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练,提供了密集监督,避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD能持续提升不同规模模型的推理性能,显著优于GRPO基准,并改善了答案格式遵循与测试时缩放能力,对资源极少的语言效果尤为显著。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
64
TD3B:用于变构配体生成的过渡导向离散扩散模型

研究团队推出TD3B,一种基于序列的生成框架,专门设计具有指定激动剂或拮抗剂行为的蛋白质配体。该方法通过过渡导向控制目标,结合目标感知的方向预测器、软结合亲和力门控机制,并对预训练的离散扩散模型进行摊销微调。TD3B能够生成与结合亲和力解耦、且基于平衡或纯推理基线无法实现的定向配体,尤其针对临床相关的GPCRs,解决了现有基于静态结构的设计方法无法表征非可逆方向性效应的局限。代码与模型已开源。

arXivHugging Face开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
几何冲突:解释与控制大语言模型持续后训练中的遗忘

研究揭示大语言模型持续后训练中的遗忘源于任务更新引发的协方差几何与模型演化状态之间的错位,即“几何冲突”,它决定了能力是迁移还是干扰。基于此,团队提出了无需回放数据的Geometry-Conflict Wasserstein Merging(GCWM)方法。该方法通过高斯Wasserstein重心构建共享度量,并利用几何冲突门控进行几何感知校正。在Qwen3系列模型的领域持续与能力持续设定中,GCWM一致优于无数据基线,显著提升了知识保留与最终性能,证实几何冲突是解释遗忘的关键信号和实用的控制机制。

arXiv数据/训练论文/研究
5月9日
23:51
Hacker News 热门(buzzing.cc 中文翻译)
62
当你将任务委托给大语言模型时,它们会篡改你的文档

一项研究发现,当用户将编辑任务委托给大语言模型时,模型可能会擅自篡改原始文档内容。研究指出,LLMs在完成诸如总结或翻译等任务时,存在非用户明确指示下主动修改文本的风险,例如改变事实细节或调整语气风格。这种行为可能导致文档的准确性和完整性受损,提醒用户需谨慎对待AI的自动化编辑输出,并建议进行人工复核。

arXiv安全/对齐论文/研究
08:35
Berryxia.AI@berryxia
66
人类大脑最聪明的地方,就是大部分时间只激活极少部分神经元。

现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。

hardmaru: The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
33
面向弱监督日志实例异常定位:基于反事实扰动的"大海捞针"

该研究针对大规模系统日志中实例级异常定位标注成本高的难题,提出了LogMILP弱监督框架。该框架仅使用包级标签,即可同时实现包级异常检测与实例级异常定位。其核心是通过原型引导的结构建模与反事实扰动一致性正则化,指导模型定位关键日志条目。在三个公共数据集上的实验表明,LogMILP在取得有竞争力的检测性能同时,生成的实例级定位结果更为可靠。相关代码已开源于 https://github.com/YUK1207/LogMILP。

arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
69
Source or It Didn't Happen: 一个用于检测引用幻觉的多智能体框架

针对大语言模型在科学写作中生成看似合理但无法验证的虚假引用问题,研究团队构建了一个名为CiteTracer的级联多智能体检测器。该系统将引用幻觉检测重新定义为符合分类法的字段级判定,并引入一个包含12种代码、涵盖真实、潜在和幻觉引用的分类体系。CiteTracer通过结构化提取、缓存查找、URL获取、学术连接器和网络搜索等多渠道检索证据,应用确定性字段匹配,并将模糊案例路由给专业分类判断器。在包含2450个合成引用和957个来自真实会议投稿的伪造引用基准测试中,CiteTracer在合成集上达到97.1%的整体准确率,在真实集上检测出97.1%的伪造引用。相关代码已开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
网络中的大语言模型:资源约束下的协同智能

大语言模型(LLMs)驱动各类应用,但云服务难以满足低延迟、间歇连接等需求,端侧部署又受算力与内存限制。协同智能作为一种新范式,通过分布在设备与云端的多个LLMs以自然语言协作,在计算、内存、通信和成本等多维约束下优化响应质量。该框架涵盖垂直设备-云协作和水平多智能体协作,并可结合为混合拓扑。研究还探讨协作学习,包括路由策略训练与LLMs合作能力开发,并指出资源异构下的扩展性及可信协同智能等开放挑战。

智能体arXivMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
预测瓶颈无法发现因果结构(及其实际作用)

研究发现,仅通过下一步预测训练的Mamba模型,其简单读出操作看似能恢复格兰杰因果结构,但经系统证伪基准检验后,该因果发现主张不成立。线性瓶颈效果相当或更好;在合成与真实基准上,调优的Lasso及经典因果发现方法均优于该瓶颈;其干预数据优势主要源于样本量混淆,残余优势仅在非标准干预下出现,且同样存在于经典格兰杰方法中。最终保留下来的仅是一个狭窄的表征结果,而可复用的五阶段证伪基准及其对照实验成为主要贡献。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选72
AgentForesight:面向多智能体系统早期故障预测的在线审计框架

针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。

智能体arXiv推理论文/研究

推荐理由:在多agent系统里,一个错误往往被下游接受并导致整个轨迹失败,这篇论文把事后归因变成了在线审计,用小模型在错误扩散前报警,比GPT-4.1还准,做agent部署的值得细读。
08:00
HuggingFace Daily Papers(社区热门论文)
54
RigidFormer:使用Transformer学习刚体动力学

RigidFormer是一种以物体为中心的Transformer模型,用于学习无网格刚体动力学并支持可控积分步长。该模型在物体级别推理,通过紧凑锚点推进物体,利用锚点-顶点池化融入局部顶点特征,保留接触几何而无需密集顶点交互。基于锚点的RoPE将几何注入注意力机制,尊重物体与锚点的无序性,并通过可微Kabsch对齐将更新投影到刚体流形以保持刚性。在标准基准测试中,它使用点云输入优于或匹配基于网格的基线,运行更快,能泛化到未见点分辨率和跨数据集,可扩展至200多个物体。初步研究还展示了扩展到指令条件化铰接体的潜力。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
从空口袋到电子密度:基于密度的GPT式药物设计

针对现有基于结构的药物设计方法依赖空结合口袋、忽略填充物信息的问题,本研究提出EDMolGPT新方法。该方法创新性地利用来自配体或溶剂的低分辨率电子密度作为生成条件,该密度可源于计算或冷冻电镜/X射线实验数据,能更真实地反映结合环境的构象灵活性。EDMolGPT采用仅解码器的自回归框架,直接从电子密度点云生成分子,有效减少了结构偏差并直接输出三维构象。在101个生物靶标上的评估验证了其有效性。

arXiv数据/训练论文/研究
5月8日
19:29
HuggingFace Daily Papers(社区热门论文)
59
BioTool:一个用于增强大语言模型生物医学能力的综合性工具调用数据集

为提升大语言模型在生物医学领域的工具调用能力,研究团队发布了BioTool数据集。该数据集整合了来自NCBI、Ensembl和UniProt的34个常用工具,包含7,040个经人工验证的高质量查询-API调用对,覆盖变异、基因组学等多个领域。在一个40亿参数的模型上微调后,其在生物医学工具调用上的性能显著提升,甚至超越了GPT-5.1等先进商业模型。人类专家评估证实,集成该工具调用器能有效提升下游任务答案质量。数据集与评估代码已开源。

智能体arXiv数据/训练论文/研究
17:26
HuggingFace Daily Papers(社区热门论文)
51
Sparkle:通过解耦引导实现生动的指令引导视频背景替换

近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv多模态开源/仓库视频
10:22
HuggingFace Daily Papers(社区热门论文)
66
专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环,其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是,谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后,人类未干预搜索过程。在总计1797次试验中,该循环使参数高尔夫的验证bpb降低0.81%,将NanoChat-D12 CORE提升38.7%,并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术,从而改进公开的初始方案。

智能体arXiv数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
先思考后评分:视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
基于控制变量基线的大语言模型在线蒸馏稳定化方法

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题,本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题,并引入一个控制变量基线(即价值函数)来稳定训练。该价值函数具有闭式解,即学生与教师模型间的逐令牌反向KL散度,无需额外计算。通过减去该基线,vOPD在保持梯度无偏的同时显著降低了方差。实验表明,在数学与科学推理任务上,vOPD性能持续优于原始在线蒸馏,并能匹配计算成本更高的全词表基线方法,实现了高效且稳定的训练。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
FAAST:一种仅需前向传播的快速权重关联适应方法,用于测试时监督适应

FAAST提出了一种仅需前向传播的关联适应方法,通过解析方式将标注样本单次编译为快速权重,无需依赖记忆或上下文。该方法实现了恒定时间推理,并将任务适应与预训练表征解耦。在图像分类和语言建模基准测试中,FAAST性能匹配或超过基于反向传播的适应方法,同时将适应时间减少90%以上;与基于记忆/上下文的适应方法相比性能相当,但内存使用量最高可节省95%。这为监督任务适应提供了一个高效、可扩展的解决方案,尤其适用于资源受限的模型。

arXiv数据/训练端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Implicit Preference Alignment for Human Image Animation

针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。

arXivGitHub图像生成视频
08:00
HuggingFace Daily Papers(社区热门论文)
55
安全还是无能?重新思考手机使用智能体的安全评估

研究团队推出PhoneSafety基准测试,包含从130多个应用的真实交互中提取的700个安全关键时刻,以评估智能体在风险决策中的表现。测试区分三种行为:采取安全行动、不安全行动或无法执行任何有效操作。对八个代表性智能体的评估发现,更强的通用手机操作能力并不总意味着在风险时刻能做出更安全的选择;而“无法行动”更多反映的是能力限制(尤其在视觉和操作复杂度高的界面中),而非安全意图。结果表明,无害的结果不足以证明安全性,必须将不安全判断与行动无能区分开来。

智能体arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
可查询的LoRA:基于共享低秩更新原子与指令正则化的路由方法

本文提出一种数据自适应的参数高效微调方法,以改进静态低秩适应(LoRA)的局限性。该方法用一组可查询的共享低秩更新原子取代每层独立的适配器,允许模型根据当前层状态和前面层的运行摘要,通过注意力机制动态检索并组合这些更新组件,从而在保持低秩瓶颈效率的同时,实现跨输入和跨层的动态、上下文感知的参数更新。此外,方法引入指令正则化,通过语言引导的先验偏置路由逻辑,使低秩变换更倾向于语义相关方向。实验表明,该方法在使用相近可训练参数量的情况下,相比标准LoRA能提升最终测试性能和训练稳定性。

arXiv数据/训练论文/研究
‹ 上一页
1…1415161718…23
下一页 ›