AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
6月3日周三
08:00HuggingFace Daily Papers(社区热门论文)60智能体终极考试(Agents' Last Exam)
08:00HuggingFace Daily Papers(社区热门论文)38CIPER:跨视角图像检索与位姿估计的统一框架
08:00HuggingFace Daily Papers(社区热门论文)55Muon 优于 Adam 的曲率视角解释
08:00HuggingFace Daily Papers(社区热门论文)47自我评估已然存在:用极少数据激发基座大模型的潜在评判校准能力
08:00HuggingFace Daily Papers(社区热门论文)55Imaginative Perception Tokens 增强多模态语言模型的空间推理
08:00HuggingFace Daily Papers(社区热门论文)61DistIL:基于分布化DAgger的丰富反馈强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)49通过 Fisher 信息度量模型鲁棒性:谱界、理论保证与实用算法
08:00HuggingFace Daily Papers(社区热门论文)49GENEB: 为什么基因组模型难以比较
08:00HuggingFace Daily Papers(社区热门论文)58BRepCLIP:面向CAD理解的BRep原语对比多模态预训练框架
08:00HuggingFace Daily Papers(社区热门论文)60TIDE:模板引导的迭代式主动多问题发现框架
08:00HuggingFace Daily Papers(社区热门论文)61SePO:自演化提示智能体用于系统提示优化
08:00HuggingFace Daily Papers(社区热门论文)62个人相机胶卷视觉问答AI智能体(Camroll-Agent)
08:00HuggingFace Daily Papers(社区热门论文)55VideoKR:面向知识与推理密集型视频理解
08:00HuggingFace Daily Papers(社区热门论文)68Video2LoRA:面向视觉语言模型的参数化视频内化方法
08:00HuggingFace Daily Papers(社区热门论文)62Flash-WAM:面向世界动作模型的模态感知蒸馏
08:00HuggingFace Daily Papers(社区热门论文)61重新思考持续经验内化:面向自进化LLM智能体
08:00HuggingFace Daily Papers(社区热门论文)57SpeechEditBench:双语多属性指令引导语音编辑基准
06:16Rohan Paul63AI解释科学的能力优于预测能力
06:00Microsoft Research72精选微软研究:Aurora天气预报速度超传统超算数千倍
03:41HuggingFace Daily Papers(社区热门论文)64语义运动锚点:弥合协同语音手势中的运动与意义
03:41HuggingFace Daily Papers(社区热门论文)66DOT-MoE:用于MoE化的可微最优传输
01:40HuggingFace Daily Papers(社区热门论文)60TVIR:面向文本-视觉交错报告生成的深度研究智能体构建
01:40HuggingFace Daily Papers(社区热门论文)71精选AFUN: 迈向功能理解的可供性基础模型
00:40HuggingFace Daily Papers(社区热门论文)61Harness-1:面向搜索智能体的强化学习与状态外部化框架
00:15AK62GPU预测器:大语言模型优化内核运行时
00:15AK60VLMs是否知道何时不回答空间问题
6月2日周二
23:45AK62Crafter:多智能体科学图表生成框架
23:40HuggingFace Daily Papers(社区热门论文)60PaW:策略与世界模型协同训练框架
23:12elvis50单LLM驱动多智能体系统扩展行为研究
22:44Rohan Paul57AI驱动预测最便宜安全AWS Spot实例舰队
20:40HuggingFace Daily Papers(社区热门论文)71精选NLP领域2018-2025年人类标注报告实践的大规模审计
18:40HuggingFace Daily Papers(社区热门论文)67几何潜推理使LLM生成更短
17:52Anthropic:Transformer Circuits(可解释性研究)63精选Anthropic可解释性研究:区分因果效应相似的特征
14:40HuggingFace Daily Papers(社区热门论文)68MCP-Persona:首个面向真实场景个性化工具的LLM智能体基准测试
14:40HuggingFace Daily Papers(社区热门论文)68LongLive-RAG:用于长视频生成的通用检索增强框架
13:40HuggingFace Daily Papers(社区热门论文)64JAMEL:通过新颖性信号联合训练智能体记忆与探索策略(开源)
13:40HuggingFace Daily Papers(社区热门论文)69Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
13:40HuggingFace Daily Papers(社区热门论文)73精选OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架
12:40HuggingFace Daily Papers(社区热门论文)61在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形
12:40HuggingFace Daily Papers(社区热门论文)68多智能体计算机使用
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
08:00
HuggingFace Daily Papers(社区热门论文)
60
智能体终极考试(Agents' Last Exam)

AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
38
CIPER:跨视角图像检索与位姿估计的统一框架

现有跨视角地理定位方法将城市级检索和精确位姿估计分离,导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务:采用共享Transformer编码器配合任务专用token,分离全局检索特征与空间定位线索;引入双向Transformer位姿解码器,以地面特征作为空间查询进行双向交叉注意力,弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上,CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Muon 优于 Adam 的曲率视角解释

研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示,两者一阶增益相当,但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度(NDS),两者更新范数相近,Muon 的 NDS 更低,且数据不平衡会放大这一优势。中后期训练中,Muon 的 NDS 优势主要源自更小的层内曲率。理论证明,Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS,在曲率异质性足够强时,同等步数下局部二次损失也更低。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
自我评估已然存在:用极少数据激发基座大模型的潜在评判校准能力

研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
Imaginative Perception Tokens 增强多模态语言模型的空间推理

多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征,使模型能在保持与输入观测一致的前提下,外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL,构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能,在 MVC 上准确率提升 3.4%,在 PT 上与强闭源模型相当,且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号,同时生成可解释的中间表征。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
DistIL:基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
通过 Fisher 信息度量模型鲁棒性:谱界、理论保证与实用算法

提出基于 Fisher 信息矩阵(FIM)谱范数的攻击无关鲁棒性度量,量化模型输出对输入扰动的 worst-case 敏感度。理论上证明 FIM 等于输入 Jacobian 的方差,并推导出 VGG、ResNet、DenseNet、Transformer 等架构的闭式谱界,给出首个理论鲁棒性排序。开发基于幂迭代和 Hutchinson 估计的高效算法,支持白盒与黑盒场景。在 CIFAR、ImageNet、医学图像等数据集上的实验表明,该度量与对抗脆弱性高度相关。代码已开源。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
GENEB: 为什么基因组模型难以比较

基因组基础模型的进展因基准碎片化、评估协议不兼容而难以评估。GENEB是一个大规模诊断基准,在统一探针协议下评估40个模型在100个任务(13个功能类别)上的冻结表示,包含少样本场景。分析显示聚合排行榜不稳定:模型排名在不同任务类别间差异显著,规模带来的收益有限且不一致,架构和预训练对齐的影响常超过参数数量。GENEB为基因组机器学习提供了原则性比较和类别感知模型选择的参考框架。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
BRepCLIP:面向CAD理解的BRep原语对比多模态预训练框架

BRepCLIP是首个通过对比预训练将CAD边界表示(BRep)几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列,使用表面(如圆柱面、环面、NURBS)和曲线(如直线、圆弧、B样条)的离散词汇表,并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入,通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape,BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%,在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
TIDE:模板引导的迭代式主动多问题发现框架

TIDE是一种模板引导的迭代框架,用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求,而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题,并基于已发现结果调节后续搜索以扩大覆盖;同时通过思维模板从历史案例中提炼复用模式,指示模型关注哪些上下文信号及如何关联,将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中,基于四个模型骨干的验证显示,TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
SePO:自演化提示智能体用于系统提示优化

SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
个人相机胶卷视觉问答AI智能体(Camroll-Agent)

研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoKR:面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
Video2LoRA:面向视觉语言模型的参数化视频内化方法

Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。

多模态论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
62
Flash-WAM:面向世界动作模型的模态感知蒸馏

世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。

具身智能推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
重新思考持续经验内化:面向自进化LLM智能体

经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
SpeechEditBench:双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。

arXiv论文/研究语音
06:16
Rohan Paul@rohanpaul_ai
63
AI解释科学的能力优于预测能力

一项对4,760个科学事件的研究发现,AI模型在“解释”科学方面优于“预测”科学。模型在识别可能的研究路径(尤其是选择题形式)时表现较好,但在预测科学发现是否会实际发生、何时发生以及何种方法有效等更难任务上表现薄弱,准确率接近随机猜测。即使提供额外历史信息,模型改善有限。这表明,模型内嵌大量科学知识并不等同于具备可靠的科学预见能力。研究论文发表于arXiv(2605.22681),标题为《Forecasting Scientific Progress with AI》。

其他论文/研究
06:00
Microsoft Research@MSFTResearch
精选72
天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多:https://msft.it/6018vjGUA
Microsoft多模态论文/研究

推荐理由:微软把天气预报推到了推理速度比超算快数千倍,这在气象AI里算是代际提升,虽然离普通人远,但对气候建模和极端天气预警是实实在在的突破。
03:41
HuggingFace Daily Papers(社区热门论文)
64
语义运动锚点:弥合协同语音手势中的运动与意义

研究提出“语义运动锚点”方法,用于解决协同语音手势生成与检索中语义理解不足的问题。该方法将3D手势离散化为身体-手部运动原语,并转化为结构化的自然语言描述,作为辅助监督信号锚定于语音文本。在BEAT2数据集上,该方法将文本到手势检索的R@1指标提升了8.2%,并优于现有方法。检索增强的手势生成用户研究显示,该方法检索到的手势在传达交流意图方面明显优于基线。

多模态论文/研究
03:41
HuggingFace Daily Papers(社区热门论文)
66
DOT-MoE:用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题,利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时,通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明,DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法,能够在减少50%活跃参数的同时,保留原始密集模型90%的性能。

arXiv推理数据/训练论文/研究
01:40
HuggingFace Daily Papers(社区热门论文)
60
TVIR:面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题,本文提出了TVIR框架,包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计,负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明,TVIR-Agent表现优异,凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究
01:40
HuggingFace Daily Papers(社区热门论文)
精选71
AFUN: 迈向功能理解的可供性基础模型

AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发,能同时预测任务条件的功能掩码(where)和3D接触后运动曲线(how)。为实现开放世界泛化,该研究构建了一个大规模标准化数据管道,整合了机器人、人类、仿真与真实扫描数据。评估结果显示,AFUN在可供性分割任务上,于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3;在接触点预测上,命中率比最佳基线高出12.7%–61.3%;在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。

具身智能数据/训练论文/研究

推荐理由:在 affordance 基础模型方向做出一步,跨 8 个测试集大幅超越基线,并可直接部署到真实机器人,对具身智能的通用化是个值得关注的信号。
00:40
HuggingFace Daily Papers(社区热门论文)
61
Harness-1:面向搜索智能体的强化学习与状态外部化框架

Harness-1是一个20B参数的检索子智能体,通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中,该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆,使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中,Harness-1取得了0.730的平均精选召回率,超越了次优的开源搜索子智能体11.4个点,并与规模更大的前沿模型保持竞争力。其代码已开源。

智能体检索增强搜索论文/研究
00:15
AK@_akhaliq
62
GPU预测器 大语言模型作为内核运行时优化的选择性代理
推理论文/研究
00:15
AK@_akhaliq
60
视觉语言模型知道何时不回答空间问题吗(以及为什么)?
Hugging Face多模态论文/研究
6月2日
23:45
AK@_akhaliq
62
Crafter 一个用于从多样化输入生成可编辑科学图表的多智能体框架
图像生成论文/研究
23:40
HuggingFace Daily Papers(社区热门论文)
60
PaW:策略与世界模型协同训练框架

提出PaW框架,通过协同训练策略与世界模型来提升语言智能体性能。该方法直接利用on-policy强化学习rollout中已有的信号(动作与后续观测的配对),无需额外模拟器、训练阶段或推理计算。PaW引入三个组件:基于动作熵的世界模型数据选择、噪声容忍的损失函数以及奖励自适应的损失平衡,以确保辅助监督的稳定性。实验表明,在三个智能体任务基准上,PaW在不同模型和RL算法上均持续优于强RL基线,证实了标准RL rollout可作为世界模型监督的实用来源。

智能体开源生态论文/研究
23:12
elvis@omarsar0
50
单LLM驱动多智能体系统扩展行为研究

研究探讨添加更多智能体是否提升多智能体系统性能。结论指出,最优智能体数量取决于基础模型的能力和任务类型,而非单纯增加数量。集体智能更可能源于精心的交互设计,而非智能体数量的增多。相关论文:"Scaling Behavior of Single LLM-Driven Multi-Agent Systems"。

智能体arXiv论文/研究
22:44
Rohan Paul@rohanpaul_ai
57
AI驱动预测最便宜安全AWS Spot实例舰队

该研究提出了一种AI驱动的服务,用于在启动前预测最便宜且安全的AWS Spot实例舰队。该服务通过时间感知模型学习AWS创建舰队的模式,并估算9个区域的舰队组合与成本,向用户返回排序后的区域选项。测试显示,在最多1500 vCPU的舰队上,预测结果与AWS完全匹配的比例达92.78%,整体准确率为99.79%,且所有推荐舰队均被AWS接受。关键发现是选择最佳区域比在单个区域内调整策略更重要,潜在成本节省最高可达64%。

数据/训练论文/研究部署/工程
20:40
HuggingFace Daily Papers(社区热门论文)
精选71
NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线,其在Annotated-gold数据集(41篇论文,72个标注任务)上与人工裁决的一致性(Krippendorff's alpha)达到0.606。基于此,研究构建了Annotated-llm数据集,涵盖ACL会议论文,从1603篇论文中提取了2667个标注任务。分析发现,论文常报告招募策略、标注者专长等操作细节,但经常遗漏评估标注效度所需的关键信息,如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡,并提出了一个可扩展的框架和最低报告标准。

arXivHugging Face数据/训练论文/研究

推荐理由:NLP论文里的标注环节一直是个黑箱,这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍,值得每个做数据和评估的人细看。
18:40
HuggingFace Daily Papers(社区热门论文)
67
几何潜推理使LLM生成更短

研究提出几何潜推理方法,将推理建模为模型预训练嵌入空间中的几何路径逼近问题,使用轻量级过渡头预测方向更新。在Qwen3模型上评估发现,该方法能诱导模型生成显著更短的输出,用连续潜步骤替代早期显式推理后,模型常以更少总步数得出正确答案。研究揭示了连续轨迹作为紧凑中间推理状态,暴露了潜计算预算、输出长度与准确率之间的新权衡。

推理论文/研究
17:52
Anthropic:Transformer Circuits(可解释性研究)
精选63
Anthropic可解释性研究:区分因果效应相似的特征

Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。

Anthropic安全/对齐论文/研究

推荐理由:做可解释性研究的同学值得读,它用下游连接区分看似相同的特征,比只看激活例子更能预测因果作用,对齐审计里能省不少试错。
14:40
HuggingFace Daily Papers(社区热门论文)
68
MCP-Persona:首个面向真实场景个性化工具的LLM智能体基准测试

MCP-Persona是首个专门评估LLM智能体在个性化MCP工具上表现的基准测试,涵盖Reddit、小红书、Lark和Slack等应用。在多个SOTA智能体上的实验表明,当前智能体在个性化工具使用方面仍面临重大挑战。该基准旨在弥合现有评估主要聚焦通用工具、忽视个人社交应用中工具与个人账户或本地数据库交互所带来的实际挑战这一空白。

智能体MCP/工具论文/研究
14:40
HuggingFace Daily Papers(社区热门论文)
68
LongLive-RAG:用于长视频生成的通用检索增强框架

LongLive-RAG旨在解决自回归(AR)视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成(RAG)问题,不再仅依赖滑动窗口,而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中,它通过查询嵌入检索相关历史潜在变量,使生成器能够利用非局部上下文。为提升检索效果,框架引入了Window Temporal Delta Loss。实验表明,该框架能提升长视频生成质量,在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。

多模态视频论文/研究
13:40
HuggingFace Daily Papers(社区热门论文)
64
JAMEL:通过新颖性信号联合训练智能体记忆与探索策略(开源)

JAMEL 是一个用于训练智能体在开放环境中进行探索的框架。它通过新颖性驱动的交互,将智能体的记忆模块与探索策略进行联合训练。该框架利用如代码覆盖率等确定性、持久的新颖性信号,为记忆模块提供无需人工标注的监督信号。实验评估表明,JAMEL 成功泛化至未见过的环境,其探索能力超越开源基线,达到与闭源模型相当的深度,同时减少了 token 消耗。相关代码与模型已开源于 GitHub。

智能体arXiv论文/研究
13:40
HuggingFace Daily Papers(社区热门论文)
69
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

Chunk-Level Guided Generation 是一种无需训练的推理时方法,它利用现成的大语言模型(如 Qwen2.5-32B 或 Llama-3.1-70B)作为过程评分器,引导小模型进行数学推理。该方法在每个步骤让小模型生成多个固定长度候选块,由大模型通过似然度评分选择,从而提前引导推理方向,避免错误传播。它包含似然引导选择(LGS)和对比引导选择(CGS)两种规则,其中CGS通过减去小模型似然度来偏好与大模型偏好不同的块。在多个基准测试中,该方法在匹配计算预算下,性能匹配或优于需要奖励模型训练的PRM引导搜索,并且生成的推理轨迹显著更短。

推理论文/研究
13:40
HuggingFace Daily Papers(社区热门论文)
精选73
OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架

OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型,在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下,在Online-Mind2Web基准上达到67.0%成功率,在DeepShop基准上达到64.0%,超越了同规模或更大规模的先前开源智能体,性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。

智能体开源生态推理论文/研究

推荐理由:做 Web Agent 的同行终于不用再羡慕闭源了。OpenWebRL 用 4B 模型和 2.2K RL 任务就逼近 OpenAI CUA,而且全开源,这路子值得认真读一读。
12:40
HuggingFace Daily Papers(社区热门论文)
61
在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序,直接从单张图像重建为可编辑的3D场景,且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”(SEIG)智能体框架,该框架在可执行的Blender代码空间中,通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明,分阶段重建策略显著提升了场景重建的保真度(包括像素级、感知和语义保真度),验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究
12:40
HuggingFace Daily Papers(社区热门论文)
68
多智能体计算机使用

当前单智能体计算机使用智能体在复杂长时程任务中存在不足。为此,本研究提出了多智能体计算机使用系统。该系统由一个管理器模型将任务分解为有向无环图,并行派遣子智能体执行,并根据新信息动态调整该图。实验表明,该系统在桌面和网页导航基准测试上的性能持续优于强单智能体基线3.4-25.5%,并在长时程网页导航任务上将平均任务完成时间缩短约1.5倍。研究结论是,多智能体协调是扩展计算机使用智能体能力的一个有前景方向。

智能体开源/仓库论文/研究
‹ 上一页
1…2627282930…50
下一页 ›