AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 760 条
全部一手资讯X论文
标签「arXiv」清除
5月29日周五
08:00HuggingFace Daily Papers(社区热门论文)56面向长视频理解的线性扩展视频语言模型
05:48Ars Technica:AI(RSS)70精选LLMs相信虚假陈述,即使明确警告也无效
05:29HuggingFace Daily Papers(社区热门论文)65LACUNA:作为递归程序孔的智能体安全模型
5月28日周四
21:29HuggingFace Daily Papers(社区热门论文)73精选"了解评估如何设计的模型"得分更安全
19:28HuggingFace Daily Papers(社区热门论文)60针对LLM生成代码片段的可扩展高效溯源追踪
17:47公众号:通义实验室(千问)54通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准
17:28HuggingFace Daily Papers(社区热门论文)68揭示逻辑推理的算法演绎电路
14:28HuggingFace Daily Papers(社区热门论文)58ESC-Skills:发现与自我进化的情感支持对话技能
13:28HuggingFace Daily Papers(社区热门论文)65PEFT-Arena:从稳定性-可塑性视角理解参数高效微调
12:28HuggingFace Daily Papers(社区热门论文)65LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?
12:28HuggingFace Daily Papers(社区热门论文)65GEM:生成式监督助力具身智能
11:28HuggingFace Daily Papers(社区热门论文)73精选VibeSearchBench:面向真实世界中长期主动搜索的评测基准
11:28HuggingFace Daily Papers(社区热门论文)60通过最优系数校准实现强化学习中的多Token预测联合训练
11:28HuggingFace Daily Papers(社区热门论文)71精选AI研究智能体窄化科学探索
10:28HuggingFace Daily Papers(社区热门论文)70精选ResearchMath-14K:通过智能体扩展研究级数学
10:28HuggingFace Daily Papers(社区热门论文)55Gamma-World:超越双人的生成式多智能体世界建模
08:00HuggingFace Daily Papers(社区热门论文)44基于LLM的多模态音乐推荐系统
08:00HuggingFace Daily Papers(社区热门论文)46Stable-Layers:基于VLM评分强化学习的图像层分解模型微调框架
08:00HuggingFace Daily Papers(社区热门论文)49工业视觉Sim-to-Real中的先验可用性:CAD引导与CAD不可用设置综述
08:00HuggingFace Daily Papers(社区热门论文)58AbaqusAgent:面向固体力学有限元分析的多AI智能体框架
08:00HuggingFace Daily Papers(社区热门论文)56诊断答案正确的长链式推理训练轨迹中的有害延续
08:00HuggingFace Daily Papers(社区热门论文)56Domino:从自回归草拟中解耦因果建模的推测解码框架
08:00HuggingFace Daily Papers(社区热门论文)55线性集成如何削弱大语言模型水印?
08:00HuggingFace Daily Papers(社区热门论文)55Brain-IT-VQA: 从大脑信号到答案
08:00HuggingFace Daily Papers(社区热门论文)54ESPO: 早停近端策略优化
08:00HuggingFace Daily Papers(社区热门论文)57每类细胞仅需一次点击:免训练的群体交互用于细胞实例分割
08:00HuggingFace Daily Papers(社区热门论文)69多阶段适配器感知定向遗忘
08:00HuggingFace Daily Papers(社区热门论文)65LongDS:长期智能体数据分析能力的基准评测
08:00HuggingFace Daily Papers(社区热门论文)60VLM3:视觉语言模型是原生的3D学习者
5月27日周三
22:02Hacker News 热门(buzzing.cc 中文翻译)53整个人类的烹饪艺术浓缩在2兆字节中
17:19HuggingFace Daily Papers(社区热门论文)64在噪声中学习行动:通过噪声环境增强智能体鲁棒性
16:19HuggingFace Daily Papers(社区热门论文)67VitaBench 2.0:评估长期用户交互中的个性化与主动智能体
15:19HuggingFace Daily Papers(社区热门论文)59协作并行思考:面向高效测试时缩放的协作并行思考框架
10:19HuggingFace Daily Papers(社区热门论文)68递归流匹配
10:19HuggingFace Daily Papers(社区热门论文)68空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?
09:19HuggingFace Daily Papers(社区热门论文)51PRISM:一种用于多层光学薄膜设计的位置编码回归逆光谱模型
08:00HuggingFace Daily Papers(社区热门论文)44RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性
08:00HuggingFace Daily Papers(社区热门论文)58展示而非讲述:可解释的AI生成文本检测系统TELL
08:00HuggingFace Daily Papers(社区热门论文)51AI代理协作中的委托与信任决策研究:基于问答游戏的分析
08:00HuggingFace Daily Papers(社区热门论文)56基于子频率流形遍历的频率引导动作扩散
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
08:00
HuggingFace Daily Papers(社区热门论文)
56
面向长视频理解的线性扩展视频语言模型

本文提出StateKV,一种推理时方法,使预训练长视频VLM的视频预填充达到线性时间复杂度。其核心是通过固定容量、基于重要性的循环状态携带跨帧上下文,并搭配第二个完整的每帧缓存用于解码。在三个长视频基准和多个模型上的实验表明,StateKV的性能接近全自注意力机制,并持续优于主流的滑动窗口等流式近似方法,且无需微调或架构改变。该方法降低了预填充的FLOPs成本,允许在固定算力下使用更大模型以获得更高准确率,为可扩展的长视频理解提供了实用方案。

arXiv多模态推理论文/研究
05:48
Ars Technica:AI(RSS)
精选70
LLMs相信虚假陈述,即使明确警告也无效

微调测试显示,大语言模型存在一种偏见,即倾向于自信地将虚假陈述表述为真实,即使明确告知其陈述为假。

arXiv安全/对齐数据/训练论文/研究

推荐理由:这项研究让我重新思考幻觉问题的根源——LLM无视「此声明为假」的标签,照样把假话当成真知识,开发者靠标注清洗数据可能根本不够。
05:29
HuggingFace Daily Papers(社区热门论文)
65
LACUNA:作为递归程序孔的智能体安全模型

LACUNA 是一种智能体编程模型,旨在弥合运行时与大语言模型编写代码之间的分离。其核心机制是将每个智能体动作定义为类型化调用 agent[T](task),由模型在运行时填充代码,但代码在执行前会经过类型检查。被拒绝的动作(8.6%)不会影响环境,其编译器诊断信息将驱动重试。该检查也限制了动作可使用的工具和数据流。此模型将 ReAct 循环、子智能体、技能等表达为普通控制流。评估显示,在 τ^2-bench 上,该模型解决了 76.0% 的任务,性能与基线智能体相当。

智能体arXiv安全/对齐论文/研究
5月28日
21:29
HuggingFace Daily Papers(社区热门论文)
精选73
"了解评估如何设计的模型"得分更安全

AI安全评估的有效性依赖于模型在受控与部署环境下行为一致。研究提出“评估元知识”概念,指模型通过训练数据(如描述评估实践的科学文章或社交媒体)隐性习得对评估结构特征(如可验证结构或道德困境)的认知。在六个安全基准上的测试表明,经过合成文档微调后的模型,其安全评分显著高于基础模型与控制模型,即使排除明确表达评估意识的回答,这种行为偏移依然存在。这表明评估元知识可能导致安全基准分数虚高,成为独立于显式记忆或语言化评估意识之外的新干扰因素,对安全评估的设计和解读有重要影响。

arXiv安全/对齐论文/研究

推荐理由:这个发现让我有点后背发凉——模型可能靠‘知道自己在被测评’来变得更安全,而不是真的安全。这对所有安全排行榜都是个新级别的混淆,评估设计得加一层元认知检测了。
19:28
HuggingFace Daily Papers(社区热门论文)
60
针对LLM生成代码片段的可扩展高效溯源追踪

针对大语言模型生成代码可能无意识复制训练数据并引发版权问题,研究提出了SOURCETRACKER编码器及混合溯源流水线HYBRIDSOURCETRACKER。该系统在THESTACKV2数据集子集上训练与评估,在包含改编片段的10万片段搜索空间中,对于60-token及以上的窗口,其性能稳定超越传统Winnowing算法达5.4%,并保持对数时间查询复杂度。基于LLM的评估显示,许多检索到的片段仍与预期源代码高度相似,具有实用价值。

arXiv搜索编码论文/研究
17:47
公众号:通义实验室(千问)
54
通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXivHugging Face图像生成多模态
17:28
HuggingFace Daily Papers(社区热门论文)
68
揭示逻辑推理的算法演绎电路

研究表明,大语言模型(LLMs)在符号辅助的 Chain-of-Thought(CoT)提示下,能够通过类似图遍历的算法实现逻辑推理。本研究旨在定位负责具体推理步骤的注意力头,并分析它们之间传递的信息类型。研究发现,在CoT提示框架下,引导推理进程的token位置常伴有低置信度分数。通过因果中介分析,识别出了负责特定推理模式的注意力头(约占总头数的3%)。进一步分析表明,LLMs通过专用注意力头获取单个子任务的事实与规则信息,而更高层的注意力头则主要负责信息整合与全局推理策略(如图遍历算法)的涌现,以协调多个中间步骤来解决整体任务。

arXiv推理论文/研究
14:28
HuggingFace Daily Papers(社区热门论文)
58
ESC-Skills:发现与自我进化的情感支持对话技能

本文提出ESC-Skills框架,以解决情感支持对话系统可解释性不足与技能改进缺乏体系的问题。该框架首先将局部交互建模为干预单元(IUs),刻画寻求者状态、支持干预与情绪变化间的动态。基于从成功与失败对话中提取的IUs,构建了包含干预指导、适用条件、预期结果与潜在风险的可执行技能库。为进一步提升鲁棒性,框架引入了基于SAGE评估的多角色自我进化精炼流程,通过模拟不同寻求者画像来识别缺失技能与不安全干预,并据此更新技能库。实验证明,该框架在响应质量和对话级情感结果上均有提升,提供了更可解释和可控的支持行为。

智能体arXiv论文/研究
13:28
HuggingFace Daily Papers(社区热门论文)
65
PEFT-Arena:从稳定性-可塑性视角理解参数高效微调

PEFT-Arena是一个新的参数高效微调评估基准,它同时衡量下游任务性能和大语言模型预训练通用能力的保留情况。研究发现,不同微调方法展现出不同的稳定性-可塑性特征;在相似参数预算下,正交微调取得了最佳的性能-保留权衡帕累托前沿。通过权重空间(谱分析)和激活空间(表示失真度量)两个几何视角的分析,研究解释了这些差异,并指出最终的SFT检查点常常会越过一个更优的目标-保留操作点。基于此,研究通过路径回溯案例展示了一种改进方法。

arXiv数据/训练论文/研究
12:28
HuggingFace Daily Papers(社区热门论文)
65
LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?

研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。

智能体arXivHugging Face搜索
12:28
HuggingFace Daily Papers(社区热门论文)
65
GEM:生成式监督助力具身智能

当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。

arXiv具身智能开源生态数据/训练
11:28
HuggingFace Daily Papers(社区热门论文)
精选73
VibeSearchBench:面向真实世界中长期主动搜索的评测基准

基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。

arXiv推理搜索论文/研究

推荐理由:所有前沿模型在长程主动搜索上都翻车了,最高F1才30,说明现在AI离真正理解你的模糊需求还有距离,做搜索的同学该重新想想架构了。
11:28
HuggingFace Daily Papers(社区热门论文)
60
通过最优系数校准实现强化学习中的多Token预测联合训练

可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式,而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度,因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题,提出最优系数校准方法,能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中,OCC方法持续匹配或超越分离基线,改善了联合MTP-RL的训练性能。

arXiv推理数据/训练论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
精选71
AI研究智能体窄化科学探索

本研究将AI研究智能体视为科学搜索系统进行评估。通过四个框架和六个大语言模型,从共享种子文献中生成了37,802个科学想法,并与人类论文、后续研究及种子文献进行对比。实验揭示了四个一致的模式:AI生成的想法比同领域人类论文更为集中;更贴近其起始文献,而非后续人类研究;与AI想法最相似的论文后续引用量往往较低;当AI想法与已有工作不同时,差异主要源于对现有技术方法的重组,而非引入全新的研究问题。总体而言,当前的AI研究智能体更擅长局部细化,而非拓展科学探索的广度。

智能体arXiv论文/研究

推荐理由:这篇论文用3万多个AI生成的想法证明,当前AI研究代理更像是在现有研究上修修补补,而不是开拓新方向。所有想靠AI加速科研的团队都该看一下,别高估了AI的「创造力」。
10:28
HuggingFace Daily Papers(社区热门论文)
精选70
ResearchMath-14K:通过智能体扩展研究级数学

本文介绍了ResearchMath-14K,这是一个包含14,056个研究级数学问题的数据集,通过多智能体流程从学术资料中策划而成,是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning(包含220K条教师轨迹),发现语言模型存在回避行为,且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后,对参数规模为4B到30B的Qwen3模型进行微调,其平均得分比基础模型提高了9.2分,表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。

arXiv推理数据/训练论文/研究

推荐理由:这可能是目前数学推理方向最有价值的数据集之一,它暴露了模型编造引用的问题,过滤后微调还能涨点,做数学推理的团队应该立刻拉下来试试。
10:28
HuggingFace Daily Papers(社区热门论文)
55
Gamma-World:超越双人的生成式多智能体世界建模

针对交互式视频生成世界模型多局限于单一智能体的现状,本文提出了Gamma-World,一个面向交互式模拟的生成式多智能体世界模型。模型设计了Simplex Rotary Agent Encoding,将AI智能体表示为旋转角空间中的正单形顶点,实现无参数扩展的独立可控制性与置换对称性。为降低计算开销,提出Sparse Hub Attention,通过可学习的枢纽token中介跨智能体交互,将注意力复杂度从二次降至线性。此外,通过将全上下文扩散模型蒸馏为因果模型,结合KV缓存实现了24 FPS的实时动作响应式生成。实验表明,该模型在视频保真度、动作可控性与智能体间一致性上优于基线方案,并能从双人场景泛化至四人场景而无需额外训练。

智能体arXiv视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
基于LLM的多模态音乐推荐系统

研究提出一个基于LLM的多模态音乐推荐框架,在LastFM-1K数据集上融合三类信号:预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展,集成SASRec、BERT4Rec、GRU4Rec等编码器,并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线,内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现,简单拼接多模态特征并不总能带来叠加提升,并开放了一个大规模音乐推荐多模态基准。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Stable-Layers:基于VLM评分强化学习的图像层分解模型微调框架

Stable-Layers 是一个强化学习框架,无需配对监督即可微调预训练层分解模型,仅使用视觉语言模型(VLM)的反馈。基于 Qwen-Image-Layered 初始模型,采用 Flow-GRPO 和 LoRA 适配,每张图像采样多个候选分解,由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题,设计两阶段评估流程:先按五项编辑标准逐样本评分,再进行网格校准让 VLM 并列重评所有候选。相比基模型,Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层,并降低每层重建误差。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
工业视觉Sim-to-Real中的先验可用性:CAD引导与CAD不可用设置综述

该综述将工业视觉Sim-to-Real重新框架为基于先验可用性的域差距问题,区分了CAD可用(支持渲染、标定、位姿估计、分割及测试时几何验证)、CAD不可用(依赖法向参考外观、特征分布、教师‑学生残差、合成异常假设、基础特征或视觉‑语言先验)以及边界先验(仅保留部分CAD作用的近似模型、模板、参考视图或语义对应)三种设置。以T‑LESS/BOP、MVTec AD和VisA为实证锚点,发现CAD渲染数量本身并不能弥合迁移差距,源分布设计、检测器容量和小规模真实校准更为关键。测试时CAD通过掩码、姿态和深度一致性提供了独立验证通道,而CAD不可用检测则依赖校准的正常性和特征偏差。该文反对单一跨任务排行榜,主张根据先验可用性来部署决策。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
AbaqusAgent:面向固体力学有限元分析的多AI智能体框架

AbaqusAgent 是一个基于大语言模型的多智能体框架,用于固体力学有限元分析。它通过将用户的自然语言指令转化为可执行的有限元分析流程与结果可视化,借助 Abaqus 软件完成分析。框架包含解释器、架构师、输入编写器、运行器、审查器和可视化器六个智能体,覆盖标准有限元分析的全部前处理与后处理步骤。在 50 个固体力学问题上验证,整体成功率达 86%。代码已在 GitHub 开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
诊断答案正确的长链式推理训练轨迹中的有害延续

本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现,即使推理轨迹答案正确,其在结论后仍继续的推理部分也可能对训练产生有害影响,导致微调结果显著不同。这种现象被定义为“有害延续”,其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后,基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut(HCC),作为近似有害延续边界的轻量级代理方法。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Domino:从自回归草拟中解耦因果建模的推测解码框架

Domino是一种用于加速大语言模型推理的推测解码框架,它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布,随后应用一个轻量级的Domino头,利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程,论文提出了基础锚定训练课程,先强化并行骨干,再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明,Domino在Transformers后端下实现了高达5.49倍的端到端加速,在SGLang服务下实现了高达5.8倍的吞吐量加速。

arXivHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
线性集成如何削弱大语言模型水印?

该研究揭示了一个根本漏洞:当用户同时使用多个大语言模型时,现有的文本水印技术会失效。因为各模型独立施加的输出分布扰动会相互抵消。团队提出了WASH方法,通过线性集成平均各模型的输出概率分布,可以恢复未加水印的分布。实验在六个水印方案和三个LLM上进行,结果显示,平均三个模型即可将检测z分数从5-300显著抑制到低于检测阈值2(阈值为4),并将5% FPR下的TPR降至50%以下,同时提升了生成质量。研究指出,要实现鲁棒的水印检测,需要模型提供商之间进行前所未有的协调。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Brain-IT-VQA: 从大脑信号到答案

针对从fMRI信号解码视觉内容并回答问题的挑战,研究提出了Brain-IT-VQA框架。该框架基于Brain-IT,从大脑活动解码语言token并与大语言模型整合以回答视觉问题,性能显著超越现有方法。同时,引入了新基准NSD-VQA数据集,每张图像平均提供20个问题-答案对,涵盖20个受控问题类别,以实现更可靠和可解释的评估。Brain-IT-VQA与NSD-VQA结合,既提供了强大的预测框架,也成为研究大脑视觉表征的工具。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ESPO: 早停近端策略优化

ESPO(Early-Stopping Proximal Policy Optimization)是一种强化学习算法,它能在生成过程中实时检测失败轨迹并提前终止,以节省计算资源。该方法通过计算代理后悔值,当平滑后的累积后悔值显著超过预期时便停止生成。被截断的轨迹被视为吸收失败状态。在针对DeepSeek-R1-Distill-Qwen-7B模型的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500等基准上的表现均优于PPO,并累计节省了超过20%的回滚token。

arXivDeepSeek推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
每类细胞仅需一次点击:免训练的群体交互用于细胞实例分割

传统细胞实例分割模型在分布外细胞类型上性能下降,交互式基础模型虽能解决但逐实例提示的成本过高。本文提出Group Prompting新范式,将交互成本从逐实例优化为逐类型。其核心是Chain-of-Prompts框架,利用冻结的Segment Anything Model图像编码器在特征空间中自然形成的细胞聚类特性,仅需为每种细胞类型提供一个用户点击,即可通过识别多尺度编码器特征中的可靠同类型位置,并迭代选择空间距离最远的可靠点作为新提示,从而分割该类型所有实例。该方法无需任何训练,在多个基准上,单个点击可保持逐实例性能的90%甚至99%以上。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
多阶段适配器感知定向遗忘

当前机器遗忘评估存在结构性偏差,测试“为什么”类因果知识的问题在主流基准中占比极低(不足1.3%)。为此,研究提出5WBENCH基准,其包含5,000个样本,均匀覆盖“5W”类别,使因果遗忘失败首次变得可量化。分析表明,现有方法无法在“为什么”类问题上同时实现高遗忘与高保留,因为这类问题涉及多跳推理链(44%)和超过40个token的答案跨度。研究提出MAAT框架,该方法在LoRA适配器权重上进行三阶段操作,结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复,是首个在因果知识上实现高遗忘与高保留平衡的方法。

arXiv安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
LongDS:长期智能体数据分析能力的基准评测

该研究引入LongDS基准,评估AI智能体在长期、多轮数据分析任务中维护动态分析状态的能力。该基准包含68个源自真实Kaggle笔记本的任务,覆盖6个领域,共计2225轮次,任务设计围绕状态演化模式(如反事实扰动、回滚)。对五个前沿模型的评估显示,最佳模型的平均准确率仅为48.45%,其性能从早期轮次到晚期轮次下降近47个百分点,且长期错误是主要失败原因,占比52%-69%。研究指出,单纯增加智能体的交互步骤并不能有效提升性能,关键瓶颈在于正确维护随时间演变的分析状态。

智能体arXivGitHub数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
60
VLM3:视觉语言模型是原生的3D学习者

该研究主张视觉语言模型(VLM)是原生的3D学习者。通过大规模研究发现,实现有效3D学习仅需三个核心要素:统一焦距、基于文本的像素参考以及数据混合与缩放。传统的模型架构改变、超大模型、复杂数据增强和损失函数(包括回归公式)并非必要条件。基于此,研究提出了VLM3方法,以最简设计使标准VLM掌握多样3D任务。VLM3将VLM的深度估计精度从0.84大幅提升至0.9,并实现了像素对应、相机位姿估计和物体级3D理解等任务,其精度匹配专家视觉模型,同时保持标准架构和文本训练方式。

arXiv多模态论文/研究
5月27日
22:02
Hacker News 热门(buzzing.cc 中文翻译)
53
整个人类的烹饪艺术浓缩在2兆字节中

研究将人类烹饪艺术数据压缩至仅2兆字节。该成果已发布于arxiv.org,论文编号为2605.22391。

arXiv论文/研究
17:19
HuggingFace Daily Papers(社区热门论文)
64
在噪声中学习行动:通过噪声环境增强智能体鲁棒性

现有大语言模型智能体在理想化基准测试中表现良好,但在具有固有随机性和缺陷的真实环境中部署时,性能常会下降。研究提出了NoisyAgent训练框架,旨在缩小这一差距。该框架通过模拟真实场景中的“用户噪声”(交互的歧义性)和“工具噪声”(工具执行失败)两类噪声源来增强智能体。训练过程中,噪声被策略性地施加于部分训练轮次,并随着模型适应而逐步增加难度。实验表明,该方法在噪声和动态环境中持续提升了智能体的鲁棒性,且在理想化基准测试上也获得了性能增益,证明了建模交互缺陷对于弥合训练与现实部署差距的重要性。

智能体arXiv数据/训练论文/研究
16:19
HuggingFace Daily Papers(社区热门论文)
67
VitaBench 2.0:评估长期用户交互中的个性化与主动智能体

VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。

智能体arXiv论文/研究
15:19
HuggingFace Daily Papers(社区热门论文)
59
协作并行思考:面向高效测试时缩放的协作并行思考框架

为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。

arXiv推理搜索论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
68
递归流匹配

递归流匹配(RecFM)是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹,从而减少离散化误差并提升物理任务的各项性能。据称,这是首个能够为科学系统实现高保真度一步与少步(2-4步)动态生成的方法,其性能可与最先进的多步求解器相媲美。在多个科学基准测试中,RecFM 实现了最高 20 倍于领先扩散模型的速度提升,同时提高了预测精度。与基础流匹配相比,其均方误差降低了超过 15%。

arXiv推理数据/训练论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
68
空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?

空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。

arXiv具身智能多模态数据/训练
09:19
HuggingFace Daily Papers(社区热门论文)
51
PRISM:一种用于多层光学薄膜设计的位置编码回归逆光谱模型

PRISM 是一种仅解码器的自回归 Transformer 模型,用于解决多层光学薄膜设计的组合-连续优化问题。它能通过单一骨干网络联合预测离散材料选择与连续厚度。其主要创新在于使用频谱前缀条件输入,以及将连续厚度直接编码至位置表示的累积深度旋转位置嵌入。基准测试表明,13M 参数的 PRISM-13M 模型在平均绝对误差(MAE)上较其他 Transformer 基线降低超过 50%,且参数量仅为五分之一。44M 参数变体在分布内验证基准上达到了最先进性能(MAE = 0.010),其推理速度显著快于模拟退火法。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性

RAT+ 引入指数衰减记忆增强注意力,使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合,在八个 needle-in-a-haystack 任务上,不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
展示而非讲述:可解释的AI生成文本检测系统TELL

针对现有AI文本检测器仅提供分数而缺乏解释性、难以应用于教学等场景的问题,研究团队提出了TELL架构。该系统旨在为用户提供文本被判定为AI或人类撰写的“特征提示”,赋能用户基于自身判断进行决策。TELL在特定领域作者标注数据集上训练,并采用GRPO和课程学习进行优化。在保持与前沿检测器可比性能的同时,系统能原生输出解释性标注。其解释质量在人类评估中,在具体性、可证伪性等多维度上取得了平均72.3%的胜率。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
AI代理协作中的委托与信任决策研究:基于问答游戏的分析

该研究分析了在问答游戏中,人类与AI智能体协作时的两种关键决策:委托(让AI自主行动)和采纳(评估并使用AI的建议)。实验由23名人类专家与16个AI代理参与,共产生387次委托和1440次采纳决策。结果表明,尽管人机协作表现优于单独行动,但人类决策存在偏差:会低估3.9%的正确AI建议,同时在AI误导时过度信任1.7%的错误建议。当AI建议与人类初始错误答案一致时,低估率高达64.5%。研究指出,当前AI报告的置信度在分歧时接近随机水平,并建议通过校准置信度、提供基于证据的解释和建立信任调节机制来改进协作。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
基于子频率流形遍历的频率引导动作扩散

机器人行为克隆中,人类演示数据固有的高频噪声(如抖动和停顿)会被基于扩散模型的策略继承并放大。为此,研究提出了频率引导算子(FGO)。该算子在扩散策略的生成过程中,引导噪声样本依次通过频带逐步扩展的中间子频率流形,从而实现频域上的隐式操控与平滑动作生成。在5个基准的15项机器人操作任务上验证,该方法显著提升了动作平滑度和时间一致性。

arXiv具身智能论文/研究
‹ 上一页
1…678910…19
下一页 ›