AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 757 条
全部一手资讯X论文
标签「arXiv」清除
6月17日周三
08:00HuggingFace Daily Papers(社区热门论文)42BrainG3N:面向可控3D脑MRI生成的双用途tokenizer
08:00HuggingFace Daily Papers(社区热门论文)49PerceptionDLM:基于多模态扩散语言模型的并行区域感知
08:00HuggingFace Daily Papers(社区热门论文)52Moebius:0.22B参数轻量级图像修复框架,性能媲美10B级模型
6月16日周二
09:59Berkeley RDI:Blog(AI 安全与评测)83精选伯克利RDI发布Agents' Last Exam基准
08:00HuggingFace Daily Papers(社区热门论文)39超越NL2Code:多模态代码智能结构化综述
08:00HuggingFace Daily Papers(社区热门论文)42MCompassRAG:主题元数据作为段落级检索的语义指南针
08:00HuggingFace Daily Papers(社区热门论文)44信任正确的教师:面向GUI Grounding的质量感知自蒸馏
6月15日周一
23:49IT之家(RSS)69MiniMax M3 模型正式开源:原生多模态、百万上下文
08:00HuggingFace Daily Papers(社区热门论文)51后训练如何塑造生物推理模型
08:00HuggingFace Daily Papers(社区热门论文)51反思掩码(RM)激发掩码扩散模型的推理能力
08:00HuggingFace Daily Papers(社区热门论文)53MyPCBench:面向个性化电脑使用智能体的基准测试
08:00HuggingFace Daily Papers(社区热门论文)55LOGOS:面向自然科学的通用科学生成语言模型
08:00HuggingFace Daily Papers(社区热门论文)48ProCUA-SFT 技术报告
6月14日周日
20:06HuggingFace Daily Papers(社区热门论文)49LaWAM:用于高效动力学感知机器人策略的潜在世界动作模型
08:00HuggingFace Daily Papers(社区热门论文)42SSync:面向视频目标中心学习的选择性协同学习方法
08:00HuggingFace Daily Papers(社区热门论文)45Retrieve, Don't Retrain:测试时检索扩展VLA模型到新任务
6月13日周六
17:54公众号:龙猫LongCat(美团)54WBench:面向交互式视频世界模型的首个系统性多轮评测基准
08:00HuggingFace Daily Papers(社区热门论文)37RL4IL:强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习
08:00HuggingFace Daily Papers(社区热门论文)46XBCP:跨语言深度研究基准测试
03:01HuggingFace Daily Papers(社区热门论文)66TRACE:将用户修正编译为运行时约束以改善编码智能体
6月12日周五
20:18HuggingFace Daily Papers(社区热门论文)56IndustryBench-MIPU:面向工业产品的多图像属性提取基准
17:00HuggingFace Daily Papers(社区热门论文)73精选HYDRA-X: 原生统一多模态模型与整体视觉分词器
12:00HuggingFace Daily Papers(社区热门论文)69EvoBrowseComp:基于动态知识的搜索智能体评测基准
11:00HuggingFace Daily Papers(社区热门论文)70精选EurekAgent:环境工程化实现自主科学发现
11:00HuggingFace Daily Papers(社区热门论文)75精选WEAVER:一种更优、更快、更长的机器人操作世界模型
11:00HuggingFace Daily Papers(社区热门论文)59SWITCH:可切换潜在推理框架
10:00HuggingFace Daily Papers(社区热门论文)68RepWAM:基于表征视觉-动作分词器的世界动作建模
08:00HuggingFace Daily Papers(社区热门论文)51噪声感知下的选择性控制:模块化网络中聚合指标隐藏的治理失败
08:00HuggingFace Daily Papers(社区热门论文)49Squeeze-Release:带精确结构最小化的迭代剪枝
08:00HuggingFace Daily Papers(社区热门论文)51ClinHallu:用于诊断医疗MLLM推理中阶段性幻觉的基准测试
08:00HuggingFace Daily Papers(社区热门论文)42HarnessX:一种可组合、自适应、可演化的智能体运行框架铸造厂
08:00HuggingFace Daily Papers(社区热门论文)54LLM 智能体能够查看代码仓库
6月11日周四
17:59HuggingFace Daily Papers(社区热门论文)63TRACE:面向高效智能体强化学习的统一 Rollout 预算分配框架
09:57HuggingFace Daily Papers(社区热门论文)63LLM 作为评审在科学新颖性评估中的局限性
08:00HuggingFace Daily Papers(社区热门论文)76精选对抗性重新包装:仅修改呈现层即可欺骗AI同行评审
08:00HuggingFace Daily Papers(社区热门论文)42OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架
08:00HuggingFace Daily Papers(社区热门论文)54缩放因子在LoRA优化中的隐藏力量
07:57HuggingFace Daily Papers(社区热门论文)61CPPO:超越统一Token级别信任区域的LLM强化学习
01:47HuggingFace Daily Papers(社区热门论文)47APPO:智能体过程策略优化
6月10日周三
21:56HuggingFace Daily Papers(社区热门论文)68Next Forcing:基于多块预测的因果世界建模
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
08:00
HuggingFace Daily Papers(社区热门论文)
42
BrainG3N:面向可控3D脑MRI生成的双用途tokenizer

提出一种基于3D体素掩码自编码器(MAE)的tokenizer,用于3D脑MRI潜在扩散模型。编码器与解码器解耦:冻结的3D MAE编码器产生临床信息丰富的嵌入,专用CNN解码器从嵌入的线性投影重建体素。编码器在35,309个体积(来自18个公共队列,覆盖四种模态、十种疾病类别和200+采集站点)上预训练。在23任务线性探测基准上,编码器在21个任务上超越或匹配BrainIAC、BrainSegFounder、MedicalNet等SOTA模型。基于这些嵌入训练的扩散Transformer(DiT)支持跨六个变量的条件生成和患者特定纵向预测。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
PerceptionDLM:基于多模态扩散语言模型的并行区域感知

针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题,提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码,在序列和token两个层次上同时感知多个掩码区域,显著提升推理效率。为系统评估扩散语言模型的并行性,构建了ParaDLC-Bench基准。实验表明,PerceptionDLM在保持区域描述竞争力的同时,大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
Moebius:0.22B参数轻量级图像修复框架,性能媲美10B级模型

Moebius是一个仅0.22B参数的轻量级图像修复框架。它通过引入Local-λ Mix Interaction(LλMI)块重构扩散主干,其中Local-λ和Interactive-λ模块将空间上下文与全局语义先验压缩为固定大小的线性矩阵,在削减参数的同时保留复杂潜在交互。配合仅在隐空间执行的自适应多粒度蒸馏策略,Moebius在自然图像和人像基准上达到了与11.9B参数模型FLUX.1-Fill-Dev相当甚至更优的生成质量,总推理速度提升超过15倍。

arXiv图像生成论文/研究
6月16日
09:59
Berkeley RDI:Blog(AI 安全与评测)
精选83
伯克利RDI发布Agents' Last Exam基准

2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体arXivHugging Face开源生态

推荐理由:在Fable 5发布后,Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平,最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。
08:00
HuggingFace Daily Papers(社区热门论文)
39
超越NL2Code:多模态代码智能结构化综述

本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。

arXiv多模态编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
MCompassRAG:主题元数据作为段落级检索的语义指南针

MCompassRAG是一个元数据引导的检索框架,利用主题级信号作为语义指南针,通过LLM教师蒸馏训练轻量检索器,在不额外调用LLM的情况下实现主题感知检索。在6个复杂检索基准上,MCompassRAG的信息效率(IE)平均提升8.24%,延迟比最强高效RAG基线低5倍以上。代码已开源。

arXiv检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
信任正确的教师:面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv多模态数据/训练论文/研究
6月15日
23:49
IT之家(RSS)
69
MiniMax M3 模型正式开源:原生多模态、百万上下文

MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。

arXivHugging Face多模态开源生态
08:00
HuggingFace Daily Papers(社区热门论文)
51
后训练如何塑造生物推理模型

研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型,控制backbone、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)的变化,测量域内(ID)与域外(OOD)性能。结果发现:CPT通过对齐生物语言提升下游性能;SFT持续提高ID但导致OOD先升后降;RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升,最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
反思掩码(RM)激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
53
MyPCBench:面向个性化电脑使用智能体的基准测试

MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
LOGOS:面向自然科学的通用科学生成语言模型

LOGOS 是一个科学生成语言模型,将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列,无需依赖坐标或几何神经网络,即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上,LOGOS 匹配或超越领域专用基线,且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。

arXiv开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
ProCUA-SFT 技术报告

ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。

智能体arXiv数据/训练论文/研究
6月14日
20:06
HuggingFace Daily Papers(社区热门论文)
49
LaWAM:用于高效动力学感知机器人策略的潜在世界动作模型

LaWAM是一种潜在世界动作模型,通过在预训练视觉基础模型的特征空间中训练潜在动作模型,并利用其前向解码器预测未来观察特征,从而将预测动力学引入机器人策略,而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率,在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒,比像素空间WAMs降低24倍壁钟延迟。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
SSync:面向视频目标中心学习的选择性协同学习方法

针对视频目标中心学习中密集对齐策略传播各模块弱点且计算代价二次增长的缺陷,提出 Selectice Synergistic Learning (SSync)。该方法避免穷举对齐,而是选择性蒸馏最可靠线索:编码器用于边界细化,解码器用于内部去噪。通过线性复杂度的伪标记实现,并引入传递式伪标记合并以消除重叠 slot 冗余。实验表明 SSync 显著提升分解质量,作为即插即用模块对 slot 配置具有强鲁棒性。代码已开源。

arXivGitHub开源/仓库数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
45
Retrieve, Don't Retrain:测试时检索扩展VLA模型到新任务

提出检索增强的视觉-语言-动作(VLA)策略,训练一次后冻结,新任务通过在检索池中追加演示数据来适应,无需逐任务微调。在基于视频生成的世界动作模型(WAM)Cosmos Policy上效果尤其显著,检索提供粗粒度任务推进,未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线,并在真实机器人上完成验证。

arXiv具身智能数据/训练论文/研究
6月13日
17:54
公众号:龙猫LongCat(美团)
54
WBench:面向交互式视频世界模型的首个系统性多轮评测基准

美团 LongCat 团队推出 WBench,首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次,覆盖导航、主体动作、事件编辑、视角切换四种交互方式,从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)。核心发现:无全能模型,导航能力与画质无关;多轮交互后所有模型性能下降,导航平均分下降 33 点;开源模型 HY-World 1.5 导航能力突出;视角切换最难(平均分 30.7)。WBench 已开源。

arXivGitHub开源生态视频
08:00
HuggingFace Daily Papers(社区热门论文)
37
RL4IL:强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习

RL4IL是一种强化学习引导的模仿学习方法,通过近端策略优化对广度优先搜索候选集排序,并利用软交叉注意力融合头部聚合

arXiv具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
XBCP:跨语言深度研究基准测试

研究团队推出XBCP基准测试,用于评估深度研究AI智能体在证据语言与用户查询不一致时的表现。XBCP保留BrowseComp-Plus的英文问答空间,将支持文档改为跨语言(单语言证据)和多语言(12种语言均匀分布)两种设置。评估四种AI智能体使用稀疏和密集多语言检索器。结果显示,证据翻译后准确率、证据召回率和引用可靠性显著下降,且即使直接提供所有黄金证据,准确率仍然较低。这表明跨语言深度研究不仅存在检索失败,智能体在整合语言不匹配的证据时还有独立困难。

智能体arXiv搜索论文/研究
03:01
HuggingFace Daily Papers(社区热门论文)
66
TRACE:将用户修正编译为运行时约束以改善编码智能体

交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。

智能体arXivGitHub论文/研究
6月12日
20:18
HuggingFace Daily Papers(社区热门论文)
56
IndustryBench-MIPU:面向工业产品的多图像属性提取基准

IndustryBench-MIPU是首个大规模多图像工业产品理解基准,聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注,通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示:单图像属性提取精度达86–94%,但产品级多图像召回最高仅49.9%;从单图像转向多图像提取时,召回率下降15–34个百分点。多图像完整性是核心瓶颈,而非单图像准确率。数据集与代码已公开。

arXiv多模态论文/研究评测/基准
17:00
HuggingFace Daily Papers(社区热门论文)
精选73
HYDRA-X: 原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv多模态视频论文/研究

推荐理由:HYDRA-X 第一次把图像和视频标记塞进同一个 ViT,光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价,做多模态模型的该读读。
12:00
HuggingFace Daily Papers(社区热门论文)
69
EvoBrowseComp:基于动态知识的搜索智能体评测基准

EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。

智能体arXiv论文/研究评测/基准
11:00
HuggingFace Daily Papers(社区热门论文)
精选70
EurekAgent:环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统,专为度量驱动的自主科学发现设计。它从权限工程(可控执行与隔离评估)、产物工程(文件系统与 Git 协作)、预算工程(成本感知探索)和人在回路工程(简便监督干预)四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。

智能体arXiv开源生态论文/研究

推荐理由:EurekAgent 把科学发现的目光从设计智能体流程转向环境工程,用不到 11 美元就找到了新的圆打包纪录,这可能是低成本自主科研的转折点。
11:00
HuggingFace Daily Papers(社区热门论文)
精选75
WEAVER:一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。

arXiv具身智能数据/训练论文/研究

推荐理由:世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标,真机实验把成功率拉高38%,代码模型全开源,搞具身智能的值得认真读。
11:00
HuggingFace Daily Papers(社区热门论文)
59
SWITCH:可切换潜在推理框架

SWITCH利用一对显式边界token(<swi>入口和</swi>出口)将隐藏状态递归块与标准同策略RL(GRPO)兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练,在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现:入口token是学习到的局部切换策略而非风格化伪影;打开的潜在步骤执行问题特定且因果重要的计算;该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。

arXiv推理论文/研究
10:00
HuggingFace Daily Papers(社区热门论文)
68
RepWAM:基于表征视觉-动作分词器的世界动作建模

RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。

智能体arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
噪声感知下的选择性控制:模块化网络中聚合指标隐藏的治理失败

基于240个学习智能体的社区网络模拟显示,内容审核在噪声分类器下标准准确率几乎不变(p=0.96),但伤害集中在桥梁用户:有用帖子被错误抑制、危险帖子被错误放过。将两类错误与执法成本分开计算的治理损失L_gov在假阳性偏高噪声下翻倍。聚合准确率无法揭示受损对象,而用户度(连接数)近乎完美代理中介中心性(r=0.96),可作为低成本审计指标。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
Squeeze-Release:带精确结构最小化的迭代剪枝

Squeeze-Release 提出精确结构改写(minimization),将带掩码网络转换为更小密集网络,前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化,中间释放步骤将压缩张量中原置零位置重置为小校准噪声,使容量重新可训练,后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm,将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39,ConvNeXt-Tiny 达 1/14.8,准确率相当,并可扩展至 Transformer 架构。

arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
51
ClinHallu:用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。

arXivGitHub多模态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
42
HarnessX:一种可组合、自适应、可演化的智能体运行框架铸造厂

HarnessX 是一个智能体运行框架(harness)铸造厂,通过类型化原语和替代代数组装可组合的框架,并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化,将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上,HarnessX 平均提升 +14.5%,最高达 +44.0%,基线越低提升越明显。完整代码将在未来开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。

智能体arXiv多模态编码
6月11日
17:59
HuggingFace Daily Papers(社区热门论文)
63
TRACE:面向高效智能体强化学习的统一 Rollout 预算分配框架

TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。

智能体arXiv推理论文/研究
09:57
HuggingFace Daily Papers(社区热门论文)
63
LLM 作为评审在科学新颖性评估中的局限性

研究引入 RQ-Bench 基准,基于 arXiv 论文构建作者锚定的研究问题(RQ),用于测试新颖性判断。使用大语言模型进行独立或对比评审时,LLM 一致将模型生成的 RQ 评为高度新颖,产生“新颖性幻觉”,在对比评估中偏好更强。但领域专家得出相反结论,更偏好作者锚定的参考问题。许多生成 RQ 狭窄或受限于来源,LLM 评审常忽略该维度。LLM 评审与人类专家的矛盾结论对基于 LLM 评估科学新颖性的可靠性提出严重质疑。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选76
对抗性重新包装:仅修改呈现层即可欺骗AI同行评审

研究提出对抗性重新包装攻击,在不改动科学证据(方法、实验、数据等)的前提下,仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容,并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上,攻击成功率达75.1%,平均得分提高+1.21/10。策略中,相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式:AI审稿人更易被亮点打动而非被说服,且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。

arXiv安全/对齐论文/研究评测/基准

推荐理由:这篇论文戳破一个令人不安的真相:AI 审稿人可以被纯粹的文字包装欺骗,不碰证据就能大幅拉升评分。它把论文呈现本身变成了一枚可优化的攻击面,做学术出版与 AI 评估的人都要正视这个结构性缺陷。
08:00
HuggingFace Daily Papers(社区热门论文)
42
OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
缩放因子在LoRA优化中的隐藏力量

研究揭示,LoRA中缩放因子α与学习率作用不同,α才是有效优化的主导因素。通过Signal-Drift框架与实证,发现三个机制:LoRA的光谱抑制平滑优化面,使标准超参数过于保守;α放大任务信号而不增加漂移比,比学习率更有效加速收敛;最优α与秩呈平方根律次线性关系,现有秩绑定启发式缩放不足。基于此提出LoRA-α框架,将α恢复至原则性区间,兼容标准小学习率,持续提升性能并简化超参数搜索。

arXiv数据/训练论文/研究
07:57
HuggingFace Daily Papers(社区热门论文)
61
CPPO:超越统一Token级别信任区域的LLM强化学习

现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。

arXiv推理数据/训练论文/研究
01:47
HuggingFace Daily Papers(社区热门论文)
47
APPO:智能体过程策略优化

现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。

智能体arXiv数据/训练论文/研究
6月10日
21:56
HuggingFace Daily Papers(社区热门论文)
68
Next Forcing:基于多块预测的因果世界建模

Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。

arXiv具身智能数据/训练视频
‹ 上一页
12345…19
下一页 ›