AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「arXiv」清除
6月7日周日
02:11公众号:阶跃星辰(Step)71精选阶跃首席科学家张祥雨合著论文 ResNet 获 CVPR 2026 「时间检验奖」
01:01Rohan Paul62MIT论文提出Self-Revising Discovery Systems框架
00:30Rohan Paul66MIT团队提出自我演进AI科学家框架:让AI主动扩展科学概念空间
6月6日周六
23:30elvis65CL-Bench:记忆系统不如简单上下文学习
20:15HuggingFace Daily Papers(社区热门论文)53Phase Marginalization:解决视觉Transformer patch-grid相位不稳定性
08:00HuggingFace Daily Papers(社区热门论文)52几何主结构(GPS):面向机器人关节部件感知的可扩展高质量表示
08:00HuggingFace Daily Papers(社区热门论文)50Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解
08:00HuggingFace Daily Papers(社区热门论文)39EmpiriGraph-Psy:心理学摘要实证关系图抽取数据集与LLM流程
08:00HuggingFace Daily Papers(社区热门论文)59CHIAR-Former:明暗注意力--在黑暗中分配计算
05:23Emad33Claude获诺贝尔奖得主认可--足够好用
00:00AK56ArcANE:角色扮演智能体是否适时保持角色?
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)68Code2LoRA:超网络生成适配器助力代码语言模型应对软件演化
23:47HuggingFace Daily Papers(社区热门论文)56AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型
21:47HuggingFace Daily Papers(社区热门论文)69ForeSci: 评估LLM智能体的前瞻性AI研究判断
21:47HuggingFace Daily Papers(社区热门论文)52审计基于LLM的在线讨论立场模拟:反事实语境修正框架
21:46HuggingFace Daily Papers(社区热门论文)54Rectified Flows 沿插值路径的成员信号泄露分析
15:57Tencent Hy74精选腾讯混元联合人大开源PlanningBench评估框架
10:48Hacker News 热门(buzzing.cc 中文翻译)51Transformer 需要三个投影吗?--对 QKV 变体的系统研究
10:46HuggingFace Daily Papers(社区热门论文)69Future-L1:用于视频事件预测的交错潜在视觉推理
10:46HuggingFace Daily Papers(社区热门论文)68NF-CoT:基于归一化流的潜在推理框架
10:46HuggingFace Daily Papers(社区热门论文)67WLA:统一世界建模、语言推理与动作生成的世界-语言-动作模型
09:26Rohan Paul60Harness-1:通过状态外部化提升搜索智能体性能
08:00HuggingFace Daily Papers(社区热门论文)57ReVision:通过时序视觉冗余缩减扩展计算机使用智能体规模
08:00HuggingFace Daily Papers(社区热门论文)58PACI:通过有界权重不一致实现无气泡异步流水线并行训练
08:00HuggingFace Daily Papers(社区热门论文)55VoLo:面向开放词汇长时程操作的物理编排器
08:00HuggingFace Daily Papers(社区热门论文)61WIZARD:基于权重空间元学习的机器人策略适应
08:00HuggingFace Daily Papers(社区热门论文)58论在线策略蒸馏的几何特性
08:00HuggingFace Daily Papers(社区热门论文)57GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据
08:00HuggingFace Daily Papers(社区热门论文)35多流派和弦符号建模:冻结的 pop-jazz Music Transformer 的轻量适配能力与边界
08:00HuggingFace Daily Papers(社区热门论文)56MMAE:大规模多任务音频编辑基准
08:00HuggingFace Daily Papers(社区热门论文)63基于MLLM的人类视角视频理解:观看、记忆、推理
08:00HuggingFace Daily Papers(社区热门论文)52PaperFlow:跨每日论文流的画像、推荐与自适应框架
00:43HuggingFace Daily Papers(社区热门论文)66圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异
6月4日周四
23:43HuggingFace Daily Papers(社区热门论文)65ZipSplat:更少高斯,更好渲染
18:52Rohan Paul66伊利诺伊大学和清华大学等研究发现:LLM智能体不断重写记忆反而导致记忆不可靠
18:26HuggingFace Daily Papers(社区热门论文)51超越对齐:多元文化智能体系统的价值多样性
17:26HuggingFace Daily Papers(社区热门论文)70精选RHO:利用过往轨迹优化LLM智能体工具链的自监督方法
16:42HuggingFace Daily Papers(社区热门论文)63DeepMDMD:面向代数保持的Koopman学习的深度嵌入乘性动态模式分解
11:42HuggingFace Daily Papers(社区热门论文)68AutoLab:前沿模型能否解决长周期自动研究与工程任务?
11:42HuggingFace Daily Papers(社区热门论文)64WebRISE:面向MLLM生成Web工件的需求诱导状态评估基准
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月7日
02:11
公众号:阶跃星辰(Step)
精选71
阶跃首席科学家张祥雨合著论文 ResNet 获 CVPR 2026 「时间检验奖」

CVPR 2026 将 Longuet-Higgins Prize「时间检验奖」授予 2015 年发表的《Deep Residual Learning for Image Recognition》(ResNet)。该论文由何恺明、张祥雨、任少卿、孙剑完成,提出的残差学习思想解决了深层神经网络训练难题,已成为现代深度学习基础结构。同获该奖的还有 YOLO v1。ResNet 全球引用量超 32 万次,是 21 世纪被引最多论文。阶跃算法团队正热招大模型技术人才。

arXiv行业动态
关联讨论 1 条公众号:阶跃星辰(Step)
推荐理由:ResNet拿下CVPR时间检验奖,32万引用是真的硬通货。虽然论文是2015年的,但残差连接至今仍是每个大模型的地基,这个奖实至名归,也提醒我们基础研究才是长期主义的底气。
01:01
Rohan Paul@rohanpaul_ai
62
MIT论文提出Self-Revising Discovery Systems框架

MIT论文(F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026)提出Self-Revising Discovery Systems框架,使AI科学家能自主识别当前思维模式不足并添加新科学概念,而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物(typed provenance),从而区分三种模式:retrieval(添加已知对象)、search(探索固定模式)和discovery(可验证的模式转换)。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化,使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体arXiv推理论文/研究
00:30
Rohan Paul@rohanpaul_ai
66
MIT团队提出自我演进AI科学家框架:让AI主动扩展科学概念空间

MIT团队提出自我演进AI科学家框架,核心创新是让AI识别当前推理空间过小并主动添加新科学概念,而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact,明确区分检索(添加已知对象)、搜索(探索固定schema)和发现(可验证的模式扩展)。通过类型化copresheaf与Kan障碍理论证明,真正发现是可验证的schema扩展:旧证据由左Kan扩展传输,创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体arXiv推理论文/研究
6月6日
23:30
elvis@omarsar0
65
CL-Bench:记忆系统不如简单上下文学习

持续学习领域投入多但进展缓慢。CL-Bench(持续学习基准)在六个由专家验证、包含共享可学习结构的领域上测试,发现简单的上下文学习(ICL)基线优于专门为记忆管理构建的系统。该基准引入增益指标以隔离真正学习效果,结果显示智能体常过度拟合即时观察或未能跨实例复用知识。研究指出,若普通ICL基线超过你的记忆架构,则该架构增加的是开销而非学习。论文:arxiv.org/abs/2606.05661。

智能体arXiv数据/训练论文/研究
20:15
HuggingFace Daily Papers(社区热门论文)
53
Phase Marginalization:解决视觉Transformer patch-grid相位不稳定性

视觉Transformer在固定patch网格上存在相位依赖不稳定:改变patch划分会改变像素可用的token证据,尤其边界处。研究者将patch-grid相位形式化为干扰变量,提出Phase Marginalization后处理方法,评估结构化patch-grid相位、反对齐密集输出并在原始图像坐标系中聚合。核心变体Uniform Phase Marginalization with K=4无需训练,在分割、深度和局部匹配任务上优于标准K=1基线。在Cityscapes实验中,相比通用移位四前向测试时增强(TTA)获得+0.31 mIoU优势。缩放实验表明K=4是实用折中:K=8基本不变,K=16精度提升极小但延迟大增。结论将patch-grid相位定位为可测量干扰变量,Phase Marginalization为密集ViT预测提供了简单诊断和后处理基线。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
几何主结构(GPS):面向机器人关节部件感知的可扩展高质量表示

针对机器人操作中关节部件感知的准确性与泛化性需求,提出几何主结构(GPS)表示,在可扩展性与质量间取得平衡。GPS结合便携式VR设备,标注单个物体序列仅需一分钟,质量高于基于点跟踪的affordance方法。利用VR-GPS系统收集6个部件类别下234个物体的41K帧数据,训练出以单张RGB-D图像为输入的泛化GPS模型。无需领域内微调,基于GPS预测的启发式策略在9个物体270个初始状态上达到73%成功率。代码、数据和工具已开源。

arXiv具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Robust-U1:让MLLM自我恢复损坏视觉内容实现鲁棒理解

Robust-U1提出显式视觉自恢复框架,使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段:监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性,在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力,自恢复成为鲁棒理解的关键机制。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
EmpiriGraph-Psy:心理学摘要实证关系图抽取数据集与LLM流程

现有科学关系抽取基准主要面向计算机科学,缺乏心理学等变量导向实证领域的任务。本文提出变量中心实证图抽取任务,将科学摘要映射为以归一化变量为节点、边表示实证与层级关系的类型化图。构建EmpiriGraph-Psy基准,包含210篇经领域标注者标注的心理学摘要。评估表明,分阶段图构建管道(分步进行变量抽取、归一化、层级构建、证据选择、关系抽取和边验证)显著优于直接抽取,最佳配置macro-F1达0.74。错误分析显示,调节关系和概念层级仍是最大难点。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
CHIAR-Former:明暗注意力--在黑暗中分配计算

CHIAR-Former 是一种 4 层混合 Transformer,根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力(RBF 核混合在消融中被拒绝)。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54,相比全注意力基线(PPL 66.62)提升 45%,同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明,模型在大规模自然文本中因 token 多样性受益,而全注意力在小数据集和合成任务中仍占优势。

arXiv推理论文/研究部署/工程
05:23
Emad@EMostaque
33
如果 Claude 对诺贝尔奖得主来说都足够好,那对你也一样。 https://arxiv.org/abs/2606.03300
AnthropicarXiv论文/研究
00:00
AK@_akhaliq
56
ArcANE 角色扮演语言智能体是否能在适当时刻保持角色?
智能体arXiv论文/研究
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
68
Code2LoRA:超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架,可生成仓库专属的 LoRA 适配器,在推理时零 token 开销注入仓库知识。它支持两种模式:Code2LoRA-Static 将单一仓库快照转为适配器,适合稳定代码库;Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器,适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中,Code2LoRA-Static 跨仓库 exact match 达 63.8%,仓库内达 66.2%,持平逐仓库 LoRA 上界;演化任务中,Code2LoRA-Evo 跨仓库 exact match 达 60.3%,比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXivHugging Face开源生态编码
23:47
HuggingFace Daily Papers(社区热门论文)
56
AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型

AffordanceVLA 是一种视觉-语言-动作模型,通过引入结构化具身感知预测作为任务导向中间表示,建立更精准的感知-动作映射。模型包含三个互补组件:Which2Act(通过视觉潜变量预测实现目标中心定位以抑制干扰)、Where2Act(通过具身感知图估计定位二维交互区域)、How2Act(进行三维几何推理以引导操控策略)。采用混合 Transformer 架构,结合三阶段训练策略和渐进式数据课程,并配有自动数据增强管道。在仿真和真实世界实验中,模型在多种操控场景中取得强性能。

arXiv具身智能多模态论文/研究
21:47
HuggingFace Daily Papers(社区热门论文)
69
ForeSci: 评估LLM智能体的前瞻性AI研究判断

ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准,包含500个任务,覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库,训练数据止于截止点,后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示,显式证据组织能提升可追溯性和事实支持,但收益因决策族而异;诊断发现证据与决策脱节,智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。

智能体arXiv论文/研究评测/基准
21:47
HuggingFace Daily Papers(社区热门论文)
52
审计基于LLM的在线讨论立场模拟:反事实语境修正框架

本研究提出反事实语境修正框架,用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后,先推断目标用户立场,再对语境施加受控修正策略(纯文本与结合模因的多模态策略)并重新模拟。评估平均方向性立场转变与立场转换率,发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性,同时突出了其模拟在线舆论动态的前景与风险。

arXiv多模态论文/研究
21:46
HuggingFace Daily Papers(社区热门论文)
54
Rectified Flows 沿插值路径的成员信号泄露分析

研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线,该差距随训练累积,而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解,并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击(MIA),区分训练集与非训练集样本。

arXiv安全/对齐论文/研究
15:57
Tencent Hy@TencentHunyuan
精选74
腾讯混元联合人大开源PlanningBench评估框架

腾讯混元(Tencent Hunyuan)与中国人民大学高瓴人工智能学院合作,开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务,支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

智能体arXivGitHub开源/仓库

推荐理由:腾讯混元联合人大开源的 PlanningBench,补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口,做 Agent 的同学可以直接用来评测和训练,开源即用。
10:48
Hacker News 热门(buzzing.cc 中文翻译)
51
Transformer 需要三个投影吗?--对 QKV 变体的系统研究

一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。

arXiv开源生态论文/研究部署/工程
10:46
HuggingFace Daily Papers(社区热门论文)
69
Future-L1:用于视频事件预测的交错潜在视觉推理

Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。

arXiv多模态视频论文/研究
10:46
HuggingFace Daily Papers(社区热门论文)
68
NF-CoT:基于归一化流的潜在推理框架

NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流,为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成,文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计,并支持潜在推理空间的直接策略梯度优化。在代码生成基准上,NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率,同时显著降低了中间推理成本。

arXiv推理编码论文/研究
10:46
HuggingFace Daily Papers(社区热门论文)
67
WLA:统一世界建模、语言推理与动作生成的世界-语言-动作模型

WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。

arXiv具身智能多模态论文/研究
09:26
Rohan Paul@rohanpaul_ai
60
Harness-1:通过状态外部化提升搜索智能体性能

Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。

智能体arXiv推理搜索
08:00
HuggingFace Daily Papers(社区热门论文)
57
ReVision:通过时序视觉冗余缩减扩展计算机使用智能体规模

计算机使用智能体(CUA)依赖GUI截图,每张截图编码大量视觉token,长轨迹下token成本激增。ReVision训练多模态语言模型,利用学习的patch选择器比较连续截图中patch表征,去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时,ReVision平均减少46% token使用,成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹,且随着移除冗余后纳入更多历史观测,性能持续改善。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
PACI:通过有界权重不一致实现无气泡异步流水线并行训练

针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题,PACI提出一种无气泡异步方法,利用局部梯度累积作为版本控制机制,限制前向/反向版本漂移,无需权重存储、预测或全局同步。在GPT风格语言模型预训练中,PACI匹配同步1F1B-flush的稳定性与最终困惑度,保持相同峰值内存,实现完全流水线吞吐量,训练时间-准确率提升最高达1.69倍。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VoLo:面向开放词汇长时程操作的物理编排器

VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。

智能体arXivMCP/工具具身智能
08:00
HuggingFace Daily Papers(社区热门论文)
61
WIZARD:基于权重空间元学习的机器人策略适应

针对视觉-语言-动作(VLA)模型部署成本高的问题,WIZARD提出权重空间元学习框架,仅需语言指令和简短演示视频,在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数,无需动作标签或测试时优化。在LIBERO上,WIZARD在未见过数据集集合上性能提升最高约2倍,在未见过任务上最高约14倍;在Franka Emika Panda真实机器人上,WIZARD持续优于域适应基线。

arXiv具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏(OPD)与监督微调(SFT)及带可验证奖励的强化学习(RLVR)在参数空间中的更新轨迹。OPD的更新影响更少权重,更强地避开主方向,且约束比RLVR松弛。OPD表现出子空间锁定:累积更新快速进入低维通道,且锁定子空间对OPD功能足够。控制实验表明,稀疏化更新token或off-policy生成不改变秩动态,而混合RLVR目标会改变。结论:OPD并非SFT与RLVR的中间点,而具有自身独特的更新几何。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据

研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块,通过开放编码建立AI辅助开发活动分类法,并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息,追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示,开发者主要用LLM进行代码实现,其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移,AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。

arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
35
多流派和弦符号建模:冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

研究使用冻结的 pop-jazz Music Transformer 检查点,通过 LoRA、IA3、BitFit、prefix tuning 和 full fine-tuning 五种轻量适配方法,将模型扩展到 blues、bossa nova、Bach chorales 等11个目标流派。在165组实验中,所有方法在保留和弦预测上均优于冻结基模型,宏观增益+2.89至+3.61分;LoRA 和 IA3 得分最高,但统计检验不支持决定性胜者。控制数据大小后 IA3 仍领先,LoRA 的全数据优势消失。诊断表明和弦符号适配可靠改善流派局部和声预测,但单独和弦符号不足以承载完整流派特征。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MMAE:大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于MLLM的人类视角视频理解:观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv多模态推理视频
08:00
HuggingFace Daily Papers(社区热门论文)
52
PaperFlow:跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架:Profiling从异构冷启动证据构建维护结构化学术画像;Recommending在固定展示预算下通过多信号聚合排序每日论文流;Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准,包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录,并设计了盲人评估协议。实验对比五种基线,PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXivHugging Face论文/研究
00:43
HuggingFace Daily Papers(社区热门论文)
66
圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异

以圣彼得堡博弈为平台,评估28个大语言模型。多数模型在原始博弈中生成有限出价,看似与人类风险行为相似;但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现,模型转向条件性和计算合理性行为,人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。

arXiv安全/对齐论文/研究评测/基准
6月4日
23:43
HuggingFace Daily Papers(社区热门论文)
65
ZipSplat:更少高斯,更好渲染

ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token,再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类,单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参,在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线,PSNR分别高2.1dB和1.2dB,并零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。

arXiv图像生成论文/研究
18:52
Rohan Paul@rohanpaul_ai
66
伊利诺伊大学和清华大学等研究发现:LLM智能体不断重写记忆反而导致记忆不可靠

伊利诺伊大学和清华大学等实验室研究发现,LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历(实际过往尝试和解决方案)往往比提炼后的总结更有用。测试中,GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%,但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要,保留原始证据并仅偶尔总结效果更好。

智能体arXiv数据/训练论文/研究
18:26
HuggingFace Daily Papers(社区热门论文)
51
超越对齐:多元文化智能体系统的价值多样性

现有评估聚焦于单个智能体的价值对齐,无法衡量系统整体文化多元性。本研究提出价值多样性作为系统级评估轴,基于World Values Survey测量19种文化下18种骨干模型的响应差异。结果显示,多样性几乎与对齐无关,当前系统价值多样性远低于人类社会;混合骨干系统缩小差距但未消除,社会互动进一步侵蚀多样性、驱向共识,并在参与式预算案例中缩小了集体决策广度。代码和数据已公开。

智能体arXiv安全/对齐论文/研究
17:26
HuggingFace Daily Papers(社区热门论文)
精选70
RHO:利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。

智能体arXivMCP/工具编码

推荐理由:不靠人工标注就能让 Agent 自我提升,单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%,做自主 Agent 优化的同学应该仔细读一下。
16:42
HuggingFace Daily Papers(社区热门论文)
63
DeepMDMD:面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

DeepMDMD结合深度Koopman方法与结构保持方法,学习潜空间并分区,同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤,得到非零谱位于单位圆上的有限转移图,字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中,比几何MDMD更紧凑且动态一致,减少谱污染,揭示更丰富的连续谱结构,并在严重噪声下稳定预测。在高维流(包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔)中,保持相干结构和长期谱统计,而状态空间MDMD失效。

arXiv数据/训练论文/研究
11:42
HuggingFace Daily Papers(社区热门论文)
68
AutoLab:前沿模型能否解决长周期自动研究与工程任务?

AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。

智能体arXiv编码论文/研究
11:42
HuggingFace Daily Papers(社区热门论文)
64
WebRISE:面向MLLM生成Web工件的需求诱导状态评估基准

WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。

arXiv多模态论文/研究评测/基准
‹ 上一页
1…45678…22
下一页 ›