AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
5月27日周三
07:21karminski-牙医69微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能
02:02Hacker News 热门(buzzing.cc 中文翻译)66语言模型也需要休息
01:04Rohan Paul74AI效率增益幻觉研究:感知效率与实际收益的落差
5月26日周二
23:59Ant Ling69KPop:稳定大规模MoE模型强化学习训练的新技术
23:29Ant Ling68同事件精选KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
23:27Berryxia.AI44论文《Language Models Need Sleep》摘要
23:03Rohan Paul61论文提出Self-play SWE-RL方法,通过自我博弈提升软件智能体能力
22:33Rohan Paul57AutoResearchClaw:支持人机协作的自主研究框架
22:28Ant Ling62SwiGLU在大输入下呈二次增长,PowLU应运而生
21:19HuggingFace Daily Papers(社区热门论文)67CUA-Gym: 为计算机使用智能体扩展可验证的训练环境与任务
21:13IT之家(RSS)50研究显示医学论文中的虚假参考文献数量激增,AI 难辞其咎
20:19HuggingFace Daily Papers(社区热门论文)64语言模型需要睡眠
18:28X.PIN67华为AI芯片:绕过制程限制的扩展路径
18:13IT之家(RSS)61中日韩新马泰 6 国科学家联合发布亚洲首个合成细胞十年技术路线图
16:19HuggingFace Daily Papers(社区热门论文)63预见与学习:释放主动智能体的空闲时间计算能力
15:00Rohan Paul59灵巧机械手的强度与速度平衡挑战
14:18HuggingFace Daily Papers(社区热门论文)75精选通过奖励倾斜分布匹配强化少步生成器
14:18HuggingFace Daily Papers(社区热门论文)28基于实例分割的像素级路面病害评估
14:18HuggingFace Daily Papers(社区热门论文)65InstructSAM:基于任意指令的多实例分割框架
12:18HuggingFace Daily Papers(社区热门论文)64通道级向量量化
12:18HuggingFace Daily Papers(社区热门论文)64On-Policy对抗流蒸馏用于自回归视频生成
12:18HuggingFace Daily Papers(社区热门论文)61Helix4D:复杂动态网格生成
12:18HuggingFace Daily Papers(社区热门论文)55ControlLight:面向可控、一致且可泛化的低光增强
12:11IT之家(RSS)62小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA
11:18HuggingFace Daily Papers(社区热门论文)61迈向原生多模态建模:一份路线图
11:18HuggingFace Daily Papers(社区热门论文)65SemBridge:通过多语义桥实现稀疏编码器中的语言迁移
11:18HuggingFace Daily Papers(社区热门论文)66Claw-Anything:评测能够广泛访问用户数字世界的全天候个人助手基准
11:18HuggingFace Daily Papers(社区热门论文)70精选WBench:面向交互式世界模型评估的多轮基准
11:18HuggingFace Daily Papers(社区热门论文)66TriSplat:面向仿真的前馈式3D场景重建网络
10:18HuggingFace Daily Papers(社区热门论文)63MetaphorVU:迈向隐喻视频理解
10:18HuggingFace Daily Papers(社区热门论文)68Pantheon360:利用3D感知360°视频扩散来驾驭数字孪生生成
10:18HuggingFace Daily Papers(社区热门论文)64DVAO:面向多奖励强化学习的动态方差自适应优势优化
08:00HuggingFace Daily Papers(社区热门论文)59DEI:演化推理中的多样性用于质量-多样性搜索
08:00HuggingFace Daily Papers(社区热门论文)50SIA:通过Harness与权重更新实现自改进AI
08:00HuggingFace Daily Papers(社区热门论文)47信任区域Q伴随匹配
08:00HuggingFace Daily Papers(社区热门论文)55RAMP:生产系统中智能体模型的运行时评估基础设施
08:00HuggingFace Daily Papers(社区热门论文)39MERIT:用于音频相似度学习的解耦音乐表示
08:00HuggingFace Daily Papers(社区热门论文)17拉丁语至奥克语的语法性别流变探析
08:00HuggingFace Daily Papers(社区热门论文)54超越整体模型:深度多元时间序列预测的系统性组件级基准测试
08:00HuggingFace Daily Papers(社区热门论文)50并非所有分歧都可学习:在线策略蒸馏中的Token可教学性
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
07:21
karminski-牙医@karminski3
69
微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体arXivMicrosoft数据/训练
02:02
Hacker News 热门(buzzing.cc 中文翻译)
66
语言模型也需要休息

一项新研究提出“语言模型也需要休息”的观点。该论文于2026年5月26日在arXiv发布(编号2605.26099),并在Hacker News上获得102点热度。研究可能探讨了大语言模型在持续运行后需要某种形式的“睡眠”或暂停机制,以恢复性能或优化状态。

arXiv论文/研究
01:04
Rohan Paul@rohanpaul_ai
74
AI效率增益幻觉研究:感知效率与实际收益的落差

MIT、斯坦福等机构的一项研究(2,691名参与者)揭示了“效率增益幻觉”:在基本计算、拼写等简单任务上,用户实际使用AI的比例高于自我预测,且预期节省时间(平均55.7秒)远高于实际测量值(仅7.5秒)。研究指出,隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是,使用AI会形成依赖循环——仅两次使用后,即便独立完成更快,参与者也更倾向继续依赖AI,这种倾向源于对便捷感的错误认知,可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。

现象/趋势论文/研究
5月26日
23:59
Ant Ling@AntLingAGI
69
团队发布了KPop技术,用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码,改用自适应二元KL散度区域来匹配每个token的固有噪声,从而实现更鲁棒的参数更新,支持长期、智能体化的强化学习训练。具体应用中,万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练(未修改基础设施或路由重放)的情况下,于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
23:29
Ant Ling@AntLingAGI
同事件精选68
团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练编码论文/研究
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁团队把 IcePop 升级成 KPop,从固定掩码变成自适应 KL 区域,思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+,做 agentic RL 训练的同学值得翻一下博客。
23:27
Berryxia.AI@berryxia
44
论文《Language Models Need Sleep》摘要

CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。

himanshu: very cool research (and nomenclature)

arXiv开源生态推理论文/研究
23:03
Rohan Paul@rohanpaul_ai
61
论文提出Self-play SWE-RL方法,通过自我博弈提升软件智能体能力

Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。

智能体arXivMeta编码
22:33
Rohan Paul@rohanpaul_ai
57
AutoResearchClaw:支持人机协作的自主研究框架

Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。

智能体GoogleMeta论文/研究
22:28
Ant Ling@AntLingAGI
62
SwiGLU在现代大语言模型中无处不在--但对于大输入,它的行为类似于x2。这种二次增长会膨胀激活值,放大异常值,并使深层网络或低精度(FP8/FP4)训练容易出现损失尖峰。 我们提出了PowLU,一种为稳定大规模预训练而设计的即插即用激活函数。🧵
推理数据/训练论文/研究
21:19
HuggingFace Daily Papers(社区热门论文)
67
CUA-Gym: 为计算机使用智能体扩展可验证的训练环境与任务

针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。

智能体arXiv开源生态数据/训练
21:13
IT之家(RSS)
50
研究显示医学论文中的虚假参考文献数量激增,AI 难辞其咎
其他论文/研究
20:19
HuggingFace Daily Papers(社区热门论文)
64
语言模型需要睡眠

针对Transformer架构在处理长上下文时注意力机制效率低的问题,研究提出一种“睡眠式巩固机制”。该方法让模型定期将近期上下文转换为持久化的快速权重,并清空键值缓存。期间,模型通过N次离线循环处理累积上下文,并通过局部规则更新其状态空间模型块中的快速权重。这使得额外计算被转移至“睡眠”阶段,从而保持了推理的实时性。该方法在细胞自动机、多跳图检索等合成任务及一项数学推理任务(常规Transformer及SSM-Attention混合模型均失败)上进行了测试。结果表明,增加睡眠持续期N能提升性能,在需要更深层次推理的任务上增益最大。

推理论文/研究
18:28
X.PIN@thexpin
67
华为AI芯片:绕过制程限制的扩展路径

华为将不依赖更小制程节点,通过封装与架构创新来扩展其昇腾AI芯片。根据何庭波的论文,华为计划在2025年至2030年间,通过Chiplets、2.5D扇出封装和3D堆叠技术,推进其昇腾SuperPoD系列,具体产品包括2025年的910C、2026年的950及后续的990。约2030年,Ascend 990将引入LogicFolding技术,目标是到2035年实现100倍的集成度跃升。

端侧论文/研究部署/工程
18:13
IT之家(RSS)
61
中日韩新马泰 6 国科学家联合发布亚洲首个合成细胞十年技术路线图

中国科学院深圳先进技术研究院联合亚洲六国100多个实验室,在《自然·生物技术》发布了亚洲首个合成细胞十年技术路线图。该路线图聚焦于“人工合成单细胞生命”,提出以AI驱动的生物铸造厂为核心、“中央工厂+分布式工作站”的跨国协作模式,并明确了两阶段目标:第一阶段构建“原始细胞”,第二阶段实现具备自我复制能力的“自主细胞”。

论文/研究
16:19
HuggingFace Daily Papers(社区热门论文)
63
预见与学习:释放主动智能体的空闲时间计算能力

当前AI智能体是反应式的,仅在用户提问后响应,浪费了交互间的空闲时间。为解决此问题,本文提出了ProAct主动式智能体架构,它能利用空闲时间,通过分析对话历史与持久记忆预测用户需求,并迭代地获取信息、准备证据,从而在用户提问前填补知识缺口。为评估该能力,研究者发布了包含200个场景的ProActEval基准。实验表明,相比反应式基线,ProAct将任务完成所需轮次减少14.8%,用户操作负担降低11.7%,并将模型幻觉率大幅降低28.1%,同时在MemBench上取得了最先进的反思准确率。

智能体arXiv推理论文/研究
15:00
Rohan Paul@rohanpaul_ai
59
灵巧机械手的一个工程挑战在于平衡强度与速度。 这里 SharpaWave 正以超过每秒 4 次的频率进行快速手部循环。动态触觉阵列采用视觉-触觉传感:指尖集成了摄像头和 1000 多个触觉像素。
具身智能多模态论文/研究
14:18
HuggingFace Daily Papers(社区热门论文)
精选75
通过奖励倾斜分布匹配强化少步生成器

本文提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度,自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏(AC-DMD),在子区间进行分布匹配,并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项,并推导混合策略梯度及步子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。

arXiv图像生成论文/研究

推荐理由:这篇直接把分布匹配蒸馏和奖励建模拧在一起,在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法,做图像生成训练和偏好对齐的该看。
14:18
HuggingFace Daily Papers(社区热门论文)
28
基于实例分割的像素级路面病害评估

本研究提出一种基于 Mask R-CNN 实例分割的视觉系统,用于精细化的路面病害分析,并在车辆采集的 UWGB-StreetCrack 数据集上进行评估。研究比较了五种基于 Detectron2 的骨干网络变体。其中,采用 ResNet-101 FPN 骨干的最佳 Mask R-CNN 模型,在项目特定的边界框匹配协议下,达到了 84.23% 的精确率、90.04% 的召回率和 87.04% 的 F1 分数。该模型预测的总体裂纹面积分数为 2.164%,与标注的真实值 2.170% 高度吻合。作为对比,一个基于 CSPDarknet53 的 YOLO 检测器性能显著较低。结果表明,实例分割是处理实地路面图像和估算裂纹面积的实用方向。

论文/研究
14:18
HuggingFace Daily Papers(社区热门论文)
65
InstructSAM:基于任意指令的多实例分割框架

本文提出InstructSAM,一个用于在任意指令下执行多实例分割的统一框架。该方法将问题形式化为集合结构的查询预测任务,通过在视觉语言模型中注入可学习实例查询,并设计混合注意力机制与SAM3交互,实现了在单次前向传播中完成多实例分割。论文同时构建了大规模指令实例分割数据集与基准Inst2Seg。实验表明,仅2B规模的InstructSAM在相关基准上取得了优异性能,优于此前的端到端方法和SAM3的智能体流程。

多模态论文/研究
12:18
HuggingFace Daily Papers(社区热门论文)
64
通道级向量量化

本文提出通道级向量量化,这是一种新的图像token化范式,用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道,将图像表示为离散的视觉细节层次。基于此,作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道,先勾勒全局结构再细化细节。实验表明,CVQ在16K+大小的码本上实现了100%利用率,显著提升了重建质量;CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。

图像生成论文/研究
12:18
HuggingFace Daily Papers(社区热门论文)
64
On-Policy对抗流蒸馏用于自回归视频生成

提出Adversarial Flow Distillation(AFD)框架,用于将黑盒视频教师模型知识蒸馏至因果自回归学生模型。该方法在相同提示词下并行生成教师与学生输出,训练Bradley-Terry判别器以估计干净样本上的师生差异,并将此在策略优势转化为对学生自身噪声状态的前向过程流匹配更新,无需教师分数、潜变量、去噪轨迹或步长对齐。实验表明,AFD在两个自回归学生系列上持续提升运动与物理敏感的生成质量,同时保持整体效果,为蒸馏专有或异构视频生成器提供了实用路径。

数据/训练论文/研究
12:18
HuggingFace Daily Papers(社区热门论文)
61
Helix4D:复杂动态网格生成

Helix4D是一个动态网格生成框架,旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力,将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量,它采用了滑动窗口跨帧注意力并锚定第一帧。同时,其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度,无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。

多模态视频论文/研究
12:18
HuggingFace Daily Papers(社区热门论文)
55
ControlLight:面向可控、一致且可泛化的低光增强

现有基于深度学习的低光增强方法受限于有限数据集和单一增强目标,泛化能力和可控性不足。本文提出ControlLight框架,通过构建带有连续光照强度监督的大规模真实退化图像数据集,并引入感知对齐加权流匹配损失以确保不同控制强度下输出结构的一致性,实现了对增强强度的灵活控制。实验表明,该方法在低光增强任务上达到了最先进的性能,同时具备强连续可控性和对真实场景的良好泛化能力。

arXiv论文/研究
12:11
IT之家(RSS)
62
小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架,首次将三维重建与视频生成深度耦合,打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在合成数据生成(已交付超10万 clips 数据)、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频
11:18
HuggingFace Daily Papers(社区热门论文)
61
迈向原生多模态建模:一份路线图

本文提出了从多模态无关推理迈向世界建模的路径,聚焦从后期融合范式转向原生多模态建模(NMM)。研究正式定义了架构的原生性,将中期融合与早期融合从非原生范式中区分,并依据输入输出对偶性将现有原生模型分为三类:用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”,以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径,涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。

多模态论文/研究
11:18
HuggingFace Daily Papers(社区热门论文)
65
SemBridge:通过多语义桥实现稀疏编码器中的语言迁移

提出SemBridge,一种为稀疏编码器跨语言适配设计的嵌入初始化方法。该方法利用多语义桥模型建立源语言与目标语言词汇间的语义对齐,通过选择少量语义相关的源语言词来初始化目标语言词,过滤语义噪声,从而加速微调收敛并提升训练效率。在五种语言和四种稀疏架构上的大量实验表明,SemBridge在零样本检索中性能优越,并在微调后能持续提升检索效果,为在多语言环境中部署高性能稀疏检索系统提供了实用方案。

论文/研究
11:18
HuggingFace Daily Papers(社区热门论文)
66
Claw-Anything:评测能够广泛访问用户数字世界的全天候个人助手基准

当前大语言模型智能体作为全天候个人助手,只能访问用户数字世界的有限部分,限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题,它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示,GPT-5.5在该基准上的 pass@1 仅为34.5%,远低于其在之前基准上的表现,表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道,可产出2000个训练环境,并使基础模型性能提升23.7%。

智能体数据/训练论文/研究
11:18
HuggingFace Daily Papers(社区热门论文)
精选70
WBench:面向交互式世界模型评估的多轮基准

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。

arXiv多模态视频论文/研究

推荐理由:视频世界模型的评估终于有了统一尺度,WBench 从画面质量到物理一致性覆盖五个维度,289 个测试用例把 20 个模型拉平一看,没有谁全面领先,做这方向的值得拿来跑一遍。
11:18
HuggingFace Daily Papers(社区热门论文)
66
TriSplat:面向仿真的前馈式3D场景重建网络

TriSplat是一种前馈式3D场景重建网络,采用定向三角形基元表示场景。它能直接从稀疏视角图像,通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿,并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明,其几何保真度优于基于高斯的前馈基线,同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用,无需额外转换。

具身智能多模态论文/研究
10:18
HuggingFace Daily Papers(社区热门论文)
63
MetaphorVU:迈向隐喻视频理解

为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。

arXiv多模态论文/研究评测/基准
10:18
HuggingFace Daily Papers(社区热门论文)
68
Pantheon360:利用3D感知360°视频扩散来驾驭数字孪生生成

Pantheon360是一个可控的360°视频生成框架,旨在从稀疏的360°输入合成高保真视频,以解决传统透视视频生成器因视野有限而导致的轨迹复杂、跨视角不一致等问题。其核心创新是引入一个从输入中重建的显式3D缓存,作为用户定义任意相机路径的几何支架。这使视频扩散模型能专注于纹理精修,同时由3D缓存强制执行全局几何一致性。实验表明,该框架在视觉质量和几何一致性上表现优越,能够为下游模拟和数字孪生应用提供可靠、灵活的360°场景生成。

视频论文/研究
10:18
HuggingFace Daily Papers(社区热门论文)
64
DVAO:面向多奖励强化学习的动态方差自适应优势优化

针对多奖励强化学习中,传统标量化方法(如奖励组合与优势组合)导致的训练不稳定或依赖静态超参数问题,本文提出动态方差自适应优势优化(DVAO)。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重,强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练,并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示,DVAO显著优于基线方法,在多目标帕累托前沿和训练稳定性上取得更优结果。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
DEI:演化推理中的多样性用于质量-多样性搜索

DEI是一个分布式质量-多样性(QD)搜索框架,将异构大语言模型分配为变异算子,通过非阻塞集体通信共享局部最优解。在Core War基准上,四节点异构集成(GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5)在相同LLM调用预算下,合并归档QD-Score达45.90(比单节点20.46高124%),覆盖率80.6%(比63.0%高28%),且优于同构集成。首次实证模型多样性而非并行性是分布式LLM-based QD搜索的关键。

AnthropicOpenAI推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
SIA:通过Harness与权重更新实现自改进AI

SIA提出由语言模型智能体(Feedback-Agent)同时更新任务智能体的harness(工具、提示词、重试逻辑、搜索过程)和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上,结合两种杠杆均优于仅迭代脚手架:LawBench提升56.6%,GPU内核运行时间减少91.9%,去噪提升502%。Harness更新赋予智能体搜索与行动能力,权重更新则内化领域直觉。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
信任区域Q伴随匹配

QAM将离线策略强化学习转化为无记忆随机最优控制问题,但critic引导的脆弱性导致模型崩溃。TRQAM通过投影对偶下降自适应控制预训练流策略的路径空间KL散度,优化信任区域参数λ,并证明路径空间KL可表示为λ的闭式函数。在50个OGBench任务上,TRQAM在离线RL和离线到在线RL中均超越先前方法,离线RL成功率达68%,超过最强基线(46%)。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
RAMP:生产系统中智能体模型的运行时评估基础设施

RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。

智能体arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
MERIT:用于音频相似度学习的解耦音乐表示

MERIT 是一个用于学习解耦音乐表示的框架,旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题,MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略,以鼓励训练数据中出现单因素的变化。评估结果显示,MERIT 实现了强大的因子解耦性,每个表示头对其目标感知维度有强烈响应,而在其他维度上表现接近随机,这一特性在合成训练域和独立的真实世界音频中均成立。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
17
拉丁语至奥克语的语法性别流变探析

该研究引入一个可解释的深度学习框架,以探究拉丁语演变为奥克语(一种罗曼语)过程中语法性别体系从阳性、阴性、中性三分向二分转变的现象。研究发现,针对这种低资源历史语料,传统分词策略不够稳健,所提出的改进分词器提升了模型性能。在词汇层面评估了词形特征对性别预测的贡献,在上下文层面量化了不同词性类别对语法性别预测的影响,揭示了性别信息在词元及其句子上下文间的分布特征。

arXiv其他论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
超越整体模型:深度多元时间序列预测的系统性组件级基准测试

本文提出了TSCOMP,首个将深度预测方法系统分解为序列预处理、编码策略、网络架构和优化方法等细粒度组件的大规模基准。通过约束正交实验设计和广泛评估,分析了组件在不同骨干网络和数据特性下的有效性。该基准构建了包含超过20000次模型-数据集评估的细粒度性能语料库,支持自动化的组件选择,能够实现零样本模型构建。实验表明,基于该语料库的方法始终优于当前最优方法。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
并非所有分歧都可学习:在线策略蒸馏中的Token可教学性

在线策略蒸馏(OPD)利用教师模型的token级监督,对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出,原始的KL分歧是一个粗糙指标,它混合了“可学习分歧”和“不相容分歧”。为此,研究提出了“Token可教学性”概念来衡量信号的实际可学习性,并据此设计了轻量级的TA-OPD方法,仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中,TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法,将选择性蒸馏重新定义为筛选可学习的教师信号。

数据/训练论文/研究
‹ 上一页
1…3637383940…50
下一页 ›