4月29日
08:00
HuggingFace Daily Papers(社区热门论文)
62
最后一篇人类撰写的论文:智能体原生研究制品

传统科学论文为追求线性叙事,舍弃了大量失败实验与分支路径,且描述与可执行细节间存在鸿沟,严重阻碍了AI智能体的理解与复现。为此,研究团队提出“智能体原生研究制品”(ARA)协议,以包含科学逻辑、可执行代码、探索图谱及证据层的机器可执行研究包取代传统论文。其生态系统由实时研究管理器、ARA编译器和原生评审系统支持。实验表明,ARA将问答准确率从72.4%提升至93.7%,复现成功率从57.4%提高至64.4%。保存的失败轨迹能加速扩展任务,但也可能限制高能力智能体跳出既有框架。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
协同进化策略蒸馏(CoPD)

研究提出协同进化策略蒸馏(CoPD),以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练,并在每个专家的RLVR训练中引入双向OPD,使专家互为教师、协同进化,从而保持行为模式一致且知识互补。实验表明,CoPD能全面集成文本、图像和视频推理能力,性能显著优于混合RLVR和MOPD等基线,甚至超越领域专用专家。该方法可能启发新的训练扩展范式。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
大原子模型与语言模型的智能体融合加速超导体发现

研究团队提出名为ElementsClaw的智能体框架,通过协同大型原子模型与大型语言模型来加速材料发现。该框架利用微调自10亿参数原子模型Elements的工具进行原子尺度计算,并借助LLM进行高层语义推理,将材料发现转向集成化、人机交互模式。在超导体搜索中,该框架仅用28个GPU小时便筛选了240万种晶体,识别出6.8万个高置信度候选材料,将已知超导体空间扩大了数个数量级。它不仅成功识别出文献中隐藏的超导体,更发现了四种经实验验证的新型超导体,其中Zr3ScRe8和HfZrRe4的转变温度分别为6.8K和6.7K。

智能体arXivHugging Face论文/研究
07:38
Berryxia.AI@berryxia
66
微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft论文/研究
07:38
Berryxia.AI@berryxia
50
SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

多模态论文/研究
06:41
elvis@omarsar0
62
从技能文本到技能结构

SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。

智能体MCP/工具开源/仓库论文/研究
05:38
HuggingFace Daily Papers(社区热门论文)
51
通过表示稳定性提升表格检索的鲁棒性

基于Transformer的表格检索系统将结构化表格扁平化为序列,导致即使语义不变,不同序列化格式(如CSV、HTML)也会产生显著差异的检索结果。研究将不同格式的嵌入视为共享语义的噪声视图,以其质心作为规范表示。质心平均法能有效抑制格式特异性变异,在多个检索模型的比较中优于单一格式。此外,研究引入轻量级残差瓶颈适配器,将单格式嵌入映射向质心目标,并施加协方差正则化。该适配器提升了多个稠密检索器的鲁棒性,但改进效果因模型而异,对稀疏检索提升较弱。相关代码与模型已开源。

检索增强论文/研究部署/工程
02:37
HuggingFace Daily Papers(社区热门论文)
50
用于认知-偶然不确定性分解的信度概念瓶颈模型

针对概念瓶颈模型(CBM)将认知不确定性与偶然不确定性混为一谈的问题,研究团队提出了CREDENCE框架。该框架将每个概念表示为概率区间,通过不同概念头之间的分歧量化认知不确定性,并训练一个专门的模糊性输出来估计偶然不确定性。实验证明,认知不确定性正相关于模型预测错误,而偶然不确定性则紧密跟踪标注者间的真实分歧。基于此分解,该方法能支持明确的决策:自动化处理低不确定性案例,优先收集高认知不确定性数据以改进模型,将高偶然不确定性案例转交人工审核,并在两者皆高时主动弃权。代码已开源。

安全/对齐推理论文/研究
02:10
宝玉@dotey
68
多校联合综述提出统一框架,厘清"世界模型"概念割裂问题

针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。

具身智能现象/趋势论文/研究
4月28日
21:09
The Decoder:AI News(RSS)
58
Researchers find AI text is making the internet more uniform and weirdly cheerful

一项基于互联网档案馆网站的大规模分析显示,AI生成的文本已大量充斥网络。研究发现,AI文本的实际影响与公众预期不同,它正使网络内容变得更加同质化,并呈现出一种异常的欢快基调。Cloudflare的分析指出,Bytespider、Amazonbot和ClaudeBot已成为网络上最活跃的AI爬虫之一,但许多公司会隐藏其AI爬虫活动。

现象/趋势论文/研究
20:36
HuggingFace Daily Papers(社区热门论文)
48
医学基础模型嵌入中量子核相对于经典崩溃的优势

本研究在无噪声模拟中,使用量子支持向量机(QSVM)对MIMIC-CXR胸部X光片进行二元保险分类,基于MedSigLIP-448、RAD-DINO和ViT-patch32等医学基础模型的冻结嵌入。通过两层公平比较框架,第一层未调优QSVM与未调优线性SVM对比,QSVM在所有18个测试配置中赢得少数类F1分数(17个p<0.001),在q=11时平均F1达0.343,经典核仅0.050。第二层未调优QSVM与C-调优RBF SVM对比,QSVM赢得所有七个配置。特征谱分析显示量子核有效秩在q=11达69.80,远超线性核,全量子比特扫描揭示架构依赖浓度起始。代码已开源。

端侧论文/研究
20:36
Rohan Paul@rohanpaul_ai
57
AI海马体:距离人类记忆还有多远?

现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。

智能体检索增强论文/研究
20:06
Rohan Paul@rohanpaul_ai
54
AI智能体的核心失败点:非单次工具调用,而是长时间多工具协调

本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。

智能体MCP/工具论文/研究
19:36
HuggingFace Daily Papers(社区热门论文)
58
循环语言模型的等效深度缩放定律:一次循环价值几何?

本研究通过116次预训练实验,量化了循环语言模型中每次额外循环在验证损失上等效的独特参数量。实验拟合出联合缩放定律,得到循环等价指数φ=0.46。该值介于完全等效(φ=1)与无容量增益(φ=0)之间,表明每次循环都能在固定训练计算成本下可预测地提升性能。例如,一个4次循环的4.1亿参数模型,性能相当于5.8亿参数的非循环模型,但训练成本却与10亿参数的相当。研究进一步通过截断反向传播(φ降至0.38)和超连接(φ升至0.65)两个探测实验,展示了φ作为衡量工具的价值,能有效区分真正的架构改进与单纯的计算增益。

数据/训练端侧论文/研究
19:07
Qwen:Blog Retrieval(API)
精选59
FlashQLA: 面向GDN的CP-/Bwd友好型融合线性注意力内核

FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好,旨在提升训练效率。该技术通过优化内核融合策略,改进了注意力机制的计算性能,是提升大规模模型训练速度的关键底层优化。

数据/训练论文/研究部署/工程

推荐理由:Qwen 团队发了一篇 fused linear attention 内核的工程论文,目标是把 GDN 架构的推理和反向传播都跑快。做底层优化的工程师值得看一眼,普通开发者可以略过。
16:36
HuggingFace Daily Papers(社区热门论文)
55
利用感知中心的过程奖励模型改进视觉语言模型

针对视觉语言模型在强化学习训练中面临的监督信号粗粒度问题,本研究提出了Perceval过程奖励模型。该模型能够从模型回应中提取图像相关声明,并与视觉证据进行逐项比对,从而精确定位感知错误的片段。在训练阶段,Perceval被整合进强化学习框架,通过对幻觉片段施加标记级惩罚,提供细粒度的监督信号。在推理阶段,该模型可截断错误回应并引导模型重新生成或反思,实现测试时扩展。实验表明,该方法在多领域基准测试中显著提升了经过RL训练的VLM性能,且其测试时扩展策略也优于多数投票等方法。代码与数据已公开。

多模态数据/训练论文/研究
15:33
IT之家(RSS)
52
AI 算法可消除大气畸变,地面望远镜图像清晰度堪比太空拍摄

加州大学圣克鲁兹分校研究团队开发出一款名为Neo的人工智能算法,可有效消除地面望远镜因大气湍流导致的图像畸变。该算法基于条件生成对抗网络,通过训练使地面观测图像的清晰度提升至太空望远镜水准,天体形态参数测量准确度提高2至10倍。目前该技术已应用于智利薇拉・C・鲁宾天文台,该台配备8.4米口径反射镜,造价约8亿美元。此前类似AI算法已将詹姆斯・韦布空间望远镜的数据分析时间从数年缩短至数日,助力多项天文发现。

图像生成论文/研究部署/工程
12:34
HuggingFace Daily Papers(社区热门论文)
54
奖励科学过程:面向智能体数据分析的过程级奖励建模

针对现有过程奖励模型在动态数据分析任务中的不足,研究团队开发了DataPRM。该模型能作为主动验证器与环境交互,探测中间状态以发现静默错误,并采用反思感知的三元奖励策略区分可纠正与不可恢复的错误。通过多样性轨迹生成和知识增强的步骤级标注,构建了超过8000个高质量训练实例。实验表明,仅40亿参数的DataPRM在使用Best-of-N推理时,能显著提升下游大模型在多个基准上的性能,并展现出稳健的泛化能力。将其集成到强化学习中,也显著优于结果奖励基线。

智能体数据/训练论文/研究
12:34
HuggingFace Daily Papers(社区热门论文)
60
World-R1:通过强化学习为文本到视频生成强化3D约束

针对现有视频基础模型常出现几何不一致的问题,研究团队提出World-R1框架。该框架无需修改底层模型架构,而是通过强化学习,利用预训练的3D基础模型和视觉语言模型的反馈进行优化,从而将视频生成与3D约束对齐。团队构建了专用的世界模拟纯文本数据集,并采用周期性解耦训练策略来平衡几何一致性与场景动态流畅性。评估表明,该方法在保持基础模型原有视觉质量的同时,显著提升了3D一致性,有效弥合了视频生成与可扩展世界模拟之间的差距。

数据/训练视频论文/研究
12:34
HuggingFace Daily Papers(社区热门论文)
56
通过步骤级优势选择稳定高效推理

研究指出,在短上下文窗口下对大型语言模型进行标准GRPO后训练,虽能压缩推理步骤,但会导致训练不稳定和精度下降。为此,团队提出步骤级优势选择方法,该方法在推理步骤层面进行操作,对正确轨迹中的低置信度步骤和验证失败轨迹中的高置信度步骤分配零优势值,从而有效过滤因截断或验证器问题导致的不可靠步骤。在多项数学与通用推理基准测试中,该方法将平均Pass@1准确率提升了0.86个百分点,同时将平均推理长度降低了16.3%,实现了更优的精度与效率平衡。

推理数据/训练论文/研究
12:34
HuggingFace Daily Papers(社区热门论文)
65
Tuna-2:基于像素嵌入的统一跨模态模型在理解与生成任务上超越视觉编码器

Tuna-2是一种原生统一的跨模态模型,它摒弃了传统的VAE等模块化视觉编码器,直接通过简单的图像块嵌入层处理像素,统一执行视觉理解与生成任务。实验表明,该模型在多项跨模态基准测试中取得了最先进的性能,证明其像素空间建模在高质量图像生成上可与潜在空间方法竞争。尽管基于编码器的变体在预训练早期收敛更快,但Tuna-2的无编码器设计在大规模训练后实现了更强的跨模态理解能力,尤其在细粒度视觉感知任务上表现突出。这表明预训练视觉编码器对跨模态建模并非必需,端到端的像素学习为视觉任务提供了可扩展的新路径。

图像生成多模态论文/研究
12:34
HuggingFace Daily Papers(社区热门论文)
62
Zero-to-CAD:无需真实数据,以智能体方式百万级合成可解释的CAD程序

研究团队提出了Zero-to-CAD框架,用于大规模合成可执行的CAD构造序列。该方法将大型语言模型嵌入一个反馈驱动的CAD环境中,通过智能体搜索的方式迭代生成、执行和验证代码,以提升几何有效性和操作多样性。该框架成功合成了约一百万个可执行、可读且可编辑的CAD序列,其操作词汇远超基础的草图拉伸流程。团队同时发布了一个包含10万个高质量模型的精选子集。基于此合成数据微调的视觉语言模型,能够从多视角图像重建可编辑的CAD程序,其性能超越了包括GPT-5.2在内的强基线,实现了无需真实构造历史数据即可引导序列生成能力。Zero-to-CAD弥合了几何规模与参数化可解释性之间的鸿沟。

智能体具身智能论文/研究
12:34
HuggingFace Daily Papers(社区热门论文)
57
ReVSI:重建视觉空间智能评估以准确评估VLM的3D推理能力

现有视觉语言模型(VLM)的空间智能评估存在系统性缺陷:基于点云标注的问答对在视频评估中因重建误差和标注伪影导致答案错误或模糊,且评估常假设全场景访问,而实际模型仅处理稀疏采样帧。为提升评估有效性,我们提出ReVSI基准,通过重新标注5个数据集的381个场景并严格生成可信问答对,确保问题在模型实际输入下可答且答案正确。该基准提供多种帧预算变体及细粒度物体可见性元数据,支持可控诊断分析。在ReVSI上的评估揭示了以往基准掩盖的系统性故障模式,实现了更可靠、更具诊断性的空间智能评估。

多模态论文/研究评测/基准
12:34
HuggingFace Daily Papers(社区热门论文)
43
OmniShotCut:基于镜头查询Transformer的整体关系式镜头边界检测

针对现有镜头边界检测方法存在边界不可解释、遗漏细微间断、依赖噪声标注与过时基准等问题,本研究提出OmniShotCut方法。该方法将镜头边界检测构建为结构化关系预测任务,通过基于镜头查询的密集视频Transformer,联合估计镜头范围及其内外关系。为规避人工标注不精确,采用全合成过渡合成流程自动生成带精确边界及参数化变体的主要过渡类型。同时,发布了支持整体与诊断评估的现代宽领域基准OmniShotCutBench。

多模态视频论文/研究
11:16
IT之家(RSS)
精选73
阿里达摩院 AI 全球首次实现肠癌"无感"检测,登上国际肿瘤学顶刊

阿里巴巴达摩院联合广东省人民医院等机构,研发出肠癌筛查AI模型DAMO COCA。该模型基于平扫CT影像,采用两阶段深度学习架构,在国际上首次实现了无需肠道准备、患者“无感”的肠癌机会性筛查。在回顾2.7万人影像的试验中,模型精准识别出5例漏诊肠癌,敏感性达86.6%,特异性高达99.8%。与10名影像科医生相比,其敏感性显著高出20.4%,并能辅助医生将敏感性提升14.5%。相关成果已发表于顶级期刊《肿瘤学年鉴》。

多模态论文/研究部署/工程

推荐理由:达摩院把平扫CT+AI的癌症筛查路线从胰腺、胃一路跑到了肠癌,登上了影响因子65的《肿瘤学年鉴》,这是AI医疗落地最扎实的信号之一,做医疗AI的值得认真看技术细节。
09:55
meng shao@shao__meng
精选75
VLAA-GUI: 让 GUI 智能体学会"停下、恢复、搜索"

研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。

智能体开源/仓库论文/研究

推荐理由:GUI 智能体 86% 的失败不是模型不行,是系统设计缺位。这篇论文用三个轻量模块把多个模型推过人类水平,做 computer-use agent 的团队该认真看看这套 STOP/RECOVER/SEARCH 架构。
08:28
Hugging Face:Blog(RSS)
精选60
Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型,专门用于自适应超声成像。该模型能够直接处理原始超声射频数据,实时生成高质量的诊断图像。它通过结合物理定律与深度学习,显著提升了图像分辨率和对比度,同时将传统处理流程中的多个步骤整合为单一前向传播,大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。

具身智能论文/研究部署/工程

推荐理由:NVIDIA 把物理先验塞进超声成像管线,从原始射频数据直接出诊断结果,跳过传统重建步骤。做医疗 AI 的值得拆一下这个端到端思路,但离通用场景太远。
08:00
HuggingFace Daily Papers(社区热门论文)
57
模型应以多快速度遵从监督?基于Tsallis损失连续体训练推理模型

研究提出基于Tsallis q-对数的损失函数族J_Q,用于在仅有输出级监督的后训练中调整推理模型。该族在利用极(q=0,对应RLVR)和密度估计极(q=1)间连续插值,所有成员共享相同梯度方向,仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题:利用极逃离需Ω(1/p_0)时间,而密度估计极仅需Θ(log(1/p_0)),中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器:梯度放大强化学习(GARL)与后验衰减微调(PAFT)。在多个数据集上,q=0.75的GARL显著缓解了冷启动停滞,在GRPO完全失败时成功逃离;在热启动中,低q的GARL在FinQA上表现主导,而PAFT在q=0.75时为其他数据集提供了稳定梯度,在HotPotQA上达到最佳结果47.9 maj@16。

arXiv推理数据/训练论文/研究
08:00
Apple Machine Learning Research(RSS)
精选64
LaDiR:潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由:Apple 把扩散模型塞进 LLM 推理链,思路很野,用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看,但离工程落地还远。
08:00
Apple Machine Learning Research(RSS)
50
StereoFoley: 从视频生成具有对象感知能力的立体声音频

StereoFoley是一个视频到音频的生成框架,能生成48kHz、语义对齐、时间同步且空间准确的立体声。现有视频生成音频模型大多局限于单声道或无法实现对象感知的立体声成像,主要受限于缺乏专业混音、空间准确的视频-音频数据集。该研究首先开发了一个从视频生成立体声的基础模型,在语义准确性上达到了与当前最先进V2A模型相当的性能。

多模态论文/研究
08:00
Apple Machine Learning Research(RSS)
54
条件扩散模型中组合泛化的局部机制

条件扩散模型展现出组合泛化能力,能生成超出训练分布的条件组合样本,但其机制尚不明确。研究聚焦于长度泛化,即生成比训练所见更多数量物体的图像。在受控的CLEVR场景中发现,模型仅在某些情况下能实现长度泛化,表明其并非总能掌握底层组合结构。通过分析扩散过程的局部动态,研究揭示了泛化成功与失败案例中条件交互模式的系统性差异,为理解生成式模型的组合推理边界提供了新视角。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
真实资本下链上语言模型代理的操作层控制研究

本研究通过一项为期21天的真实资本链上交易实验,探讨了自主语言模型代理的可靠性。在受控市场中,3,505个用户注资的代理交易真实ETH,产生了750万次调用、约30万次链上操作及2000万美元交易量,提交交易的结算成功率达99.9%。研究发现,可靠性不仅依赖于基础模型,更源于操作层设计,包括提示编译、策略验证与执行防护等。上线前测试揭示了纯文本基准难以评估的故障模式,如伪造交易规则和手续费瘫痪,通过针对性框架调整,相关故障率显著下降,受影响测试群体的资本部署率从42.9%提升至78.0%。研究表明,管理真实资本的代理需在从用户指令到结算的完整路径上进行评估。

智能体论文/研究部署/工程