AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 1900 条
全部一手资讯X论文
5月14日周四
04:44HuggingFace Daily Papers(社区热门论文)42EgoForce:基于前臂引导的单目头戴相机三维手部姿态重建04:42Berkeley RDI:Blog(AI 安全与评测)79精选ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?02:44HuggingFace Daily Papers(社区热门论文)73精选解决循环:语言和推理的吸引子模型01:44HuggingFace Daily Papers(社区热门论文)66快与慢的学习:面向持续适应的大语言模型
5月13日周三
23:44HuggingFace Daily Papers(社区热门论文)63ORBIT:通过原点调控的权重合并,在生成式检索中保留大语言模型的基础能力23:44HuggingFace Daily Papers(社区热门论文)60Agent-BRACE:通过语言化状态不确定性在长程任务中解耦信念与行动21:44HuggingFace Daily Papers(社区热门论文)53UniPath:面向统一多模态推理的理解与生成自适应协调框架20:39IT之家(RSS)55我国科研人员探索脑机接口神经探针技术,为慢性疼痛治疗提供新路径18:44HuggingFace Daily Papers(社区热门论文)64Multi-Stream LLMs:通过并行思维、输入与输出流解锁语言模型17:44HuggingFace Daily Papers(社区热门论文)48用于样本高效连续控制的去偏基于模型表示17:44HuggingFace Daily Papers(社区热门论文)54Pion:一种基于正交等价变换的谱保持优化器17:43The Decoder:AI News(RSS)43From Prompt to Pointer Engineering: Deepmind 尝试为 AI 时代重塑鼠标光标16:44HuggingFace Daily Papers(社区热门论文)67因果语言建模迂回策略提升编码器领域适应效果16:44HuggingFace Daily Papers(社区热门论文)60WildRelight:面向单图像重光照的真实世界基准与物理引导自适应方法15:44HuggingFace Daily Papers(社区热门论文)59异步智能体强化学习中旧Logits缺失:离策略修正的语义不匹配与修复方法15:44HuggingFace Daily Papers(社区热门论文)62One Turn Too Late: 针对多轮对话中隐藏恶意意图的响应感知防御14:44HuggingFace Daily Papers(社区热门论文)64FATE:基于失败轨迹的智能体安全对齐在线自我进化框架13:44HuggingFace Daily Papers(社区热门论文)68L2P:解锁潜在扩散模型在像素生成中的潜力13:44HuggingFace Daily Papers(社区热门论文)52世界动作模型:具身AI的新前沿12:44HuggingFace Daily Papers(社区热门论文)62AlphaGRPO:通过可分解可验证奖励解锁统一多模态模型的自反思生成能力12:44HuggingFace Daily Papers(社区热门论文)64ToolCUA:面向计算机使用代理的最优GUI-工具路径编排12:44HuggingFace Daily Papers(社区热门论文)56Lite3R:一种用于高效前馈式3D重建的模型无关框架12:44HuggingFace Daily Papers(社区热门论文)69MEME:多实体与演化记忆评估基准11:44HuggingFace Daily Papers(社区热门论文)57LongMemEval-V2:评估智能体面向环境经验的长期记忆能力11:44HuggingFace Daily Papers(社区热门论文)61VidSplat: 利用几何引导视频扩散先验进行高斯泼溅重建11:44HuggingFace Daily Papers(社区热门论文)61Transformer中的几何事实记忆机制10:44HuggingFace Daily Papers(社区热门论文)50MoCam: 通过结构化去噪动态实现统一的新视角合成10:44HuggingFace Daily Papers(社区热门论文)63AutoLLMResearch:训练智能体以自动化大语言模型实验配置--从低成本学习,优化高成本实验10:44HuggingFace Daily Papers(社区热门论文)61LychSim:面向视觉研究的可控交互式仿真框架10:44HuggingFace Daily Papers(社区热门论文)66CausalCine:用于多镜头视频叙事的实时自回归生成框架10:44HuggingFace Daily Papers(社区热门论文)67δ-mem:面向大语言模型的高效在线记忆机制10:44HuggingFace Daily Papers(社区热门论文)68超越GRPO与策略蒸馏:语言模型后训练中稀疏到稠密奖励的实证原则10:44HuggingFace Daily Papers(社区热门论文)64图像即语句:用于统一视觉生成的交错指令扩展模型10:44HuggingFace Daily Papers(社区热门论文)66超越最后一层:用于视觉分词的多层表征融合10:44HuggingFace Daily Papers(社区热门论文)68从网络到像素:将智能搜索引入视觉感知10:44HuggingFace Daily Papers(社区热门论文)65基于评分标准的强化学习中的奖励黑客问题研究10:44HuggingFace Daily Papers(社区热门论文)67SenseNova-U1:基于NEO-unify架构统一多模态理解与生成10:44HuggingFace Daily Papers(社区热门论文)56企业系统是否需要学习型世界模型?上下文对推断动态的重要性08:00HuggingFace Daily Papers(社区热门论文)37LoREnc:用于保护基础模型和LoRA适配器的低秩加密08:00HuggingFace Daily Papers(社区热门论文)61KVServe:面向服务的KV缓存压缩实现高效通信的分布式LLM服务
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月14日
04:44
HuggingFace Daily Papers(社区热门论文)
42
EgoForce:基于前臂引导的单目头戴相机三维手部姿态重建

本文提出EgoForce框架,通过单个头戴式摄像头从用户视角重建手部的绝对三维姿态与形状。该框架解决了单目RGB方法的深度尺度模糊问题,并能泛化应用于鱼眼、透视等多种摄像头模型。其核心创新在于结合了可微分前臂表征以稳定手部姿态、统一的臂-手Transformer模型从单视图预测几何信息,以及一个光线空间闭式求解器来实现跨设备的绝对三维姿态恢复。在三个第一人称基准测试上的实验表明,EgoForce实现了最先进的三维精度,在HOT3D数据集上将相机空间MPJPE误差降低了最高28%,并在不同摄像头配置下保持了一致的性能。

端侧论文/研究
04:42
Berkeley RDI:Blog(AI 安全与评测)
精选79
ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。

智能体AnthropicOpenAI安全/对齐

推荐理由:顶级 AI 模型已能自己把已知软件漏洞变成可运行攻击代码,连 ASLR 等标准防御都挡不住部分攻击,研究更发现模型会主动寻找更危险的意外漏洞。安全行业不能再把这当成假设性问题了。
02:44
HuggingFace Daily Papers(社区热门论文)
精选73
解决循环:语言和推理的吸引子模型

吸引子模型解决了循环Transformer训练不稳定、成本高和深度固定的问题。它通过主干模块生成初始输出嵌入,吸引子模块迭代优化固定点,并利用隐式微分计算梯度,使训练内存与有效深度无关,迭代次数自适应收敛。在语言建模中,相比标准Transformer,困惑度最高降低46.6%,下游任务准确率最高提升19.7%,训练成本更低;一个770M参数的模型性能优于1.3B参数Transformer。在推理任务中,仅2700万参数模型在约1000个示例下,于Sudoku-Extreme和Maze-Hard上准确率分别达91.4%和93.1%,优于Claude、GPT o3等前沿模型。模型还展现出均衡内化现象,训练后初始输出嵌入接近均衡态,推理时可移除求解器而性能几乎无损,实现了迭代优化的可扩展性。

推理数据/训练论文/研究

推荐理由:这可能是要改写语言模型训练范式的架构,把迭代推理变成可学习的固定点,770M 性能超 1.3B Transformer,27M 小模型解数独秒杀 Claude、GPT o3。最反直觉的是,训练后模型能内化迭代过程,推理时直接一步到位。
01:44
HuggingFace Daily Papers(社区热门论文)
66
快与慢的学习:面向持续适应的大语言模型

研究团队提出一种面向大语言模型的快慢学习框架,将模型参数视为“慢”权重,优化的上下文视为“快”权重。该框架结合了参数更新与上下文学习的优势:快权重通过文本反馈快速吸收任务特定信息,而慢权重则保持接近基础模型以维护通用推理能力。在推理任务中,该方法比仅使用慢学习(如强化学习)的样本效率高出3倍,且达到更高性能上限。同时,训练后的模型更接近基础模型(KL散度降低达70%),显著缓解了灾难性遗忘,并保持了模型的可塑性,使其在持续学习场景中能更有效地适应后续新任务。

推理数据/训练论文/研究
5月13日
23:44
HuggingFace Daily Papers(社区热门论文)
63
ORBIT:通过原点调控的权重合并,在生成式检索中保留大语言模型的基础能力

研究指出,为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘,且遗忘程度与微调后和原始模型参数的偏离距离相关。为此,研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离,一旦超过预设阈值,便采用权重平均策略来约束模型在微调过程中的漂移。实验表明,ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法,有效缓解了基础能力的遗忘问题。

arXiv检索增强数据/训练论文/研究
23:44
HuggingFace Daily Papers(社区热门论文)
60
Agent-BRACE:通过语言化状态不确定性在长程任务中解耦信念与行动

针对部分可观测长程任务中LLM智能体面临的历史信息膨胀与状态不确定性问题,研究提出了Agent-BRACE方法。该方法将智能体解耦为信念状态模型与策略模型,通过强化学习联合优化。信念模型以带有序语言化确定性标签(从“确定”到“未知”)的原子化自然语言声明集合,结构化近似表示环境状态的后验分布;策略模型则基于这一紧凑的信念表示而非完整历史进行决策。在部分可观测的具身语言环境中,该方法使Qwen2.5-3B-Instruct和Qwen3-4B-Instruct模型分别实现平均绝对性能提升14.5%与5.3%,且上下文窗口长度几乎不随任务步数增长。分析表明,随着证据积累,学习得到的信念在任务过程中校准度逐渐提升。

智能体arXiv论文/研究
21:44
HuggingFace Daily Papers(社区热门论文)
53
UniPath:面向统一多模态推理的理解与生成自适应协调框架

针对统一多模态模型中理解与生成能力的协调问题,研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”,即针对不同输入动态选择最优推理路径,而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器,并引入轻量级规划器实现输入依赖的路径选择。实验表明,该方法在性能上超越了固定协调策略,同时提供了可解释的中间行为。代码已开源。

多模态推理论文/研究
20:39
IT之家(RSS)
55
我国科研人员探索脑机接口神经探针技术,为慢性疼痛治疗提供新路径

中国科学院长春应用化学研究所张强团队开发出一款植入式水凝胶神经探针,为慢性疼痛治疗提供了新路径。该成果于5月13日发表于《先进材料》期刊。探针采用α螺旋多肽交联剂的超分子水凝胶材料,在模量匹配性、电导率和透光性之间取得平衡,能更好适配脑组织。动物实验显示,植入大脑前边缘皮层的探针可实现长达1年的稳定神经信号记录,并在慢性疼痛模型中有效增强相关脑区活动、提高疼痛阈值、缓解疼痛症状。

具身智能论文/研究
18:44
HuggingFace Daily Papers(社区热门论文)
64
Multi-Stream LLMs:通过并行思维、输入与输出流解锁语言模型

研究提出将语言模型从单一顺序消息处理转向多并行计算流架构。模型在每个前向传播中同时从多个输入流读取,并向多个输出流生成令牌,所有流均因果依赖于先前时间步。这一数据驱动的变革解决了现有智能体无法在阅读时行动、在行动时响应新信息等阻塞问题,同时通过并行化提升了模型效率,通过更好的关注点分离增强了安全性,并改善了模型的可监控性。

智能体推理论文/研究
17:44
HuggingFace Daily Papers(社区热门论文)
48
用于样本高效连续控制的去偏基于模型表示

DR.Q 算法被提出,以解决基于模型表示方法在连续控制中因信息捕获不足和过拟合早期经验而导致的偏差问题。该算法显式最大化当前状态-动作对与下一状态表示之间的互信息,并最小化偏差,同时结合衰减优先经验回放进行过渡采样。在多个连续控制基准测试中,使用单一超参数集进行评估,DR.Q 的表现匹配或超越了近期强基线,有时性能大幅领先。代码已开源。

具身智能论文/研究
17:44
HuggingFace Daily Papers(社区热门论文)
54
Pion:一种基于正交等价变换的谱保持优化器

研究团队推出用于大语言模型训练的优化器Pion,其基于正交等价变换实现谱保持特性。与Adam、Muon等加法型优化器不同,Pion通过左右正交变换更新权重矩阵,使奇异值在整个训练过程中保持不变。该机制能在固定谱范数的前提下调节权重矩阵的几何结构。实验表明,Pion在LLM预训练和微调任务中均能提供稳定且具有竞争力的性能,为传统优化器提供了新替代方案。

arXiv数据/训练论文/研究
17:43
The Decoder:AI News(RSS)
43
From Prompt to Pointer Engineering: Deepmind 尝试为 AI 时代重塑鼠标光标

Deepmind 提出“指针工程”概念,旨在将鼠标光标转变为上下文工程中的关键变量。这一设想试图超越传统的提示词工程,通过光标在界面上的物理位置和移动轨迹来影响和引导 AI 模型的行为与输出。其目标是为人机交互开辟新范式,使光标成为与 AI 系统进行精细、动态交互的核心工具。

DeepMind论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
67
因果语言建模迂回策略提升编码器领域适应效果

研究提出,在编码器适应新领域时,先短暂切换至因果语言建模(CLM),再进行掩码语言建模(MLM)衰减训练,可有效提升下游任务性能。在生物医学文本上使用ModernBERT的实验表明,该策略在相同数据和算力下,于多项法语和英语生物医学任务中均稳定优于纯MLM基线。分析发现,CLM的密集监督主要影响Transformer低层,其带来的表征变化在后续MLM阶段得以持续并随模型容量扩展。基于此方法发布的ModernCamemBERT-bio与ModernBERT-bio模型,成为当前先进的生物医学编码器。

数据/训练论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
60
WildRelight:面向单图像重光照的真实世界基准与物理引导自适应方法

本文介绍了首个专为单图像重光照评估设计的真实世界数据集WildRelight,包含多样化高分辨率户外场景,在严格对齐的时序自然光照下采集并配有环境贴图。基准测试揭示了当前基于合成数据训练的先进模型存在严重域偏移。利用该数据集严格对齐的时间结构,研究提出一种物理引导推理框架,将捕获的自然光演变作为自监督约束,通过结合扩散后验采样与时序感知的测试时自适应,成功将棘手的模拟到真实挑战转化为可处理的自监督任务。数据集与代码将公开以推动鲁棒且基于物理的重光照研究。

arXiv图像生成数据/训练论文/研究
15:44
HuggingFace Daily Papers(社区热门论文)
59
异步智能体强化学习中旧Logits缺失:离策略修正的语义不匹配与修复方法

异步强化学习提升语言模型智能体数据吞吐,但引发PPO离策略修正失效。重要性比率本应分解为训练-推理差异项和策略陈旧性项,但异步流水线常丢失旧Logits,导致修正语义混淆与阈值不良交互。研究提出精确修正方法,如快照版本追踪、专用模型和同步中断,并探讨近似修正路径。采用改进的PPO-EWMA方法,在训练速度和优化性能上均取得显著提升。

智能体arXiv论文/研究
15:44
HuggingFace Daily Papers(社区热门论文)
62
One Turn Too Late: 针对多轮对话中隐藏恶意意图的响应感知防御

针对多轮对话中隐藏的恶意意图威胁,研究提出了一种新的防御方法,旨在检测并干预最早可能促成有害行为的关键对话轮次。该方法通过构建包含分支攻击推演、良性困难负例及最早危害促成轮次标注的多轮意图数据集(MTID)进行训练与评估。基于此训练的轮级监控器TurnGate在恶意意图检测上显著优于现有基线,同时保持较低的误拒率,并能跨领域、攻击流程和目标模型实现泛化。相关代码已开源。

安全/对齐论文/研究
14:44
HuggingFace Daily Papers(社区热门论文)
64
FATE:基于失败轨迹的智能体安全对齐在线自我进化框架

工具调用型LLM智能体的失败体现在整个轨迹中,而非仅最终响应。现有安全对齐方法常导致安全与效用权衡。研究提出FATE框架,通过在线策略自我进化,将验证器评分的失败轨迹转化为修复监督信号,无需专家示范。该方法引入帕累托前沿策略优化(PFPO),结合监督预热与帕累托优化以平衡安全与效用。在AgentDojo、AgentHarm和ATBench上的实验表明,FATE能显著提升多模型、多规模下的安全性,同时维持任务效用。具体而言,攻击成功率降低33.5%,有害指令遵从减少82.6%,外部轨迹安全诊断能力提升6.5%。这表明失败轨迹可为智能体安全进化提供有效监督。

智能体安全/对齐数据/训练论文/研究
13:44
HuggingFace Daily Papers(社区热门论文)
68
L2P:解锁潜在扩散模型在像素生成中的潜力

本文提出了一种高效的潜在到像素(L2P)迁移范式,能够直接利用预训练潜在扩散模型(LDM)的知识构建像素空间模型。该方法摒弃了VAE,采用大块标记化技术,并冻结源LDM的中间层,仅训练浅层来学习从潜在到像素的转换。通过仅使用LDM生成的合成图像进行训练,L2P能以极低开销(仅需8个GPU)将海量潜在先验迁移至像素空间。实验表明,该方法在DPG-Bench上与源LDM性能相当,在GenEval上达到其93%的性能,同时消除了VAE的内存瓶颈,实现了原生的4K超高清图像生成。

图像生成论文/研究
13:44
HuggingFace Daily Papers(社区热门论文)
52
世界动作模型:具身AI的新前沿

视觉-语言-动作模型虽在语义泛化上表现良好,但缺乏对物理动态的显式建模。为此,研究界正整合预测环境变化的世界模型,形成“世界动作模型”新范式。WAMs将状态预测与动作生成相统一,以未来状态与动作的联合分布为目标。现有方法可分为级联式与联合式两大类,其发展依托于机器人遥操作、人类演示、仿真及互联网规模第一人称视频等多元数据。评估聚焦于视觉保真度、物理常识与动作合理性。当前领域面临架构与目标碎片化的挑战,亟需建立统一框架。

具身智能论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
62
AlphaGRPO:通过可分解可验证奖励解锁统一多模态模型的自反思生成能力

本文提出AlphaGRPO框架,将分组相对策略优化应用于AR-Diffusion统一多模态模型,无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理(如推断用户隐含意图)和自反思优化(自主诊断并修正生成错位)的内在潜力。针对实际监督难题,团队设计了可分解可验证奖励机制,利用大语言模型将复杂请求分解为原子化、可验证的子问题,再通过通用多模态大模型评估,提供可靠且可解释的反馈。实验表明,AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。

图像生成多模态推理论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
64
ToolCUA:面向计算机使用代理的最优GUI-工具路径编排

针对计算机使用代理在GUI操作与工具调用间切换决策困难的问题,本文提出ToolCUA。该方法采用分阶段训练:首先利用静态GUI轨迹合成基础工具库,生成多样化的GUI-工具交错轨迹;随后通过工具引导的GUI强化微调改进关键切换点决策;最后在高保真环境中进行在线代理强化学习,以鼓励工具高效使用。在OSWorld-MCP基准测试中,ToolCUA达到46.85%的准确率,相对基线提升约66%,证明了GUI-工具协同训练的有效性。

智能体论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
56
Lite3R:一种用于高效前馈式3D重建的模型无关框架

针对基于Transformer的多视图3D重建模型效率低下的问题,本文提出Lite3R框架。该框架采用模型无关的师生架构,以稀疏线性注意力替代密集注意力来降低计算开销,并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏,冻结大部分预训练骨干参数,仅微调轻量线性分支投影层,从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明,Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟(1.7-2.0倍)和内存占用(1.9-2.4倍),同时保持整体重建质量的竞争力。

arXivGitHub多模态论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
69
MEME:多实体与演化记忆评估基准

研究团队推出MEME基准,用于评估大语言模型智能体在多会话持久环境中的记忆能力。该基准定义了涵盖多实体与演化信息两个维度的六项任务,其中级联、缺失和删除推理三项为先前工作未涉及。在100个受控片段上对三种记忆范式的六个系统进行评估发现,所有系统在默认配置下对依赖关系的推理能力均严重不足(级联任务平均准确率3%,缺失任务1%),尽管其静态检索性能尚可。提示优化、深度检索、减少干扰信息乃至使用更强的模型均未能显著缩小差距。仅当基于文件的智能体配合Claude Opus时,差距被部分缩小,但成本约为基线的70倍,表明当前解决方案难以大规模应用。代码与数据已公开。

智能体数据/训练论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
57
LongMemEval-V2:评估智能体面向环境经验的长期记忆能力

研究团队推出长期记忆评估基准LongMemEval-V2,旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题,涵盖五项核心记忆能力,并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R,以及调用编码智能体收集证据的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率取得最佳性能,显著优于基线方法,但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。

智能体arXiv论文/研究评测/基准
11:44
HuggingFace Daily Papers(社区热门论文)
61
VidSplat: 利用几何引导视频扩散先验进行高斯泼溅重建

VidSplat是一个免训练的生成式重建框架,旨在解决高斯泼溅技术在输入视图稀少时性能显著下降的问题。该框架通过利用强大的视频扩散先验,迭代合成能够补偿缺失覆盖范围的新视角,从而从稀疏输入中恢复完整的3D场景。其核心创新包括:提出一种免训练的分阶段去噪策略,利用渲染的RGB和掩码图像自适应地将去噪方向引导至底层几何结构;开发了一种迭代机制,通过采样相机轨迹、探索未观测区域、合成新视图并进行置信度加权的精细化训练来增强重建。VidSplat对稀疏输入甚至单张图像均表现出鲁棒性,在广泛使用的基准测试中展现了卓越的稀疏视图场景重建性能。

多模态数据/训练论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
61
Transformer中的几何事实记忆机制

本文挑战了Transformer通过权重矩阵线性记忆事实的传统观点,提出了一种几何记忆机制。在单层Transformer记忆随机双射的设定中,证明了对数嵌入维度即足够:主体嵌入编码属性向量的线性叠加,而小型MLP充当基于关系的选择器,通过ReLU门控提取相关属性,而非进行键值映射。研究进一步扩展到多跳关系查询,提供了包含与不包含思维链的构造,揭示了可证明的容量与深度权衡,并辅以信息论下界。实证表明,梯度下降能找到预测的结构化解;训练后,当主体嵌入重新初始化时,MLP能零样本迁移到全新双射,说明其学会了通用的选择机制,而非记忆特定事实。

数据/训练论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
50
MoCam: 通过结构化去噪动态实现统一的新视角合成

MoCam 提出了一种基于结构化去噪动态的新视角合成方法,旨在解决几何先验与外观先验在生成过程中的根本矛盾。该方法在扩散过程的早期阶段利用几何先验锚定粗略结构并容忍其不完整性,随后在后期阶段切换至外观先验以主动修正几何错误并细化细节。这种时序解耦设计自然统一了静态与动态视角合成。实验表明,MoCam 在点云存在严重孔洞或畸变时显著优于现有方法,实现了稳健的几何-外观解纠缠。

图像生成多模态论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
63
AutoLLMResearch:训练智能体以自动化大语言模型实验配置--从低成本学习,优化高成本实验

为应对高成本大语言模型实验自动化配置的空白,本文提出智能体框架AutoLLMResearch。其核心是通过一个基于超百万GPU小时实验结果构建的多保真度环境LLMConfig-Gym进行训练,使智能体能够从低成本“低保真”实验中学习通用原则,并外推至昂贵的高保真场景,从而高效识别有潜力的配置方案。评估表明,该框架在多种强基线对比中展现出有效性、泛化性与可解释性,为现实世界中可扩展的LLM实验自动化提供了实用解决方案。

智能体arXiv数据/训练论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
61
LychSim:面向视觉研究的可控交互式仿真框架

LychSim是一个基于Unreal Engine 5构建的可控交互式仿真框架,旨在降低现代仿真平台的高技术门槛。其核心设计包括:一个简化底层引擎复杂性的Python API;一个能生成具有多样化分布外视觉挑战的高保真环境,并提供丰富2D与3D真实标注的程序化数据管线;以及原生集成的模型上下文协议,可将仿真器转变为支持推理型大语言模型的动态闭环测试平台。该框架支持语义对齐的3D标注与自动场景修改,已成功应用于合成数据生成、基于强化学习的对抗性评估及语言驱动的交互式场景布局生成等多个下游任务。LychSim将公开提供完整源代码与多种数据标注。

开源生态数据/训练论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
66
CausalCine:用于多镜头视频叙事的实时自回归生成框架

研究团队提出CausalCine,一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示,并复用历史上下文。其核心是内容感知记忆路由(CAMR)机制,该机制依据注意力相关性动态检索历史关键信息,而非依赖时间邻近性,从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换,再将其蒸馏为少步生成器以实现实时交互。实验表明,CausalCine显著优于自回归基线,并接近双向模型能力,同时解锁了流式交互性。

arXiv多模态视频论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
67
δ-mem:面向大语言模型的高效在线记忆机制

本文提出δ-mem,一种轻量级在线记忆机制,用于增强大语言模型在长期任务中的历史信息利用能力。该方法在冻结的主干网络上,通过一个仅需8×8大小的紧凑关联记忆状态矩阵,以delta规则动态压缩更新过往信息,并在生成时读取该状态以产生低秩校正项来调整注意力计算。实验表明,δ-mem将平均性能提升至冻结主干模型的1.10倍,并达到最强非δ-mem记忆基线的1.15倍,在记忆密集型基准上增益更显著。该方法无需全量微调、替换主干或显式扩展上下文,即实现了有效的记忆功能。

智能体arXiv论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
68
超越GRPO与策略蒸馏:语言模型后训练中稀疏到稠密奖励的实证原则

研究提出一种基于奖励密度的数据分配原则:在标注数据稀缺时,应将稀疏的序列级奖励用于强化上游大模型的探索能力,再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示,在固定部署学生模型为Qwen3-1.7B的情况下,先对8B教师模型进行强化学习改进,再通过稠密蒸馏传递至学生模型,其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略,而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。

推理数据/训练论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
64
图像即语句:用于统一视觉生成的交错指令扩展模型

针对现有方法在处理复杂交错指令时性能下降的问题,研究团队提出了INSET模型。该模型将图像作为原生词汇嵌入文本指令,通过将视觉特征直接定位在对应语义位置,利用Transformer的上下文局部性实现精确对象绑定。团队还开发了可扩展数据引擎,从标准数据集中合成了1500万个高质量交错样本。在InterleaveBench上的评估表明,INSET在多图像一致性和文本对齐上显著优于现有方法,且优势随输入复杂性增加而扩大。此外,该模型能自然扩展到多模态图像编辑领域,实现高度表达性的视觉操控。

图像生成多模态论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
66
超越最后一层:用于视觉分词的多层表征融合

现有视觉分词方法仅利用预训练编码器最后一层特征,丢弃了中间层的丰富信息。本研究提出DRoRAE,通过一个轻量级融合模块,采用能量约束路由与增量校正自适应聚合所有编码器层,生成与冻结解码器兼容的增强潜在表征。在ImageNet-256上,该方法显著提升了重建与生成质量。研究进一步揭示了融合能力与重建质量之间存在对数线性缩放规律,从而将表征丰富度确立为视觉分词器中一个新的、可预测的扩展维度。

图像生成多模态论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
68
从网络到像素:将智能搜索引入视觉感知

本文研究开放世界视觉感知,提出“感知深度研究”挑战,即需先借助外部事实、事件或长尾知识解析可见对象身份,再进行像素级定位。为此,作者发布了WebEye基准,包含120张图像、473个对象实例及三个任务视图,并提出了Pixel-Searcher智能搜索工作流。该工作流通过代理搜索解析目标身份并将其绑定至边界框、掩码或答案。实验表明,Pixel-Searcher在开源模型中性能最优,主要失败源于证据获取、身份解析和视觉实例绑定环节。

多模态搜索论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
65
基于评分标准的强化学习中的奖励黑客问题研究

本研究探讨了基于评分标准的强化学习中的奖励黑客现象。研究通过跨模型评审小组评估发现,奖励黑客源于两种分歧:验证器失效与评分标准设计局限。实验表明,弱验证器会产生无法迁移的代理奖励增益,且利用行为在训练中加剧;更强的验证器能显著减少但无法完全消除此问题。此外,研究引入基于策略对数概率的自内化差距诊断工具,可追踪参考验证器质量。最终结果显示,即便使用强验证器,若评分标准未涵盖关键失败模式,仍会出现奖励黑客,导致在满足部分标准的同时,事实准确性、简洁性等整体质量下降。

安全/对齐数据/训练论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
67
SenseNova-U1:基于NEO-unify架构统一多模态理解与生成

SenseNova-U1基于NEO-unify架构,首次将多模态理解与生成统一为单一原生范式,解决了传统视觉语言模型中两者割裂的问题。模型发布了8B参数稠密基线版本与30B激活参数混合专家基线版本。它们在文本理解、视觉语言感知、知识推理等任务上媲美顶尖纯理解模型,同时在图像合成、图文生成等任务中表现出优秀的语义一致性与视觉保真度。初步证据表明,该架构可进一步扩展至视觉语言动作与世界模型场景,为实现原生跨模态思考与行动提供了技术路径。

多模态论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
56
企业系统是否需要学习型世界模型?上下文对推断动态的重要性

企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。

智能体推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
37
LoREnc:用于保护基础模型和LoRA适配器的低秩加密

当前基础模型与LoRA适配器在端侧AI部署中面临知识产权泄露和模型恢复攻击风险,现有防御需重训或依赖原始数据。LoREnc提出免训练保护框架,通过频谱截断抑制基础模型权重低秩分量,结合补偿机制与正交重参数化隐藏适配器结构指纹。授权用户可无损恢复性能,非授权用户获得结构崩溃输出。实验显示该方法能有效防止模型恢复,计算开销低于1%。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
KVServe:面向服务的KV缓存压缩实现高效通信的分布式LLM服务

在分布式LLM服务中,KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置,无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架,它统一了压缩策略空间,通过贝叶斯分析引擎将离线搜索开销降低50倍,并部署在线控制器动态调整策略。集成至vLLM后,KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速,在KV分离服务中实现最高32.8倍的首token生成时间缩短。

推理论文/研究部署/工程
‹ 上一页
1…3031323334…48
下一页 ›