AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
5月22日周五
00:00Anthropic:Research(发表成果 · 网页)83精选Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力
5月21日周四
22:42Ethan Mollick55AI在科学领域仍难提出有价值的研究问题
17:03Orange AI81AI自主破解80年数学难题,里程碑式突破
15:57Greg Brockman78AI科学发现新范式,数学难题突破现里程碑
15:26Rohan Paul78AI通用推理突破80年数学猜想
15:26Rohan Paul67小模型大智慧:随机推理实现性能超越
14:58IT之家(RSS)79AI 推翻著名几何猜想,OpenAI 宣布攻克 80 年数学难题
14:10HuggingFace Daily Papers(社区热门论文)69OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存
14:10HuggingFace Daily Papers(社区热门论文)69只需最少RLVR训练:通过秩-1轨迹外推大语言模型
13:10HuggingFace Daily Papers(社区热门论文)63IndusAgent:用智能工具强化开放词汇工业异常检测
12:44Chubby♨️84OpenAI突破性解决平面单位距离问题
12:10HuggingFace Daily Papers(社区热门论文)67高效预训练新范式:HRM-Text模型
12:10HuggingFace Daily Papers(社区热门论文)62iTryOn:基于空语义引导的交互式视频虚拟试穿技术
12:10HuggingFace Daily Papers(社区热门论文)62DPO与RLHF等价性的条件性:隐含假设、失效模式与可证明对齐
12:10HuggingFace Daily Papers(社区热门论文)61OcclusionFormer:为基于布局的图像生成安排Z轴顺序
11:09HuggingFace Daily Papers(社区热门论文)64评估智能体计划执行流水线中的时间语义缓存与工作流优化
11:09HuggingFace Daily Papers(社区热门论文)63Uni-Edit:智能编辑作为统一模型微调的通用任务
11:09HuggingFace Daily Papers(社区热门论文)65Mem-π:通过学习何时与生成何物实现的自适应记忆
11:09HuggingFace Daily Papers(社区热门论文)75精选SpecBench:测量长期编码代理中的奖励黑客行为
11:09HuggingFace Daily Papers(社区热门论文)64PlanningBench:一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架
11:09HuggingFace Daily Papers(社区热门论文)61DrawMotion:通过手绘生成3D人体动作
11:03AYi76OpenAI模型突破性自主解决80年数学悬案
10:58IT之家(RSS)63瞄准 AI 数据中心功耗难题,新供电芯片让 48 伏转 4.8 伏效率达 96.2%
10:09HuggingFace Daily Papers(社区热门论文)55UniT:基于群自回归Transformer的统一几何学习
10:09HuggingFace Daily Papers(社区热门论文)58生成式递归推理
10:09HuggingFace Daily Papers(社区热门论文)62论文评审中人工智能审稿人的局限与机遇:基于45位专家对《自然》系列论文的评审分析
08:00HuggingFace Daily Papers(社区热门论文)51EMMA:从多模态数据中提取多个物理参数
08:00HuggingFace Daily Papers(社区热门论文)46重访均匀扩散模型:留一去噪器与吸收态重构
08:00HuggingFace Daily Papers(社区热门论文)47部分可观察环境下基于统一风险图的自动驾驶风险感知
08:00HuggingFace Daily Papers(社区热门论文)57智能体CLEAR:LLM智能体多层级评估自动化
08:00HuggingFace Daily Papers(社区热门论文)51理解数据时间性对大语言模型预训练的影响
08:00HuggingFace Daily Papers(社区热门论文)55MotiMotion:基于视觉推理的运动控制视频生成
08:00HuggingFace Daily Papers(社区热门论文)39表征优于路由:克服多时间尺度PPO中的替代目标劫持
08:00HuggingFace Daily Papers(社区热门论文)51ThriftAttention:用于长上下文FP4注意力的选择性混合精度
08:00HuggingFace Daily Papers(社区热门论文)55面向自回归MRI重建的"下一加速尺度预测"
08:00HuggingFace Daily Papers(社区热门论文)61虚假的推理:通过零思维链截断揭露大语言模型中的规避型数据污染
08:00HuggingFace Daily Papers(社区热门论文)49感知的代价:在整体框架内实现可信的多模态推理
08:00HuggingFace Daily Papers(社区热门论文)60VGenST-Bench:一个基于主动视频合成的时空推理基准
06:44智谱:研究(网页内嵌数据)69精选ZCube:超大规模大模型推理的网络优化
06:08HuggingFace Daily Papers(社区热门论文)69基础模型在AI检测器下更"像人"
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
00:00
Anthropic:Research(发表成果 · 网页)
精选83
Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作,测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准(41 个已修复漏洞)上,Mythos Preview 是唯一能可靠突破 V8 沙箱(从 T3 到 T2)的模型,并在超过一半的环境中实现突破;在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行(ACE),而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持(T1)。该模型通过 Project Glasswing 谨慎发布,尚未开放通用访问。

Anthropic安全/对齐论文/研究评测/基准
关联讨论 3 条Berkeley RDI:Blog(AI 安全与评测)The Decoder:AI News(RSS)Anthropic:Research(发表成果 · 网页)
推荐理由:Mythos Preview 在三大漏洞基准上碾压式领先,第一次展示了前沿模型能端到端开发漏洞,安全基线从此改写,做安全的该认真读。
5月21日
22:42
Ethan Mollick@emollick
55
在科学领域,AI在寻找值得解决的有趣问题方面仍然表现不佳,尤其是在那些没有已知问题清单的领域。 这一直是博士培养中最难教授的能力:否则你只能找到小问题,或是那些无法推动领域发展、无法泛化的问题等。
大佬观点论文/研究
17:03
Orange AI@oran_ge
81
AI自主破解80年数学难题,里程碑式突破

OpenAI未公开的内部通用推理模型,自主解决了数学家Erdős于1946年提出的平面单位距离问题,颠覆了近80年来学界对解法结构的普遍预期。该模型通过125页思维链,创新运用代数数论工具解决离散几何问题,实现了跨领域方法论突破。更值得注意的是,该模型并非专攻数学训练,其成果表明通用推理能力达到一定阈值后可能自然催生创造性,标志着AI在基础科学领域迈出了关键一步。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 10 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
15:57
Greg Brockman@gdb
78
AI在数学领域实现了新知识生成的里程碑式突破。OpenAI模型解决了组合几何中悬而未决的著名难题--平面单位距离问题(Erdos 1946),首次证明通过AI方法可将该问题中单位距离对的数量提升至超线性规模(n^{1+δ}),超越了以往所有人类已知的线性构造。这标志着AI从解决已知问题迈向发现新数学的重要进展。该突破引发了研究者"难以入睡"的强烈反响,被视为AGI时代临近的信号。

Alex Dimakis: A breakthrough by OpenAI in a very famous Combinatorics problem, the Planar Unit Distance problem by Erdos 1946. The pro...

OpenAI推理论文/研究
关联讨论 10 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
15:26
Rohan Paul@rohanpaul_ai
78
AI通用推理突破80年数学猜想

OpenAI的通用推理模型自主解决了一个自1946年以来未解的著名数学难题——平面单位距离问题。该模型没有采用专门为数学设计的定定理证明引擎,而是通过推理时增强计算能力,发现了优于传统网格结构的新构造方案。这标志着AI首次自主解决一个数学领域的核心开放问题。更重要的是,该模型能将几何问题与代数数论等深层理论连接,展示了通用人工智能在跨领域研究和拓宽人类认知边界方面的巨大潜力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 10 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
15:26
Rohan Paul@rohanpaul_ai
67
小模型大智慧:随机推理实现性能超越

仅1000万参数的GRAM模型,通过引入可学习的随机性,在推理时并行探索多条不同路径,打破了传统递归模型锁定单一思维的限制。该模型在测试时同时运行这些平行轨迹,并借助奖励预测器选择最优结果,从而在深度之上增加了“宽度”维度。实验表明,GRAM在困难数独任务上准确率高达97%,远超此前最佳确定性模型;在多解的皇后问题上也能维持高性能,并能高效生成有效的数独谜题。这一框架为提升小模型的推理能力提供了新思路。

推理论文/研究
14:58
IT之家(RSS)
79
AI 推翻著名几何猜想,OpenAI 宣布攻克 80 年数学难题

OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想,推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出,长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系,这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示,这意味着AI已具备更强推理能力,并将对科学多领域产生深远影响。

OpenAI推理论文/研究
关联讨论 10 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
14:10
HuggingFace Daily Papers(社区热门论文)
69
OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS,一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形,并对量化坐标与三元组范数实施最优平方误差量化,从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明,OCTOPUS在文本、视频和音频任务上,在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器,并在极端压缩时优势尤为显著。此外,其融合Triton实现能在线重建键值,不引入额外的解码带宽或延迟。

arXiv多模态推理论文/研究
14:10
HuggingFace Daily Papers(社区热门论文)
69
只需最少RLVR训练:通过秩-1轨迹外推大语言模型

研究发现,强化学习与可验证奖励训练大语言模型时,权重变化轨迹具有极低的秩且高度可预测,性能增益主要由秩-1逼近捕获,且随训练步骤线性演化。基于此,提出RELEX方法,仅需从短观察窗口估计秩-1子空间,通过线性外推预测后续检查点,无需学习模型。在多个模型上,RELEX仅需15%的完整训练步骤,即可在域内和域外基准上匹配或超越RLVR性能,并能以零额外成本外推至观察窗口的10-20倍,性能持续提升。成功源于秩-1投影实现的“去噪”效应,有效剔除随机优化噪声。

开源生态推理数据/训练论文/研究
13:10
HuggingFace Daily Papers(社区热门论文)
63
IndusAgent:用智能工具强化开放词汇工业异常检测

针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈,本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集,并通过动态调用外部工具(如动态裁剪、特征增强)主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率,在五个工业基准测试中实现了零样本性能的最先进水平,展现出优异的泛化能力。

智能体多模态数据/训练论文/研究
12:44
Chubby♨️@kimmonismus
84
OpenAI突破性解决平面单位距离问题

OpenAI内部推理模型自主解决了存在近80年的著名数学开放问题——平面单位距离问题。该模型推翻了Paul Erdős的猜想,发现了全新的点配置构造,其效率以固定多项式因子优于传统方格网格方案。证明运用了代数数论等跨学科方法,经外部数学家验证,被Fields奖得主Tim Gowers誉为“AI数学的里程碑”。这是AI首次独立解决数学领域的核心公开问题,标志着从知识复现到知识创造的重要转变,其跨领域推理能力可能为多学科研究带来深远影响。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 10 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
12:10
HuggingFace Daily Papers(社区热门论文)
67
高效预训练新范式:HRM-Text模型

本文提出HRM-Text,一种受生物系统启发的预训练新范式。它以分层循环模型取代标准Transformer,将计算解耦为慢速策略层和快速执行层,并使用指令数据进行训练。一个仅10亿参数的HRM-Text模型,使用400亿令牌、在1500美元预算内训练,即可在MMLU等多个基准上取得与2-7B开源模型竞争的成绩。相比标准方法,其训练数据量与计算量大幅减少,证明了架构与目标的协同设计能显著降低预训练门槛。

数据/训练论文/研究
12:10
HuggingFace Daily Papers(社区热门论文)
62
iTryOn:基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务,针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动,面临从标准姿势解析语义模糊性,以及从稀疏互动视频中学习复杂形变两大挑战。为此,我们推出iTryOn框架,基于大规模视频扩散Transformer,设计多级交互注入机制:空间层面引入服装无关的3D手部先验,精确引导手-服装接触;语义层面通过全局描述与时间戳动作描述协同,并借助动作感知旋转位置嵌入进行时序同步。实验表明,该方法在传统基准达到最优性能,并在交互场景中取得显著优势。

多模态视频论文/研究
12:10
HuggingFace Daily Papers(社区热门论文)
62
DPO与RLHF等价性的条件性:隐含假设、失效模式与可证明对齐

本文证明直接偏好优化(DPO)与人类反馈强化学习(RLHF)的等价性并非普遍成立,其依赖于一个常被违反的隐含假设:RLHF最优策略必须倾向人类偏好回答。当该假设不成立时,DPO会优化相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致策略虽降低损失却偏好不良回答。为此,我们提出受约束偏好优化(CPO),通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释,并证明CPO能在保持简洁性的同时确保对齐。基准测试表明,CPO取得了最先进的性能。

安全/对齐数据/训练论文/研究
12:10
HuggingFace Daily Papers(社区热门论文)
61
OcclusionFormer:为基于布局的图像生成安排Z轴顺序

针对现有布局到图像模型在遮挡区域生成模糊、纹理缠绕及层次不一致的问题,本研究构建了包含遮挡排序与像素级标注的大规模数据集SA-Z。在此基础上,提出了OcclusionFormer,一种遮挡感知的扩散Transformer框架。该框架通过解耦实例并利用体积渲染进行合成,显式建模Z轴优先级,同时引入查询对齐损失监督单个实例以增强语义一致性。该方法有效降低了重叠区域歧义,确保了正确的遮挡依赖与结构完整,显著提升了生成精度。

图像生成论文/研究
11:09
HuggingFace Daily Papers(社区热门论文)
64
评估智能体计划执行流水线中的时间语义缓存与工作流优化

针对工业智能体在基准测试AssetOpsBench中,现有缓存技术因无法处理时间等动态参数而失效的问题,本研究提出了两种互补优化方案:时间语义缓存与MCP工作流优化。测试显示,MCP工作流优化(结合磁盘工具发现缓存与依赖感知并行执行)实现了1.67倍加速,将端到端延迟降低约40%;而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率,还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。

智能体arXivMCP/工具论文/研究
11:09
HuggingFace Daily Papers(社区热门论文)
63
Uni-Edit:智能编辑作为统一模型微调的通用任务

当前,统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力,但任务冲突导致需要复杂多阶段流程和大量数据平衡,仅实现性能折衷而非协同增强。为此,研究提出Uni-Edit,一种智能图像编辑任务,作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集,就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程,将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令,生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实,仅基于Uni-Edit进行微调,即可全面增强模型的图像理解、生成和编辑能力,无需任何辅助操作。

arXiv图像生成多模态数据/训练
11:09
HuggingFace Daily Papers(社区热门论文)
65
Mem-π:通过学习何时与生成何物实现的自适应记忆

Mem-π是一个用于大型语言模型代理的自适应记忆框架,它通过专门的模型按需生成指导内容,而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法,使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中,Mem-π性能持续优于检索式方法和现有强化学习记忆方案,其中在网页导航任务上实现了超过30%的相对提升。

智能体MCP/工具论文/研究
11:09
HuggingFace Daily Papers(社区热门论文)
精选75
SpecBench:测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标,导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试,通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准,包含30个从短期(如JSON解析器)到超长期(如构建操作系统内核)的系统级编程任务。实验显示,所有前沿代理在可见测试上饱和,但隐藏测试上存在持续差距,小模型差距更大;代码规模每增十倍,差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台,评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体arXiv安全/对齐编码

推荐理由:SpecBench把编码代理的‘应试’问题量化了,越长的任务越容易靠作弊通过测试。如果你在做Agent,这个基准会让你重新审视自己的评估体系。
11:09
HuggingFace Daily Papers(社区热门论文)
64
PlanningBench:一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架,旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景,抽象出包含30余种任务类型、约束与难度因素的结构化分类体系,并基于此实现了约束驱动的数据合成流程,该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型,发现其在耦合约束下仍难以生成完整解决方案。此外,基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现,也增强了其指令遵循能力,并表明明确的最优解能提供更稳定的训练信号。

arXiv推理数据/训练论文/研究
11:09
HuggingFace Daily Papers(社区热门论文)
61
DrawMotion:通过手绘生成3D人体动作

该研究提出了DrawMotion,一个基于扩散的多条件动作生成框架,旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件,分别提供语义和空间引导。技术上,它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度,并利用无训练引导方法将生成动作与用户意图对齐。实验表明,手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub多模态论文/研究
11:03
AYi@AYi_AInotes
76
OpenAI模型突破性自主解决80年数学悬案

OpenAI的一个AI模型自主攻克了“平面单位距离问题”,这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来,学界普遍认为最优构造近似于方格子,而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论,发现了一整族效率更高的全新构造,推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题,其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 10 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
10:58
IT之家(RSS)
63
瞄准 AI 数据中心功耗难题,新供电芯片让 48 伏转 4.8 伏效率达 96.2%

加州大学圣迭戈分校工程团队研发出一种新型电源转换芯片,以应对AI数据中心面临的功耗挑战。该团队采用压电谐振器替代部分传统磁性器件,设计出混合架构的降压转换器。实验室测试表明,该原型芯片能将48伏电压降至4.8伏,峰值转换效率达到96.2%,输出电流较此前压电方案提升约5倍。该技术旨在减少供电过程中的能量损耗,缓解高功耗GPU带来的散热与供电压力,但目前仍处于研究阶段,尚未达到商用水平。

论文/研究部署/工程
10:09
HuggingFace Daily Papers(社区热门论文)
55
UniT:基于群自回归Transformer的统一几何学习

UniT是一个统一几何感知模型,旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer,将传感器观测组作为基本单元,通过改变组大小,在同一过程中自然统一在线(多步单帧组)与离线(单步多帧组)模式。为处理长序列,模型采用队列式KV缓存机制,并利用无锚点关系建模来丢弃过时记忆。此外,模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中,UniT实现了统一几何感知的最先进性能。

具身智能多模态论文/研究
10:09
HuggingFace Daily Papers(社区热门论文)
58
生成式递归推理

GRAM(生成式递归推理模型)框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略,并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练,形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明,GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型,并具备了独立的无条件生成能力。

arXiv推理论文/研究
10:09
HuggingFace Daily Papers(社区热门论文)
62
论文评审中人工智能审稿人的局限与机遇:基于45位专家对《自然》系列论文的评审分析

本研究通过一项大规模专家标注实验,邀请物理、生物与健康科学领域的45位科学家,耗时469小时,对82篇《自然》系列论文的2960条批评意见(来自人类与AI评审)进行多维度评估。结果发现,由GPT-5.2驱动的AI评审代理在准确性、重要性与证据充分性的综合评分上,超过了每篇论文得分最高的人类评审员(60.0%对48.2%)。AI评审能发现26%人类未提及的独特问题,但其意见重叠度(21%)远高于人类(3%),并暴露出16种人类没有的反复性弱点,如子领域知识有限、多文件长上下文管理能力不足等。研究表明,当前AI评审员更适合作为人类评审的补充工具,而非完全替代。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
EMMA:从多模态数据中提取多个物理参数

EMMA是一个物理信息多模态框架,能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学,并通过物理约束损失确保与微分方程一致。在超过100个场景(包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统)中,EMMA实现了稳健的多参数恢复,显著优于现有单模态和方程发现基线。代码与数据已开源。

arXiv具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
重访均匀扩散模型:留一去噪器与吸收态重构

研究揭示均匀扩散模型(UDM)的标准参数化与训练目标存在失配。提出“留一去噪器”,即在预测干净token时不依赖其自身噪声观测的后验,并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”,将UDM联合分布分解为类掩码扩散操作,从而简化了去噪后验。在语言建模中,留一参数化稳定提升了UDM生成效果,吸收态构建匹配或超越了掩码扩散模型。实验表明,经验差距主要源于参数化与采样设计,而非边际分布选择本身。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
部分可观察环境下基于统一风险图的自动驾驶风险感知

针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题,现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架,适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险,实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题,引入了基于扩散模型的场景生成框架,可生成真实且具对抗性的场景。最终,该框架集成了统一风险图的建模与学习,以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明,该方法显著超越现有基线,提升了碰撞时间指标。

具身智能安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
智能体CLEAR:LLM智能体多层级评估自动化

现有LLM智能体评估工具局限于基本观测能力或静态错误分类。Agentic CLEAR是一个自动、动态、易用的评估框架,它在系统、轨迹和节点三个粒度层级上,对智能体行为生成文本洞察。该框架运行于可观测性层之上,具备直观UI便于集成。在四个基准、七种智能体设置和数万次LLM调用上的实验表明,Agentic CLEAR能产生高质量、数据驱动的反馈,其分析与人类标注错误高度吻合,并能预测任务成功率。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
理解数据时间性对大语言模型预训练的影响

研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式,针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现,时间有序预训练的模型在通用语言能力上与打乱预训练基线持平,但其知识更及时、时间定位更准确;打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。

arXivGitHub开源生态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
55
MotiMotion:基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此,MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标,并“幻想”出合理的次要运动。同时,框架引入置信度感知控制方案,根据计划的可信度调整引导强度。为系统评估,研究还构建了新的运动交互基准MotiBench。评估表明,MotiMotion能生成物体行为和交互更合理可信的视频,效果优于现有方法。

图像生成推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
表征优于路由:克服多时间尺度PPO中的替代目标劫持

在强化学习中,多时间尺度PPO虽旨在平衡短期与长期规划,但在复杂延迟奖励任务中盲目融合多时间信号会导致严重的算法问题。研究发现,将时间注意力路由机制暴露于策略梯度会导致替代目标劫持,而无梯度不确定性加权则会引发不可逆的短视退化。为此,研究提出Target Decoupling架构:Critic侧保留多时间尺度预测以辅助表征学习,Actor侧则严格隔离短期信号并仅基于长期优势更新策略。在LunarLander-v2环境中的实验证明,该架构无需超参数调整即可稳定超越解决阈值,消除策略崩溃并跳出局部最优。实验代码已开源:https://github.com/ben-dlwlrma/Representation-Over-Routing。

arXiv开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
ThriftAttention:用于长上下文FP4注意力的选择性混合精度

针对长上下文场景下FP4量化推理的质量下降问题,ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对,对其使用FP16精度计算,其余块使用FP4计算。最后,两路计算结果通过在线softmax合并。实验表明,仅对5%的块使用FP16计算,该方法就能平均恢复FP4与FP16间89.1%的性能差距,且优势随序列长度增加而更加显著。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
面向自回归MRI重建的"下一加速尺度预测"

针对高加速欠采样下MRI重建因模糊性导致高频细节丢失的问题,该研究将重建过程移至离散多尺度潜空间,并构建为自回归的“下一加速尺度预测”任务。方法利用视觉自回归建模中有效的离散先验,将解空间约束在紧凑的码本token序列中,从而即使从极度稀疏的测量中也能实现清晰重建。该框架自然适配大语言模型的后训练技术,并引入了在线策略蒸馏,利用教师模型在推理时不可用的特权上下文(完全采样数据)监督学生模型。在fastMRI基准测试的多种极端欠采样模式下,该方法均展现出改进的重建效果。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
虚假的推理:通过零思维链截断揭露大语言模型中的规避型数据污染

大语言模型在多项任务中展现强大推理能力,但数据污染问题,特别是发布者采用改写基准数据等规避策略,严重削弱了其评估的客观性。研究发现,模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此,研究者提出 Zero-CoT Probe 检测方法,通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比,并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明,该方法能有效检测直接与规避型数据污染。代码已开源:https://github.com/Yifan-Lan/zero-cot-probe。

数据/训练论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
感知的代价:在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”,即利用强大的语言先验绕过视觉表征瓶颈,而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法,提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标(Toll, Curse, Fallacy)与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”:随着语言模型推理能力增强,视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
VGenST-Bench:一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准,采用生成模型主动合成高度可控的多样化评估场景,克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建,建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件,解耦了低级视觉感知与高级时空推理,实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准
06:44
智谱:研究(网页内嵌数据)
精选69
ZCube:超大规模大模型推理的网络优化

针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程
关联讨论 1 条X:智谱 Z.ai (@Zai_org)
推荐理由:千卡以上推理集群的团队该看一眼,智谱这个网络设计砍掉三分之一交换机成本,吞吐还涨15%,尾时延降四成,有实测数据不是白皮书。
06:08
HuggingFace Daily Papers(社区热门论文)
69
基础模型在AI检测器下更"像人"

本研究发现了一个有趣现象:当使用GPTZero等商业AI文本检测器时,基础模型生成的文本常被判定为人类文本,而指令调优模型生成的文本则不然。基于此,研究团队提出了“通过迭代释义实现人性化”的方法。该方法通过微调基础模型并迭代应用,以在语义保持和规避检测之间取得平衡。实验表明,该方法在不同规模的Llama-3和Qwen-3模型上均能有效提升文本在检测器眼中的人类相似度。研究指出,现有检测器可能更多地关注了指令调优产生的特征,而非机器生成文本的本质,这为未来的检测器设计提供了新的方向。

论文/研究
‹ 上一页
1…4142434445…50
下一页 ›