AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
5月21日周四
03:36Greg Brockman92AI突破数学难题,推翻80年猜想
03:36AI Notkilleveryoneism Memes ⏸️87AI首次自主解决重大数学开放问题
03:25HuggingFace Daily Papers(社区热门论文)47他们能走多远?用大语言模型红队测试在线影响力
03:17Noam Brown86OpenAI模型自主解决80年数学猜想
03:17Noam Brown83OpenAI模型首次自主攻克数学开放难题
03:17OpenAI81AI首次自主解决数学领域著名开放问题
03:07OpenAI:官网动态(RSS · 排除企业/客户案例)88精选OpenAI模型证伪了离散几何中的一个核心猜想
02:08HuggingFace Daily Papers(社区热门论文)66面向网格上三角剖分无关流匹配的马顿噪声
00:08HuggingFace Daily Papers(社区热门论文)63基于时空注意力链的快速4D网格生成
00:05AK67基于点互信息的推理强化学习反自蒸馏方法
00:05AK64ESI-Bench:迈向闭环具身空间智能
5月20日周三
22:08HuggingFace Daily Papers(社区热门论文)65用于高效全能模态大语言模型的阶段自适应Token选择
21:08HuggingFace Daily Papers(社区热门论文)74精选优化_anything:通用文本参数优化API
18:07HuggingFace Daily Papers(社区热门论文)67TideGS:通过核外优化实现超过十亿3D高斯溅射原语的可扩展训练
17:07HuggingFace Daily Papers(社区热门论文)55PixVerve:推进原生超高清图像生成至100MP
17:07HuggingFace Daily Papers(社区热门论文)64作者身份信号在编码器语言模型中的涌现位置
15:07HuggingFace Daily Papers(社区热门论文)72精选CopT:基于连续空间对比验证的在策略推理
13:05HuggingFace Daily Papers(社区热门论文)69PEEK:面向长上下文LLM智能体的上下文映射缓存
12:05HuggingFace Daily Papers(社区热门论文)72精选GoLongRL:面向能力的长期上下文强化学习与多任务对齐
11:05HuggingFace Daily Papers(社区热门论文)55精简草稿,多做检索:投机解码的混合树构造
11:05HuggingFace Daily Papers(社区热门论文)68AutoResearchClaw: 具备自我强化与人机协作的自主研究系统
11:05HuggingFace Daily Papers(社区热门论文)63OpenComputer:为计算机使用智能体构建可验证软件世界
11:05HuggingFace Daily Papers(社区热门论文)55SceneCode:面向可编辑带关节物体室内场景的可执行世界程序
11:05HuggingFace Daily Papers(社区热门论文)55MSAVBench:迈向全面可靠的多镜头音视频生成评估
11:05HuggingFace Daily Papers(社区热门论文)65CogOmniControl:基于创意意图认知的推理驱动可控视频生成
10:05HuggingFace Daily Papers(社区热门论文)65CEPO:基于对比证据的策略优化方法
09:55IT之家(RSS)62微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖
09:03AK56代码作为智能体运行框架
09:02elvis64编程代理在AI研发任务中的表现评估
08:00HuggingFace Daily Papers(社区热门论文)41ACL-Verbatim:面向研究的无幻觉问答
08:00HuggingFace Daily Papers(社区热门论文)49Flat-Pack Bench:通过家具组装任务评估大型视觉语言模型的时空理解
08:00HuggingFace Daily Papers(社区热门论文)42基于大语言模型函数调用的反思式提示词微调
08:00HuggingFace Daily Papers(社区热门论文)45ZeroUnlearn:大语言模型中的少样本知识遗忘
08:00HuggingFace Daily Papers(社区热门论文)51用生成式AI拓宽交通安全数据的可及性:一种面向空间自然语言查询的基于数据模式的框架
08:00HuggingFace Daily Papers(社区热门论文)50将通信与策略解耦:带宽约束下的鲁棒多智能体强化学习
08:00HuggingFace Daily Papers(社区热门论文)54Equilibrium Reasoners:学习吸引子实现可扩展推理
08:00HuggingFace Daily Papers(社区热门论文)55SciAtlas:面向自动化科学研究的大规模知识图谱
08:00HuggingFace Daily Papers(社区热门论文)55RankE:离散文本到图像生成的端到端后训练与解码器协同进化
08:00HuggingFace Daily Papers(社区热门论文)61重新思考扩散模型Transformer中的跨层信息路由
08:00HuggingFace Daily Papers(社区热门论文)61Lens:重新思考基础文本到图像模型的训练效率
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
03:36
Greg Brockman@gdb
92
OpenAI的模型在离散几何领域取得重大突破,自主解决了由数学家Paul Erdős于1946年首次提出的平面单位距离猜想。该突破是AI首次独立解决一个学科的核心著名开放问题。此前近80年间,数学家普遍认为该问题的最优解大致呈现为方形网格结构,而OpenAI模型发现了全新的、性能更优的构造方式,颠覆了这一长期信念。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 11 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
03:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
87
OpenAI模型自主攻克了数学领域一个长达近80年的著名开放问题--平面单位距离问题。该问题由Paul Erdős于1946年提出,传统观点认为最优解结构近似于方格网格。OpenAI模型的突破性发现不仅推翻了这一长期假设,还构造出性能更优的全新解法,标志着人工智能首次在数学核心领域独立解决重大未解难题。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 11 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
03:25
HuggingFace Daily Papers(社区热门论文)
47
他们能走多远?用大语言模型红队测试在线影响力

该研究聚焦于本地部署的开源大语言模型,提出了一套红队测试框架,用于测量模型在争议性话题上可可靠表达的“政治表达范围”(Overton Windows),并量化简单自然语言越狱技术如何扩大此范围。研究评估了超过30个大语言模型,发现系统性政治表达不对称:开源模型通常更倾向生成左倾社交媒体内容;政治表达范围随模型规模增大而收缩;尽管生态参与不均,地域差异仍然显著。此外,越狱技术的有效性在不同模型家族间差异明显。

安全/对齐论文/研究
03:17
Noam Brown@polynoamial
86
OpenAI的通用AI模型在组合几何领域取得突破,首次自主解决了平面单位距离问题。该问题由数学家Paul Erdős于1946年提出,近80年来学界普遍认为最优解类似方格结构,但AI模型推翻了这一假设,发现了一族全新的更优构造方法。这一突破标志着AI在数学领域首次独立解决一个核心开放问题,显示出AI在基础科学发现中的快速进展能力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 11 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
03:17
Noam Brown@polynoamial
83
OpenAI宣布其一个内部通用模型在组合几何领域取得突破,自主解决了平面单位距离问题。这一问题由数学家Paul Erdős于1946年提出,近80年来学界普遍认为最优解应近似于方形网格结构。新模型推翻了这一长期信念,发现了一族全新的、更优的构造方案。此事件标志着人工智能首次独立解决数学领域的核心开放问题,展示了AI在科学发现方面快速且持续的进展能力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 11 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
03:17
OpenAI@OpenAI
81
今天,我们分享一个关于平面单位距离问题的突破,这是一个由保罗·埃尔德什在1946年首次提出的著名开放问题。 近80年来,数学家们一直认为最佳可能的解决方案大致类似于方形网格。 现在,一个OpenAI模型推翻了这一信念,发现了一个全新的、性能更优的构造家族。 这标志着AI首次自主解决了一个数学领域的核心著名开放问题。
OpenAI推理论文/研究
关联讨论 11 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
03:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选88
OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”,并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件,标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题,展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI推理论文/研究
关联讨论 11 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
推荐理由:数学界等了80年的猜想被AI自己证伪了,而且用的是代数数论这种“跨界”手法,这个里程碑说明AI的创造性推理已经进入前沿研究。虽然实战还用不上,但作为能力信号,值得每个关心AI前沿的人看。
02:08
HuggingFace Daily Papers(社区热门论文)
66
面向网格上三角剖分无关流匹配的马顿噪声

该研究解决了在三角网格上生成信号时需适应不同网格与三角剖分的问题。理论上,本文提出了一种数学上定义的、与三角剖分无关的噪声分布——Matérn高斯随机场的离散化,作为流匹配框架中的噪声模型。方法上,采用梯度域学习的PoissonNet作为去噪器。实验任务包括生成弹性静止状态与类人姿态。结果表明,该方法能处理超过百万三角形的高精度网格,其生成结果在真实感与多样性上显著超越现有技术。

arXiv论文/研究
00:08
HuggingFace Daily Papers(社区热门论文)
63
基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法,通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发,在潜在空间中追踪时间对应关系,避免了显式匹配的高计算成本。实验显示,新方法仅需9秒即可生成4D网格,速度比现有最优方法提升13倍且质量更优,还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能,并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究
00:05
AK@_akhaliq
67
基于点互信息的推理强化学习反自蒸馏方法
arXiv推理数据/训练论文/研究
00:05
AK@_akhaliq
64
ESI-Bench 迈向闭环感知-行动的具身空间智能
具身智能论文/研究
5月20日
22:08
HuggingFace Daily Papers(社区热门论文)
65
用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。

arXivHugging Face多模态推理
21:08
HuggingFace Daily Papers(社区热门论文)
精选74
优化_anything:通用文本参数优化API

该研究提出了一种基于大语言模型的通用文本优化系统,将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果:智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%;调度算法降低40%云成本;87%的CUDA内核匹配或超越PyTorch表现;圆包装问题超越AlphaEvolve。实验表明,可操作的附加信息比仅使用分数反馈收敛更快、得分更高;多任务搜索通过跨任务迁移学习,在同等预算下优于独立优化,且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式,能统一传统领域特定算法。系统已开源,支持多种后端。

智能体arXivGitHub搜索

推荐理由:让一个LLM同时优化agent架构、调度算法和CUDA内核,还能将ARC-AGI从32%拉到89%,这可能是今年最突破认知的通用问题求解范式,做agent的人必须看。
18:07
HuggingFace Daily Papers(社区热门论文)
67
TideGS:通过核外优化实现超过十亿3D高斯溅射原语的可扩展训练

该框架针对3D高斯溅射训练中参数规模远超GPU内存的难题,提出了核外训练方案。它利用训练过程固有的稀疏性,将GPU内存作为工作集缓存,并通过SSD-CPU-GPU层级结构协同管理参数。关键技术包括虚拟化块几何以提升I/O局部性、异步分层流水线实现计算与I/O重叠、以及轨迹自适应差分流以高效传输增量数据。实验表明,TideGS仅需单张24GB显卡即可训练超过十亿高斯,并在大规模场景中达到了所评测单GPU基线中的最优质量,相比此前方法实现了数量级的规模突破。

数据/训练论文/研究部署/工程
17:07
HuggingFace Daily Papers(社区热门论文)
55
PixVerve:推进原生超高清图像生成至100MP

本文介绍了PixVerve-95K,一个高质量、开源的超高清(UHR)文生图数据集,包含95K张图像(每张至少100M像素)及七维注释。基于此,研究团队探索了三种训练方案,成功将现有文生图基础模型扩展至原生100MP图像生成。同时,提出了PixVerve-Bench评估基准,全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。

arXiv图像生成数据/训练论文/研究
17:07
HuggingFace Daily Papers(社区热门论文)
64
作者身份信号在编码器语言模型中的涌现位置

该研究发现,使用相同预训练编码器、数据和损失函数微调的作者归属模型,仅因评分机制不同,性能差异可达四倍。研究利用机械可解释性工具揭示了这一差距的来源:词长、标点密度、功能词频率等风格特征在所有模型的每一层中均等可得,因此差距并非源于表征质量差异。因果介入实验表明,评分器决定了编码器在哪个层次整合作者身份信号——均值池化迫使信号在早期至中期层整合,而晚期交互则将其推迟到更晚的层。这一差异源于各评分器的梯度结构不同。

arXiv论文/研究
15:07
HuggingFace Daily Papers(社区热门论文)
精选72
CopT:基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考(CoT)顺序的推理框架:先生成草稿答案,再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器,通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度,构建序列级反向KL估计器,以此评估答案的可靠性。当答案不可靠时,CopT会执行进一步思考,并利用第二个KL估计器动态控制草稿答案的可见性,在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下,该方法在数学、编程等任务上显著提升了准确率(最高达23%)并大幅减少了令牌消耗(高达57%)。

智能体GitHub推理论文/研究

推荐理由:CopT把推理流程反了过来,先草稿答案再自我反思,用连续嵌入对比验证可靠性,在数学/编码/Agent任务上提点23%省token57%,思路可能改写推理范式。
13:05
HuggingFace Daily Papers(社区热门论文)
69
PEEK:面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题,本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射,并置于智能体提示中,以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明,在长上下文推理和信息聚合任务上,PEEK相比强基线提升6.3-34.0%,迭代次数减少93-145次,成本比ACE低1.7-5.8倍;在上下文学习任务中,解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%,成本降低1.4倍。这些成果在多种模型和智能体架构(包括OpenAI Codex)上均有效,证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究
12:05
HuggingFace Daily Papers(社区热门论文)
精选72
GoLongRL:面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案,聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法,公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类,涵盖9种任务类型,由真实文档生成的问答对构成;实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外,提出了TMN-Reweight多任务优化方法,通过任务级归一化和难度自适应加权,在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由:开源长上下文RL的配方直接放出来了,数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品,甚至摸到了DeepSeek-R1的水平,做长上下文的值得复现。
11:05
HuggingFace Daily Papers(社区热门论文)
55
精简草稿,多做检索:投机解码的混合树构造

现有投机解码方法为提高接受率而构建庞大草稿树,导致显存带宽和计算开销激增,反而制约了加速效果。动态剪枝虽能降低延迟,但会损失有效候选,无法达到理想接受率。为此,研究提出了Graft补偿框架,通过“剪枝-再嫁接”的机制,利用剪枝释放的计算预算驱动检索操作,用检索到的高预测性令牌补偿剪枝造成的覆盖损失,从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能,在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明,它在短上下文任务中最高可实现5.41倍加速,并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。

推理论文/研究部署/工程
11:05
HuggingFace Daily Papers(社区热门论文)
68
AutoResearchClaw: 具备自我强化与人机协作的自主研究系统

AutoResearchClaw是一种旨在突破现有系统线性流程局限的多智能体自主研究系统。其核心在于五大机制:结构化多智能体辩论用于假设生成与分析;具备自修复能力的执行器可将失败转化为信息;可验证的结果报告防止数据伪造与引用幻觉;提供从全自动到逐步监督的七种人机协作模式;以及能将过往经验转化为未来保障的跨运行进化能力。实验表明,该系统性能显著优于基线模型,且精准、定向的人机协作模式始终优于完全自主或穷举式监督。它被定位为一种增强而非取代人类科研判断力的研究放大器。

智能体arXiv开源/仓库论文/研究
11:05
HuggingFace Daily Papers(社区热门论文)
63
OpenComputer:为计算机使用智能体构建可验证软件世界

OpenComputer是一个验证器基础框架,旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件:针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器,以及可记录轨迹并计算部分奖励的评估工具。目前,该框架已覆盖33款桌面应用,生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明,其硬编码验证器比大语言模型评估更贴近人类判断。同时,研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈,表明稳健的计算机自动化仍存在挑战。

智能体arXiv论文/研究评测/基准
11:05
HuggingFace Daily Papers(社区热门论文)
55
SceneCode:面向可编辑带关节物体室内场景的可执行世界程序

现有室内场景合成方法常生成静态网格,难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括:通过规划-设计-批评循环生成对象资产请求,经五种代码生成策略转化为分部件的Blender Python程序,并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产,并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明,SceneCode提升了场景生成与提示词的一致性,产生了网格结构更清晰、包含可加载关节元数据的资产。

具身智能多模态论文/研究
11:05
HuggingFace Daily Papers(社区热门论文)
55
MSAVBench:迈向全面可靠的多镜头音视频生成评估

本文提出MSAVBench,首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度,支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性,并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明,当前模型在导演级控制和精细音视频同步上仍存在瓶颈,而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。

多模态视频论文/研究评测/基准
11:05
HuggingFace Daily Papers(社区热门论文)
65
CogOmniControl:基于创意意图认知的推理驱动可控视频生成

针对现有视频生成模型在抽象或复杂控制下表现不佳的问题,CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM,提升对模糊用户意图的专业理解与推理能力。同时,利用CogOmniDiT模块统一多种条件控制,并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明,CogOmniControl性能超越现有开源模型。

推理视频论文/研究
10:05
HuggingFace Daily Papers(社区热门论文)
65
CEPO:基于对比证据的策略优化方法

针对强化学习(RLVR)中对所有生成token给予相同奖励导致的信用分配问题,本文提出对比证据策略优化(CEPO)。该方法通过对比正确与错误答案对每个token的偏好,精准区分关键推理步骤与普通填充token,从而获得更细粒度的奖励信号。CEPO利用训练批次中已有的拒绝样本构建错误答案教师模型,不产生额外采样成本。实验表明,在2B和4B参数规模下,CEPO在多个数学推理基准上分别取得43.43%和60.56%的平均准确率,优于GRPO等基线方法。

开源/仓库推理论文/研究
09:55
IT之家(RSS)
62
微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖

2026年5月,微信AI团队模式识别中心的论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》在西班牙巴塞罗那举办的ICASSP 2026上荣获最佳工业论文奖。这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出的WalkVLM-LR模型专为视障人士行走辅助设计,其核心创新在于减少输出与时间冗余,优化了视觉语言模型的提醒时机。目前模型延迟控制在百毫秒量级,实时性较为可用,但距离实际落地应用仍需进一步优化。

多模态端侧论文/研究
09:03
AK@_akhaliq
56
代码作为智能体运行框架
智能体编码论文/研究
09:02
elvis@omarsar0
64
编程代理在AI研发任务中的表现评估

IntologyAI发布的NanoGPT-Bench评估显示,Codex、Claude Code和Autoresearch等编程代理在AI研发任务中,仅能恢复人类近9.3%的进展。这些代理的大部分算力消耗在超参数调优上,对核心的算法研究投入甚少。其中Claude Code和Autoresearch在推理中稍有涉及算法研究,但在实际代码实现层面依然不足。该评估基于NanoGPT Speedrun竞赛,采用标准化的五个月世界纪录窗口,完全自主端到端进行,以控制模型依赖和数据污染。结果表明,当前编程代理在自主执行真正AI研发的能力上仍有很大局限。

Intology: Can coding agents do research? We release NanoGPT-Bench, an internal eval we've used to test agents on an AI R&D problem...

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
41
ACL-Verbatim:面向研究的无幻觉问答

针对学术研究中大语言模型(LLM)存在幻觉的问题,研究者将抽取式问答系统VerbatimRAG应用于ACL Anthology论文集,实现用户查询到文档原文片段的直接映射。团队构建了一个新基准数据集,由NLP研究人员基于ScIRGen方法生成的合成用户查询进行人工标注,用于训练和评估多种抽取式模型。其中,一个参数规模为150M的ModernBERT分类器,在基于ScIRGen方法生成的查询和论文片段上进行训练后,在词级F1分数上达到53.6,超越了被评估的最强LLM抽取器(48.7)。

检索增强数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
Flat-Pack Bench:通过家具组装任务评估大型视觉语言模型的时空理解

现有大型视觉语言模型基准测试主要关注粗粒度任务,且依赖易于语言描述的实体。为此,研究者提出了Flat-Pack Bench,这是一个专注于家具组装任务的新基准,旨在评估模型的细粒度时空理解能力。该基准采用选择题与视觉提示的形式,考察模型在组装动作排序、状态定位、部件匹配理解与追踪等方面的表现。实验表明,最先进的模型在此类细粒度推理任务上表现欠佳,暴露出其在利用视频时序信息、进行目标追踪以及理解物理空间交互方面的不足。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
基于大语言模型函数调用的反思式提示词微调

提示词设计仍需大量人力且对格式高度敏感。现有自动化方法受限于候选搜索或固定流程,难以系统性地捕捉错误模式。文章提出反思式提示词微调(RPT)框架,通过LLM函数调用模拟人类工程师工作流:LLM优化器调用诊断函数评估目标模型,总结重复性失败模式并返回结构化报告;优化器依据该报告及历史记忆修订提示词进行下一轮迭代。框架支持置信度感知优化。实验显示,在三个推理任务上RPT最高提升12.9分,与当前最佳方法持平,并改善了置信度校准。分析表明其对多跳与数学推理任务尤为有效,能生成针对性修订。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
ZeroUnlearn:大语言模型中的少样本知识遗忘

ZeroUnlearn 提出一种将机器遗忘重新定义为通过模型编辑进行精确知识重映射的方法。该框架以少样本方式运行,通过乘法参数更新与闭合解强制表示正交性,将敏感输入覆盖并映射到中立目标状态,从而高效定向地移除其原始表示。此方法还扩展为基于梯度的多样本遗忘变体。实验表明,ZeroUnlearn 在保持模型通用效用的同时,性能优于现有基线。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
用生成式AI拓宽交通安全数据的可及性:一种面向空间自然语言查询的基于数据模式的框架

交通安分析依赖整合事故记录、道路属性等地理空间数据,但许多机构和社区利益相关者因技术门槛难以使用。该论文提出了一个基于数据模式的自然语言接口,利用大语言模型(LLM)解释用户查询意图,同时通过结构化语义帧、规则验证层等设计,将查询转化为确定性的空间操作图并在PostGIS数据库上执行,确保了结果的可重复性与可审查性。该框架在马萨诸塞州全州数据库上进行评估,所有查询均成功执行,且验证层修正了29%的查询错误。

搜索论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
50
将通信与策略解耦:带宽约束下的鲁棒多智能体强化学习

多智能体强化学习(MARL)中,通信对于协调至关重要,但常受带宽限制。现有架构常将通信与策略共享潜在表示,导致缩减通信尺寸会直接限制策略容量,造成性能下降。为此,我们提出两项贡献:一是引入归一化带宽预算β,将稀疏度、轮次和消息维度统一为一个可比约束;二是提供最小架构SLIM,它将通信路径与策略的潜在表示解耦,从而隔离带宽与策略容量的影响,并支持步内通信。在多个需要通信的部分可观测基准测试中,该方法取得了最先进的性能,在带宽受限时表现出可扩展性与鲁棒性,性能下降边际。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Equilibrium Reasoners:学习吸引子实现可扩展推理

Equilibrium Reasoners (EqR) 提出一种无需外部验证器的测试时计算扩展框架。其核心假设是,可泛化的推理能力源于学习任务条件下的吸引子,即稳定不动点对应有效解的潜在动力系统。EqR通过深度(更多迭代)与广度(聚合多条随机轨迹)两个维度扩展内部动力。实验表明,测试时扩展的收益与向解对齐吸引子的收敛强度紧密相关。该框架使模型能根据任务难度自适应分配计算:简单案例在1至5次迭代内收敛,复杂案例则受益于大规模扩展。通过展开相当于40,000层,可扩展潜在推理在Sudoku-Extreme任务上将准确率从2.6%提升至超过99%。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
SciAtlas:面向自动化科学研究的大规模知识图谱

SciAtlas 是一个大规模、多学科、异构的学术资源知识图谱,旨在为自动化科学研究提供“认知地图”。它整合了26个学科的超过4300万篇论文,包含1.57亿实体和30亿三元组,构建了可打破学科壁垒的结构化拓扑认知底座。为克服现有检索工具缺乏拓扑推理能力的问题,其开发了具备三路协同召回和图重排序功能的神经符号检索算法,实现从语义匹配到确定性关联发现的过渡。应用方向包括文献综述、研究趋势综合、想法定位与学术轨迹探索,旨在以结构化方式赋能科研全流程并显著降低推理成本。相关接口已在GitHub开源。

智能体开源生态搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
RankE:离散文本到图像生成的端到端后训练与解码器协同进化

当前离散自回归文本到图像模型的后训练通常只优化策略网络而固定VQ解码器,导致潜在协变量偏移,使奖励提升但图像质量下降。为此,本文提出首个端到端后训练框架RankE,通过交替优化策略与解码器实现协同进化。在LlamaGen-XL(775M)上,标准RL仅提升CLIP但恶化FID,而RankE同时改善两者(MS-COCO 30K上FID 15.21, CLIP 33.76)。在Janus-Pro(1B)上验证了其稳定转化奖励为图像质量的能力。

arXiv图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
重新思考扩散模型Transformer中的跨层信息路由

扩散模型的主流架构Diffusion Transformers (DiTs)沿用了原始Transformer的残差连接。本文通过系统性分析发现,这种传统残差加法在模型深度和去噪时间步的联合维度上存在信息幅度膨胀、梯度衰减和冗余等问题。为此,研究者提出了即插即用的扩散自适应路由(DAR)作为替代方案,它通过可学习的机制对子层输出历史进行时间步自适应的聚合。在ImageNet 256×256实验中,DAR将SiT-XL/2的FID分数从9.67提升至7.56,并减少了达到基线收敛质量所需的训练迭代。该方法还可与REPA等兼容以加速训练,并应用于文生图模型的微调。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Lens:重新思考基础文本到图像模型的训练效率

Lens是一个3.8B参数的文本到图像模型,其性能可与6B以上参数的模型竞争甚至超越,且仅需约19.3%的训练计算量。高效训练源于两大策略:一是通过GPT-4.1生成的Lens-800M数据集(含约109词的密集描述)最大化每批次数据信息密度;二是采用语义VAE和强语言编码器等架构设计以加速收敛。预训练后,模型通过应用RL训练、推理器模块和知识蒸馏实现了4步推理,并支持1:2到2:1的任意宽高比及最高1440^2分辨率。该模型在单张NVIDIA H100 GPU上生成1024^2图像需3.15秒,其蒸馏版可在0.84秒内完成4步生成。

图像生成数据/训练论文/研究
‹ 上一页
1…4243444546…50
下一页 ›