AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
5月22日周五
10:14HuggingFace Daily Papers(社区热门论文)60Sensor2Sensor:面向自动驾驶的跨形态传感器数据转换
10:09IT之家(RSS)80精选图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人
09:56Chubby♨️54东京大学研发超低功耗芯片,效率提升千倍但十年后才能商用
09:13HuggingFace Daily Papers(社区热门论文)70精选RiT:在表示空间中使用原生扩散变换器已足够
08:13Berryxia.AI66苹果数字人面部捕捉技术再突破,逼真度迈向新高
08:00HuggingFace Daily Papers(社区热门论文)46SPACENUM:重新审视视觉语言模型的空间数值理解
08:00HuggingFace Daily Papers(社区热门论文)39BrainCause:从激活到因果--发现人脑中的因果视觉表征
08:00HuggingFace Daily Papers(社区热门论文)49多智能体强化学习何时改善LLM工作流程:工作流程、规模与策略共享的权衡
08:00HuggingFace Daily Papers(社区热门论文)44One-Forcing: 实现稳定的单步自回归视频生成
08:00HuggingFace Daily Papers(社区热门论文)40语音识别中面向低资源与口音鲁棒性的凸语言检测
08:00HuggingFace Daily Papers(社区热门论文)49打破概率的枷锁:中立逻辑作为大语言模型认知不确定性建模的新框架
08:00HuggingFace Daily Papers(社区热门论文)55基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配
08:00HuggingFace Daily Papers(社区热门论文)60FastKernels:面向生产环境的GPU内核生成基准测试
08:00HuggingFace Daily Papers(社区热门论文)55EvalVerse:面向专业电影视频生成的流程感知与专家校准基准测试
08:00HuggingFace Daily Papers(社区热门论文)58迈向评测工程:ML评测框架的野外实证研究
08:00HuggingFace Daily Papers(社区热门论文)60CoSPlay:通过自生成代码与单元测试的测试时合作自博弈
08:00HuggingFace Daily Papers(社区热门论文)54CRONOS:视频模型反事实物理一致性基准测试
08:00HuggingFace Daily Papers(社区热门论文)63揭示大型推理模型中的隐藏批判机制
08:00HuggingFace Daily Papers(社区热门论文)53着色噪声:对抗性Sobolev对齐实现保真图像超分辨率
08:00HuggingFace Daily Papers(社区热门论文)56HorizonStream:面向流式三维重建的长时域注意力
08:00HuggingFace Daily Papers(社区热门论文)50SkillEvolBench:评估从情景经验到程序性技能的演进
08:00HuggingFace Daily Papers(社区热门论文)65QUEST:用全合成任务训练前沿深度研究智能体
08:00HuggingFace Daily Papers(社区热门论文)63Foundation Protocol:面向智能体社会的协调层
08:00HuggingFace Daily Papers(社区热门论文)55AutoResearch AI:面向科学发现的AI驱动科研自动化
08:00HuggingFace Daily Papers(社区热门论文)61PhotoFlow:智能体化的3D虚拟摄影任务
08:00HuggingFace Daily Papers(社区热门论文)42视觉几何Transformer的Token选择指南
08:00HuggingFace Daily Papers(社区热门论文)48Geo-Align:基于度量几何奖励的视频生成对齐
08:00HuggingFace Daily Papers(社区热门论文)66StepAudio 2.5 技术报告
08:00HuggingFace Daily Papers(社区热门论文)68SCOPE:在可玩环境中模拟跨游戏操作以实现FPS世界模型
08:00HuggingFace Daily Papers(社区热门论文)57PiD:基于像素扩散的快速高分辨率潜在解码
08:00HuggingFace Daily Papers(社区热门论文)61SkillOpt:面向智能体技能的可控文本空间优化框架
08:00HuggingFace Daily Papers(社区热门论文)55从原始经验到技能运用:模型生成智能体技能的系统性研究
08:00HuggingFace Daily Papers(社区热门论文)60大语言模型作为噪声信道:从香农视角看模型容量与缩放定律
08:00HuggingFace Daily Papers(社区热门论文)56GenRecon:连接生成先验用于多视角三维场景重建
08:00HuggingFace Daily Papers(社区热门论文)56ETCHR: 通过编辑以明确和利用推理
07:10Saining Xie60RAEv2重大升级:新指标开启生成模型新探索
02:43Ethan Mollick61GPT-5.2在同行评审中达专家水平
01:26AK68Mix-Quant:智能体LLM的量化预填充与精确解码
00:26AK56长期智能体系统多目标干扰下的记忆评估
00:26The Decoder:AI News(RSS)80同事件精选OpenAI以"AI数学里程碑"突破自动推理边界,专家正在解析其意义同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
10:14
HuggingFace Daily Papers(社区热门论文)
60
Sensor2Sensor:面向自动驾驶的跨形态传感器数据转换

针对自动驾驶系统训练所需高保真、多样化数据不足的难题,研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频,转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格,从而解决缺乏配对训练数据的挑战,并结合扩散模型完成生成式转换。评估表明,该方法能将复杂的真实场景有效转化为可用数据,为自动驾驶开发解锁了海量的外部数据源。

多模态数据/训练论文/研究
10:09
IT之家(RSS)
精选80
图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代AI可通过图灵测试。研究表明,在获得特定提示后,GPT-4.5在5至15分钟的对话中被误认为人类的概率高达73%,显著超过真人。LLaMa-3.1-405B的判定率(56%)与真人相当,而GPT-4o和ELIZA仅约20%。研究指出提示词至关重要,它使AI能模仿人类语气、幽默感甚至易错性等社会行为特征。这一发现迫使人们重新思考图灵测试的意义,并凸显了大语言模型在网络信任与安全方面构成的潜在挑战。

OpenAI安全/对齐论文/研究

推荐理由:这篇PNAS论文首次用严格实验证明现代AI能通过图灵测试,GPT-4.5装人比真人还像,但重点不是它多聪明,而是它多擅长说谎,线上身份信任被彻底动摇。
09:56
Chubby♨️@kimmonismus
54
东京大学研发超低功耗芯片,效率提升千倍但十年后才能商用

东京大学研发了一种新型芯片组件,其处理数据速度较传统方法提升1000倍,且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一,这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一,极大缓解AI行业的能源压力。然而,该芯片原型预计2030年才问世,商用化需更长时间,凸显了AI快速发展与突破性节能技术量产时间之间的差距。

论文/研究部署/工程
09:13
HuggingFace Daily Papers(社区热门论文)
精选70
RiT:在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现,尽管像素与DINOv2的内在维度相近,但DINOv2在几何统计特性(如有效秩、协方差条件等)上表现更优,使回归过程更稳定。基于此,我们提出了表示图像变换器(RiT),它使用冻结的DINOv2特征,通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上,RiT性能优于参数量更多的DiT^DH-XL模型,且生成的常微分方程仅需少量步骤即可高效求解。

arXiv图像生成论文/研究

推荐理由:这篇论文没发明新架构,但通过剖析DINOv2特征的统计属性,证明简单结构在表示空间也能做出SOTA,对做图像生成的人来说是个省钱省参数的好思路。
08:13
Berryxia.AI@berryxia
66
苹果数字人面部捕捉技术再突破,逼真度迈向新高

苹果Persona团队在WWDC26前发布新论文,展示了面部捕捉与动画技术的最新进展。从演示来看,其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升,使数字形象的真实感进一步增强,已超越简单“数字头像”,趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要,能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道,相关论文与演示视频已公开。

Jonathan Cooper: Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
SPACENUM:重新审视视觉语言模型的空间数值理解

SPACENUM 是一个统一框架,考察空间探索中的动态数值转换与空间推理中的静态布局两种设定。通过 Num2Space 和 Space2Num 双向任务,评估视觉语言模型(VLM)在视觉空间结构与语言数值表征之间的映射能力。实验表明,当前 VLM 在两种设定下均接近随机猜测,严重依赖浅层空间线索,无法建立稳定的坐标感知表征。显式推理仅带来边际提升,微调可部分改善空间数值理解。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
BrainCause:从激活到因果--发现人脑中的因果视觉表征

BrainCause 是一个自动化框架,结合生成模型与脑模型,通过合成受控刺激并进行因果测试来验证人脑中的神经表征。给定目标概念,框架构建由概念图像、去除目标概念的反事实编辑图像及相关干扰项组成的刺激集,利用图像到 fMRI 编码模型预测脑反应,识别对目标概念具有特异性的表征。该方法在预测和实测 fMRI 数据上成功复现已知功能定位,并发现数十个概念的新候选表征。关键结论:仅凭激活强度不足以证明表征存在,缺乏因果验证会导致大量假阳性定位。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
多智能体强化学习何时改善LLM工作流程:工作流程、规模与策略共享的权衡

本文研究了端到端强化学习训练多智能体大语言模型工作流程的两种策略:Shared-Policy(所有角色更新同一策略)和Isolated-Policy(每个角色拥有独立参数)。实验矩阵覆盖了Eval-Opt、Voting和Orch-Workers三种工作流程,数学与代码任务,以及0.6B、1.7B、4B三种模型规模。研究发现,多智能体强化学习通常能改善基模型性能,但增益取决于工作流程、任务和模型规模的共同作用。Isolated-Policy往往能达到更高峰值准确率,但更容易出现性能悬崖;Shared-Policy训练则会将失败模式重新分配为不同的模式。策略共享并非提供均匀稳定性,而是在不同渠道分配训练压力,是一种具有工作流程和任务条件性权衡的设计选择。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
One-Forcing: 实现稳定的单步自回归视频生成

针对现有少步自回归视频生成方法在单步设置下面临的质量下降与训练不稳定问题,One-Forcing提出了一种将DMD目标与辅助GAN损失相结合的方法。该方法实现了高质量且高效的单步视频生成。在VBench评测中,它取得了83.76的总分,达到单步因果视频生成的最先进水平,并与强大的多步方法性能相当。研究表明,One-Forcing仅用chunkwise模型三分之一的训练成本,就能稳定实现单步帧级自回归生成。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
语音识别中面向低资源与口音鲁棒性的凸语言检测

全球语音多样性导致现有语音对话系统在处理方言和口音时易误识别语言,引发下游任务失败。为此,研究提出Convex Language Detection框架,将凸优化技术集成到系统中。该方法基于多GPU ADMM在JAX中高效实现,具有全局最优性保证和快速训练能力,并从理论上证明了其稳定性与鲁棒性。实验表明,在低资源场景下,该框架实现了97-98%的语言检测准确率,展现出高样本效率。相关开源工具包已发布。

开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
打破概率的枷锁:中立逻辑作为大语言模型认知不确定性建模的新框架

研究团队提出将中立逻辑应用于大语言模型(LLM)以建模认知不确定性。该框架将真、不确定、假视为三个独立维度,允许其值之和大于1。实验在OpenAI GPT模型家族上进行,测试了逻辑悖论等五种语言现象,并对比了三种提示策略。结果发现,中立逻辑方法在35%的评估中自发出现“超真理”状态,能更丰富地表示模型内部状态,有助于识别与量化模型冲突,为构建更透明、可靠的AI系统提供方法。

OpenAI推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛(SMC)虽能实现渐近精确采样,但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似,成为推理瓶颈。为此,本文提出对比分布匹配(CDM)框架,通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时,梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明,评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下,CDM性能优于现有基线,并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
FastKernels:面向生产环境的GPU内核生成基准测试

现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。

开源生态推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
EvalVerse:面向专业电影视频生成的流程感知与专家校准基准测试

生成式视频模型正迈向专业电影合成,但现有评估主要关注“是否正确”,忽略了“是否优秀”的电影质感。为此,本文提出EvalVerse,一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程(前期、制作、后期)对齐;其次利用大规模人工标注数据集凝练专家判断;最后通过专家校准微调将知识注入视觉语言模型(VLM),使其能进行明确的思维链(CoT)推理。该框架在兼容基础“正确性”指标的同时,将评估显著扩展至“优秀度”,并覆盖多镜头序列与视听整合等复杂任务,为奖励模型等未来研究提供了基础。

视频论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
迈向评测工程:ML评测框架的野外实证研究

研究者对57个机器学习评测框架进行了实证分析,提出一个五阶段框架模型,并分类了16,560个操作问题。研究发现,大多数挑战集中在规范阶段,占问题的41.4%。未实现的功能、文档缺失和输入验证不足这三类根本原因,合计占已分类问题的61.7%。不同工作流阶段的根本原因各异:环境不兼容和外部依赖失效占配置阶段问题的36.2%;算法错误与验证缺失则是评估阶段的主导原因。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
60
CoSPlay:通过自生成代码与单元测试的测试时合作自博弈

CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架,其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为:探索多样化方案并识别潜在失败模式以生成有区分度的单元测试;利用代码-单元测试执行矩阵中的双向通过计数信号,迭代修剪或修复弱代码、刷新或替换不可靠测试,使两个候选池协同演进;最终从最大输出共识簇中选择代码,因为正确代码对相同输入的输出一致。在四个基准测试上,应用于Qwen2.5-7B-Instruct时,将平均BoN从22.1%提升至33.2%,单元测试准确率从14.6%提升至78.3%,性能匹配或超越RLVR模型CURE-7B;应用于CURE-7B时,可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力,且在可比的token预算下优于无GT数据的TTS基线,性能随预算增加持续提升。

推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
CRONOS:视频模型反事实物理一致性基准测试

CRONOS是一个基于干预的基准测试,旨在评估视频生成模型的反事实物理一致性,即模型能否对输入的受控视觉变化(如视角、场景、物体类别和外观)做出恰当响应。它在高保真度的 Unreal Engine 环境中构建,能够系统地对上述四个因素进行干预,同时保持物理事件(如碰撞、遮挡)不变。对近期开源视频生成模型的评估表明,它们在该测试上存在显著失败:同一物理事件的预测质量会受到物体外观、环境,尤其是视角变化的严重影响。该基准提供了一个可控且可复现的测试环境,用于诊断模型在不同干预条件下生成视频质量的变化。

视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
揭示大型推理模型中的隐藏批判机制

本研究探究了大型推理模型(LRMs)的错误恢复机制。通过在推理步骤中插入算术错误,发现了一个关键现象:即使错误贯穿整个思维链(CoT)而未被语言化纠正,模型在思考结束后仍能输出正确答案。这证明模型内部存在一种“隐藏批判能力”来检测错误并触发纠正。基于特征空间分析,研究者识别出一个可解释的批判向量来表征该行为。跨模型规模和家族的实验表明,利用此向量引导潜在表示,能在不增加训练成本的情况下,提升模型的错误检测能力并增强测试时扩展性能。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
着色噪声:对抗性Sobolev对齐实现保真图像超分辨率

图像超分辨率(SR)中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架,通过“着色”噪声转换核以匹配自然图像频谱衰减,将生成流重构为Sobolev诱导的黎曼几何,从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器,该对抗器生成等价于最差Sobolev梯度的负样本,沿可行结构失败的切线空间引导优化。评估表明,ASASR在保持频谱一致性与结构保真度方面优于现有生成方法,能有效缓解伪影。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
HorizonStream:面向流式三维重建的长时域注意力

HorizonStream 将几何传播形式化为证据影响核,并将其分解为长时域和短时域因子。长时域因子采用几何线性注意力学习通道级衰减率,实现几何证据的有界、多时间尺度传播。短时域因子结合几何局部注意力与时空旋转位置编码,执行可靠三维匹配并抑制注意力尖峰。最终,通过度量读出 token 从持久几何状态中恢复稳定尺度与刚性位姿。该模型仅用 48 帧片段训练,即可在恒定内存与线性时间下,稳定泛化至超过 10,000 帧的序列,达到了流式三维重建的先进性能。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
SkillEvolBench:评估从情景经验到程序性技能的演进

该研究提出了SkillEvolBench,一个用于评估大语言模型智能体能否将情景经验提炼为可复用程序性技能的诊断基准。基准包含180个任务,分布在六个真实智能体环境中。测试发现,当前智能体通常只能局部适应,很少能形成稳健的可复用技能。基于技能的条件有时能改善获取或重放,但在冻结部署任务下表现不稳定。原始轨迹重用经常优于蒸馏的技能,表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序性线索。研究基于十个模型配置和三个智能体工具包,指出仅写入更多技能或更大的资源库并不足够。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
QUEST:用全合成任务训练前沿深度研究智能体

QUEST是一个参数规模从2B到35B的开源模型家族,旨在作为通用深度研究智能体,处理广泛的长期搜索任务,在事实查询、引用定位和报告合成方面能力突出。其训练方案结合了中期训练、监督微调与强化学习,核心是基于统一评分树的合成数据流水线,能为多样任务类型自动生成带可验证奖励的训练数据,无需人工标注。模型还内置上下文管理机制以支持长期推理。仅用8K个合成任务,QUEST在八个深度研究基准上接近或超越前沿闭源智能体,并在近期开源智能体中综合性能最佳。项目已开源所有模型、数据与训练脚本。

智能体搜索数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
Foundation Protocol:面向智能体社会的协调层

自主智能体正从工具演变为社会基础设施的一部分,其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol(FP),一种图优先的协调层,用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体,支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议,支持渐进式采用,在保持智能体可组合性的同时,确保问责制的不可妥协性。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
AutoResearch AI:面向科学发现的AI驱动科研自动化

本综述探讨AI系统如何将科学研究从提供孤立辅助,推向覆盖文献综述、假设生成、实验、验证和报告等环节的工作流自动化。提出了“AutoResearch”概念,即AI驱动的科研自动化发展谱系,其中“Vibe Research”代表人类主导的提示词辅助与验证阶段,而新兴的AI主导系统则试图协调更多发现环节,但尚未实现稳健自主性。当前系统在自主性、领域覆盖和验证机制上仍显碎片化,并面临证据保存、可复现性等挑战。文章围绕文献基础、假设形成、实验工具使用、反馈验证和报告交流五个工作流条件展开分析,并提出了从新颖性、有效性、影响、可靠性和溯源五个维度进行评估的框架。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
PhotoFlow:智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统,能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试,涵盖47个Blender场景和141个基于语言的摄影任务。实验表明,在六轮渲染预算的设置下,PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作,展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中,已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
视觉几何Transformer的Token选择指南

视觉几何Transformer是多视图3D重建的有力架构,但其全局注意力机制导致计算成本随输入序列长度二次增长。为此,研究提出一种通用的token选择策略,以限制每个查询交互的key/value token数量。该策略采用两阶段框架:首先在帧间通过多样性策略保留关键帧,然后在选定帧内基于注意力熵进行层级稀疏化以移除冗余token。实验表明,该方法在包含500张图像的场景中能加速超过85%,同时保持甚至提升基线性能,为该类架构提供了更优的速度-精度权衡。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Geo-Align:基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题,Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型,通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹,并显式惩罚旋转与平移的偏差。同时,设计了基于真实条件视频和合成目标轨迹的数据管道策略,摆脱了对配对数据的依赖。实验表明,Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型,能在自动语音识别(ASR)、语音合成(TTS)和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间,通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习(RLHF)为核心机制,并配合专门的解码策略,将共享主干塑造成三种操作模式:ASR分支提升转录效率;TTS分支实现可控、富有表现力的合成;实时分支则达成低延迟、角色一致的对话。在标准基准测试中,StepAudio 2.5 在三项任务上均取得最优结果,证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
68
SCOPE:在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题,SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列,使每个位置能基于局部视觉内容计算动作响应,从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集,由7款游戏的69K片段构成,提供10-DoF控制器信号。该模型学习通用的视觉到动作映射,而非游戏特定模式,实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
PiD:基于像素扩散的快速高分辨率潜在解码

PiD是一种将潜在解码重构为条件像素扩散的解码器,统一了图像解码与上采样。它通过直接在高分辨率像素空间进行去噪,支持4倍及8倍上采样,并具有低延迟。模型采用轻量级sigma-aware适配器注入噪声潜在变量,允许提前终止潜在扩散过程;并利用DMD2进行蒸馏,将推理步骤压缩至4步。PiD兼容传统VAE潜在变量与语义潜在变量。在RTX 5090上,可将512x512潜在变量解码为2048x2048像素,耗时低于1秒,峰值内存13GB;在GB200 GPU上最快仅需210毫秒。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
SkillOpt:面向智能体技能的可控文本空间优化框架

SkillOpt是一个系统性可控文本空间优化器,用于智能体技能。它通过独立的优化模型,将带分数的执行轨迹转换为对单一技能文档的有限编辑(增/删/改),且仅当编辑能严格提升验证集分数时才被接受。该技能被视为冻结智能体的外部状态进行训练,并包含文本学习率预算等机制以保持稳定性,部署时不增加额外推理调用。实验表明,在GPT-5.5上,SkillOpt在直接聊天、Codex循环和Claude Code中分别实现了平均无技能准确率+23.5、+24.8和+19.1分的提升。优化后的技能在跨模型和跨环境迁移时仍保持价值。

智能体arXivOpenAI论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
从原始经验到技能运用:模型生成智能体技能的系统性研究

语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期(经验生成、技能提取与技能运用),构建了涵盖五个多样化任务领域的效用评估框架。研究发现,模型生成的技能平均有益,但存在显著的负面迁移现象;技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能,用于指导技能提取过程,以提升技能质量并减少负面迁移。

智能体arXivMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
大语言模型作为噪声信道:从香农视角看模型容量与缩放定律

现有大语言模型缩放定律多为单调幂律,无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law,将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输,模型参数映射为信道带宽,训练token映射为信号功率。该框架揭示LLM存在基本容量极限:若无法维持足够信噪比,盲目扩大规模将放大噪声,导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底,并具备外推能力:用不超过6.9B参数、180B token训练的模型,可预测未见过的12B模型在307B token时的表现,池化R²达0.847。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
GenRecon:连接生成先验用于多视角三维场景重建

该方法提出一种高保真多视角三维场景重建方案,核心是将重建过程与强大的生成式3D先验紧密耦合。具体做法是将场景划分为多个空间局部重叠的区块进行条件化3D生成,并提出一种基于投影的条件机制,将多视角图像特征提升为与生成模型对齐的、空间锚定的连贯3D表示。该方法以Trellis.2等前沿生成模型为基础,将其对象级能力推广至场景级别,最终生成可编辑的PBR网格重建结果。在室内环境重建任务上,其保真度优于现有尖端方法16%。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ETCHR: 通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器,针对语言端与生成端两个缺陷进行两阶段训练:先通过监督微调进行推理模仿,再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示,ETCHR分别将通义千问(Qwen3-VL-8B)的平均Pass@1从55.95提升至60.77,Gemini-3.1-Flash-Lite从65.08提升至70.55,以及月之暗面(Kimi K2.5)从76.55提升至81.16。

多模态推理论文/研究
07:10
Saining Xie@sainingxie
60
RAEv2通过大幅简化架构并提升通用性,在文本到图像(T2I)和世界模型等任务中实现了超过10倍的收敛速度提升,同时改善了重建与生成质量。研究团队在大量实验中发现,强大的表示编码器对像素解码器至关重要。传统评估指标(如FID)已不足以全面衡量模型性能,新的评估指标(如ep@fid-k/fdr^k)揭示了生成模型领域仍存在广阔的研究空间。

Jaskirat Singh: In Oct last year, Representation Autoencoders provided an elegant solution to unified tokenization for understanding and...

图像生成论文/研究
02:43
Ethan Mollick@emollick
61
似乎GPT-5.2在同行评审中达到了专家水平:45位科学家花费469小时,评估了人类与AI对82篇论文的评审。 "令人惊讶的是,当前的AI评审甚至能与《自然》官方同行评审中的顶级评审人相媲美……"尽管并非没有弱点。
OpenAI推理论文/研究
01:26
AK@_akhaliq
68
Mix-Quant 量化预填充,精确解码,面向智能体LLM
智能体论文/研究部署/工程
00:26
AK@_akhaliq
56
LongMINT 评估长期智能体系统中多目标干扰下的记忆能力
智能体arXiv推理论文/研究
00:26
The Decoder:AI News(RSS)
同事件精选80
OpenAI以"AI数学里程碑"突破自动推理边界,专家正在解析其意义

OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具,而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”,并警告称,我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。

OpenAI推理论文/研究
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
推荐理由:这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想,菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’,不是 hype,是界限真的被推了一把。
‹ 上一页
1…4041424344…50
下一页 ›