AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
6月26日周五
01:23Rohan Paul62172B token研究:LLM文档问答幻觉率实测
01:12jason47OpenAI 论文:从聊天到智能体委托
01:12Epoch AI31招聘信息揭示中国AI公司策略
00:54AK27DomainShuttle:开放域主体驱动视频生成
00:53Microsoft Research30微软生成式因果测试揭示语言脑区
00:24AK24智能体原生记忆系统,准备好了吗?
00:16Hugging Face:Blog(RSS)65精选OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
6月25日周四
18:58IT之家(RSS)43富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍
18:23Rohan Paul49为何更大的模型学得更多:容量、干扰与罕见任务保留的影响
18:13HuggingFace Daily Papers(社区热门论文)67开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究
17:09OpenAI:官网动态(RSS · 排除企业/客户案例)65精选OpenAI内部报告:智能体Codex如何改变工作
16:12HuggingFace Daily Papers(社区热门论文)43MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督
15:12HuggingFace Daily Papers(社区热门论文)34ShutterMuse:利用MLLM进行拍摄时摄影指导
13:12HuggingFace Daily Papers(社区热门论文)44V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理
12:12HuggingFace Daily Papers(社区热门论文)41TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿
11:12HuggingFace Daily Papers(社区热门论文)70精选Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案
11:12HuggingFace Daily Papers(社区热门论文)52DomainShuttle:面向开放域主题驱动的文本到视频生成
11:12HuggingFace Daily Papers(社区热门论文)43Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据
09:00公众号:蚂蚁百灵(Ling)51Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1
08:00HuggingFace Daily Papers(社区热门论文)56RedVox:语音模型在跨语言场景中的安全性与公平性差距
08:00HuggingFace Daily Papers(社区热门论文)49PolyFlow:面向艺术家风格网格生成的连续拓扑嵌入流匹配框架
08:00HuggingFace Daily Papers(社区热门论文)55延迟验证破坏多智能体LLM信念:不稳定性阈值与最优校正器放置
08:00HuggingFace Daily Papers(社区热门论文)47SAM2Matting:通用图像和视频抠图
08:00HuggingFace Daily Papers(社区热门论文)51LiveEdit:面向实时扩散的流式视频编辑
08:00HuggingFace Daily Papers(社区热门论文)43SharpMoE: 面向扩散MoE的显著性引导精确路由
08:00HuggingFace Daily Papers(社区热门论文)42MemoBench:动态变化环境中的世界建模基准测试
08:00HuggingFace Daily Papers(社区热门论文)58代码智能体需要多少静态结构?确定性锚定效应研究
08:00HuggingFace Daily Papers(社区热门论文)66LLM程序修复代理中代码执行成本效益的实证研究
08:00HuggingFace Daily Papers(社区热门论文)44聚类、路由、升级:面向成本感知的LLM服务的级联框架
08:00HuggingFace Daily Papers(社区热门论文)39LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)
08:00HuggingFace Daily Papers(社区热门论文)45NeuraDock Agent:低通道脑电图智能体的边界感知上下文接地架构
08:00HuggingFace Daily Papers(社区热门论文)51Ko-WideSearch:韩语广度搜索基准
08:00HuggingFace Daily Papers(社区热门论文)48Qwen-Image-2.0-RL 技术报告
08:00HuggingFace Daily Papers(社区热门论文)51PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动
08:00HuggingFace Daily Papers(社区热门论文)37DanceOPD:面向流匹配模型的on-policy生成场蒸馏框架
08:00HuggingFace Daily Papers(社区热门论文)65Qwen-Image-Agent:弥合真实图像生成中的上下文差距
08:00HuggingFace Daily Papers(社区热门论文)41OPID: 智能体强化学习的在线策略技能蒸馏
08:00HuggingFace Daily Papers(社区热门论文)54ViQ:任意分辨率的文本对齐视觉量化表示
08:00HuggingFace Daily Papers(社区热门论文)51面向鲁棒视频理解的置信感知工具编排
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
01:23
Rohan Paul@rohanpaul_ai
62
172B token研究:LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。

arXiv检索增强安全/对齐论文/研究
01:12
jason@jxnlco
47
Codex 在 OpenAI 的使用为我们预览了未来智能体工作的可能面貌。 在一篇新论文中,OpenAI 经济研究团队着眼于从聊天到委托的更广泛转变:人们使用 AI 智能体不仅为了获取答案,还要委托更长时间、更复杂的工作。 https://openai.com/index/how-agents-are-transforming-work

OpenAI Newsroom: Codex usage at OpenAI gives us a preview of what agentic work may look like in the future. In a new paper, the OpenAI Ec...

智能体OpenAI论文/研究
01:12
Epoch AI@EpochAIResearch
31
中国 AI 公司有哪些策略? 为了更好地了解这一点,@cherylwoooo、@datagenproc 和 @ansonwhho 从六家主要中国公司抓取了超过 1600 条招聘信息。以下是他们的发现。🧵
现象/趋势论文/研究
00:54
AK@_akhaliq
27
DomainShuttle 自由形式开放域主体驱动文本生成视频
论文/研究
00:53
Microsoft Research@MSFTResearch
30
研究人员引入了生成式因果测试,它将黑箱模型转化为清晰的假设,并在扫描仪中进行验证,揭示了大脑特定区域对语言的反应。
Microsoft论文/研究
00:24
AK@_akhaliq
24
我们准备好迎接智能体原生记忆系统了吗?
智能体论文/研究
00:16
Hugging Face:Blog(RSS)
精选65
OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势

通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face开源生态推理论文/研究

推荐理由:OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里,优势在名词动词等意义词,但在重复 token 上接近消失,这份洞察对做模型架构的人很有启发性。
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
6月25日
18:58
IT之家(RSS)
43
富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍

富士通昨日介绍PHOTON(自上而下网络并行分层计算)架构,宣称多查询场景下性能至高可达Transformer的475倍。PHOTON采用语义分层处理替代词元级分割,降低计算复杂度并提升并行性,减少长上下文或多线程同步时的访存开销。测试显示,600M、900M、1.2B参数模型上实现更高迭代吞吐量和更低内存占用,其中1.2B模型达475倍性能但质量略低。此外,每次迭代所需KV Cache更少,可提升最大迭代次数,有助降低GPU成本。

推理论文/研究
18:23
Rohan Paul@rohanpaul_ai
49
为何更大的模型学得更多:容量、干扰与罕见任务保留的影响

Stanford、MIT、Harvard与Anthropic联合论文从训练层面解释大模型能力更强的原因:大模型遗忘更少,额外容量保护了弱学习信号。常见任务优先占据神经元,罕见任务在出现足够次数前被覆盖。小模型可能短暂捕捉罕见信号,但随后被常见任务更新覆盖。实验使用OLMo模型(4M到4B参数),结果显示大模型更好掌握低频任务,保留更多任务特征,梯度干扰更小。

Anthropic数据/训练论文/研究
18:13
HuggingFace Daily Papers(社区热门论文)
67
开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程
17:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
OpenAI内部报告:智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体OpenAI现象/趋势论文/研究
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)
推荐理由:OpenAI 第一次用内部数据量化智能体如何改变工作,非开发者增速 137 倍比工程师还猛,Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新,但比大多数发布会都更值得做策略的人看一眼。
16:12
HuggingFace Daily Papers(社区热门论文)
43
MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架,将多视角点跟踪作为额外几何与运动监督信号,用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系,对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标,MVTrack4Gen增强运动感知对应,使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上,该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究
15:12
HuggingFace Daily Papers(社区热门论文)
34
ShutterMuse:利用MLLM进行拍摄时摄影指导

现有美学裁剪基准仅评估事后裁剪,忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench,包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset(13万样本),并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上,ShutterMuse摄影师侧整体性能最佳,主体侧姿态推荐具有竞争力且推理成本更低。

多模态论文/研究
13:12
HuggingFace Daily Papers(社区热门论文)
44
V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究
12:12
HuggingFace Daily Papers(社区热门论文)
41
TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究
11:12
HuggingFace Daily Papers(社区热门论文)
精选70
Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。

arXiv推理视频论文/研究

推荐理由:把自回归视频扩散蒸馏到1-2步采样,VBench冲到84.63,这个配方让实时视频生成和交互世界模型从论文走进了工程落地,做视频产品的该看。
11:12
HuggingFace Daily Papers(社区热门论文)
52
DomainShuttle:面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。

arXiv多模态视频论文/研究
11:12
HuggingFace Daily Papers(社区热门论文)
43
Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据

Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。

智能体数据/训练论文/研究
09:00
公众号:蚂蚁百灵(Ling)
51
Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文,重新思考 FP4 预训练中的格式选择。研究发现,主流 E2M1 格式存在先天 Shrinkage Bias,导致数值量化时左右 rounding bin 不对称,该 bias 在训练中累积拖慢收敛。相比之下,E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform(RHT)后,更高的 bucket 利用率能转化为实际量化质量收益,收敛表现优于 E2M1。团队提出 UFP4 方案:在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT,并将 SR 用于 dy 量化。研究认为,细粒度量化与 RHT 引入后,FP4 训练已转向“局部分辨率主导”,uniform 4-bit 格式的价值应被重新评估。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
RedVox:语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
PolyFlow:面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

自回归Transformer可生成高质量网格拓扑,但串行解码计算量比并行模型慢数个数量级;连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器,将离散顶点位置和法线投影为连续逐顶点嵌入,通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后,任意网格可转换为统一连续顶点状态空间。基于此表示,PolyFlow采用Transformer流匹配框架,对提取的点云特征条件化,实现完全并行顶点状态去噪;推理时通过ODE求解器快速生成,并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上,PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
延迟验证破坏多智能体LLM信念:不稳定性阈值与最优校正器放置

多智能体大语言模型系统中,验证器与批评者智能体存在延迟,导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识,通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值:过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定;延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则,用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡,而接地事实性回答使真相成为吸收边界从而消除该效应。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
SAM2Matting:通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架,通过为基础追踪器(如 SAM2、SAM3)添加区域提议桥和专用抠图头,将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练,SAM2Matting 在视频抠图上实现了新 SOTA,支持多种提示类型,保持强时间一致性,并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
LiveEdit:面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
SharpMoE: 面向扩散MoE的显著性引导精确路由

SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号,使路由器在高噪声阶段也能识别显著token,并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明,SharpMoE作为即插即用方案可增强预训练收敛的MoE模型,在视觉生成任务上达到SOTA表现。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
MemoBench:动态变化环境中的世界建模基准测试

MemoBench 是一个针对视频生成模型在动态变化环境中的记忆一致性诊断基准,围绕“消失-重现”范式设计:目标物体经历物理过程后从画面中消失,模型需在其重新出现时正确恢复更新后的状态。基准包含 360 段真实与合成场景的真值片段,结合自动化指标与基于 VQA 的评估,覆盖四个诊断支柱。对八款当前最优模型的评测揭示了消失-重现模式下记忆一致性面临的关键难题与开放挑战。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
代码智能体需要多少静态结构?确定性锚定效应研究

基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。

智能体OpenAI编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
LLM程序修复代理中代码执行成本效益的实证研究

本研究分析了SWE-bench排行榜上7,745个代理轨迹,并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示:代码执行平均每任务8.8次测试运行,频率2-19,后期成功率更高;对商用SOTA代理,禁止执行与无限制执行间修复成功率差距仅1.25个百分点(无统计显著性),但禁止执行显著节省token与墙钟时间;执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行,应将其视为有明确成本收益权衡的资源。

智能体编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
聚类、路由、升级:面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
39
LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)

该方案在 LeHome Challenge 2026(ICRA 2026 双臂衣物折叠竞赛)中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作(VLA)策略:策略同时作为价值函数,预测动作、成功、进度及任务相关未来量,用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化,以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
NeuraDock Agent:低通道脑电图智能体的边界感知上下文接地架构

NeuraDock Agent是一个开源架构,将确定性本地EEG引擎与硬件感知语言层分离。它解析七通道脑电图,执行质量控制与审核后的频谱工作流,生成机器可读结果。大语言模型仅接收经过允许列表筛选的摘要和版本化上下文包,包含硬件描述、工作流、结果字段、实施边界、科学限制及参考案例,原始EEG和密集数组数据保留在本地。评估分三个层面:12份记录在十次数值重复中结果一致;请求捕获与故障注入实验验证了数据边界和本地工件保留;边界意识基准测试对36个普通和对抗性问题在4种上下文消融设置和2个LLM下产生288个输出,证实了硬件与实现感知接地机制的可行性,但未验证临床有效性。

arXiv其他论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
Ko-WideSearch:韩语广度搜索基准

现有网页智能体基准主要测深度搜索,缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准,通过自动化合成-验证流程构建。任务要求从集合父实体(如电视剧季、王朝)中完整列举成员并填充属性表,采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格,覆盖 190 个实体、16 个类别,设三个难度层级,通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示,智能体能恢复集合但无法填充行(Item-F1 92.8,Row-F1 53.7),难度提升准确率下降,增加搜索或花费无法缩小差距;难点在找到正确值而非格式化,自由文本单元格失败率最高。

智能体arXiv搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。

图像生成多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型,用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格,输入初始顶点位置、速度及材料类型(刚性或弹性),通过去噪扩散过程直接采样未来顶点轨迹,不依赖显式归纳偏置。概率性公式捕捉动力学不确定性,生成多种合理未来。模型在时间、空间和物体维度上分解注意力,实现置换不变的多物体推理。基于 10 万+模拟轨迹训练,可生成刚体和弹性力学,并泛化至混合材料、未见真实几何及更多物体场景,在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
DanceOPD:面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架,将每个样本路由至单一能力场,查询低噪声学生诱导状态,以速度MSE作为训练目标,使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源(包括无分类器指导等operator定义的速率场),在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力,同时保持锚点生成质量不受损。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
Qwen-Image-Agent:弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。

智能体图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
OPID: 智能体强化学习的在线策略技能蒸馏

OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ViQ:任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架,通过两阶段学习(文本对齐预训练与特征离散化)在离散表示中平衡语义与细节,并支持原生分辨率输入。预训练借助语言模型增强语义监督,离散化阶段采用近端表示学习逐步压缩特征空间,结合位置感知多头量化实现任意分辨率处理。多模态任务上,ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力,同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速,适用于不同大语言模型和训练方案。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。

智能体具身智能多模态论文/研究
‹ 上一页
1…45678…50
下一页 ›