全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「论文/研究」清除

6月26日周五

01:23Rohan Paul62172B token研究：LLM文档问答幻觉率实测

01:12jason47OpenAI 论文：从聊天到智能体委托

01:12Epoch AI31招聘信息揭示中国AI公司策略

00:54AK27DomainShuttle：开放域主体驱动视频生成

00:53Microsoft Research30微软生成式因果测试揭示语言脑区

00:24AK24智能体原生记忆系统，准备好了吗？

00:16Hugging Face：Blog（RSS）65精选OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

00:00Google Research：Blog（网页）55精选冻结多token预测加速Pixel上的Gemini Nano模型

6月25日周四

18:58IT之家（RSS）43富士通介绍PHOTON架构：多查询性能最高达Transformer的475倍

18:23Rohan Paul49为何更大的模型学得更多：容量、干扰与罕见任务保留的影响

18:13HuggingFace Daily Papers（社区热门论文）67开放权重LLM中的约束代价：结构化输出约束下工具调用抑制的实证研究

17:09OpenAI：官网动态（RSS · 排除企业/客户案例）65精选OpenAI内部报告：智能体Codex如何改变工作

16:12HuggingFace Daily Papers（社区热门论文）43MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

15:12HuggingFace Daily Papers（社区热门论文）34ShutterMuse：利用MLLM进行拍摄时摄影指导

13:12HuggingFace Daily Papers（社区热门论文）44V-Zero：无需答案标签的对比证据门控用于细粒度视觉推理

12:12HuggingFace Daily Papers（社区热门论文）41TryOnCrafter：通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

11:12HuggingFace Daily Papers（社区热门论文）70精选Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

11:12HuggingFace Daily Papers（社区热门论文）52DomainShuttle：面向开放域主题驱动的文本到视频生成

11:12HuggingFace Daily Papers（社区热门论文）43Autodata：让AI智能体成为数据科学家，自动构建高质量合成数据

09:00公众号：蚂蚁百灵（Ling）51Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

08:00HuggingFace Daily Papers（社区热门论文）56RedVox：语音模型在跨语言场景中的安全性与公平性差距

08:00HuggingFace Daily Papers（社区热门论文）49PolyFlow：面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

08:00HuggingFace Daily Papers（社区热门论文）55延迟验证破坏多智能体LLM信念：不稳定性阈值与最优校正器放置

08:00HuggingFace Daily Papers（社区热门论文）47SAM2Matting：通用图像和视频抠图

08:00HuggingFace Daily Papers（社区热门论文）51LiveEdit：面向实时扩散的流式视频编辑

08:00HuggingFace Daily Papers（社区热门论文）43SharpMoE：面向扩散MoE的显著性引导精确路由

08:00HuggingFace Daily Papers（社区热门论文）42MemoBench：动态变化环境中的世界建模基准测试

08:00HuggingFace Daily Papers（社区热门论文）58代码智能体需要多少静态结构？确定性锚定效应研究

08:00HuggingFace Daily Papers（社区热门论文）66LLM程序修复代理中代码执行成本效益的实证研究

08:00HuggingFace Daily Papers（社区热门论文）44聚类、路由、升级：面向成本感知的LLM服务的级联框架

08:00HuggingFace Daily Papers（社区热门论文）39LeHome Challenge 2026 衣物折叠竞赛获奖方案（在线第1、真实世界第2）

08:00HuggingFace Daily Papers（社区热门论文）45NeuraDock Agent：低通道脑电图智能体的边界感知上下文接地架构

08:00HuggingFace Daily Papers（社区热门论文）51Ko-WideSearch：韩语广度搜索基准

08:00HuggingFace Daily Papers（社区热门论文）48Qwen-Image-2.0-RL 技术报告

08:00HuggingFace Daily Papers（社区热门论文）51PhysiFormer：世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

08:00HuggingFace Daily Papers（社区热门论文）37DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

08:00HuggingFace Daily Papers（社区热门论文）65Qwen-Image-Agent：弥合真实图像生成中的上下文差距

08:00HuggingFace Daily Papers（社区热门论文）41OPID：智能体强化学习的在线策略技能蒸馏

08:00HuggingFace Daily Papers（社区热门论文）54ViQ：任意分辨率的文本对齐视觉量化表示

08:00HuggingFace Daily Papers（社区热门论文）51面向鲁棒视频理解的置信感知工具编排

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月26日

01:23

Rohan Paul@rohanpaul_ai

62

172B token研究：LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现：最佳模型在32K上下文下虚构率1.19%；强模型通常为5%-7%；中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时，所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明，幻觉不仅是检索失败，模型即便能正确找到事实，也易在事实缺失时过度作答。

arXiv 检索增强安全/对齐论文/研究

01:12

jason@jxnlco

47

Codex 在 OpenAI 的使用为我们预览了未来智能体工作的可能面貌。在一篇新论文中，OpenAI 经济研究团队着眼于从聊天到委托的更广泛转变：人们使用 AI 智能体不仅为了获取答案，还要委托更长时间、更复杂的工作。 https://openai.com/index/how-agents-are-transforming-work

OpenAI Newsroom: Codex usage at OpenAI gives us a preview of what agentic work may look like in the future. In a new paper, the OpenAI Ec...

智能体 OpenAI 论文/研究

01:12

Epoch AI@EpochAIResearch

31

中国 AI 公司有哪些策略？为了更好地了解这一点，@cherylwoooo、@datagenproc 和 @ansonwhho 从六家主要中国公司抓取了超过 1600 条招聘信息。以下是他们的发现。🧵

现象/趋势论文/研究

00:54

AK@_akhaliq

27

DomainShuttle 自由形式开放域主体驱动文本生成视频

00:53

Microsoft Research@MSFTResearch

30

研究人员引入了生成式因果测试，它将黑箱模型转化为清晰的假设，并在扫描仪中进行验证，揭示了大脑特定区域对语言的反应。

Microsoft 论文/研究

00:24

AK@_akhaliq

24

我们准备好迎接智能体原生记忆系统了吗？

智能体论文/研究

00:16

Hugging Face：Blog（RSS）

精选65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如}）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face 开源生态推理论文/研究

推荐理由：OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里，优势在名词动词等意义词，但在重复 token 上接近消失，这份洞察对做模型架构的人很有启发性。

00:00

Google Research：Blog（网页）

精选55

冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

6月25日

18:58

IT之家（RSS）

43

富士通介绍PHOTON架构：多查询性能最高达Transformer的475倍

富士通昨日介绍PHOTON（自上而下网络并行分层计算）架构，宣称多查询场景下性能至高可达Transformer的475倍。PHOTON采用语义分层处理替代词元级分割，降低计算复杂度并提升并行性，减少长上下文或多线程同步时的访存开销。测试显示，600M、900M、1.2B参数模型上实现更高迭代吞吐量和更低内存占用，其中1.2B模型达475倍性能但质量略低。此外，每次迭代所需KV Cache更少，可提升最大迭代次数，有助降低GPU成本。

推理论文/研究

18:23

Rohan Paul@rohanpaul_ai

49

为何更大的模型学得更多：容量、干扰与罕见任务保留的影响

Stanford、MIT、Harvard与Anthropic联合论文从训练层面解释大模型能力更强的原因：大模型遗忘更少，额外容量保护了弱学习信号。常见任务优先占据神经元，罕见任务在出现足够次数前被覆盖。小模型可能短暂捕捉罕见信号，但随后被常见任务更新覆盖。实验使用OLMo模型（4M到4B参数），结果显示大模型更好掌握低频任务，保留更多任务特征，梯度干扰更小。

Anthropic 数据/训练论文/研究

18:13

HuggingFace Daily Papers（社区热门论文）

67

开放权重LLM中的约束代价：结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时，多个开放权重LLM出现工具调用抑制（Tool Suppression）。控制实验在多模型与部署设置下复现了该现象。分析表明，JSON Schema约束被编译成基于语法的token掩码，导致工具调用token在解码中不可达。研究提出约束优先级反转（CPI）假设，并设计透明两遍执行（Transparent Two-Pass Execution）推理策略，将工具执行与模式约束响应生成解耦，无需重训练即可恢复工具调用并维持结构化输出。结果表明，单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程

17:09

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

OpenAI内部报告：智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到，智能体产品 Codex 取代 ChatGPT 成为主要工作工具，各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求，70.2%超1小时，25.6%超8小时；99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛：个体用户增长137倍，组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点，平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体 OpenAI 现象/趋势论文/研究

关联讨论 2 条X：Rohan Paul (@rohanpaul_ai)X：Jason Liu (@jxnlco)

推荐理由：OpenAI 第一次用内部数据量化智能体如何改变工作，非开发者增速 137 倍比工程师还猛，Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新，但比大多数发布会都更值得做策略的人看一眼。

16:12

HuggingFace Daily Papers（社区热门论文）

43

MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架，将多视角点跟踪作为额外几何与运动监督信号，用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系，对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标，MVTrack4Gen增强运动感知对应，使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上，该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究

15:12

HuggingFace Daily Papers（社区热门论文）

34

ShutterMuse：利用MLLM进行拍摄时摄影指导

现有美学裁剪基准仅评估事后裁剪，忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench，包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset（13万样本），并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上，ShutterMuse摄影师侧整体性能最佳，主体侧姿态推荐具有竞争力且推理成本更低。

多模态论文/研究

13:12

HuggingFace Daily Papers（社区热门论文）

44

V-Zero：无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型（MLLM）进行细粒度视觉推理时，传统方法依赖强化学习或大规模标注推理轨迹，成本高昂。V-Zero提出无需标注文本答案标签的框架，通过将问题相关区域裁剪与负视觉视图配对，评估学生模型采样轨迹，并门控细粒度token级知识蒸馏，引入轨迹级判别能力。在多个视觉推理基准上，V-Zero持续提升细粒度视觉推理性能并保持强泛化能力，训练速度比监督微调方法快5倍以上，比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究

12:12

HuggingFace Daily Papers（社区热门论文）

41

TryOnCrafter：通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿（CaM-VVT）的统一DiT框架。它引入可渲染4D试穿代理，将高保真2D试穿先验蒸馏为基于3DGS的服装化身，再由SMPL-X序列驱动动画并度量对齐至重建背景点云，实现人体与环境的显式解耦。基于该代理作为几何锚点，Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究

11:12

HuggingFace Daily Papers（社区热门论文）

精选70

Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散，提出教师强制(TF)与自强制(SF)互补训练范式，并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核，首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散，收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63，仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型，实现动作条件生成的交互式世界模型。

arXiv 推理视频论文/研究

推荐理由：把自回归视频扩散蒸馏到1-2步采样，VBench冲到84.63，这个配方让实时视频生成和交互世界模型从论文走进了工程落地，做视频产品的该看。

11:12

HuggingFace Daily Papers（社区热门论文）

52

DomainShuttle：面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成（S2V）的方法，支持域内（高保真保留参考主体特征）和跨域（允许主体无关属性随文本提示灵活变化）两种场景。该方法引入 Domain-MoT 模块，通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模；提出 Video-Reference DualRoPE 方案，将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模；设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明，DomainShuttle 在多种开放域场景中相比现有方法实现显著提升，兼具高主体保真度与生成灵活性。

arXiv 多模态视频论文/研究

11:12

HuggingFace Daily Papers（社区热门论文）

43

Autodata：让AI智能体成为数据科学家，自动构建高质量合成数据

Autodata是一种通用方法，使AI智能体扮演数据科学家角色，自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化，使其学会生成更优数据，具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明，Autodata生成的合成数据集质量优于经典方法，且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据，有望改变AI数据的构建方式。

智能体数据/训练论文/研究

09:00

公众号：蚂蚁百灵（Ling）

51

Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文，重新思考 FP4 预训练中的格式选择。研究发现，主流 E2M1 格式存在先天 Shrinkage Bias，导致数值量化时左右 rounding bin 不对称，该 bias 在训练中累积拖慢收敛。相比之下，E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform（RHT）后，更高的 bucket 利用率能转化为实际量化质量收益，收敛表现优于 E2M1。团队提出 UFP4 方案：在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT，并将 SR 用于 dy 量化。研究认为，细粒度量化与 RHT 引入后，FP4 训练已转向“局部分辨率主导”，uniform 4-bit 格式的价值应被重新评估。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

RedVox：语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准，覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示，即使在非对抗性条件下，漏洞依然存在；在非英语语言中问题更严重，且当请求来自语音输入时风险被放大。通过调查数据贡献者，研究还揭示了语音数据收集中的个人隐私挑战，指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

PolyFlow：面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

自回归Transformer可生成高质量网格拓扑，但串行解码计算量比并行模型慢数个数量级；连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器，将离散顶点位置和法线投影为连续逐顶点嵌入，通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后，任意网格可转换为统一连续顶点状态空间。基于此表示，PolyFlow采用Transformer流匹配框架，对提取的点云特征条件化，实现完全并行顶点状态去噪；推理时通过ODE求解器快速生成，并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上，PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

延迟验证破坏多智能体LLM信念：不稳定性阈值与最优校正器放置

多智能体大语言模型系统中，验证器与批评者智能体存在延迟，导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识，通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值：过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定；延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则，用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡，而接地事实性回答使真相成为吸收边界从而消除该效应。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

SAM2Matting：通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架，通过为基础追踪器（如 SAM2、SAM3）添加区域提议桥和专用抠图头，将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练，SAM2Matting 在视频抠图上实现了新 SOTA，支持多种提示类型，保持强时间一致性，并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

LiveEdit：面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架，通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器，实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算，将推理速度提升至12.66 FPS，在流式基线中取得最优视觉质量，适用于交互式与增强现实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

SharpMoE：面向扩散MoE的显著性引导精确路由

SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号，使路由器在高噪声阶段也能识别显著token，并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明，SharpMoE作为即插即用方案可增强预训练收敛的MoE模型，在视觉生成任务上达到SOTA表现。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

MemoBench：动态变化环境中的世界建模基准测试

MemoBench 是一个针对视频生成模型在动态变化环境中的记忆一致性诊断基准，围绕“消失-重现”范式设计：目标物体经历物理过程后从画面中消失，模型需在其重新出现时正确恢复更新后的状态。基准包含 360 段真实与合成场景的真值片段，结合自动化指标与基于 VQA 的评估，覆盖四个诊断支柱。对八款当前最优模型的评测揭示了消失-重现模式下记忆一致性面临的关键难题与开放挑战。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

代码智能体需要多少静态结构？确定性锚定效应研究

基于LLM的代码智能体依赖关键词搜索导航仓库，但缺失调用图、继承关系等结构信息，导致导航随机且难以复现。研究以OpenAI Codex为基线，向提示词注入不同粒度的轻量级静态结构注释，发现确定性锚定效应：函数级定位Func@5提升2.2个百分点，交互轮次减少1.6轮；链接跟随率从0.15–0.18升至0.21–0.24，单次运行Pass@1提升3.4个百分点，但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑，大型仓库剪枝前向边，密度高的语义注释仅用于隐式依赖场景。

智能体 OpenAI 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

LLM程序修复代理中代码执行成本效益的实证研究

本研究分析了SWE-bench排行榜上7,745个代理轨迹，并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示：代码执行平均每任务8.8次测试运行，频率2-19，后期成功率更高；对商用SOTA代理，禁止执行与无限制执行间修复成功率差距仅1.25个百分点（无统计显著性），但禁止执行显著节省token与墙钟时间；执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行，应将其视为有明确成本收益权衡的资源。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

聚类、路由、升级：面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案，用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型；第二阶段引入质量估计（QE）级联，将低质量输出升级至更强模型。在测试集上，该系统保留了最强模型97-99%的准确性，同时降低了每个输出token的时间（TPOT）。仅需任务正确性标签即可适应模型池变化，无需手动重新配置。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

39

LeHome Challenge 2026 衣物折叠竞赛获奖方案（在线第1、真实世界第2）

该方案在 LeHome Challenge 2026（ICRA 2026 双臂衣物折叠竞赛）中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作（VLA）策略：策略同时作为价值函数，预测动作、成功、进度及任务相关未来量，用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化，以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

NeuraDock Agent：低通道脑电图智能体的边界感知上下文接地架构

NeuraDock Agent是一个开源架构，将确定性本地EEG引擎与硬件感知语言层分离。它解析七通道脑电图，执行质量控制与审核后的频谱工作流，生成机器可读结果。大语言模型仅接收经过允许列表筛选的摘要和版本化上下文包，包含硬件描述、工作流、结果字段、实施边界、科学限制及参考案例，原始EEG和密集数组数据保留在本地。评估分三个层面：12份记录在十次数值重复中结果一致；请求捕获与故障注入实验验证了数据边界和本地工件保留；边界意识基准测试对36个普通和对抗性问题在4种上下文消融设置和2个LLM下产生288个输出，证实了硬件与实现感知接地机制的可行性，但未验证临床有效性。

arXiv 其他论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

Ko-WideSearch：韩语广度搜索基准

现有网页智能体基准主要测深度搜索，缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准，通过自动化合成-验证流程构建。任务要求从集合父实体（如电视剧季、王朝）中完整列举成员并填充属性表，采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格，覆盖 190 个实体、16 个类别，设三个难度层级，通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示，智能体能恢复集合但无法填充行（Item-F1 92.8，Row-F1 53.7），难度提升准确率下降，增加搜索或花费无法缩小差距；难点在找到正确值而非格式化，自由文本单元格失败率最高。

智能体 arXiv 搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation（OPD）提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型，覆盖文生图的对齐、美学、肖像保真度，以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示，Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84（+2.61），文生图 Elo 1193（+78），图像编辑 Elo 1349（+93）。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

PhysiFormer：世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型，用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格，输入初始顶点位置、速度及材料类型（刚性或弹性），通过去噪扩散过程直接采样未来顶点轨迹，不依赖显式归纳偏置。概率性公式捕捉动力学不确定性，生成多种合理未来。模型在时间、空间和物体维度上分解注意力，实现置换不变的多物体推理。基于 10 万+模拟轨迹训练，可生成刚体和弹性力学，并泛化至混合材料、未见真实几何及更多物体场景，在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架，将每个样本路由至单一能力场，查询低噪声学生诱导状态，以速度MSE作为训练目标，使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源（包括无分类器指导等operator定义的速率场），在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力，同时保持锚点生成质量不受损。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

Qwen-Image-Agent：弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”，Qwen-Image-Agent 提出统一智能体框架，以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径，Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上，Qwen-Image-Agent 超越强基线，取得最优性能。

智能体图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

41

OPID：智能体强化学习的在线策略技能蒸馏

OPID从在线策略轨迹中提取技能监督，构建分层技能：回合级技能捕获全局流程，步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能，默认回退至回合级。技能注入交互历史后，旧策略在原始与技能增强上下文下重新评分同一响应，产生token级自蒸馏优势，与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上，OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

ViQ：任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架，通过两阶段学习（文本对齐预训练与特征离散化）在离散表示中平衡语义与细节，并支持原生分辨率输入。预训练借助语言模型增强语义监督，离散化阶段采用近端表示学习逐步压缩特征空间，结合位置感知多头量化实现任意分辨率处理。多模态任务上，ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力，同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速，适用于不同大语言模型和训练方案。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠，在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段：通过统一接口组织异构视觉工具，每个工具接收子查询和经可靠性-相关性评分筛选的可信帧，返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合（高/中/低）与置信-成本GRPO奖励，联合优化正确性、可靠性和效率。在八个任务上，Robust-TO清洗输入准确率56.4%，超过最强开源基线10.6%p和Gemini-2.5-Pro（46.2%）；五种腐蚀下保持54.3%，高出最强开源基线5.8%p，且准确率下降最小。

智能体具身智能多模态论文/研究

1…4 567 8…50