6月26日

08:00

HuggingFace Daily Papers（社区热门论文）

研究从人类动作数据向双臂平行夹爪机器人转移操作技能的方法。针对6DoF人体姿态估计噪声大、接触模式差异大的问题，提出桥接动作表示——初始头部相机帧内的相对手腕平移，作为人类与机器人共有的动作空间。构建π_0-like视觉-语言-动作模型，通过交错动作token和注意力掩码处理不同形态间动作分量的缺失。在双臂操作任务上，该方法比噪声6DoF动作更有效地转移人类操作知识，且效果随人类数据量增加而提升。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NormGuard：流匹配强化学习中保持奖励的规范约束

流匹配生成模型在强化学习后训练中，速度范数膨胀5%-15%导致感知质量下降，而推理时重缩放无法修复。NormGuard引入铰链惩罚，仅在速度范数超过参考值时激活，可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法（NFT、AWM、DPO）和两种奖励代理上，NormGuard一致提升MLLM评判的图像质量和逼真度，同时保持奖励，且收益在少步推理下进一步放大，并非由早停解释。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ProMSA：渐进式多模态搜索智能体用于知识型视觉问答

ProMSA是一种渐进式多模态搜索智能体，用于知识型视觉问答（KB-VQA）。给定图像-问题对，智能体在明确的工具调用预算和去重机制下，迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式，再使用TN-GSPO序列级RL目标优化，该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上，ProMSA持续优于强RAG和智能体基线，提升了检索和端到端准确率。代码已开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysisForcing：面向机器人操作的物理增强世界模拟器

视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征，重点监督物理信息区域来强化物理一致性，包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上，PhysisForcing 一致提升基线模型：Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%（优于普通微调的 7.1% 和 3.7%），Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型，闭环成功率从 16.0% 提升至 24.0%，并改善下游策略。

具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SimFoundry：面向策略学习与评估的模块化自动化场景生成系统

SimFoundry是一个模块化自动化系统，能从视频零样本构建真实到仿真的场景，生成可用的数字孪生，并支持对象、场景和任务的编辑，自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务；数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上，SimFoundry仿真评估与真实性能高度相关（平均Pearson相关系数0.911，最大排序违反0.018）。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中，任务成功率分别提升17%、21%和40%。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

迈向自动化科学评审：Google 的 Paper Assistant Tool（PAT）

Google 发布 Paper Assistant Tool（PAT），一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文，生成综合评估，包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术，PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点，可发现关键错误并提出实质性改进，在保留评审员对结果控制权的同时减轻其认知负担。

智能体 Google 推理论文/研究

04:55

Lilian Weng：Lil'Log（RSS）

扩展定律综述：参数、数据与计算的最优分配

扩展定律揭示训练损失随模型参数量N、数据集大小D和计算量C按幂律递减。文章回顾了Kaplan等人（2020）及Chinchilla扩展定律的三种拟合方法（固定模型大小改变token预算、等FLOP曲线、参数拟合），以及Amari等人（1992）和Hestness等人（2017）的早期学习曲线研究。还探讨了数据有限区域的扩展定律、实际拟合陷阱与玩具模拟，核心在于最优分配计算资源于N和D。

数据/训练论文/研究

03:01

Hacker News 热门（buzzing.cc 中文翻译）

精选78

IBM 首度推出亚纳米级芯片技术

IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术，采用 0.7 nm（7 埃米）节点与全新三维纳米堆叠（nanostack）架构。指甲盖大小的芯片集成近 1000 亿个晶体管，密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片，性能最高提升 50%，能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%，有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证，IBM 预计 5 年内量产。

推理数据/训练论文/研究

推荐理由：IBM 把芯片制程推进到亚纳米，0.7nm 意味着 AI 芯片能塞进两倍晶体管，这对生成式 AI 的算力瓶颈是个好消息。虽然量产还要五年，但技术路线图清晰，值得关注。

02:31

Hacker News 热门（buzzing.cc 中文翻译）

精选79

赫库兰尼姆古卷首次被完整虚拟解读

研究人员利用高分辨率X射线显微断层扫描和机器学习，在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667（Scroll4）。这是首卷被从头到尾连续读取的纸莎草卷，内容为斯多葛哲学论著，提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见，独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。

GitHub 开源生态论文/研究

关联讨论 1 条

推荐理由：两千年来首次完整读取密封的古卷，用 X 射线和机器学习做到了，还把数据和代码全开放了，我觉得这是 AI 应用在人文领域最优雅的示范之一。

01:37

Google Research：Blog（网页）

用线性弹性缓存优化云经济

Google Research 与 Google Cloud 提出线性弹性缓存，将缓存管理转为线性成本优化问题，动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架，在租用内存（持续付费）与购买缺失（缓存未命中惩罚）间选择，并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下（每 GiB 内存每天 $3），该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。

Google 论文/研究部署/工程

00:16

Hugging Face：Blog（RSS）

精选65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如}）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face 开源生态推理论文/研究

推荐理由：OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里，优势在名词动词等意义词，但在重复 token 上接近消失，这份洞察对做模型架构的人很有启发性。

00:00

Google Research：Blog（网页）

精选55

冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

6月25日

18:58

IT之家（RSS）

富士通介绍PHOTON架构：多查询性能最高达Transformer的475倍

富士通昨日介绍PHOTON（自上而下网络并行分层计算）架构，宣称多查询场景下性能至高可达Transformer的475倍。PHOTON采用语义分层处理替代词元级分割，降低计算复杂度并提升并行性，减少长上下文或多线程同步时的访存开销。测试显示，600M、900M、1.2B参数模型上实现更高迭代吞吐量和更低内存占用，其中1.2B模型达475倍性能但质量略低。此外，每次迭代所需KV Cache更少，可提升最大迭代次数，有助降低GPU成本。

推理论文/研究

18:13

HuggingFace Daily Papers（社区热门论文）

开放权重LLM中的约束代价：结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时，多个开放权重LLM出现工具调用抑制（Tool Suppression）。控制实验在多模型与部署设置下复现了该现象。分析表明，JSON Schema约束被编译成基于语法的token掩码，导致工具调用token在解码中不可达。研究提出约束优先级反转（CPI）假设，并设计透明两遍执行（Transparent Two-Pass Execution）推理策略，将工具执行与模式约束响应生成解耦，无需重训练即可恢复工具调用并维持结构化输出。结果表明，单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程

17:09

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

OpenAI内部报告：智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到，智能体产品 Codex 取代 ChatGPT 成为主要工作工具，各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求，70.2%超1小时，25.6%超8小时；99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛：个体用户增长137倍，组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点，平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体 OpenAI 现象/趋势论文/研究

关联讨论 2 条

推荐理由：OpenAI 第一次用内部数据量化智能体如何改变工作，非开发者增速 137 倍比工程师还猛，Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新，但比大多数发布会都更值得做策略的人看一眼。

16:12

HuggingFace Daily Papers（社区热门论文）

MVTrack4Gen：多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架，将多视角点跟踪作为额外几何与运动监督信号，用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系，对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标，MVTrack4Gen增强运动感知对应，使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上，该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究

15:12

HuggingFace Daily Papers（社区热门论文）

ShutterMuse：利用MLLM进行拍摄时摄影指导

现有美学裁剪基准仅评估事后裁剪，忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench，包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset（13万样本），并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上，ShutterMuse摄影师侧整体性能最佳，主体侧姿态推荐具有竞争力且推理成本更低。

多模态论文/研究

13:12

HuggingFace Daily Papers（社区热门论文）

V-Zero：无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型（MLLM）进行细粒度视觉推理时，传统方法依赖强化学习或大规模标注推理轨迹，成本高昂。V-Zero提出无需标注文本答案标签的框架，通过将问题相关区域裁剪与负视觉视图配对，评估学生模型采样轨迹，并门控细粒度token级知识蒸馏，引入轨迹级判别能力。在多个视觉推理基准上，V-Zero持续提升细粒度视觉推理性能并保持强泛化能力，训练速度比监督微调方法快5倍以上，比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究

12:12

HuggingFace Daily Papers（社区热门论文）

TryOnCrafter：通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿（CaM-VVT）的统一DiT框架。它引入可渲染4D试穿代理，将高保真2D试穿先验蒸馏为基于3DGS的服装化身，再由SMPL-X序列驱动动画并度量对齐至重建背景点云，实现人体与环境的显式解耦。基于该代理作为几何锚点，Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究

11:12

HuggingFace Daily Papers（社区热门论文）

精选70

Causal-rCM：自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散，提出教师强制(TF)与自强制(SF)互补训练范式，并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核，首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散，收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63，仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型，实现动作条件生成的交互式世界模型。

arXiv 推理视频论文/研究

推荐理由：把自回归视频扩散蒸馏到1-2步采样，VBench冲到84.63，这个配方让实时视频生成和交互世界模型从论文走进了工程落地，做视频产品的该看。

11:12

HuggingFace Daily Papers（社区热门论文）

DomainShuttle：面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成（S2V）的方法，支持域内（高保真保留参考主体特征）和跨域（允许主体无关属性随文本提示灵活变化）两种场景。该方法引入 Domain-MoT 模块，通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模；提出 Video-Reference DualRoPE 方案，将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模；设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明，DomainShuttle 在多种开放域场景中相比现有方法实现显著提升，兼具高主体保真度与生成灵活性。

arXiv 多模态视频论文/研究

11:12

HuggingFace Daily Papers（社区热门论文）

Autodata：让AI智能体成为数据科学家，自动构建高质量合成数据

Autodata是一种通用方法，使AI智能体扮演数据科学家角色，自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化，使其学会生成更优数据，具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明，Autodata生成的合成数据集质量优于经典方法，且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据，有望改变AI数据的构建方式。

智能体数据/训练论文/研究

09:00

公众号：蚂蚁百灵（Ling）

Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文，重新思考 FP4 预训练中的格式选择。研究发现，主流 E2M1 格式存在先天 Shrinkage Bias，导致数值量化时左右 rounding bin 不对称，该 bias 在训练中累积拖慢收敛。相比之下，E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform（RHT）后，更高的 bucket 利用率能转化为实际量化质量收益，收敛表现优于 E2M1。团队提出 UFP4 方案：在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT，并将 SR 用于 dy 量化。研究认为，细粒度量化与 RHT 引入后，FP4 训练已转向“局部分辨率主导”，uniform 4-bit 格式的价值应被重新评估。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RedVox：语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准，覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示，即使在非对抗性条件下，漏洞依然存在；在非英语语言中问题更严重，且当请求来自语音输入时风险被放大。通过调查数据贡献者，研究还揭示了语音数据收集中的个人隐私挑战，指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PolyFlow：面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

自回归Transformer可生成高质量网格拓扑，但串行解码计算量比并行模型慢数个数量级；连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器，将离散顶点位置和法线投影为连续逐顶点嵌入，通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后，任意网格可转换为统一连续顶点状态空间。基于此表示，PolyFlow采用Transformer流匹配框架，对提取的点云特征条件化，实现完全并行顶点状态去噪；推理时通过ODE求解器快速生成，并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上，PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

延迟验证破坏多智能体LLM信念：不稳定性阈值与最优校正器放置

多智能体大语言模型系统中，验证器与批评者智能体存在延迟，导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识，通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值：过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定；延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则，用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡，而接地事实性回答使真相成为吸收边界从而消除该效应。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAM2Matting：通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架，通过为基础追踪器（如 SAM2、SAM3）添加区域提议桥和专用抠图头，将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练，SAM2Matting 在视频抠图上实现了新 SOTA，支持多种提示类型，保持强时间一致性，并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LiveEdit：面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架，通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器，实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算，将推理速度提升至12.66 FPS，在流式基线中取得最优视觉质量，适用于交互式与增强现实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SharpMoE：面向扩散MoE的显著性引导精确路由

SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号，使路由器在高噪声阶段也能识别显著token，并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明，SharpMoE作为即插即用方案可增强预训练收敛的MoE模型，在视觉生成任务上达到SOTA表现。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MemoBench：动态变化环境中的世界建模基准测试

MemoBench 是一个针对视频生成模型在动态变化环境中的记忆一致性诊断基准，围绕“消失-重现”范式设计：目标物体经历物理过程后从画面中消失，模型需在其重新出现时正确恢复更新后的状态。基准包含 360 段真实与合成场景的真值片段，结合自动化指标与基于 VQA 的评估，覆盖四个诊断支柱。对八款当前最优模型的评测揭示了消失-重现模式下记忆一致性面临的关键难题与开放挑战。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

代码智能体需要多少静态结构？确定性锚定效应研究

基于LLM的代码智能体依赖关键词搜索导航仓库，但缺失调用图、继承关系等结构信息，导致导航随机且难以复现。研究以OpenAI Codex为基线，向提示词注入不同粒度的轻量级静态结构注释，发现确定性锚定效应：函数级定位Func@5提升2.2个百分点，交互轮次减少1.6轮；链接跟随率从0.15–0.18升至0.21–0.24，单次运行Pass@1提升3.4个百分点，但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑，大型仓库剪枝前向边，密度高的语义注释仅用于隐式依赖场景。

智能体 OpenAI 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLM程序修复代理中代码执行成本效益的实证研究

本研究分析了SWE-bench排行榜上7,745个代理轨迹，并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示：代码执行平均每任务8.8次测试运行，频率2-19，后期成功率更高；对商用SOTA代理，禁止执行与无限制执行间修复成功率差距仅1.25个百分点（无统计显著性），但禁止执行显著节省token与墙钟时间；执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行，应将其视为有明确成本收益权衡的资源。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

聚类、路由、升级：面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案，用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型；第二阶段引入质量估计（QE）级联，将低质量输出升级至更强模型。在测试集上，该系统保留了最强模型97-99%的准确性，同时降低了每个输出token的时间（TPOT）。仅需任务正确性标签即可适应模型池变化，无需手动重新配置。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

LeHome Challenge 2026 衣物折叠竞赛获奖方案（在线第1、真实世界第2）

该方案在 LeHome Challenge 2026（ICRA 2026 双臂衣物折叠竞赛）中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作（VLA）策略：策略同时作为价值函数，预测动作、成功、进度及任务相关未来量，用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化，以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NeuraDock Agent：低通道脑电图智能体的边界感知上下文接地架构

NeuraDock Agent是一个开源架构，将确定性本地EEG引擎与硬件感知语言层分离。它解析七通道脑电图，执行质量控制与审核后的频谱工作流，生成机器可读结果。大语言模型仅接收经过允许列表筛选的摘要和版本化上下文包，包含硬件描述、工作流、结果字段、实施边界、科学限制及参考案例，原始EEG和密集数组数据保留在本地。评估分三个层面：12份记录在十次数值重复中结果一致；请求捕获与故障注入实验验证了数据边界和本地工件保留；边界意识基准测试对36个普通和对抗性问题在4种上下文消融设置和2个LLM下产生288个输出，证实了硬件与实现感知接地机制的可行性，但未验证临床有效性。

arXiv 其他论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Ko-WideSearch：韩语广度搜索基准

现有网页智能体基准主要测深度搜索，缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准，通过自动化合成-验证流程构建。任务要求从集合父实体（如电视剧季、王朝）中完整列举成员并填充属性表，采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格，覆盖 190 个实体、16 个类别，设三个难度层级，通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示，智能体能恢复集合但无法填充行（Item-F1 92.8，Row-F1 53.7），难度提升准确率下降，增加搜索或花费无法缩小差距；难点在找到正确值而非格式化，自由文本单元格失败率最高。

智能体 arXiv 搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation（OPD）提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型，覆盖文生图的对齐、美学、肖像保真度，以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示，Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84（+2.61），文生图 Elo 1193（+78），图像编辑 Elo 1349（+93）。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysiFormer：世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型，用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格，输入初始顶点位置、速度及材料类型（刚性或弹性），通过去噪扩散过程直接采样未来顶点轨迹，不依赖显式归纳偏置。概率性公式捕捉动力学不确定性，生成多种合理未来。模型在时间、空间和物体维度上分解注意力，实现置换不变的多物体推理。基于 10 万+模拟轨迹训练，可生成刚体和弹性力学，并泛化至混合材料、未见真实几何及更多物体场景，在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架，将每个样本路由至单一能力场，查询低噪声学生诱导状态，以速度MSE作为训练目标，使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源（包括无分类器指导等operator定义的速率场），在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力，同时保持锚点生成质量不受损。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-Image-Agent：弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”，Qwen-Image-Agent 提出统一智能体框架，以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径，Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上，Qwen-Image-Agent 超越强基线，取得最优性能。

智能体图像生成论文/研究