7月1日

11:28

HuggingFace Daily Papers（社区热门论文）

小米提出 Xiaomi-GUI-0，一个面向真实移动环境的原生多模态 GUI 智能体。模型在真实设备闭环中训练和评估，采用物理设备为主、沙箱辅助的混合基础设施。训练数据涵盖高频头部任务、长尾意图泛化及反思与记忆增强样本，并通过错误驱动数据飞轮将失败轨迹转化为修正动作、反思解释和恢复示范。训练采用监督微调、step-level 强化学习和 agentic 强化学习三阶段渐进流程。在内部基准 RealMobile 上成功率达 72.0%，在 AndroidWorld 上达 78.9%，同时显著提升了真实任务中的执行稳定性和异常状态识别能力。

智能体论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

BlockPilot：基于实例自适应策略学习的扩散投机解码方法

针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题，BlockPilot 提出一种样本自适应策略，利用预填充层的表示首次预测每个样本的最优块大小，将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低，在 Qwen3-4B 模型、温度 T=1 条件下，实现接受长度 5.92 和 4.20 倍加速，无需牺牲生成质量。

arXiv 推理论文/研究

09:08

Hacker News 热门（buzzing.cc 中文翻译）

Meta AI 发布 Brain2Qwerty v2：无需手术的脑电波解码系统

Meta AI 推出 Brain2Qwerty v2，一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图（MEG）设备记录 9 名志愿者各 10 小时的打字脑活动，训练约 22,000 个句子，采用端到端深度学习并微调大语言模型。词准确率达 61%，最佳参与者达 78%，远超其他非侵入方法的 8%。解码精度随数据量对数线性提升，有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码，合作方 BCBL 开放 v1 数据集。

Meta 开源/仓库数据/训练论文/研究

06:04

Anthropic：Transformer Circuits（可解释性研究）

Anthropic 提出回合平均稀疏自编码器（Turn-Averaged SAE）

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE，大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集，回合平均特征更关注模型行为的高层特性（如错误答案），每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示：回合平均 SAE 在从 10 个回合中唯一识别目标（区分度）为 74%，低于每 token SAE 的 95%；但在全面描述回合（覆盖度）上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic 安全/对齐论文/研究

01:27

HuggingFace Daily Papers（社区热门论文）

SWE-Together： Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态，仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务，构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图，并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明，更强智能体成功率更高且所需干预更少，预示用户体验提升。

编码论文/研究评测/基准

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选70

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro，用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题，覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景，要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建，已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI 推理论文/研究

推荐理由：OpenAI 的新基准揭示了一个信号，GPT-5.6 在需要科学判断的模糊任务上进步神速，从不足 5% 到接近 30%，且单题成本仅几美元，这对 AI for Science 的落地想象空间影响不小。

6月30日

22:26

HuggingFace Daily Papers（社区热门论文）

一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍

异步流水线并行消除同步气泡，但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟，但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设，发现AdamW在一步延迟下退化，而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明，所提策略可缩小异步与同步训练的性能差距，展示大规模异步流水线并行的实用潜力。

数据/训练论文/研究部署/工程

20:26

HuggingFace Daily Papers（社区热门论文）

ILLUME-X：面向自由形式交错图文生成的统一多模态模型

ILLUME-X是一个统一多模态模型，能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现：面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略（适用于自由长度的多模态token序列），以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。

图像生成多模态论文/研究

20:02

IT之家（RSS）

Meta 公布 Brain2Qwerty v2 非侵入式脑机接口新研究：AI 从脑磁信号中"读心"，准确率最高达 78%

Meta 推出 Brain2Qwerty v2 非侵入式脑机接口研究，利用脑磁图（MEG）设备记录脑部磁场信号，通过 AI 模型还原自然语言。模型基于 9 名志愿者约 10 小时、22000 句子数据训练，并利用上下文补全噪声信号。实验显示平均单词识别准确率约 61%，最佳受试者达 78%，超半数测试句子错误不超过 1 个单词。目前仍需大型实验室级 MEG 设备，距离实用化有差距。Meta 已在 GitHub 开源训练代码，v2 数据集待论文接收后开放。

Meta 论文/研究

18:26

HuggingFace Daily Papers（社区热门论文）

BeyondArena：超越IID的表格数据统一整体基准

BeyondArena是首个统一的表格数据整体基准，支持IID、时序、分组等任务，覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架，在11个模型与142个数据集上的评测显示：现有表格基础模型在中小规模IID数据上表现优秀，但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。

数据/训练论文/研究评测/基准

16:26

HuggingFace Daily Papers（社区热门论文）

纳米科技分子优化（NMO）基准测试

生成分子设计受限于药物性质代理基准和制药数据集预训练，难以迁移到结构不同的领域。为此提出纳米科技分子优化（NMO）基准测试，以量子模拟替代代理oracle，引入科学实用性优先的严格协议。NMO任务施加硬结构约束和崎岖适应度景观，先进优化方法反不及简单方法。新基线方法通过新型表示和领域无关预训练消除制药数据偏差，在物理性质上超越现有SOTA，并揭示未知结构基元。

数据/训练论文/研究

16:07

Hacker News 热门（buzzing.cc 中文翻译）

科学家发现液态水中两种结构的分子级证据

一项6月25日发表于《自然·物理学》的研究，通过分子动力学模拟和无监督深度学习，为液态水的“二态模型”提供了分子级证据。研究使用自动编码器分析水分子局部构型，在不预设条件下识别出两种微观结构：密度更高、更无序的结构A与密度更低、更有序的结构B。两种结构在宽温压范围内（包括近室温）均存在。该结果支持水在深过冷区存在液-液相变和第二临界点的假说，有助于解释水在4°C密度最大等反常现象。

其他论文/研究

15:26

HuggingFace Daily Papers（社区热门论文）

视频扩散模型在手部运动重建中的惊人有效性

ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态，通过手部叠加渲染目标适配扩散模型特征，保留世界先验的同时专门化手部特征，再由解码器恢复度量级姿态。整个管道直接处理全帧，无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上，ViDiHand 显著优于现有方法，表明视频扩散模型可作为手部运动重建的新基础，并为具身智能的可扩展野外数据收集提供途径。

arXiv 具身智能多模态论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

InnerZoom：单前向跨层证据桥接实现精准高效GUI定位

针对MLLM自回归坐标生成丢失区域级目标证据的问题，InnerZoom提出单前向跨层证据桥接框架，将原始前向中的目标线索压缩为跨层证据状态，在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优，OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6，分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点，对比两遍ZoomIn平均提升1.3点，端到端延迟降低31.8%，TFLOPs降低约29%。代码与模型将开源。

智能体多模态论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

SafePyramid：上下文策略防护的分层安全基准

SafePyramid是一款安全基准，包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级：L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护，发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。

OpenAI 安全/对齐论文/研究评测/基准

12:26

HuggingFace Daily Papers（社区热门论文）

NeuWorld：通过神经隐式场景实现交互式世界探索

NeuWorld提出场景中心范式Walking in the Implicit，将交互式视频生成的滚动变量从帧级潜变量替换为固定长度的可渲染隐式状态NIS。模型利用Transformer VAE从稀疏有姿态帧学习局部锚定的NIS，并通过扩散Transformer根据未来相机轨迹和几何感知历史演化NIS。通过复用VAE编码器作为统一条件器，将相机、参考图像和历史线索映射到同一NIS模态，避免外部异构编码器。模型在公开姿态视图数据上从头训练，未使用预训练视频骨干或3D重建器，实现了强长程一致性和有利推理效率。

arXiv 视频论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

DreamForge-World 0.1 Preview：低算力实时可控世界模型预览版

DreamForge-World 0.1 Preview 是一款低算力实时交互世界模型预览版，基于 LongLive 1 自回归视频栈（源自 Wan2.1-T2V-1.3B）和 Matrix-Game 系列的残差动作路径。支持实时键盘鼠标控制、多模态初始化、中流重提示及双视角操作。在单张 RTX 4090 上以原生 480p 分辨率达到 14-15 FPS，内存占用低，展示了在消费级 GPU 上实现实时可控世界模型预览的低算力路线。

开源生态视频论文/研究

12:02

IT之家（RSS）

Meta 发布自研 Vistara 芯片，复用拆机 DDR4 内存搭配 DDR5 新服务器

Meta 在 ISCA 2026 大会发布自研 Vistara ASIC 方案，通过 CXL 2.0/1.1 规范的 PCIe Gen5 x16 接口将拆机 DDR4 内存桥接到新服务器。每台 MemServer 配备 768GB DDR5 和 256GB DDR4（3:1 配比），单个 ASIC 支持双通道 DDR4 最高 3200 MT/s、最大 256GB。该方案已在数百万台服务器中用于分离式机器学习推理、大数据处理等场景，可将推理服务器数量最多减少 25%，分布式缓存平均延迟降低 29%。

Meta 论文/研究部署/工程

11:26

HuggingFace Daily Papers（社区热门论文）

精选77

Agents-A1：35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1，一个 35B 参数的 Mixture-of-Experts 智能体模型，通过扩展智能体 horizon（长轨迹与异构能力两个视角）达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施，生成平均 45K token 的智能体轨迹，并采用三阶段训练：全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏（含显著词汇对齐）。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro，Agents-A1 在 SEAL-0（56.4）、IFBench（80.6）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）和 MolBench-Bind（56.8）上领先，并在 SciCode（44.3）、HLE（47.6）和 BrowseComp（75.5）上保持强竞争力。

智能体推理论文/研究

推荐理由：用35B模型追平1T参数模型，这条“扩展智能体视野”的路比无脑堆参数务实得多，做Agent和长程推理的团队必须认真读。

11:26

HuggingFace Daily Papers（社区热门论文）

TACO：面向智能体工具使用的工具增强信用优化

TACO是一种基于GRPO的变体，专为代码工具agent设计。它通过两个耦合优势通道解决工具调用信用分配：Differential Answer-Probe Reward（DAPR）在推理中插入探针token，自监督比较有无工具时的预测差异，为每次调用赋予正/负/零价值，无需外部评判器；Outcome-Gated Advantage Routing（OGAR）根据调用结果将最终答案优势仅分配给导致正确输出的段，抑制无用调用。经两阶段SFT+RL训练后，TACO在感知、推理和通用多模态基准上取得一致准确率提升，且学会仅在必要时调用工具。

多模态论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

Nemotron-Labs-Diffusion-Image：掩蔽离散扩散模型的文本到图像合成

Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型（MDM）。它引入token编辑机制，使推理时能动态修改已揭开的离散token，弥补标准MDM缺乏自纠正能力的缺陷；提出分组交叉熵（GCE）目标函数，为嵌入空间中邻近真实token的相邻token分配正学习信号，缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符，显著降低大词汇量场景下的显存占用。实验结果显示，该模型在GenEval上得分为0.90，DPG 86.9，HPSv3 10.76。

图像生成数据/训练论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

Orca：一个通用世界基础模型

Orca通过下一状态预测（Next-State-Prediction）统一建模多模态世界信号，学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注，包含无意识学习（连续视频中的密集自然状态转换）和有意识学习（语言描述事件和VQA监督下的稀疏状态转换）。冻结主干后，仅训练轻量级模态特定解码器，即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv 具身智能多模态论文/研究

10:26

HuggingFace Daily Papers（社区热门论文）

GUICrafter：利用海量未标注截图的弱监督GUI智能体

GUICrafter是一个弱监督GUI智能体，通过两阶段课程学习框架降低对人工标注的依赖：阶段1利用大规模未标注截图和网页学习视觉定位，阶段2使用少量高质量数据通过强化学习校准。实验显示，GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能；在相同标注数据量下，其表现超越所有先前方法（如GUI-R1）。代码、数据和模型已开源。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

看见不等于共享：视觉语言模型在不对称对话中高估共同基础

基于HCRC MapTask对话中13077条标注指代的研究发现，视觉语言模型（VLM）难以区分对话参与者间“可能共享”与“已共享”的信息。提供真实地图图像会提升整体性能，但导致模型过度预测对齐；文本描述再现该偏差，非信息性图像则完全抑制对齐预测，表明偏差来源于任务相关地图内容而非视觉通道。校准分析与指代链追踪显示，模型依赖地图上的静态指代线索，而非通过对话历史追踪接地进程。该现象在Qwen3-VL-8B-Instruct上最为显著，另四个来自两种架构族的模型也有不同程度表现。地图内容无论是视觉还是文本呈现，均被模型当作相互理解的证据，混淆了潜在与已建立的共同基础。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GRPO、Dr. GRPO 与 DAPO：组标准差上的三种操作

GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同，实则都调节同一个数值——组标准差。对于二值奖励（正确/错误），组标准差衡量同一提示下多个答案的不一致程度：答案对半开时最大，全一致时为零。GRPO 除以该标准差，Dr. GRPO 去掉除法，DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置，并给出组标准差同一性：不一致的组产生最大更新，一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HealthAgentBench：面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布，包含54项医疗任务（7个类别），每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后，整体任务成功率低，最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难，而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体 Microsoft 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PixelEyes：解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体，通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标，专用感知工具采用掩码引导视觉搜索（Mask-guided Visual Search）和语义区域广度优先搜索（Semantic-region BFS）提供精确定位，消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练，并引入Pinpoint-Bench零提示视觉搜索基准，用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ASPIRE：通过迭代机器人探索的自主技能编程系统

ASPIRE是一个持续学习系统，在代码即策略范式下自主编写和优化机器人控制程序，并累积经验为可复用的技能库。其三个组件为：闭环执行引擎（提供细粒度多模态轨迹，支持故障诊断、修复验证）、持续扩展的技能库（将修复蒸馏为可迁移知识）、进化搜索（生成多样化任务序列与控制程序）。在LIBERO-Pro扰动测试中比先前方法提升77%，Robosuite双臂交接提升72%，BEHAVIOR-1K长周期家务提升32%。其技能库实现零样本泛化：在LIBERO-Pro Long上ASPIRE成功率31%，对比方法仅4%。模拟发现的技能初步验证了仿真到真实迁移，减少了不同机器人与API上的编程工作量。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

当大语言模型粗心读取表格：衡量与减少数据引用错误

大语言模型在表格任务中仍会出现数据引用错误（DRE），即错误引用或遗漏表格数值。研究首次系统评估了不同模型（1.7B至20B参数）的DRE发生率，发现所有测试模型均存在该问题。将数据引用作为critic进行过滤和拒绝采样后，答案准确率提升最高达12.0%。团队训练了一个轻量级4B参数critic模型，在分布内和分布外DRE检测上取得平均F1分数78.2%，并能有效辅助更大模型进行推理。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoTrainess：自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体，将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口，通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上，AutoTrainess使用GPT-5.4（Codex）取得26.94平均得分，而纯CLI基线为23.21；该智能体还跨模型泛化，将DeepSeek-V4-Flash（OpenCode）的得分从12.13提升至19.58。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AtomiMed：层次化原子事实检查实现通用临床感知的医学报告评估

现有医学报告生成评估指标依赖表层n-gram重叠，无法捕捉临床事实准确性且易忽略灾难性诊断错误。AtomiMed是一种通用、跨模态框架，将医学叙述分解为标准化多层次原子临床事实（疾病级实体与位置、形态、严重程度等属性级描述），并通过在地面真实与预测报告间执行智能体交叉验证循环模拟多放射科医生同行评审，实现诊断检测与描述准确性的解耦评估。配套开源工具包MRGEvalKit与多模态基准OmniMRG-Bench（覆盖X光、CT、MRI、超声）。实验表明，AtomiMed与人类判断相关性显著高于传统及基于模型的指标。代码已开源。

arXiv GitHub 论文/研究

02:26

Hugging Face：Blog（RSS）

DiScoFormer：一个跨分布同时估计密度与分数的单一Transformer模型

DiScoFormer（Density and Score Transformer）是一个无需重新训练即可从数据点估计分布密度和分数的单一模型。它利用Transformer的交叉注意力机制，在单次前向传播中输出密度和分数，并通过一致性损失实现分布外自适应。在100维空间中，DiScoFormer比最优调参的核密度估计（KDE）降低分数误差约6.5倍、密度误差超过37倍，且随样本量增加持续提升，而KDE内存耗尽。模型基于高斯混合模型训练，可泛化至非高斯分布（如Laplace、Student-t）及未见过的多模态混合。

数据/训练论文/研究

6月29日

18:36

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI 报告：绘制欧洲 AI 劳动力机遇版图

OpenAI 发布新报告，分析 AI 对欧盟就业的影响，划定哪些职业面临自动化、增长或工作流程变化。

OpenAI 现象/趋势论文/研究

推荐理由：与常见的「AI会取代工作」观点不同，OpenAI 用具体数据画出了欧洲就业的迁移路线，政策制定者应该打开看看，虽然报告全文的方法论尚待检验。

18:34

Hacker News 热门（buzzing.cc 中文翻译）

黑盒大语言模型的知识蒸馏

GPT-4 等闭源大语言模型性能优异，但因其作为黑盒教师无法提供内部状态，限制了知识蒸馏的效果。Proxy-KD 方法引入一个代理模型，实现从黑盒 LLM 到小模型的高效知识迁移。实验结果显示，Proxy-KD 不仅提升了黑盒教师蒸馏的性能，还超越了传统白盒蒸馏技术。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CogSENet：受鹰视觉启发的盲图像去模糊框架

CogSENet是一种受鹰视觉启发的动态语义对齐重建框架，用于盲图像去模糊。核心模块包括：语义驱动状态空间模块（SDSSM），通过可微分路由实现语义感知的token重组与提示条件长程依赖建模；双频融合块（BFFB），用小波变换分解高低频特征，模拟鹰视网膜功能分化；连续模糊场（CBF），从模糊图像估计算法融合CLIP语义先验，调制深层潜特征以适应空间非均匀模糊。实验表明，CogSENet以更少参数在视觉质量和结构保真度上超越现有去模糊方法，并在去雾、去雨、去噪任务上表现良好。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SciIR：面向科学图像推理生成的大规模训练数据集与基准

针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足，本文提出SciIR框架，基于皮尔斯符号学三元组，涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集，含超8万高质量科学图像-文本对，来自前沿论文，并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足；在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SWE-Interact：重新构想面向用户驱动的多轮编码会话的SWE基准测试

SWE-Interact是一个面向编码智能体的新测试平台，评估其在多轮、交互式、用户驱动的软件工程任务中的表现。与一次性给出完整需求的传统SWE基准不同，它通过精心设计的用户模拟器，从模糊指令开始逐步揭示需求并提供反馈。在系列前沿和开源模型测试中，单轮任务表现优异的模型在多轮交互任务上的成功率从约50%降至约25%。最强模型虽能应对初始模糊指令，但仍存在过度编码、遗忘需求等技术错误；较弱模型则早早放弃或忽略要求。该测试衡量了模型交互式目标发现和迭代精炼的真实能力。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

评估策略还是措辞？LLM数学推理中表面多样性与策略多样性之间的鸿沟

本文提出策略多样性（approach-level diversity），即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架，发现现有表面多样性指标无法可靠反映策略多样性，且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果，但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MOPD：多教师在线蒸馏实现大语言模型后训练能力整合

大语言模型后训练中常用强化学习提升特定能力，但多能力整合困难。现有Off-Policy Finetune和Mix-RL等方法效率低或性能下降。MOPD提出新范式：先对每个领域进行专用RL训练获得领域教师，再在学生模型自身rollout上蒸馏这些教师，消除暴露偏差并提供密集优化信号。在Qwen3-30B-A3B上，MOPD优于Mix-RL、Cascade RL、Off-Policy Finetune和Param-Merge基线，几乎继承每位教师全部能力。MOPD支持领域教师并行独立开发，去除跨领域耦合，已部署于工业级模型MiMo-V2-Flash的后训练。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道，将复合图表分解为独立子面板，并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章，从 180,571 张图中生成 MatSciFig 数据集，包含 391,606 个面板级图像-文本对，每对配有子标题、两级可视化类别（19 个大类、100+ 子类）和科学摘要。引入 MaterialScope 检测数据集（2,811 张人工标注图），微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中，Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡，82% 输出良好，模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍，所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究