7月1日

21:06

AK@_akhaliq

Orca 世界在你心中

其他论文/研究

20:28

HuggingFace Daily Papers（社区热门论文）

FlexiSLM：一种动态可控帧率的语音语言模型

FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示，在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz；在6.25 Hz下推理时间相比12.5 Hz减半，同时保持强语音质量。

论文/研究语音

20:28

HuggingFace Daily Papers（社区热门论文）

QVal：低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台，通过Q对齐度量直接评估密集监督信号质量，判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验，发现简单提示基线一致优于近年文献中的密集监督方法，且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准

17:28

HuggingFace Daily Papers（社区热门论文）

MuSViT：乐谱表示的基础视觉模型

MuSViT是首个专为乐谱表示设计的基础视觉模型，采用ViT编码器并通过掩码自编码器在IMSLP的970万页乐谱上预训练，使用两阶段课程（先合成排版乐谱，再训练完整IMSLP语料库）。在四个下游任务（全页与谱行级乐谱识别、音乐符号检测、难度分类）上，线性探测（冻结编码器）中MuSViT持续优于通用视觉编码器，微调则改进多数任务的特化SOTA方法。嵌入-转录一致性分析表明，MuSViT直接在表示空间中编码符号化的音乐结构，而其他编码器的嵌入与乐谱内容不相关。

多模态论文/研究

17:28

HuggingFace Daily Papers（社区热门论文）

DataEvolver：面向文本丰富图像生成的自进化多智能体数据构建框架

DataEvolver提出自进化多智能体框架，将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器，利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试，DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%，在LongTextBench上提升35.3%，且收益可迁移至Show-o2。

图像生成多模态论文/研究

16:28

HuggingFace Daily Papers（社区热门论文）

GEAR：引导式端到端自回归图像合成

GEAR联合训练向量量化（VQ）分词器与自回归（AR）生成器，通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题，采用双读出机制：硬one-hot分支用于next-token预测训练AR模型，可微分软分支传递对齐损失指导分词器更新，使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA，在ImageNet gFID收敛速度最高提升10倍，并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。

arXiv 图像生成论文/研究

15:32

Rohan Paul@rohanpaul_ai

一项研究通过分析政策文件、开源模型发布、GitHub活跃度、论文及美国专利发现：美国加强出口管制后，中国开发者在开源大语言模型项目上的活跃度远超美国开发者，美国政策非但未遏制中国AI发展，反而加速了其开源生态建设。Perplexity CEO Aravind Srinivas 补充称，中国建设数据中心速度更快，电力、许可、人力、劳动力、专业知识均不构成障碍。

Rohan Paul: Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...

开源生态政策/监管论文/研究

14:28

HuggingFace Daily Papers（社区热门论文）

基于元认知反馈的强化学习实现大语言模型忠实不确定性表达

大语言模型在元认知能力上存在系统性缺陷（高置信度幻觉、无法识别知识边界等）。研究者提出两种新机制：基于元认知反馈的强化学习（RLMF）——根据模型自我判断质量调整完成排名；以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务，先校准模型置信度分数，再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能，相较标准RL提升高达63%，同时增强模型评估自身能力边界的能力。

安全/对齐数据/训练论文/研究

14:28

HuggingFace Daily Papers（社区热门论文）

多块扩散语言模型

MBD-LMs通过多块教师强制（MultiTF）后训练块扩散语言模型（BD-LMs）得到。MultiTF结合教师强制与扩散强制，在干净前缀上训练有界噪声组，采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化，将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19，准确率从79.95%提升至81.03%；结合DMax后TPF

推理数据/训练论文/研究

14:00

Greg Brockman@gdb

OpenAI 推出研究级基准 GeneBench-Pro，用于测试 AI 智能体在真实计算生物学中处理复杂、需要高度判断的分析能力。每个问题需要人类专家约 20-40 小时完成。Greg Brockman 表示，GPT-5.6 Sol 在该基准上实现了重大进步。

OpenAI: We're introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can naviga...

智能体 OpenAI 论文/研究

13:28

HuggingFace Daily Papers（社区热门论文）

TerraDiT-Ω：基于任意地理空间基元的卫星图像合成统一空间控制框架

TerraDiT-Ω是一个统一空间控制框架，可直接利用任意地理空间基元（多边形、折线、边界框、点）进行卫星图像生成。它联合使用精确和粗略标注，适应不同标注预算，适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制，将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强，提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。

arXiv GitHub 图像生成数据/训练

11:28

HuggingFace Daily Papers（社区热门论文）

MemLearner：为视频世界模型学习查询上下文记忆

视频世界模型在长时段生成中缺乏记忆，导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法，利用 query tokens 桥接上下文与预测 token，并借助视频生成模型自身的预训练视觉先验进行上下文查询，无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集，辅以相机位姿标注，并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明，MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型，尤其在遮挡和动态场景下。

arXiv 视频论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

小米发布 Xiaomi-GUI-0 多模态 GUI 智能体

小米提出 Xiaomi-GUI-0，一个面向真实移动环境的原生多模态 GUI 智能体。模型在真实设备闭环中训练和评估，采用物理设备为主、沙箱辅助的混合基础设施。训练数据涵盖高频头部任务、长尾意图泛化及反思与记忆增强样本，并通过错误驱动数据飞轮将失败轨迹转化为修正动作、反思解释和恢复示范。训练采用监督微调、step-level 强化学习和 agentic 强化学习三阶段渐进流程。在内部基准 RealMobile 上成功率达 72.0%，在 AndroidWorld 上达 78.9%，同时显著提升了真实任务中的执行稳定性和异常状态识别能力。

智能体论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

BlockPilot：基于实例自适应策略学习的扩散投机解码方法

针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题，BlockPilot 提出一种样本自适应策略，利用预填充层的表示首次预测每个样本的最优块大小，将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低，在 Qwen3-4B 模型、温度 T=1 条件下，实现接受长度 5.92 和 4.20 倍加速，无需牺牲生成质量。

arXiv 推理论文/研究

09:08

Hacker News 热门（buzzing.cc 中文翻译）

Meta AI 发布 Brain2Qwerty v2：无需手术的脑电波解码系统

Meta AI 推出 Brain2Qwerty v2，一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图（MEG）设备记录 9 名志愿者各 10 小时的打字脑活动，训练约 22,000 个句子，采用端到端深度学习并微调大语言模型。词准确率达 61%，最佳参与者达 78%，远超其他非侵入方法的 8%。解码精度随数据量对数线性提升，有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码，合作方 BCBL 开放 v1 数据集。

Meta 开源/仓库数据/训练论文/研究

06:59

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选76

AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用"prover-verifier"LLM 循环的方法，成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成，并计划将这一方法扩展到所有科学领域。

Omri Weinstein: Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...

安全/对齐推理论文/研究

推荐理由：如果属实，这将是 AI 首次批量解决实质性开放数学问题，但消息仅来自推文声明，未见论文或代码，现在兴奋还太早。

06:05

elvis@omarsar0

MCP服务器五大模式论文发布

Elvis Saravia（DAIR.AI）推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器，归纳出5种常见模式：暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向，避免重复造轮。论文地址：https://arxiv.org/abs/2606.30317。

MCP/工具论文/研究

06:04

Anthropic：Transformer Circuits（可解释性研究）

Anthropic 提出回合平均稀疏自编码器（Turn-Averaged SAE）

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE，大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集，回合平均特征更关注模型行为的高层特性（如错误答案），每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示：回合平均 SAE 在从 10 个回合中唯一识别目标（区分度）为 74%，低于每 token SAE 的 95%；但在全面描述回合（覆盖度）上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic 安全/对齐论文/研究

05:20

Chubby♨️@kimmonismus

Wistar研究所DNA注射方案在小鼠模型中实现长效减重与血糖控制

Wistar研究所开发基于质粒DNA加电穿孔的单次注射方法，在小鼠模型中产生长达传统GLP-1药物（如Ozempic、Wegovy）10倍的体重减轻与血糖控制效果。pLincretins构建体一次注射可让可检测的incretin持续长达70天。与司美格鲁肽的头对头比较显示，DNA构建体组在观察结束后仍维持代谢改善，而司美格鲁肽组停药后体重反弹。研究还借助AI辅助结构建模设计pSynCretin分子，旨在同时激活GLP-1和GIP受体。

其他论文/研究

01:37

OpenAI@OpenAI

我们正在引入GeneBench-Pro，一个研究级基准测试，用于衡量一种更难的AI进步：智能体在混乱的生物数据中导航、选择正确分析路径、并做出真实计算研究所需的判断决策的能力。

智能体 OpenAI 数据/训练论文/研究

01:27

HuggingFace Daily Papers（社区热门论文）

SWE-Together： Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态，仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务，构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图，并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明，更强智能体成功率更高且所需干预更少，预示用户体验提升。

编码论文/研究评测/基准

01:20

Jim Fan@DrJimFan

Jim Fan 团队发布 ASPIRE：机器人技能库自我进化、持续累积

Jim Fan 团队推出 ASPIRE，一种让机器人通过进化搜索自动扩充技能库的持续学习系统。编码智能体观察仿真与真实机器人的多模态感知痕迹，对控制程序进行进化搜索，将最佳知识蒸馏到不断扩展的技能库中，使机器人解决第 100 个任务时不再像第 1 个那样从零开始。ASPIRE 实现约 10 倍“迁移学习 token”的削减，支持 sim2real 及单臂到双臂硬件的跨实体迁移。项目展示了 150+ 任务和 90+ 技能，将开源完整代码栈。

具身智能论文/研究

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选70

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro，用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题，覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景，要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建，已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI 推理论文/研究

推荐理由：OpenAI 的新基准揭示了一个信号，GPT-5.6 在需要科学判断的模糊任务上进步神速，从不足 5% 到接近 30%，且单题成本仅几美元，这对 AI for Science 的落地想象空间影响不小。

01:02

Microsoft Research@MSFTResearch

AI 智能体常常失败，因为它们的指令（即技能）被手动修改，且无法保证改进。了解 SkillOpt 如何将技能编辑转变为训练过程，在不改变模型权重的情况下使智能体行为更可靠：https://msft.it/6012vsvEs

智能体 Microsoft 论文/研究

00:36

AK@_akhaliq

OSWorld2.0 对计算机使用智能体在长程真实世界任务上进行评测

智能体论文/研究评测/基准

6月30日

22:34

SemiAnalysis@SemiAnalysis_

JetSpec 是一种投机解码方法，通过因果并行树草稿联合优化草稿成本与质量，采用并行草稿树和树因果验证。在 MATH-500 上实现 9.64x 端到端加速，开放聊天场景达 4.58x 加速，且保持无损。结合 CUDA graph 与内核优化，单块 B200 可实现约 1000 TPS。SemiAnalysis 期待其与推理引擎 vLLM/SGLang 的深度集成。

Hao AI Lab: Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...

推理论文/研究部署/工程

22:26

HuggingFace Daily Papers（社区热门论文）

一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍

异步流水线并行消除同步气泡，但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟，但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设，发现AdamW在一步延迟下退化，而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明，所提策略可缩小异步与同步训练的性能差距，展示大规模异步流水线并行的实用潜力。

数据/训练论文/研究部署/工程

20:26

HuggingFace Daily Papers（社区热门论文）

ILLUME-X：面向自由形式交错图文生成的统一多模态模型

ILLUME-X是一个统一多模态模型，能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现：面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略（适用于自由长度的多模态token序列），以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。

图像生成多模态论文/研究

20:02

IT之家（RSS）

Meta 公布 Brain2Qwerty v2 非侵入式脑机接口新研究：AI 从脑磁信号中"读心"，准确率最高达 78%

Meta 推出 Brain2Qwerty v2 非侵入式脑机接口研究，利用脑磁图（MEG）设备记录脑部磁场信号，通过 AI 模型还原自然语言。模型基于 9 名志愿者约 10 小时、22000 句子数据训练，并利用上下文补全噪声信号。实验显示平均单词识别准确率约 61%，最佳受试者达 78%，超半数测试句子错误不超过 1 个单词。目前仍需大型实验室级 MEG 设备，距离实用化有差距。Meta 已在 GitHub 开源训练代码，v2 数据集待论文接收后开放。

Meta 论文/研究

18:26

HuggingFace Daily Papers（社区热门论文）

BeyondArena：超越IID的表格数据统一整体基准

BeyondArena是首个统一的表格数据整体基准，支持IID、时序、分组等任务，覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架，在11个模型与142个数据集上的评测显示：现有表格基础模型在中小规模IID数据上表现优秀，但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。

数据/训练论文/研究评测/基准

16:26

HuggingFace Daily Papers（社区热门论文）

纳米科技分子优化（NMO）基准测试

生成分子设计受限于药物性质代理基准和制药数据集预训练，难以迁移到结构不同的领域。为此提出纳米科技分子优化（NMO）基准测试，以量子模拟替代代理oracle，引入科学实用性优先的严格协议。NMO任务施加硬结构约束和崎岖适应度景观，先进优化方法反不及简单方法。新基线方法通过新型表示和领域无关预训练消除制药数据偏差，在物理性质上超越现有SOTA，并揭示未知结构基元。

数据/训练论文/研究

16:07

Hacker News 热门（buzzing.cc 中文翻译）

科学家发现液态水中两种结构的分子级证据

一项6月25日发表于《自然·物理学》的研究，通过分子动力学模拟和无监督深度学习，为液态水的“二态模型”提供了分子级证据。研究使用自动编码器分析水分子局部构型，在不预设条件下识别出两种微观结构：密度更高、更无序的结构A与密度更低、更有序的结构B。两种结构在宽温压范围内（包括近室温）均存在。该结果支持水在深过冷区存在液-液相变和第二临界点的假说，有助于解释水在4°C密度最大等反常现象。

其他论文/研究

15:26

HuggingFace Daily Papers（社区热门论文）

视频扩散模型在手部运动重建中的惊人有效性

ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态，通过手部叠加渲染目标适配扩散模型特征，保留世界先验的同时专门化手部特征，再由解码器恢复度量级姿态。整个管道直接处理全帧，无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上，ViDiHand 显著优于现有方法，表明视频扩散模型可作为手部运动重建的新基础，并为具身智能的可扩展野外数据收集提供途径。

arXiv 具身智能多模态论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

InnerZoom：单前向跨层证据桥接实现精准高效GUI定位

针对MLLM自回归坐标生成丢失区域级目标证据的问题，InnerZoom提出单前向跨层证据桥接框架，将原始前向中的目标线索压缩为跨层证据状态，在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优，OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6，分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点，对比两遍ZoomIn平均提升1.3点，端到端延迟降低31.8%，TFLOPs降低约29%。代码与模型将开源。

智能体多模态论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

SafePyramid：上下文策略防护的分层安全基准

SafePyramid是一款安全基准，包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级：L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护，发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。

OpenAI 安全/对齐论文/研究评测/基准

12:26

HuggingFace Daily Papers（社区热门论文）

NeuWorld：通过神经隐式场景实现交互式世界探索

NeuWorld提出场景中心范式Walking in the Implicit，将交互式视频生成的滚动变量从帧级潜变量替换为固定长度的可渲染隐式状态NIS。模型利用Transformer VAE从稀疏有姿态帧学习局部锚定的NIS，并通过扩散Transformer根据未来相机轨迹和几何感知历史演化NIS。通过复用VAE编码器作为统一条件器，将相机、参考图像和历史线索映射到同一NIS模态，避免外部异构编码器。模型在公开姿态视图数据上从头训练，未使用预训练视频骨干或3D重建器，实现了强长程一致性和有利推理效率。

arXiv 视频论文/研究

12:26

HuggingFace Daily Papers（社区热门论文）

DreamForge-World 0.1 Preview：低算力实时可控世界模型预览版

DreamForge-World 0.1 Preview 是一款低算力实时交互世界模型预览版，基于 LongLive 1 自回归视频栈（源自 Wan2.1-T2V-1.3B）和 Matrix-Game 系列的残差动作路径。支持实时键盘鼠标控制、多模态初始化、中流重提示及双视角操作。在单张 RTX 4090 上以原生 480p 分辨率达到 14-15 FPS，内存占用低，展示了在消费级 GPU 上实现实时可控世界模型预览的低算力路线。

开源生态视频论文/研究

12:02

IT之家（RSS）

Meta 发布自研 Vistara 芯片，复用拆机 DDR4 内存搭配 DDR5 新服务器

Meta 在 ISCA 2026 大会发布自研 Vistara ASIC 方案，通过 CXL 2.0/1.1 规范的 PCIe Gen5 x16 接口将拆机 DDR4 内存桥接到新服务器。每台 MemServer 配备 768GB DDR5 和 256GB DDR4（3:1 配比），单个 ASIC 支持双通道 DDR4 最高 3200 MT/s、最大 256GB。该方案已在数百万台服务器中用于分离式机器学习推理、大数据处理等场景，可将推理服务器数量最多减少 25%，分布式缓存平均延迟降低 29%。

Meta 论文/研究部署/工程

11:26

HuggingFace Daily Papers（社区热门论文）

精选77

Agents-A1：35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1，一个 35B 参数的 Mixture-of-Experts 智能体模型，通过扩展智能体 horizon（长轨迹与异构能力两个视角）达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施，生成平均 45K token 的智能体轨迹，并采用三阶段训练：全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏（含显著词汇对齐）。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro，Agents-A1 在 SEAL-0（56.4）、IFBench（80.6）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）和 MolBench-Bind（56.8）上领先，并在 SciCode（44.3）、HLE（47.6）和 BrowseComp（75.5）上保持强竞争力。

智能体推理论文/研究

推荐理由：用35B模型追平1T参数模型，这条“扩展智能体视野”的路比无脑堆参数务实得多，做Agent和长程推理的团队必须认真读。

11:26

HuggingFace Daily Papers（社区热门论文）

TACO：面向智能体工具使用的工具增强信用优化

TACO是一种基于GRPO的变体，专为代码工具agent设计。它通过两个耦合优势通道解决工具调用信用分配：Differential Answer-Probe Reward（DAPR）在推理中插入探针token，自监督比较有无工具时的预测差异，为每次调用赋予正/负/零价值，无需外部评判器；Outcome-Gated Advantage Routing（OGAR）根据调用结果将最终答案优势仅分配给导致正确输出的段，抑制无用调用。经两阶段SFT+RL训练后，TACO在感知、推理和通用多模态基准上取得一致准确率提升，且学会仅在必要时调用工具。

多模态论文/研究