全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「推理」清除

4月14日周二

08:00HuggingFace Daily Papers（社区热门论文）InfiniteScienceGym：无限程序生成的科学分析基准

03:46HuggingFace Daily Papers（社区热门论文）SD-Zero：通过自我修订将二元奖励转化为密集监督

02:44DogeDesignerGrok 4.20 Reasoning 刚刚在 BridgeBench 推理基准测试中夺得第一。🔥 击败 GPT-5.4、Claude Opus 4.6、Google Gemini 等模型。周复一周，Grok 在各个基准测试中持续攀升。🚀

01:16AK48用于引导知识密集型推理的过程奖励智能体 paper： https://huggingface.co/papers/2604.09482

4月13日周一

10:34Rohan Paul通过可验证多项选择重构将RLVR扩展至开放式任务

08:00HuggingFace Daily Papers（社区热门论文）思维流重要吗？评估Gemini视觉语言模型在视频场景理解中的推理

08:00HuggingFace Daily Papers（社区热门论文）超越感知错误：大型视觉语言模型中的语义固着

08:00HuggingFace Daily Papers（社区热门论文）从推理到智能体：大语言模型强化学习中的信用分配

08:00HuggingFace Daily Papers（社区热门论文）基于知识增强数据合成与半监督强化学习的医学推理激发方法

08:00HuggingFace Daily Papers（社区热门论文）CocoaBench：统一数字智能体真实场景能力基准测试

08:00HuggingFace Daily Papers（社区热门论文）基于物理模拟器强化学习求解物理奥赛题

04:33Ethan Mollick目前 ChatGPT 的思维链展示方式最佳：主窗口显示步骤摘要，侧边栏提供详细审计

01:21Yuchen Jin关于 Claude Opus 4.6 被削弱的传闻

4月12日周日

19:45Rohan PaulLLM推理token并非同等重要：剪枝实验揭示内部排序

18:13Rohan PaulMeta发布Muse Spark：企业AI将走向定制化运营层

08:00HuggingFace Daily Papers（社区热门论文）当推理模型损害行为模拟：多智能体LLM谈判中的求解器-采样器错配

08:00HuggingFace Daily Papers（社区热门论文）IceCache：面向长序列 LLM 的内存高效 KV 缓存管理

08:00HuggingFace Daily Papers（社区热门论文）SCOPE：信号校准的双路径自适应加权同策略蒸馏增强

08:00HuggingFace Daily Papers（社区热门论文）SciPredict：LLM 能否预测自然科学领域的实验结果？

4月11日周六

08:42Rohan PaulAI预测英超赛季全军覆没：Claude亏损最少

08:00HuggingFace Daily Papers（社区热门论文）视觉语言模型计数仍存挑战

08:00HuggingFace Daily Papers（社区热门论文）零样本世界模型是发展高效的学习者

08:00HuggingFace Daily Papers（社区热门论文）并非所有去噪步骤都同等重要：通过模型调度加速掩码扩散语言模型

03:51Noam Brown我们真正需要的是让 AI 模型生成会玩扑克的 AI 模型的基准测试

00:22AK重新思考推理 SFT 中的泛化：基于优化、数据与模型能力的条件分析

4月10日周五

11:48AKDMax：面向 dLLM 的激进并行解码

10:09Ethan MollickAI 的锯齿状智能比人类的锯齿状更难应对的原因

01:16AKRAGEN-2：Agentic RL 中的推理崩溃

01:15AKThink in Strokes， Not Pixels：基于交错推理的过程驱动图像生成

00:00LMSYS：Blog（Chatbot Arena 团队）HiSparse：分层内存系统加速稀疏注意力

4月9日周四

13:59Noam Brown惊讶于一年多后，用单一数字比较推理模型评估结果仍是常态

10:30Haider.几个问题：

08:44Ethan Mollick短暂体验 Meta 的 Muse Spark Thinking：表现尚可，但不及 Big Three 模型且略显怪异

08:00HuggingFace Daily Papers（社区热门论文）语言模型何时学习什么？隐性课程假设

07:50Haider.AI 改变数学的又一例证

02:35Epoch AI我们提前测试了 Meta 的 Muse Spark 模型，并在 FrontierMath 上进行了评估。其得分为…

4月8日周三

18:00公众号：蚂蚁百灵（Ling）42cuLA：用 CUDA 重写线性注意力

13:14Artificial Analysis韩国Upstage发布Solar Pro 3：韩实验室第二强模型

09:00Haider.Anthropic "Mythos" 模型的关键要点

08:00HuggingFace Daily Papers（社区热门论文）45生成、过滤、控制、重放：LLM强化学习中Rollout策略的综合综述

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月14日

08:00

HuggingFace Daily Papers（社区热门论文）

InfiniteScienceGym：无限程序生成的科学分析基准

针对传统科学基准存在的发表偏倚、标签噪声及大规模存储需求，研究团队提出InfiniteScienceGym——一个程序生成的科学分析测试平台。该平台通过确定性算法从种子生成包含真实目录结构、文件与表格数据的自包含仓库，并配备带精确标准答案的可验证问答任务。对主流模型的评估显示，当前无模型整体准确率超过45%，识别不可回答问题仍是主要能力短板，而更强的模型倾向于更有效地使用工具而非单纯增加token消耗。

智能体 arXiv 推理论文/研究

03:46

HuggingFace Daily Papers（社区热门论文）

SD-Zero：通过自我修订将二元奖励转化为密集监督

研究团队提出SD-Zero训练方法，通过让单一模型同时充当生成器和修订者，将二元奖励转化为密集的词元级自我监督。该方法无需外部教师或高质量演示，在数学与代码推理任务中，基于Qwen3-4B-Instruct和Olmo-3-7B-Instruct实现性能提升超10%，训练效率显著优于GRPO等强化学习基线。算法展现出词元级自定位与迭代自我进化特性，修订者能精准识别需修正的关键词元，并持续将修正能力蒸馏回生成器。

arXiv 推理数据/训练论文/研究

02:44

DogeDesigner@cb_doge

Grok 4.20 Reasoning 刚刚在 BridgeBench 推理基准测试中夺得第一。🔥 击败 GPT-5.4、Claude Opus 4.6、Google Gemini 等模型。周复一周，Grok 在各个基准测试中持续攀升。🚀

xAI 推理评测/基准

01:16

AK@_akhaliq

48

用于引导知识密集型推理的过程奖励智能体 paper： https://huggingface.co/papers/2604.09482

智能体推理论文/研究

4月13日

10:34

Rohan Paul@rohanpaul_ai

通过可验证多项选择重构将RLVR扩展至开放式任务

百度论文提出将开放式任务（如写作、主观回答）重构为可验证的多项选择形式，通过"两两比较"替代直接评分，为RL提供清晰奖励信号。在7个基准测试中，14B模型平均比RLHF基线高3.29分。关键创新在于训练任务形式的改变——模型通过对比验证学习识别优劣，而非单纯吸收偏好对。研究同时发现需混合RLHF目标以防止输出长度坍缩。该方法表明，用结构化比较替代模糊评分可能是提升推理能力的普遍对齐策略。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

思维流重要吗？评估Gemini视觉语言模型在视频场景理解中的推理

研究人员对Google Gemini 2.5 Flash和Flash Lite在视频场景理解中的内部推理轨迹（思维流）进行基准测试，基于100小时视频提出内容丰富度、思维-最终输出覆盖率和主导实体分析三项指标。实验发现，增加思考长度带来的质量提升在最初几百个token后迅速趋于平缓，Flash Lite在质量与token消耗间达到最佳平衡。研究还揭示，当推理预算受限时，模型会在最终输出中添加未经推理的内容，产生"压缩步骤幻觉"；Flash倾向于讨论推理过程，而Flash Lite更专注于场景描述。

Google 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越感知错误：大型视觉语言模型中的语义固着

大型视觉语言模型存在"语义固着"现象：即使提示指定替代规则，仍固守默认语义解释。研究提出VLM-Fix基准（四种抽象策略游戏），评估14个模型发现准确率显著偏向标准规则。实验表明，中性别名提示可缩小逆向规则差距，语义负载别名则扩大差距；单规则训练损害相反规则迁移，联合规则训练改善广泛迁移。后期层激活干预可部分恢复性能，表明该错误可在模型后期表征中编辑。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从推理到智能体：大语言模型强化学习中的信用分配

一项综述系统梳理了2024年至2026年初发表的47种大语言模型强化学习信用分配（CA）方法，按粒度（token、step、turn等）与方法论（蒙特卡洛、时序差分等）建立二维分类体系。研究区分了单条思维链推理（500-3万token）与多轮智能体交互（10万-100万token，100+轮）两种范式，并发布结构化论文清单、报告检查表及基准测试协议三项资源。分析指出，从推理到智能体化的转变正推动信用分配技术从过程奖励模型转向反事实分析、非对称critic等全新方法。

智能体推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于知识增强数据合成与半监督强化学习的医学推理激发方法

MedSSR 框架通过知识增强数据合成与半监督强化学习提升医学推理能力。该方法利用罕见疾病知识合成分布可控的推理问题，并基于策略模型生成伪标签，实现"自监督 RL+监督 RL"的两阶段训练，无需依赖昂贵的推理痕迹蒸馏。在 Qwen 和 LLaMA 上的实验表明，该方法在十个医疗基准测试中均优于现有方法，在罕见病任务上准确率提升高达 5.93%。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CocoaBench：统一数字智能体真实场景能力基准测试

CocoaBench 基准测试针对统一数字智能体发布，通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性，同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示，当前最优系统成功率仅为 45.1%，表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。

智能体 arXiv Hugging Face 推理

08:00

HuggingFace Daily Papers（社区热门论文）

基于物理模拟器强化学习求解物理奥赛题

研究团队利用物理模拟器生成随机场景与合成问答数据，通过强化学习训练大语言模型，使其掌握物理推理能力。该方法实现了零样本从模拟到现实的迁移，仅在合成数据上训练即可让模型在国际物理奥林匹克（IPhO）问题上提升 5-10 个百分点的准确率。这一突破证明物理模拟器可作为可扩展的数据来源，帮助模型超越互联网问答数据的限制，获得深度物理推理技能。

arXiv 推理数据/训练论文/研究

04:33

Ethan Mollick@emollick

ChatGPT 的思维链展示体验当前最优，主窗口呈现步骤摘要，侧边栏可查看详细审计。Claude 表现接近但总结过度，计算与代码细节难以查看。Gemini 在此功能上存在明显短板。

Anthropic OpenAI 推理评测/基准

01:21

Yuchen Jin@Yuchenj_UW

Claude Opus 4.6 被削弱传闻通常可归为三类：推理栈或 Claude Code 变更导致的无意回归；量化、减少推理等有意"优化"（若属实应明确告知付费用户）；以及"用得越多感觉越笨"的用户心理效应。

Anthropic 大佬观点推理

4月12日

19:45

Rohan Paul@rohanpaul_ai

LLM推理token并非同等重要：剪枝实验揭示内部排序

研究通过贪婪剪枝方法（逐个删除对模型似然度影响最小的token）评估LLM推理token的功能重要性。发现符号数学token比语法叙述更能经受剪枝，表明模型内部存在重要性排序。重要性具有动态性，早期可丢弃的token可能在上下文减少后变得关键。注意力模式可预测剪枝分数，说明功能重要性在模型内部可见。该发现有助于使chain-of-thought更可解释，而非仅仅缩短长度。

Janvijay Singh: Do all reasoning tokens matter equally? We study the functional importance of reasoning tokens implicitly encoded in LLM...

推理数据/训练论文/研究

18:13

Rohan Paul@rohanpaul_ai

Meta发布Muse Spark：企业AI将走向定制化运营层

Mark Zuckerberg指出，未来企业不会拥有前沿AI基础模型，而是基于共享模型构建定制化运营层，反映其业务流程与客户历史，用于客户互动和支持。与此同时，Meta发布原生多模态推理模型Muse Spark，采用多智能体编排架构，多个副本可并行推理并比较结果，用比Llama 4 Maverick少10倍以上的训练计算达到类似能力，标志着AI性能提升从单一模型扩展转向运行时智能分配计算资源。

Rohan Paul: Meta is back. 🔥 Finally dropped its first model since Zuckerberg started writing checks like crazy. Launched Muse Spark...

智能体 Meta 推理模型发布

关联讨论 3 条X：Artificial Analysis (@ArtificialAnlys)X：slow_developer (@slow_developer)X：Testing Catalog (@testingcatalog)

08:00

HuggingFace Daily Papers（社区热门论文）

当推理模型损害行为模拟：多智能体LLM谈判中的求解器-采样器错配

研究发现，增强推理能力的大型语言模型在多智能体行为模拟中可能反而降低保真度。当目标是采样有限理性行为而非求解战略问题时，推理增强的模型会过度优化主导策略，导致妥协行为消失。通过在三个谈判环境（含紧急电力管理场景）的实验显示，有限反思比原生推理生成更多样化且倾向妥协的轨迹：GPT-5.2原生推理在45次运行中全部产生权威决策，而有限反思恢复了妥协结果。这表明行为模拟应更关注模型的采样能力而非求解能力。

智能体 OpenAI 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

IceCache：面向长序列 LLM 的内存高效 KV 缓存管理

研究团队提出 IceCache，一种面向长序列 LLM 的内存高效 KV 缓存管理策略。该方法融合语义 token 聚类与 PagedAttention，通过分层动态数据结构将语义相关 token 组织为连续内存区域，提升 CPU-GPU 传输效率。LongBench 测试显示，在 256 token 预算下 IceCache 保持 99% 原始准确率，且仅用 25% 的 KV 缓存预算即可达到与其他卸载方法相当或更优的延迟和准确率。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：信号校准的双路径自适应加权同策略蒸馏增强

针对大语言模型推理对齐中同策略蒸馏（OPD）均匀监督导致信号质量被忽视的问题，研究者提出信号校准的双路径框架 SCOPE。该方法将 on-policy rollout 按正确性分流处理：对错误轨迹采用教师困惑度加权的 KL 蒸馏以优先利用可靠纠正信号，对正确轨迹采用学生困惑度加权的 MLE 以强化能力边界处的低置信度样本，并通过组级归一化自适应校准权重分布。在六项推理基准上的实验显示，SCOPE 较竞争基线平均提升 Avg@32 达 11.42%、Pass@32 达 7.30%。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SciPredict：LLM 能否预测自然科学领域的实验结果？

研究团队发布 SciPredict 基准测试，涵盖物理学、生物学和化学 33 个子领域的 405 项实验预测任务。评估显示，主流 LLM 预测准确率仅为 14-26%，虽略高于人类专家的 20%，但远未达到可靠指导实验的标准。更关键的是，模型无法校准预测置信度，无论自信与否，准确率均维持在 20% 左右；而人类专家在认为可预测时的准确率可从 5% 提升至 80%。研究表明，实现超人类科研能力不仅需要提升预测精度，更需建立对预测可靠性的准确认知。

arXiv 推理论文/研究

4月11日

08:42

Rohan Paul@rohanpaul_ai

AI预测英超赛季全军覆没：Claude亏损最少

KellyBench基准测试检验了主流LLM在英超赛季投注中的长期预测与风险管理能力。所有参测模型均遭遇亏损，部分资金归零。Claude Opus 4.6以-11% ROI表现最佳，GPT-5.4为-13.6%。该测试通过100-150场动态赛季模拟，暴露出现有AI在持续决策中的连贯性、数据适应性与风险控制方面存在显著缺陷。

智能体 Anthropic OpenAI 推理

08:00

HuggingFace Daily Papers（社区热门论文）

视觉语言模型计数仍存挑战

视觉语言模型虽擅长复杂推理，却在简单物体计数上频繁失败。研究发布COUNTINGTRICKS评估套件，通过注意力分析与分层探测发现，计数相关的视觉证据在模态投影阶段最强，但在后续语言层显著退化，导致模型过度依赖文本先验。基于此，团队提出轻量级干预方法Modality Attention Share (MAS)，强制在答案生成阶段保持最低视觉注意力预算。研究表明，VLMs的计数失败不仅源于视觉感知局限，更因语言推理阶段对视觉证据的利用不足。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

零样本世界模型是发展高效的学习者

研究团队提出零样本视觉世界模型（ZWM），基于稀疏时间分解预测器、近似因果推理和推理组合三大原则，仅从单个儿童的第一人称经验中学习，即可快速掌握深度、运动、物体连贯性等多项物理理解能力。该模型在多个基准测试中展现出数据高效性，不仅重现了儿童发展的行为特征，还构建了类脑内部表征，为开发类人数据效率的AI系统提供了新路径。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

并非所有去噪步骤都同等重要：通过模型调度加速掩码扩散语言模型

研究人员提出模型调度策略以降低掩码扩散语言模型（MDLMs）的采样成本。该方法在特定去噪步骤用小规模模型替代完整大模型，基于早期和晚期步骤对模型替换更鲁棒的发现，在OpenWebText和LM1B数据集上实现FLOPs减少17%，仅带来生成困惑度的轻微下降，同时保持样本多样性。通过损失函数与KL散度的步骤重要性分析证实，扩散轨迹中段对模型替换最为敏感。这一架构无关的调度方法可在基本保持生成质量的前提下显著加速MDLM采样。

arXiv 推理论文/研究

03:51

Noam Brown@polynoamial

GTOWizard 测试显示，GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Grok 4 等主流模型在与专业扑克 AI 的 5000 手无限注德州扑克单挑中全部落败。推主调侃，既然直接玩扑克不行，不如测试 AI 生成会玩扑克的 AI 的能力。

GTOWizard: We benchmarked every major AI model at poker. GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more. All played 5,00...

智能体 Meta 推理评测/基准

00:22

AK@_akhaliq

从优化过程、数据构成与模型能力三个条件维度，对推理 SFT 的泛化性展开分析，重新审视监督微调在推理任务中的泛化机制与关键影响因素。

Hugging Face 推理数据/训练论文/研究

4月10日

11:48

AK@_akhaliq

DMax 提出针对扩散语言模型（dLLM）的激进并行解码方案，突破传统顺序生成限制，显著提升推理速度。论文已发布。

Hugging Face 推理论文/研究部署/工程

10:09

Ethan Mollick@emollick

AI 的锯齿状智能比人类更难应对：弱点难以直观识别，各 LLM 缺陷雷同导致无法简单更换规避，且能力边界持续外扩。人类虽同样能力参差，但对其锯齿模式更为熟悉。

Alex Imas: @emollick Humans are jagged too! We're just very used to their type of jaggedness. Here are 6 random people from a jagge...

大佬观点推理

01:16

AK@_akhaliq

RAGEN-2 论文发布，研究智能体强化学习（Agentic RL）中的「推理崩溃」现象，即训练过程中智能体推理能力退化的问题。论文已上传至 Hugging Face。

智能体 Hugging Face 推理论文/研究

01:15

AK@_akhaliq

新论文提出过程驱动的图像生成方法，通过交错推理模拟绘画笔触的创作过程，而非直接生成像素，实现更符合人类作画逻辑的图像合成。

Hugging Face 图像生成推理论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

HiSparse：分层内存系统加速稀疏注意力

LMSYS Org推出HiSparse分层内存系统，针对稀疏注意力仍受限于GPU内存容量的问题，将非活跃KV缓存卸载至主机内存，仅在GPU HBM保留热缓冲区，并通过专用CUDA内核高效管理数据交换（采用LRU策略与页表更新）。该系统在256并发请求下实现超3倍吞吐量提升，GLM-5.1-FP8模型长上下文场景性能提升达5倍，支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。

开源/仓库推理部署/工程

4月9日

13:59

Noam Brown@polynoamial

作者吐槽业界仍习惯用单一数字评估推理模型，引用观点指出 MMLU/GSM8K 等基准早已过时却仍在被报告，认为 Intelligence/$（智能性价比）才是更优指标，并以 o1-mini 发布时的多维对比图表为例说明。

Noam Brown: LLM evals are slow to adapt. MMLU/GSM8K continued to be reported long after they were obsolete. I think the next thing t...

Meta 大佬观点推理

10:30

Haider.@haider1

Anthropic 称 Opus 4.6 有 20% 概率具备意识，那 Mythos 在该评估中会得多少分？GPT-5.4 和 Opus 4.6 已在协助 Terence Tao 等学者进行博士级研究，即将发布的 Spud 和 Mythos 又将具备何种能力？

Anthropic 大佬观点安全/对齐推理

08:44

Ethan Mollick@emollick

Meta 的 Muse Spark Thinking 初体验显示，其性能不及当前三大顶级模型，且存在语言风格怪异、事实准确性欠佳的问题。在新哥特式着色器生成测试中，其表现与 GPT 5.2 Pro 差距明显。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Meta 大佬观点推理编码

08:00

HuggingFace Daily Papers（社区热门论文）

语言模型何时学习什么？隐性课程假设

研究者提出隐性课程假设，指出预训练遵循可组合且可预测的课程结构。通过设计涵盖检索、形态转换、逻辑推理和数学等领域的组合任务，对410M至13B参数的四个模型家族进行追踪，发现技能涌现顺序跨模型高度一致（ρ=.81），且复合任务通常在其组件任务之后出现。研究表明该结构编码于模型内部表征中，利用任务表征空间可有效预测未见过组合任务的训练轨迹（R²=.68-.84），揭示预训练过程比损失曲线显示的更具结构性。

arXiv 推理数据/训练论文/研究

07:50

Haider.@haider1

GPT-5.4 Pro 与 Aristotle 合作解决两道研究级数学难题，包括悬而未决 60 余年的 Erdős Problem #650。数学家陶哲轩称，AI 在数学发现方面已不再是炒作。

OpenAI 推理论文/研究

02:35

Epoch AI@EpochAIResearch

Meta Muse Spark 模型在 FrontierMath 基准测试中，Tiers 1-3 得分 39%，Tier 4 得分 15%。该成绩与近期多款前沿模型相当，但仍落后于 GPT-5.4。

Meta 推理评测/基准

4月8日

18:00

公众号：蚂蚁百灵（Ling）

42

cuLA：用 CUDA 重写线性注意力

推理教程/实践

13:14

Artificial Analysis@ArtificialAnlys

韩国Upstage发布Solar Pro 3：韩实验室第二强模型

韩国AI实验室Upstage发布Solar Pro 3，AI Index得分26，为韩国实验室第二强模型。采用MoE架构（102B总参数/12B激活参数），支持128k上下文。核心优势在于agentic工具调用与指令遵循，IFBench得分71%与GLM-5、Kimi K2.5相当，τ²-Bench Telecom达86%。但token消耗较高（约100M），可靠性不足（AA-Omniscience得分-54），准确性18%优于其他韩国模型。可通过Upstage API访问。

智能体推理模型发布

09:00

Haider.@haider1

Anthropic "Mythos" 模型在基准测试中表现极强，证明模型扩展（scaling）尚未触及天花板；但更强性能伴随极高训练与推理成本，其出色表现很大程度上源于昂贵的配置投入。

Anthropic 大佬观点推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

45

生成、过滤、控制、重放：LLM强化学习中Rollout策略的综合综述

强化学习是提升大语言模型推理能力的核心后训练工具，但rollout（从提示到终止的采样轨迹）设计常被忽视。本综述从与优化器无关的视角，提出GFCR（生成-过滤-控制-重放）生命周期分类法，将rollout流程模块化为四个阶段：生成候选轨迹、过滤构建中间信号、控制计算分配与决策、重放重用数据。研究引入可靠性、覆盖率和成本敏感性的权衡标准，并以此框架综述了过程监督、自适应计算等方法。案例研究涵盖数学、代码/SQL等多领域，最后提供了诊断索引和开放挑战，以构建可复现、高效的rollout流程。

智能体推理论文/研究

1…46 474849 50