# ResearchMath-14K：通过智能体扩展研究级数学

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-05-27 08:00
- AIHOT 分数：70
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpovigyt09i3slv4yyi85evn
- 原文链接：https://arxiv.org/abs/2605.28003

## 精选理由

这可能是目前数学推理方向最有价值的数据集之一，它暴露了模型编造引用的问题，过滤后微调还能涨点，做数学推理的团队应该立刻拉下来试试。

## AI 摘要

本文介绍了ResearchMath-14K，这是一个包含14,056个研究级数学问题的数据集，通过多智能体流程从学术资料中策划而成，是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning（包含220K条教师轨迹），发现语言模型存在回避行为，且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后，对参数规模为4B到30B的Qwen3模型进行微调，其平均得分比基础模型提高了9.2分，表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。

## 正文

数学的前沿由那些尚未知解的问题所定义，然而目前仍不清楚语言模型能否在没有人类干预的情况下有意义地处理这类问题。一个主要障碍是缺乏大规模的研究级别数学数据集。为此，我们推出了ResearchMath-14k，这是一个通过多智能体流程从学术来源中精选出的14,056个问题的集合，使其成为迄今为止最大的研究级别数学问题集合。我们还进一步生成了ResearchMath-Reasoning，即来自两个开源模型的22万条教师轨迹，我们观察到其中反复出现回避行为，例如未尝试和虚构引用。有趣的是，在八个开放权重模型中，新一代模型每条轨迹产生的引用数量是之前的5.6倍，虚假引用数量是之前的5.0倍。在对ResearchMath-Reasoning进行智能体过滤后，对从4B到30B参数的Qwen3模型进行微调，相比基础模型平均提升了9.2个百分点。这表明，即使没有完全正确的推理轨迹，经过过滤的开放问题尝试也能提供有用的监督信号。我们将ResearchMath-14k公开提供，用于未来关于研究级别数学推理的工作。
