Open R1
DeepSeek-R1 的完全开源复现。本仓库仍在建设之中,让我们一起构建它!
目录
- 概述
- 攻关计划
- 安装
- Training models
- SFT(监督微调)
- GRPO(群体相对策略优化)
- 评估模型
- 复现 DeepSeek 的评估结果
- Data generation
- 从一个精简的蒸馏 R1 模型生成数据
- 从 DeepSeek-R1 生成数据
- 贡献指南
概述
本仓库的目标是构建 R1 流程中缺失的环节,使得所有人都能复现并在此基础上进行开发。该项目在设计上力求简洁,主要包含以下内容:
src/open_r1: contains the scripts to train models as well as generate synthetic data:- grpo.py:在给定数据集上使用 GRPO 训练模型。
- sft.py:在数据集上对模型执行简单的 SFT(监督微调)。
- generate.py:使用 Distilabel 从模型生成合成数据。
- Makefile:包含易于运行的命令,利用上述脚本实现 R1 流程中的每个步骤。
攻关计划
我们将以 DeepSeek-R1 技术报告为指导,该报告大致可分为三个主要步骤:
- 步骤 1:通过从 DeepSeek-R1 中蒸馏出高质量语料库,复现 R1-Distill 模型。
- 步骤 2:复现 DeepSeek 用于创建 R1-Zero 的纯强化学习流程。这可能涉及为数学、推理和代码领域策划新的、大规模数据集。
- 步骤 3:展示我们如何通过多阶段训练,从基础模型过渡到经过强化学习调优的模型。
新闻 🗞️
- 🧑🍳 [2025/05/26](步骤 1 已完成!)我们发布了 Mixture-of-Thoughts——一个经过策展的推理数据集,包含从 R1 蒸馏得到的 35 万条经过验证的推理轨迹。该数据集涵盖数学、编程和科学领域的任务,旨在教语言模型逐步推理。我们还提供了一份训练 OpenR1-Distill-7B 的配方,该模型复现了 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 的推理能力,标志着 Open R1 项目步骤 1 的完成。
- ⚡️ [2025/03/11](更新 #3):我们发布了 CodeForces-CoTs 数据集,包含 1 万个竞争性编程问题和 10 万条从 R1 蒸馏得到的解题思路链。我们还发布了 IOI24:一个来自国际奥林匹克竞赛极难问题的新基准。在 CodeForces-CoTs 上训练的 7B Qwen 模型在 IOI24 上可以超越 Claude 3.7 Sonnet,而 32B 模型甚至可以超越 R1 本身。
- ∞ [2025/02/10] (更新 #2):我们发布了 OpenR1-Math-220k 数据集,包含 220k 条从 R1 在新版 NuminaMath 上蒸馏得到的轨迹。基于该数据集训练的模型在性能上与 DeepSeek 的蒸馏模型持平。
- 🔥 [2025/02/02] (更新 #1):我们实现了训练、推理和评估流程的第一部分。开干!
安装
注意事项
库依赖 CUDA 12.4。如果你遇到与段错误相关的报错,请用 nvcc --version 双重检查系统运行的 CUDA 版本。
要运行本项目中的代码,首先使用例如 uv 创建一个 Python 虚拟环境。安装 uv 请参考 UV 安装指南。
注意
作为快捷方式,运行 make install 来设置开发库(具体细节见下文)。之后,如果一切配置正确,你可以尝试使用 Open-R1 模型。
uv venv openr1 --python 3.11 && source openr1/bin/activate && uv pip install --upgrade pip
提示
对于 Hugging Face 集群用户,请将 export UV_LINK_MODE=copy 添加到你的 .bashrc 中,以抑制来自 uv 的缓存警告。
接下来,安装 vLLM 和 FlashAttention:
uv pip install vllm==0.8.5.post1
uv pip install setuptools && uv pip install flash-attn --no-build-isolation这也会安装 PyTorch v2.6.0,使用该版本非常重要,因为 vLLM 的二进制文件是针对它编译的。然后,你可以根据具体用例通过 pip install -e .[模式列表] 安装其余依赖项。对于大多数贡献者,我们推荐:
GIT_LFS_SKIP_SMUDGE=1 uv pip install -e ".[dev]"接下来,按如下方式登录 Hugging Face 和 Weights & Biases 账号:
huggingface-cli login wandb login
最后,检查你的系统是否安装了 Git LFS,以便能够加载和推送模型/数据集到 Hugging Face Hub:
git-lfs --version
如果未安装,请运行:
sudo apt-get install git-lfs
训练模型
注意
下面的训练命令针对一个包含 8×H100(80GB)的节点配置。对于不同的硬件和拓扑结构,你可能需要调整批大小和梯度累积步数。
我们支持使用 DDP 或 DeepSpeed(ZeRO-2 和 ZeRO-3)训练模型。例如,要对从 DeepSeek-R1 蒸馏的、包含推理轨迹的数据集(如 open-r1/Mixture-of-Thoughts)执行 SFT,请运行:
# Train via command line accelerate launch --config_file=recipes/accelerate_configs/zero3.yaml src/open_r1/sft.py \ --model_name_or_path open-r1/Qwen2.5-Math-7B-RoPE-300k \ --dataset_name open-r1/Mixture-of-Thoughts \ --dataset_config all \ --eos_token '<|im_end|>' \ --learning_rate 4.0e-5 \ --num_train_epochs 5 \ --max_seq_length 32768 \ --per_device_train_batch_size 2 \ --gradient_checkpointing \ --bf16 \ --use_liger_kernel \ --output_dir data/OpenR1-Distill-7B # Train via YAML config accelerate launch --config_file recipes/accelerate_configs/zero3.yaml src/open_r1/sft.py \ --config recipes/OpenR1-Distill-7B/sft/config_distill.yaml
目前支持以下任务:
- 监督微调 (Supervised Fine-Tuning) sft
- 分组相对策略优化 (Group Relative Policy Optimization) grpo
提示
如果你增加/减少 GPU 数量,我们建议同时按比例调整每设备的批大小或梯度累积步数,以保持全局批大小不变。
默认情况下,这些脚本会将每个模型推送到你的 Hugging Face Hub 用户名下,即 {username}/{model_name}-{task}。你可以通过如下方式将参数追加到命令中来覆盖每个 YAML 配置中的参数:
# Change the base model to a smaller variant
accelerate launch --config_file recipes/accelerate_configs/zero3.yaml src/open_r1/sft.py \
--config recipes/OpenR1-Distill-7B/sft/config_distill.yaml \
--model_name_or_path Qwen/Qwen3-0.6B-Base \
--hub_model_id OpenR1-Distill-0.6B \
--output_dir data/OpenR1-Distill-0.6B如果你还想覆盖 Weights and Biases 的默认设置,可以按如下方式操作:
accelerate launch --config_file recipes/accelerate_configs/zero3.yaml src/open_r1/sft.py \
--config recipes/OpenR1-Distill-7B/sft/config_distill.yaml
--wandb_entity huggingface --wandb_project open-r1 --run_name Qwen2.5-1.5B-GRPO🚨 警告 🚨
大多数基础模型(如 meta-llama/Llama-3.2-1B)没有聊天模板,因此我们在训练期间将 ChatML 设为默认。但对于像 Qwen/Qwen2.5-1.5B 这样的 Qwen 基础模型,分词器中预定义了聊天模板,因此必须相应设置 EOS token,例如:
# Align EOS token with chat template for Qwen base models accelerate launch --config_file=recipes/accelerate_configs/zero3.yaml src/open_r1/sft.py \ --model_name_or_path Qwen/Qwen2.5-1.5B \ + --eos_token '<|im_end|>' --dataset_name open-r1/Mixture-of-Thoughts \ --dataset_config all \ --learning_rate 4.0e-5 \ --num_train_epochs 1 \ --max_seq_length 32768 \ --per_device_train_batch_size 16 \ --gradient_checkpointing \ --bf16 \ --use_liger_kernel \ --output_dir data/Qwen2.5-1.5B-Open-R1-Distill
如果你希望使用自定义聊天模板(例如 Llama 或 Gemma),则必须提供聊天模板和关联的 EOS token:
# Align EOS token with custom chat template accelerate launch --config_file=recipes/accelerate_configs/zero3.yaml src/open_r1/sft.py \ --model_name_or_path meta-llama/Llama-3.2-1B \ + --chat_template "$(cat llama_chat_template.jinja)" \ + --eos_token '<|eot_id|>' \ --dataset_name open-r1/Mixture-of-Thoughts \ --dataset_config all \ --learning_rate 4.0e-5 \ --num_train_epochs 1 \ --max_seq_length 32768 \ --per_device_train_batch_size 16 \ --gradient_checkpointing \ --bf16 \ --use_liger_kernel \ --output_dir data/Llama-3.2-1B-Open-R1-Distill
SFT 知识蒸馏
我们提供了一个方法来重现 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 的推理能力,从相同的基础模型开始。为此,请运行:
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/zero3.yaml \
src/open_r1/sft.py \
--config recipes/OpenR1-Distill-7B/sft/config_distill.yaml结果将是一个类似 open-r1/OpenR1-Distill-7B 的模型,其下游性能如下:
| 模型 | AIME 2024 | MATH-500 | GPQA Diamond | LiveCodeBench v5 |
|---|---|---|---|---|
| OpenR1-Distill-7B | 52.7 | 89.0 | 52.8 | 39.4 |
| DeepSeek-R1-Distill-Qwen-7B | 51.3 | 93.5 | 52.4 | 37.4 |
你可以调整 YAML 配置,在不同的基础模型或数据集上进行训练。
GRPO
我们使用 TRL 的 vLLM 后端将训练扩展到跨多个节点的大型模型。对于在 8 个 GPU 上对小型模型进行单节点训练,请使用 vllm_mode="colocate" 让 vLLM 与训练脚本在同一个进程中运行:
ACCELERATE_LOG_LEVEL=info \
accelerate launch --config_file recipes/accelerate_configs/zero3.yaml \
src/open_r1/grpo.py --config recipes/DeepSeek-R1-Distill-Qwen-1.5B/grpo/config_demo.yaml \
--vllm_mode colocate警告
蒸馏过的 DeepSeek 模型中使用的聊天模板省略了 <think> 和 </think> 标签内推理块的内容。它还会在助手回复中预填充 <think>,这会干扰格式奖励函数。为此,务必按照例如 recipes/DeepSeek-R1-Distill-Qwen-1.5B/grpo/config_demo.yaml 中的做法覆盖聊天模板。
对于 N+1 个节点上的多节点训练(1 个节点运行 vLLM 服务器,N 个节点运行训练),我们提供了一个示例 Slurm 脚本。例如,要在 1+1 个节点上运行上述示例并使用数据并行,请运行:
sbatch --nodes=2 slurm/train.slurm --model Qwen2.5-1.5B-Instruct --task grpo --config demo --accelerator zero2 --dp 8 --tp 1
有关更多详细信息,请参阅“在 Slurm 集群上启动作业”部分。
GRPO 数据集过滤
我们提供支持,通过生成并计算可验证任务上的通过率来筛选数据集,详见 README。
👨💻 使用代码解释器进行训练
我们提供一种代码奖励函数,用于执行训练过程中策略生成的代码。目前,该奖励函数针对 Codeforces 等代码竞赛,解决方案会针对一组测试用例执行,并将整体成功率作为最终奖励返回。为确保安全执行,我们支持多种沙箱提供商:
- E2B —— 快速、基于云的沙箱,专注于 Python 执行
- Morph —— 基于云的沙箱,支持更广泛的语言——Python/JS/C++/Rust
要使用代码奖励函数,首先安装必要的依赖:
uv pip install -e '.[code]'E2B 提供商
要使用 E2B 沙箱,请创建 .env 文件并添加你的 E2B API token:
E2B_API_KEY="e2b_xxx"
Morph 提供商
要使用 Morph,首先安装 morphcloud 包:
pip install morphcloud
然后将你的 Morph API token 添加到 .env 文件中:
MORPH_API_KEY="YOUR_MORPH_API_KEY"
要指定使用哪个提供商,请在配置中添加 provider_type 参数:
# For E2B provider_type: e2b # For Morph provider_type: morph
数据集要求
确保你的数据集包含一个 verification_info 列,其 schema 如下(来自 PrimeIntellect 优秀的可验证问题数据集):
{
"language": "python", # Morph supports more languages including C++, Java, etc.
"test_cases": [
{
"input": "4\n4\n0001\n1000\n0011\n0111\n3\n010\n101\n0\n2\n00000\n00001\n4\n01\n001\n0001\n00001\n",
"output": "1\n3 \n-1\n0\n\n2\n1 2 \n",
"type": "stdin_stdout",
}
],
}例如,要在 Python 问题上训练一个 smol 模型,先启动 vLLM 服务器:
CUDA_VISIBLE_DEVICES=0 trl vllm-serve --model Qwen/Qwen2.5-1.5B-Instruct
然后运行训练命令:
CUDA_VISIBLE_DEVICES=1,2,3,4,5,6,7 ACCELERATE_LOG_LEVEL=info \
accelerate launch --config_file recipes/accelerate_configs/zero2.yaml --num_processes=7 \
src/open_r1/grpo.py --config recipes/Qwen2.5-1.5B-Instruct/grpo/config_demo_code.yaml使用路由服务
当沙箱服务上执行的脚本过多时,可能会受到速率限制。对于两家提供商,我们提供可在 CPU 节点上启动的路由脚本:
对于 E2B:
sbatch slurm/e2b_router.slurm
对于 Morph:
sbatch slurm/morph_router.slurm
然后在你的训练 YAML 配置中添加路由器 URL:
# For E2B e2b_router_url: 1.2.3.4:8000 # For Morph morph_router_url: 1.2.3.4:8000
端口应与启动路由器时使用的端口一致。所有训练任务可以共享同一个路由器 IP,这将确保并行执行得到妥善管理。
竞技编程问题:IOI 与 CodeForces
我们提供了 ioi_code_reward 和 cf_code_reward 奖励函数,分别用于执行 IOI 和 CodeForces 的问题。你可以使用 piston 或 Morph(目前仅支持 IOI)作为执行提供商。
Piston
要使用 Piston:
- 启动 piston worker,详见 slurm/piston/README.md
- 将你的环境变量 PISTON_ENDPOINTS 设置为 slurm 或一个 piston worker 端点列表
对于 IOI:
- 在你的配置中,使用 ioi_provider: "piston"
对于 CodeForces:
- 下载生成的(困难)测试用例:
# change PATH_TO_SAVE_TESTCASES. Increase --max-workers according to your machine's capacity
huggingface-cli download open-r1/codeforces --repo-type=dataset --include='generated_tests/*.parquet' --max-workers=8 --local-dir PATH_TO_SAVE_TESTCASES
- 将路径保存在 .env 文件中:
CF_TESTS_FOLDER=PATH_TO_SAVE_TESTCASES
Morph
Morph 是一种基于云的解决方案,提供沙盒环境用于运行代码。使用方法如下:
- 安装 Morph 客户端:pip install morphcloud
- 将你的 Morph API 密钥添加到 .env 文件中:MORPH_API_KEY="your_key_here"
- 在你的配置中,使用 ioi_provider: "morph"
示例配方
对于 IOI:
查看示例配方,了解如何使用 IOI 奖励函数:
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/zero2.yaml \
--num_processes=7 src/open_r1/grpo.py \
--config recipes/Qwen2.5-1.5B-Instruct/grpo/config_demo_code_ioi.yaml对于 CodeForces:
sbatch --job-name=cf-grpo --nodes=2 slurm/train.slurm --model Qwen2.5-Coder-7B-Instruct --task grpo --config codeforces --accelerator zero3 --dp 8 --tp 1
在 Slurm 集群上启动任务
如果你有权访问 Slurm 集群,我们提供了一个 slurm/train.slurm 脚本,它会自动为你排队训练任务。使用方法如下:
sbatch --job-name=open_r1 --nodes=1 slurm/train.slurm --model {model_name} --task {task} --config {config_suffix} --accelerator {accelerator}其中 {model_name} 和 {task} 如上所述,{config_suffix} 指的是具体的配置,{accelerator} 指的是 recipes/accelerate_configs 中选择的 🤗 Accelerate 配置。如果你想覆盖默认配置参数,可以通过附加一个空格分隔的字符串(如 '--arg1=value1 --arg2=value2')来提供。以下是在 1 个节点 8 张 GPU 上运行 SFT 的具体示例:
sbatch --job-name=open_r1 --nodes=1 slurm/train.slurm --model OpenR1-Distill-7B --task sft --config distill --accelerator zero3
你可以通过增加 --nodes 标志来扩展节点数量。
对于 GRPO,我们使用 1 个节点用于 vLLM 服务器,N 个节点用于训练。例如,要在 1+1 个节点上使用混合数据和张量并行运行 GRPO,请运行:
sbatch --job-name=open_r1 --nodes=2 slurm/train.slurm --model Qwen2.5-1.5B-Instruct --task grpo --config demo --accelerator zero2 --dp 4 --tp 2
注意
slurm/train.slurm 中的配置针对 Hugging Face 计算集群进行了优化,可能需要调整以适应你自己的计算节点。
自定义数据集混合
要将多个数据集组合成一个训练混合集,你可以在 YAML 配置文件中指定 dataset_mixture 参数。以下是一个操作模板:
dataset_mixture: datasets: # List of datasets to include in the mixture - id: dataset_1 # Hub dataset ID config: config_name_1 # Name of the dataset config split: split_1 # Split to use from the dataset columns: # Columns to keep - column_1 - column_2 weight: 0.25 # Fraction of dataset to use - id: dataset_2 config: config_name_2 split: split_2 columns: - column_1 - column_2 weight: 0.5 seed: 42 # Seed for shuffling the combined dataset test_split_size: 0.1 # Fraction of mixture to use for a test split
评估模型
我们使用 lighteval 来评估模型。对于单张 GPU 可容纳的模型,运行:
export VLLM_WORKER_MULTIPROC_METHOD=spawn # Required for vLLM MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B MODEL_ARGS="model_name=$MODEL,dtype=bfloat16,max_model_length=32768,gpu_memory_utilization=0.8,generation_parameters={max_new_tokens:32768,temperature:0.6,top_p:0.95}" OUTPUT_DIR=data/evals/$MODEL # AIME 2024 TASK=aime24 lighteval vllm $MODEL_ARGS "lighteval|$TASK|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR # MATH-500 TASK=math_500 lighteval vllm $MODEL_ARGS "lighteval|$TASK|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR # GPQA Diamond TASK=gpqa:diamond lighteval vllm $MODEL_ARGS "lighteval|$TASK|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR # LiveCodeBench lighteval vllm $MODEL_ARGS "extended|lcb:codegeneration|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR
为了在多张 GPU 上提高吞吐量,请按如下方式使用数据并行:
NUM_GPUS=8 MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B MODEL_ARGS="model_name=$MODEL,dtype=bfloat16,data_parallel_size=$NUM_GPUS,max_model_length=32768,gpu_memory_utilization=0.8,generation_parameters={max_new_tokens:32768,temperature:0.6,top_p:0.95}" TASK=aime24 OUTPUT_DIR=data/evals/$MODEL lighteval vllm $MODEL_ARGS "lighteval|$TASK|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR
对于需要跨 GPU 分片的大型模型,请使用张量并行并运行:
NUM_GPUS=8 MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-32B MODEL_ARGS="model_name=$MODEL,dtype=bfloat16,tensor_parallel_size=$NUM_GPUS,max_model_length=32768,gpu_memory_utilization=0.8,generation_parameters={max_new_tokens:32768,temperature:0.6,top_p:0.95}" TASK=aime24 OUTPUT_DIR=data/evals/$MODEL export VLLM_WORKER_MULTIPROC_METHOD=spawn lighteval vllm $MODEL_ARGS "lighteval|$TASK|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR
你也可以通过 make evaluate 启动评估,指定模型、任务,以及可选的并行技术和 GPU 数量。
在单张 GPU 上评估:
make evaluate MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-32B TASK=aime24
使用数据并行:
make evaluate MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-32B TASK=aime24 PARALLEL=data NUM_GPUS=8
使用张量并行:
make evaluate MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-32B TASK=aime24 PARALLEL=tensor NUM_GPUS=8
复现 DeepSeek 的评估结果
DeepSeek-R1 论文使用每查询 4-64 个响应的采样来估计 pass@1 准确率,但未明确每个基准测试的具体响应数量。在下表中,我们使用每查询以下数量的响应来估计 pass@1 准确率:
| 基准测试 | 每查询的响应数量 |
|---|---|
| AIME 2024 | 64 |
| MATH-500 | 4 |
| GPQA Diamond | 8 |
| LiveCodeBench | 16 |
请注意,对于像 AIME24 这样的基准测试,采样大量响应很重要,因为只有 30 个问题,这可能在多次运行中引入高方差。每个提示词采样多少响应的选择很可能解释了我们的评估结果与 DeepSeek 报告结果之间的微小差异。
AIME 2024
我们能够在大约 1-3 个标准差范围内复现 DeepSeek 在 AIME 2024 基准测试上报告的结果:
| 模型 | AIME 2024 (🤗 LightEval) | AIME 2024 (DeepSeek 报告值) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 30.7 | 28.9 |
| DeepSeek-R1-Distill-Qwen-7B | 50.8 | 55.5 |
| DeepSeek-R1-Distill-Qwen-14B | 65.9 | 69.7 |
| DeepSeek-R1-Distill-Qwen-32B | 69.7 | 72.6 |
| DeepSeek-R1-Distill-Llama-8B | 43.9 | 41.7 |
| DeepSeek-R1-Distill-Llama-70B | 63.0 | 70.0 |
要复现这些结果,请使用以下命令:
NUM_GPUS=1 # Set to 8 for 32B and 70B models MODEL=deepseek-ai/{model_name} MODEL_ARGS="model_name=$MODEL,dtype=bfloat16,max_model_length=32768,gpu_memory_utilization=0.8,data_parallel_size=$NUM_GPUS,generation_parameters={max_new_tokens:32768,temperature:0.6,top_p:0.95}" OUTPUT_DIR=data/evals/$MODEL lighteval vllm $MODEL_ARGS "lighteval|aime24|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR
或者,您可以按如下方式启动 Slurm 作业:
python scripts/run_benchmarks.py --model-id {model_id} --benchmarks aime24MATH-500
我们能够在大约 1-3 个标准差范围内复现 DeepSeek 在 MATH-500 基准测试上报告的结果:
| 模型 | MATH-500 (🤗 LightEval) | MATH-500 (DeepSeek 报告值) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 83.1 | 83.9 |
| DeepSeek-R1-Distill-Qwen-7B | 94.5 | 92.8 |
| DeepSeek-R1-Distill-Qwen-14B | 94.1 | 93.9 |
| DeepSeek-R1-Distill-Qwen-32B | 95.6 | 94.3 |
| DeepSeek-R1-Distill-Llama-8B | 88.6 | 89.1 |
| DeepSeek-R1-Distill-Llama-70B | 95.1 | 94.5 |
要复现这些结果,请使用以下命令:
export VLLM_WORKER_MULTIPROC_METHOD=spawn NUM_GPUS=1 # Set to 8 for 32B and 70B models MODEL=deepseek-ai/{model_name} MODEL_ARGS="model_name=$MODEL,dtype=bfloat16,max_model_length=32768,gpu_memory_utilization=0.8,data_parallel_size=$NUM_GPUS,generation_parameters={max_new_tokens:32768,temperature:0.6,top_p:0.95}" OUTPUT_DIR=data/evals/$MODEL lighteval vllm $MODEL_ARGS "lighteval|math_500|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR
或者,您可以按如下方式启动 Slurm 作业:
python scripts/run_benchmarks.py --model-id {model_id} --benchmarks math_500GPQA Diamond
我们能够在大约 1-3 个标准差范围内复现 DeepSeek 在 GPQA Diamond 基准测试上报告的结果:
| 模型 | GPQA Diamond (🤗 LightEval) | GPQA Diamond (DeepSeek 报告值) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 35.8 | 33.8 |
| DeepSeek-R1-Distill-Qwen-7B | 50.5 | 49.1 |
| DeepSeek-R1-Distill-Qwen-14B | 61.5 | 59.1 |
| DeepSeek-R1-Distill-Qwen-32B | 63.1 | 62.1 |
| DeepSeek-R1-Distill-Llama-8B | 46.7 | 49.0 |
| DeepSeek-R1-Distill-Llama-70B | 67.4 | 65.2 |
要复现这些结果,请使用以下命令:
export VLLM_WORKER_MULTIPROC_METHOD=spawn NUM_GPUS=1 # Set to 8 for 32B and 70B models MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B MODEL_ARGS="model_name=$MODEL,dtype=bfloat16,max_model_length=32768,gpu_memory_utilization=0.8,generation_parameters={max_new_tokens:32768,temperature:0.6,top_p:0.95}" OUTPUT_DIR=data/evals/$MODEL lighteval vllm $MODEL_ARGS "lighteval|gpqa:diamond|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR
python scripts/run_benchmarks.py --model-id {model_id} --benchmarks gpqaLiveCodeBench
我们能够在约 1-3 个标准差范围内复现 DeepSeek 在 LiveCodeBench 代码生成基准测试中报告的结果:
| 模型 | LiveCodeBench(🤗 LightEval) | LiveCodeBench(DeepSeek 报告值) |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 16.1 | 16.9 |
| DeepSeek-R1-Distill-Qwen-7B | 37.4 | 37.6 |
| DeepSeek-R1-Distill-Qwen-14B | 51.3 | 53.1 |
| DeepSeek-R1-Distill-Qwen-32B | 56.0 | 57.2 |
| DeepSeek-R1-Distill-Llama-8B | 37.4 | 39.6 |
| DeepSeek-R1-Distill-Llama-70B | 55.9 | 57.5 |
要复现这些结果,请使用以下命令:
NUM_GPUS=1 # Set to 8 for 32B and 70B models, or data_parallel_size=8 with the smaller models for speed MODEL=deepseek-ai/{model_name} MODEL_ARGS="model_name=$MODEL,dtype=bfloat16,max_model_length=32768,gpu_memory_utilization=0.8,data_parallel_size=$NUM_GPUS,generation_parameters={max_new_tokens:32768,temperature:0.6,top_p:0.95}" OUTPUT_DIR=data/evals/$MODEL lighteval vllm $MODEL_ARGS "extended|lcb:codegeneration|0|0" \ --use-chat-template \ --output-dir $OUTPUT_DIR
python scripts/run_benchmarks.py --model-id {model_id} --benchmarks lcb数据生成
从一个精简的蒸馏 R1 模型生成数据
以下示例可以在 1 台 H100 上运行。首先安装以下依赖项:
uv pip install "distilabel[vllm]>=1.5.2"现在将以下代码片段保存到一个名为 pipeline.py 的文件中,并使用 python pipeline.py 运行它。它会为 10 个示例中的每一个生成 4 个输出(将仓库的用户名替换为你自己的组织或用户名):
from datasets import load_dataset from distilabel.models import vLLM from distilabel.pipeline import Pipeline from distilabel.steps.tasks import TextGeneration prompt_template = """\ You will be given a problem. Please reason step by step, and put your final answer within \boxed{}: {{ instruction }}""" dataset = load_dataset("AI-MO/NuminaMath-TIR", split="train").select(range(10)) model_id = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B" # Exchange with another smol distilled r1 with Pipeline( name="distill-qwen-7b-r1", description="A pipeline to generate data from a distilled r1 model", ) as pipeline: llm = vLLM( model=model_id, tokenizer=model_id, extra_kwargs={ "tensor_parallel_size": 1, "max_model_len": 8192, }, generation_kwargs={ "temperature": 0.6, "max_new_tokens": 8192, }, ) prompt_column = "problem" text_generation = TextGeneration( llm=llm, template=prompt_template, num_generations=4, input_mappings={"instruction": prompt_column} if prompt_column is not None else {} ) if __name__ == "__main__": distiset = pipeline.run(dataset=dataset) distiset.push_to_hub(repo_id="username/numina-deepseek-r1-qwen-7b")
可以查看 HuggingFaceH4/numina-deepseek-r1-qwen-7b 处的示例数据集。
从 DeepSeek-R1 生成数据
要运行更大的 DeepSeek-R1,我们使用了 2 个节点,每个节点配备 8×H100 GPU,使用本仓库中 slurm/generate.slurm 的 slurm 文件。首先,安装依赖项:
(目前我们需要安装修复了 R1 CUDA 图捕获问题的 vllm 开发版 wheel 包)
pip install https://wheels.vllm.ai/221d388cc5a836fa189305785ed7e887cea8b510/vllm-1.0.0.dev-cp38-abi3-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu121
uv pip install "distilabel[vllm,ray,openai]>=1.5.2"然后运行以下命令:
sbatch slurm/generate.slurm \
--hf-dataset AI-MO/NuminaMath-TIR \
--temperature 0.6 \
--prompt-column problem \
--model deepseek-ai/DeepSeek-R1 \
--hf-output-dataset username/r1-dataset注意
任务运行时,你可以通过集群登录节点设置 SSH 隧道,从你的电脑运行 ssh -L 8265:ray_ip_head_node:8265 <login_node> 来访问 Ray 仪表板,然后在浏览器中访问 http://localhost:8265
数据去污染
按照 s1: Simple test-time scaling 的做法,可以使用 scripts/decontaminate.py 脚本对数据进行去污染处理,该脚本使用 8-gram 对数据集进行去污染并去重数据。示例运行:
python scripts/decontaminate.py \
--dataset "open-r1/verifiable-coding-problems-python" \
--problem_column problem \
--cleanup它会针对基准测试数据集进行去污染,之后移除受污染的样本。如果没有提供参数 --new_dataset_name,则会复用同一数据集,并添加 _decontaminated 后缀。它针对提示词(prompt)运行,对于该数据集,提示词列是 problem,但也可以指定不同的列。
脚本的参数:
usage: decontaminate.py [-h] --dataset DATASET [--split SPLIT] [--ngram_size NGRAM_SIZE] [--problem_column PROBLEM_COLUMN] [--cleanup] [--new_dataset_name NEW_DATASET_NAME] options: -h, --help show this help message and exit --dataset DATASET Name of the dataset to check for contamination. --split SPLIT Split to check for contamination, defaults to `train`. --ngram_size NGRAM_SIZE Size of n-grams to build, defaults to 8. --problem_column PROBLEM_COLUMN Name of the column containing the problem (prompt). --cleanup Whether to remove the contaminated rows before pushing the dataset. --new_dataset_name NEW_DATASET_NAME New name for the dataset. If not provided, will reuse the name and add a `_decontaminated` to the name.
贡献
欢迎贡献。请参考 #23。
致谢
该项目是开放 AI 社区众多团体和个人共同努力的成果。我们特别感谢 vLLM 和 SGLang 团队创建了高性能工具,用于扩展 GRPO 的发布。同时,我们也感谢 OpenThoughts、Prime Intellect 和 General Reasoning 团队创建并分享了高质量的推理数据集。
引用
如果您在自己的工作中觉得这个项目有用,请考虑按如下方式引用:
@misc{openr1,
title = {Open R1: A fully open reproduction of DeepSeek-R1},
url = {https://github.com/huggingface/open-r1},
author = {{Hugging Face}},
month = {January},
year = {2025}
}
