# 腾讯混元联合人大开源PlanningBench评估框架

- 来源：Tencent Hy (@TencentHunyuan)
- 发布时间：2026-06-05 15:46
- AIHOT 分数：74
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq0msqwn07oisltr2sw1wjbg
- 原文链接：https://x.com/TencentHunyuan/status/2062803141314437391

## 精选理由

腾讯混元联合人大开源的 PlanningBench，补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口，做 Agent 的同学可以直接用来评测和训练，开源即用。

## AI 摘要

腾讯混元（Tencent Hunyuan）与中国人民大学高瓴人工智能学院合作，开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务，支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

## 正文

规划是大语言模型从“说”迈向“做”的关键一步。

腾讯混元与中国人民大学高瓴人工智能学院合作，兴奋地开源了 PlanningBench——一个可扩展、可验证的框架，用于评估和训练大语言模型的规划能力。

通过 PlanningBench，你可以获得： ✅ 30 多个真实世界规划任务 ✅ 自动验证 ✅ 评估与训练支持

看看顶级大语言模型在 PlanningBench 上的表现 👇

资源： arXiv: https://arxiv.org/abs/2605.20873 GitHub: https://github.com/Tencent-Hunyuan/PlanningBench HuggingFace: https://huggingface.co/datasets/tencent/PlanningBench

#PlanningBench #TencentHunyuan #OpenSource 📷
