腾讯混元联合人大开源的 PlanningBench,补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口,做 Agent 的同学可以直接用来评测和训练,开源即用。
腾讯混元(Tencent Hunyuan)与中国人民大学高瓴人工智能学院合作,开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务,支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。
规划是大语言模型从“说”迈向“做”的关键一步。
腾讯混元与中国人民大学高瓴人工智能学院合作,兴奋地开源了 PlanningBench——一个可扩展、可验证的框架,用于评估和训练大语言模型的规划能力。
通过 PlanningBench,你可以获得: ✅ 30 多个真实世界规划任务 ✅ 自动验证 ✅ 评估与训练支持
看看顶级大语言模型在 PlanningBench 上的表现 👇
资源: arXiv: https://arxiv.org/abs/2605.20873 GitHub: https://github.com/Tencent-Hunyuan/PlanningBench HuggingFace: https://huggingface.co/datasets/tencent/PlanningBench
#PlanningBench #TencentHunyuan #OpenSource 📷