Tencent Hy@TencentHunyuan

精选74

2026-06-05 15:46·27天前

精选理由

腾讯混元联合人大开源的 PlanningBench，补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口，做 Agent 的同学可以直接用来评测和训练，开源即用。

AI 摘要

腾讯混元（Tencent Hunyuan）与中国人民大学高瓴人工智能学院合作，开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务，支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

AI 翻译 · 中文

规划是大语言模型从“说”迈向“做”的关键一步。

腾讯混元与中国人民大学高瓴人工智能学院合作，兴奋地开源了 PlanningBench——一个可扩展、可验证的框架，用于评估和训练大语言模型的规划能力。

通过 PlanningBench，你可以获得： ✅ 30 多个真实世界规划任务 ✅ 自动验证 ✅ 评估与训练支持

看看顶级大语言模型在 PlanningBench 上的表现 👇

资源： arXiv: https://arxiv.org/abs/2605.20873 GitHub: https://github.com/Tencent-Hunyuan/PlanningBench HuggingFace: https://huggingface.co/datasets/tencent/PlanningBench

#PlanningBench #TencentHunyuan #OpenSource 📷

智能体arXivGitHub开源/仓库

在 X 查看原推导出 Markdown

Tencent Hy@TencentHunyuan · X

精选74导出 Markdown