公众号:龙猫LongCat(美团)
精选69
美团 LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
精选理由
美团LongCat开源的VitaBench 2.0是首个评测AI长期理解用户偏好的基准,实验发现最强模型得分也刚过0.5,做Agent和推荐系统的值得跑一遍。
AI 摘要
美团 LongCat 团队推出 VitaBench 2.0,首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具,每位用户平均2093个交互事件,时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示,最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5;开启思考模式并不总能提升个性化任务表现;所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com