# ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

- 来源：公众号：龙猫LongCat（美团）
- 作者：美团技术团队
- 发布时间：2026-06-05 10:24
- AIHOT 分数：55
- AIHOT 链接：https://aihot.virxact.com/items/cmq2l9lhg00dxsl6ns5nl3hik
- 原文链接：https://mp.weixin.qq.com/s/qgq5fstJNeNmfSigedFOeQ

## AI 摘要

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。