5月12日

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队提出世界-动作交互模型（WAIMs）概念，并针对自动驾驶实例化出DAWN模型。DAWN在紧凑的语义潜在空间中，通过世界预测器与条件动作去噪器的耦合进行交互式推理：预测的世界为动作去噪提供条件，而去噪后的动作又反馈以更新世界预测，两者在推理中递归优化。该方法无需在像素空间展开完整未来预测，仅通过短时潜在推演即可支持复杂交互场景中的长时程轨迹生成。实验表明，DAWN在多个自动驾驶基准测试中取得了优异的规划性能与安全相关结果，证明交互式世界-动作生成是构建真正可操作世界模型的有效路径。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PresentAgent-2：迈向通用多模态演示智能体

PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题，并从演示友好型来源进行深度研究，收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片，生成特定模式的脚本，并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式：单人演示（单解说员）、讨论式演示（多演讲者结构化角色）和交互式演示（基于生成内容回答观众问题）。研究团队构建了涵盖三种场景的多模态演示基准，并制定了内容质量、媒体相关性、动态媒体使用等评估标准，从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。

智能体 arXiv 多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

视觉美学基准：前沿模型能评判美吗？

针对现有美学评估常简化为单图像打分的问题，研究提出了视觉美学基准（VAB），将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像，每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现，最强模型仅在26.5%的任务中准确识别最佳和最差图像，远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型，其性能可接近大得多的开源模型，表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。

arXiv 多模态论文/研究评测/基准

07:29

elvis@omarsar0

自主进化：LLM自动优化测试时扩展策略的新框架

近期研究提出AutoTTS框架，让大语言模型自主搜索并优化测试时扩展策略，取代人工设计。该框架将宽度-深度TTS策略制定为对预收集推理轨迹的控制器合成问题，通过Beta参数化压缩搜索空间，并利用细粒度执行轨迹反馈指导探索。在数学推理基准测试中，自动发现的控制器在准确率-成本帕累托前沿上超越了人工设计的强基线，且能零样本泛化到其他基准和模型规模。整个发现过程仅需39.9美元和160分钟，预示着人工设计思维链等方法的时代可能即将结束，TTS将成为LLM自主完成的任务。

智能体 arXiv 推理论文/研究

5月11日

23:59

elvis@omarsar0

大语言模型代理中的"记忆诅咒"

研究发现，长历史记录会在大语言模型（LLM）代理中引发“记忆诅咒”，导致其过度遵循历史、规避风险，从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验，在28个模型-游戏组合中，有18个因历史扩展而合作退化。机制分析表明，长历史侵蚀了模型的前瞻性意图，使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题，且能零样本迁移至新游戏。实验证明，触发因素是历史内容而非长度，而消除显式思维链通常能减轻合作崩溃。

智能体 arXiv 安全/对齐推理

19:48

Berryxia.AI@berryxia

小块有大智慧？这下真成真了！

一项新研究证明，一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行，并精确指定上下文信息，在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中，其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型，比手动设计的多代理流程更高效。该工作提供了关键证据，表明目前商业AI产品中依赖人工的提示工程和流程设计，完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向：智能的差距可能不在于模型规模，而在于协调与指挥的能力。

BURKOV: In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...

智能体 arXiv MCP/工具推理