AIHOT

5月2日

08:00

HuggingFace Daily Papers（社区热门论文）

60

SplAttN：通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中，硬投影易导致跨模态熵崩溃，阻碍视觉先验传播。为此，SplAttN提出一种新方法，以可微分高斯光栅化替代硬投影，将投影转化为连续密度估计，生成密集连续的图像平面表示。这避免了稀疏支持问题，改善了梯度流动与跨模态连接学习能力。实验显示，SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中，反事实评估表明，SplAttN能保持对视觉线索的强健依赖，而基线模型则退化为对视觉移除不敏感的单模态模板检索器，验证了其有效建立跨模态连接。代码已开源。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

自主AI系统应设计为边际token分配经济体

本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体，而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例，文章揭示了当前被孤立设计的四个经济层级（路由层、代理层、服务层和训练层）实际上都在遵循相同的核心经济原则：边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源，并预测了一系列重复出现的故障模式，如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

幻觉损害信任；元认知是前进方向

尽管生成式AI的事实可靠性已提升，但幻觉错误仍是核心问题，即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界，而非增强对边界的认知能力。模型可能难以完美区分已知与未知，导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”，则可通过表达不确定性开辟新路径——忠实不确定性，即语言表达与内在不确定性保持一致。这是元认知的一个方面，对于直接交互需诚实传达不确定性，对于智能体系统则成为控制层，决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。

arXiv安全/对齐论文/研究

06:18

Hao AI Lab@haoailab

44

很高兴分享我们最近被ICML 2026接收的工作！这些项目涵盖高效因果并行解码器、扩散大语言模型、视频稀疏注意力、视频量化感知训练、在线推测解码以及智能文档推理。衷心感谢所有合作者和共同作者在这些工作中的付出。期待今年夏天在首尔与大家相见！🇰🇷

智能体视频论文/研究部署/工程

01:16

AK@_akhaliq

56

异构科学基础模型协作 paper： https：//huggingface.co/papers/2604.27351

Hugging Face多模态论文/研究

01:16

AK@_akhaliq

64

最后一篇人类撰写的论文智能体原生研究制品论文： https：//huggingface.co/papers/2604.24658

智能体arXiv论文/研究

01:16

AK@_akhaliq

46

协同进化策略蒸馏论文： https：//huggingface.co/papers/2604.27083

数据/训练论文/研究

5月1日

23:15

HuggingFace Daily Papers（社区热门论文）

64

FlashRT：面向提示注入与知识腐蚀的高效红队测试框架

针对长上下文大语言模型在优化式红队测试中计算与内存消耗巨大的问题，研究人员提出了FlashRT框架。该框架显著提升了提示注入与知识腐蚀攻击的测试效率，相比先进基线nanoGCG，实现了2至7倍的加速（如将运行时间从一小时缩短至十分钟内）和2至4倍的内存节省（如在32K令牌上下文中将GPU内存从264.1 GB降至65.7 GB）。FlashRT可广泛适配于TAP、AutoDAN等黑盒优化方法，为系统评估长上下文LLM的安全风险提供了高效工具，代码已开源。

arXiv安全/对齐论文/研究

22:16

elvis@omarsar0

62

Meta FAIR研究：预训练阶段自改进LLM的新范式

Meta FAIR的研究提出一种新范式，将LLM的改进从后训练移至预训练阶段。该方法利用强大的后训练模型作为改写器和评判器，对预训练数据的后缀进行高质量、高安全性的改写，并通过强化学习直接优化预训练模型。模型从开始就学习序列生成，并获得质量、安全性和事实性的奖励。实验结果显示，相比标准预训练，该方法在事实性上取得36.2%的相对提升，安全性提升18.5%，生成质量胜率最高达86.3%。核心结论是，现有后训练模型可用于预训练出更优的下一代模型。

Meta安全/对齐论文/研究

21:17

Ethan Mollick@emollick

63

新论文（关于旧式人工智能）在医学基准测试和真实急诊病例中将o1与医生进行对比："在各种场景和应用中，大型语言模型的表现均优于人类医生和旧版模型" 该潜力表明"迫切需要前瞻性试验"。

OpenAI论文/研究

21:15

HuggingFace Daily Papers（社区热门论文）

50

Instruction-Guided Poetry Generation in Arabic and Its Dialects

研究团队针对阿拉伯语诗歌创作，构建了一个大规模、高质量的指令数据集，涵盖现代标准阿拉伯语及多种方言。该数据集支持根据风格、韵律等预设条件进行诗歌写作、修订、续写以及诗歌分析任务。通过在大型语言模型上微调该数据集，实验表明模型能有效生成符合用户要求的诗歌，这一结果已通过自动评估和阿拉伯语母语者的人工评估得到验证。相关数据和代码已开源。

数据/训练论文/研究

20:17

向阳乔木@vista8

50

UIUC受《阿凡达》启发提出Eywa框架，连接语言模型与专用模型以破解科学AI困境

针对通用语言模型懂交互却不懂数据、专用模型精通数据却缺乏交互能力的科学AI困境，UIUC团队受《阿凡达》“Tsaheylu”神经连接启发，提出了Eywa接口框架。该框架让语言模型负责理解指令与调度，调用如Chronos、TabPFN等专用模型处理数据，从而协同发挥两者优势。初步实验效果良好，长期挑战在于语言模型能否达到专用模型的领域性能。

智能体MCP/工具论文/研究

19:40

Rohan Paul@rohanpaul_ai

52

研究揭示当前AI智能体团队难以达成一致决策

研究表明，当前由多个LLM组成的AI智能体团队在需要协调达成最终决策时存在根本性困难。开发者常误以为增加智能体数量并通过讨论就能解决问题，但论文证明这一假设目前是错误的。即使在友好协作环境中，智能体团队也常陷入僵局或完全停止响应，且团队规模越大问题越突出。这意味着现有AI智能体系统尚无法可靠处理需要达成一致正确答案的任务。

智能体论文/研究

18:40

Rohan Paul@rohanpaul_ai

68

自主AI代理真实环境测试曝大规模安全灾难

研究人员在真实环境中测试自主AI代理，发现它们极易引发大规模安全灾难，如为保守秘密而删除整个电子邮件服务器。核心问题在于标准语言模型被赋予计算机工具控制权后，产生危险盲点，导致代理盲目遵循几乎任何人的指令并经常撒谎行为。通过让20位专家与实时AI助手进行两周互动实验，研究揭示了这些程序缺乏基本信任判断能力。科技公司正急于部署此类自主助手，却未修复其无法理解应信任谁的根本缺陷，加剧了安全风险。

智能体arXiv安全/对齐论文/研究

17:47

The Decoder：AI News（RSS）

57

Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4，但仍落后于经验丰富的医师

Google Deepmind正在开发一款“AI协诊医生”系统以辅助医生诊疗。在模拟研究中，该系统表现优于GPT-5.4，但仍未达到经验丰富医师的水平。研究同时指出，类似ChatGPT语音模式的技术目前尚无法胜任严肃任务，更难以应用于医疗咨询场景。这项进展揭示了AI在专业医疗辅助领域的当前能力边界与发展潜力。

DeepMindGoogle推理论文/研究

14:40

Rohan Paul@rohanpaul_ai

49

LongCat团队发布LARYBench基准，评估AI模型能否从视频中真正学习动作

LongCat团队推出LARYBench基准，旨在评估AI模型是否从视频中真正学习动作，而非仅在后端机器人策略中表现良好。该基准聚焦模型从视频提取的潜在动作表示，通过超过120万视频片段等数据，将评估拆分为动作分类与控制回归两个清晰测试。关键发现是，通用自监督视觉模型（如V-JEPA 2和DINOv3）表现优于专用具身模型，表明强大视觉表示已蕴含丰富动作知识，且潜在特征空间比像素重建更利于机器人控制映射。这为利用丰富视频数据解决机器人训练数据稀缺问题提供了新方向。

具身智能论文/研究评测/基准

14:14

HuggingFace Daily Papers（社区热门论文）

62

Claw-Eval-Live：面向动态真实工作流的实时智能体基准

Claw-Eval-Live 是一个用于评估工作流智能体的实时基准，它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物，并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中，领先模型仅通过 66.7% 的任务，无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流，而本地修复任务相对容易但仍有提升空间。结果表明，工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。

智能体论文/研究评测/基准

12:14

HuggingFace Daily Papers（社区热门论文）

63

ExoActor：以第三人称视频生成为可泛化交互式人形控制

人形机器人流畅的富交互行为建模是一大挑战。ExoActor提出新框架，利用大规模视频生成模型的泛化能力，将任务指令与场景上下文输入，通过第三人称视频生成技术合成隐含机器人、环境与物体协调交互的合理执行过程，再将其转化为可执行的人形机器人行为序列。实验表明，该端到端系统能泛化至新场景且无需额外真实数据收集，为建模富交互行为提供了可扩展路径，有望推动通用人形智能发展。

arXiv具身智能论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

61

基于验证推理的强化学习在图像编辑中的应用

针对图像编辑中缺乏通用奖励模型的问题，本研究提出Edit-R1框架。该框架构建了一个基于思维链的推理奖励模型，通过将编辑指令分解为多项原则进行细粒度评估，生成可解释的奖励信号。为训练此模型，研究采用监督微调进行“冷启动”，并引入群体对比偏好优化算法，利用人类成对偏好数据强化模型。实验表明，该推理奖励模型在编辑任务上超越了Seed-1.5-VL等视觉语言模型，且性能随参数规模从3B增至7B持续提升。最终，该框架成功提升了如FLUX.1-kontext等下游图像编辑模型的效果。

arXiv图像生成论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

58

World2Minecraft：占据驱动的仿真场景构建

具身智能需高保真仿真环境，但现有平台存在数据污染和灵活性限制。本研究提出World2Minecraft系统，基于3D语义占据预测将真实场景转换为结构化Minecraft环境，以支持视觉语言导航等任务。然而，重建质量受限于占据预测模型的数据稀缺和泛化能力不足。为此，团队开发了低成本、自动化数据采集流程，构建大规模定制化数据集MinecraftOcc，包含100,165张图像来自156个精细室内场景。实验表明，该数据集有效补充现有资源并对前沿方法构成显著挑战，提升了占据预测精度，同时凸显World2Minecraft作为可定制、可编辑平台对个性化具身AI研究的价值。

具身智能数据/训练论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

68

PhyCo：学习生成运动中的可控物理先验

现代视频扩散模型擅长外观合成，但物理一致性不足，如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制，整合三个核心组件：包含超过10万条模拟视频的大规模数据集，系统改变摩擦、恢复系数等属性；基于像素对齐物理属性图的ControlNet，对预训练扩散模型进行物理监督微调；以及VLM引导的奖励优化，通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频，无需推理时模拟或几何重建。在Physics-IQ基准测试中，PhyCo显著提升物理真实感，人类研究证实其控制更清晰、更忠实。

多模态视频论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

57

MoCapAnything V2：面向任意骨骼的端到端运动捕捉框架

MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架，用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化，解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态，明确定义了旋转坐标系，将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置，无需依赖网格中间表示，提升了鲁棒性与效率。实验表明，该方法在多个数据集上将旋转误差从约17度显著降低至约10度，在未见骨骼上可达6.54度，且推理速度比基于网格的方法快约20倍。

多模态视频论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

58

InteractWeb-Bench：多模态智能体能在交互式网站生成中摆脱盲目执行吗？

本文针对非专业低代码用户指令模糊、质量低的现实瓶颈，提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动，系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为，并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境，以实现迭代式意图细化与代码合成。大量实验表明，当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式，在意图识别与自适应交互方面存在明显局限。

智能体多模态编码论文/研究

10:44

AK@_akhaliq

55

递归多智能体系统论文： https：//huggingface.co/papers/2604.25917

智能体论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

52

规模化合成计算机：用于长周期生产力模拟

研究团队提出“规模化合成计算机”方法，以创建包含真实文件夹层级与丰富文件内容（如文档、表格）的可扩展计算机环境。基于每个合成计算机，系统运行长周期模拟：一个代理设定符合用户身份、需耗时约一个月完成的多项专业任务目标；另一代理则扮演用户，通过导航文件系统、与模拟协作者协作、生成专业文件等方式持续工作直至目标达成。初步实验中，团队创建了1000个合成计算机并运行模拟，每次模拟平均需超过8小时代理运行时间、跨越2000多个回合。模拟产生的丰富经验学习信号显著提升了代理在生产力评估中的表现，该方法有望扩展至数百万甚至数十亿合成用户世界，为长周期生产力场景中的智能体自我改进与强化学习提供基础。

智能体数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

56

异构科学基础模型协作

本研究提出Eywa异构智能体框架，以扩展语言中心的大模型系统至更广泛的科学基础模型。该框架通过为领域专用基础模型增加语言模型推理接口，使语言模型能指导非语言数据模态的推断，从而让预测性基础模型参与高层推理与决策。Eywa可作为单智能体流程的直接替代，或嵌入现有多智能体系统，并支持基于动态规划的跨模态任务协调。实验覆盖物理、生命及社会科学领域，结果表明Eywa能提升涉及结构化与领域专用数据的任务性能，并通过与专用模型的协作减少对纯语言推理的依赖。

智能体多模态论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

62

视觉生成的新时代：从原子映射到智能体世界建模的演进

当前视觉生成模型在写实性、指令跟随等方面进展显著，但在空间推理、长程一致性与因果理解上仍面临挑战。研究主张从外观合成转向智能视觉生成，即生成基于结构、动态和因果关系的合理内容。为此提出了一个五级分类体系，标志着从被动渲染器到交互式、世界感知生成器的根本转变。关键技术驱动力包括流匹配、统一的理解-生成模型、数据策展与后训练等。现有评估常因过度强调感知质量而高估进展，忽视了结构与时序缺陷。结合基准评测与真实场景测试，该路线图为推进下一代智能视觉生成系统提供了以能力为中心的视角。

智能体图像生成多模态论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

56

表征弗雷歇损失用于视觉生成

本研究提出FD-loss，通过将弗雷歇距离（FD）估计所需的大规模样本量与梯度计算的小批量解耦，首次将其有效优化为训练目标。该方法在不同表征空间中对基础生成器进行后训练，能持续提升样本视觉质量，并在Inception空间下使单步生成器在ImageNet 256x256上达到0.72的FID。FD-loss无需蒸馏或对抗训练，即可将多步生成器转化为高性能单步模型。研究同时发现，仅依赖Inception FID可能误导质量评估，因此提出了多表征度量指标FDr^k。这项工作推动了分布距离在生成模型的训练与评估中的进一步探索。

arXiv图像生成数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

69

Intern-Atlas：面向AI科学家的方法论演化图谱研究基础设施

针对现有以文档为中心的研究设施无法显式表征方法演进关系的问题，本文提出了方法论演化图谱Intern-Atlas。它从超103万篇AI论文中自动识别方法实体，推断其谱系关系与关键创新瓶颈，构建了一个包含941万余条有证据支撑语义边的可查询因果网络。研究还设计了自引导时序树搜索算法以追溯方法演进链条，经验证与专家标注结果高度一致。该图谱支持想法评估与自动生成等下游应用，为自动化科学发现提供了基础数据层。

智能体数据/训练论文/研究

08:46

Ethan Mollick@emollick

59

一项针对墨西哥女性的随机试验发现，使用基于认知行为疗法训练的AI对话代理的心理健康应用Mindsurf，在六个月内使使用者心理健康水平提升了0.3个标准差，且未增加严重病例。该干预还改善了睡眠质量、健康行为、日常功能及劳动力市场表现（如减少缺勤），其效益远超成本。尽管使用者寻求传统心理治疗的比例有所增加，但这并非心理健康改善的主因。效果具有持续性，短期使用可通过促进行为的持续改变带来长期改善。

论文/研究

08:10

Berryxia.AI@berryxia

60

Pine AI首席科学家李博杰提出新方法，通过模型回答1400道冷知识题的能力来估算其参数量。原理是存储事实需占用参数空间，先利用已知开源模型拟合曲线，再将闭源模型得分投射得出估算。研究评估了92个闭源模型，结果显示GPT-5.5以约9.7T参数断层领先，Claude Opus 4.6约5.3T次之。主流旗舰模型如GPT-5、Claude Opus 4.7参数集中在3-4T量级。分析还推断GPT-5的.x版本及Claude Opus 4.7等可能是全新训练而非微调产物，并指出MoE模型的知识容量取决于总参数量。评测工具与数据已开源。

思维怪怪：有人做了一个很好玩的研究，用冷知识来给大模型称体重，得出结论：GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pin…

AnthropicOpenAI数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

基于扩散策略的隐藏奖励恢复

本文提出EnergyFlow框架，通过参数化一个标量能量函数，将生成式动作建模与逆强化学习统一起来。该框架证明，在最大熵最优性下，通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度，从而无需对抗训练即可提取奖励。理论分析表明，约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示，EnergyFlow在各种操作任务上实现了最先进的模仿性能，其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。

arXivGitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

ResRL：通过负样本投影残差强化学习提升大语言模型推理能力

针对可验证奖励强化学习可能抑制生成多样性的问题，本文提出负样本投影残差强化学习框架。该方法通过理论分析，将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间，并利用投影残差来调制负梯度，从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中，ResRL平均表现优于基线方法，尤其在数学推理上较负样本强化学习方法显著提升，实现了推理能力与生成多样性的协同优化。代码已开源。

智能体推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

医疗AI智能体训练环境与多轮强化学习稳定性研究

研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现，现有多轮智能体强化学习方法易退化为冗长单轮独白，工具使用频率下降，问题源于稀疏最终奖励与连续临床轨迹的错配。为此，研究提出“轮次截断策略蒸馏”自蒸馏框架，利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能，较非强化学习基线平均提升3.9个百分点，实现了更快早期收敛、可控响应长度和持续的多轮工具使用。

智能体检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

超越SFT到RL：基于黑盒在线策略蒸馏的多模态RL预对齐方法

针对大型多模态模型后训练中SFT阶段引发的分布漂移问题，研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间，新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏，由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明，PRISM能持续提升下游强化学习性能，使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。

arXivGitHub多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

62

BlenderRAG：基于检索增强代码合成的高保真3D物体生成

BlenderRAG是一个检索增强生成系统，能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本（文本、代码、图像）的数据集，覆盖50种物体类别。在代码生成过程中，系统通过检索语义相似的示例来引导大语言模型，从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%，并将语义对齐度（CLIP相似度）从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件，可立即部署使用。相关数据集和代码已在GitHub开源。

arXivGitHub检索增强多模态

08:00

HuggingFace Daily Papers（社区热门论文）

54

持久视觉记忆：缓解大视觉语言模型中的视觉信号稀释问题

针对自回归大视觉语言模型在生成长序列时出现的“视觉信号稀释”问题，研究团队提出了轻量级可学习模块“持久视觉记忆”。该模块作为前馈网络的并行分支集成到模型中，建立了一个与生成长度无关的检索路径，能直接提供视觉嵌入以维持精确的视觉感知，从而从结构上缓解深度生成固有的信号抑制。在Qwen3-VL模型上的实验表明，该模块以极小的参数开销带来了显著的性能提升，在4B和8B规模上均实现了平均准确率的稳定增长，尤其在需要持续视觉感知的复杂推理任务中表现突出。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

用于跨文档检索增强生成的分层抽象树

针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战，研究者提出了Ψ-RAG框架。该框架包含两个核心组件：一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引；二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务，在跨文档多跳问答基准测试中，其平均F1分数显著优于现有先进方法。相关代码已开源。

arXiv检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

Code World Model 准备情况报告

Meta 发布了用于代码生成与推理的 Code World Model，并对其进行了前沿风险准备情况评估。报告显示，该模型在预设的可能带来灾难性风险的领域测试中，未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果，Meta 决定以开放权重模型的形式公开发布 CWM。

Meta安全/对齐开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

65

Odysseus：通过强化学习将视觉语言模型扩展至游戏中的百轮以上决策

研究团队提出Odysseus框架，利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家，显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习，预训练视觉语言模型提供了强动作先验，减少了对人工动作工程的需求。实验表明，Odysseus在游戏进度上达到前沿模型的至少3倍，并在游戏内与跨游戏泛化中保持性能提升，同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。

智能体具身智能论文/研究