6月22日

08:00

HuggingFace Daily Papers（社区热门论文）

研究揭示标准LLM智能体依赖上下文窗口保持计划信息，而非将其内化为持久状态。在Llama-3.1-70B上，计划信号写入一步后从0.453骤降4.1倍，HotpotQA下降12.4倍。推理模型（DeepSeek-R1-Distill-Llama-70B）的思维链痕迹会重新推导计划，严格剥离后恢复样本内+163%、样本外+153%信号，非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748，R1专用分类器达1.000。压力测试中，丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReNIO：为大语言模型同策略蒸馏重加权负轨迹重要性

同策略蒸馏平等对待所有学生生成输出。实验发现，仅用错误输出训练效果优于仅用正确输出，因错误输出保留模型能力边界附近的探索性推理。为此，ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token，聚合为归一化样本权重，无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上，ReNIO同时提升同策略蒸馏和同策略自蒸馏，对Qwen3-1.7B最高提升8.90%，对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。

GitHub 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VeriEvol：通过可验证进化指令扩展多模态数学推理

VeriEvol 是一个迭代框架，将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示；HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上，将进化 SFT 数据从 10K 扩展至 250K 样本，平均准确率从 35.42 升至 54.73；固定 backbone、SFT 初始化和 GRPO 配方后，VeriEvol 相比未进化 RL 基线累积提升 +3.88，其中进化提示贡献 +1.82，验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AI智能体模型批判--从笛卡尔思想到GIC通用架构

论文基于笛卡尔独立思想奠基与科幻自主存在体描绘，从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力（含社交互动）内生的agentive系统。提出Goal-Identity-Configurator（GIC）通用架构，融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习，并讨论agentive系统在人类监督下的可审计性、可控性与安全性。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

语义浏览：图像生成的可控多样性

现有文本到图像模型虽保真度高，但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”，让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离，直接在文本层面诱导多样性：利用视觉语言模型（VLM）操作完整场景上下文，并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间，每种变化对应一个可理解的语义决策。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ChartWalker：面向跨图表RAG任务的基准框架

ChartWalker是一个面向跨图表检索增强生成（RAG）任务的新框架。它采用层次知识图谱构建方法，按粒度组织实体与关系，并设计结构感知采样算法生成语义一致的多跳推理路径，显式控制查询难度与粒度，以解决现有基准中查询与证据词汇重合度高、推理链逻辑不一致的问题。基于该框架发布ChartWalker-Bench基准，覆盖多领域与多类型跨图表查询。主流RAG范式评估显示显著性能差距，同时提供ChartWalker-Agent基线辅助分析。

检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP（Android Open Harness Project）基于Android开源项目（AOSP）构建，将AI智能体视为操作系统的一等角色，提供自适应UI和智能体友好运行时环境，同时保留安卓软硬件生态。系统引入三种智能体导向机制：个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中，AOHP的任务完成率提升21.12%，token成本降低51.55%，并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

FedOT：面向联邦LDMs的所有权验证与泄漏追踪水印方法

联邦学习（FL）中的潜扩散模型（LDM）面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端，且可通过替换解码器轻易移除。为此提出FedOT框架，设计分块水印：第一部分用于所有权验证，第二部分用于客户端身份识别；同时引入潜向量变换（LVT），修改VAE原始潜分布以强化VAE与U-Net潜空间连接，使任何替换VAE去除水印的尝试都会导致图像质量严重下降，令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。

安全/对齐数据/训练论文/研究

01:34

elvis@omarsar0

《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法

论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法：将人类判断前置到可复用评估资产中，专家在上游策划评估智慧，而非在测试循环中逐一审查输出。现有方法各有局限：Benchmark测量固定能力，人工审核不具可扩展性，LLM-as-Judge存在评估器设计问题，红队测试偶发，trace审计需明确证据规则。AI智能体需作为行为系统评估，因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。

智能体 arXiv 论文/研究评测/基准

6月21日

08:00

HuggingFace Daily Papers（社区热门论文）

交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型，发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列，随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练，交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

Look Light， Think Heavy：多模态Chain-of-Thought推理能做什么、不能做什么

系统评估12个多模态任务（14个非推理模型、8个推理模型），发现：①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能，在数学、科学、多图像推理中有效；②现有开源多模态推理模型相比原始模型整体提升有限，可能因过度侧重数学推理而牺牲其他能力；③视觉推理是瓶颈，模型呈现“Look Light, Think Heavy”模式——语言反思起伏，视觉反思持续减弱，缺乏全程深度视觉内省。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Libretto：赋予LLM智能体音乐结构感知

Libretto是一个面向LLM智能体的符号音乐生成与修订框架，采用包含显式onset槽、声部和小节组织的LLM原生语法，并在节奏、和声、旋律、织体、形式与变奏的语料校准统计空间中评估每首作品。同一结构轴支持检索、诊断、复制风险控制及迭代自修订。在填空生成、参考引导整曲生成、渐变变形与教育音乐生成等任务中，Libretto将符号音乐从原始token序列转化为语言模型智能体可测量、可编辑的对象。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PolicyTrim：提升VLA模型内在策略效率

VLA模型部署受执行效率制约，现有工作多聚焦单步推理延迟，未充分探索内在策略效率。PolicyTrim提出基于强化学习的后训练框架，通过动态探索策略奖励更长可执行动作块长度，并设计冗余感知奖励减少冗余物理步。在三个基准与三个VLA模型上，动作块利用率提升3倍，物理执行步减少51.4%，端到端部署速度提升5.83倍，任务成功率未受影响。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

PlanBench-XL是一个交互式基准测试，包含327个零售任务和1,665个工具，用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性，迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示，GPT-5.4在无阻塞条件下准确率为51.90%，最严重阻塞下骤降至11.36%。分析表明，当故障缺乏明确错误信号或恢复需要更长替代工具路径时，智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。

智能体 MCP/工具推理论文/研究

04:08

HuggingFace Daily Papers（社区热门论文）

Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器，实验发现感知连贯性梯度主导学习效果：原生类别最易习得，远析取概念接近随机。CIFAR-100解离实验证实，感知距离显著预测习得准确率（partial R²=0.245, p<1e-7），语义距离无显著解释力。双向评估显示，样例机制在标签到图像检索中优于质心原型，命名与检索是分离的能力。控制实验表明，冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。

arXiv 多模态论文/研究

6月20日

23:28

AK@_akhaliq

S-Agent 空间工具使用催生空间智能的推理

智能体具身智能论文/研究

22:54

Orange AI@oran_ge

OpenAI 针对对齐中的"涌现失调"反向探索：若模型在某领域被强化诚实、认知谦逊、可纠正等特质，好行为是否泛化？他们用 RL 训练模型，仅在健康、教育等部分对话数据中强化这些特质，其余仍用常规数据。结果发现：训练领域内模型更诚实透明；在 44 个未见评测上，欺骗、谄媚、reward hacking、有害建议等全部下降；面对 adversarial prompt 和恶意微调时韧性更强，正常指令不受影响。论文指出 RL 不仅能强化代码，也能强化道德。

Orange AI: OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自...

OpenAI 安全/对齐论文/研究

16:59

IT之家（RSS）

中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究，提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情，生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”，可将文本压缩至27.9%，语义准确率保持99.5%。在QuALITY问答中，人类阅读压缩文本后准确率下降，而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2，支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token，任务完成度超96%。

智能体推理论文/研究

09:25

Rohan Paul@rohanpaul_ai

微软与约克大学论文：若LLM拥有人类属性，则《帝国时代II》亦然

微软与约克大学新论文指出，许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM，往往一开始就把这些概念内嵌到测试设计中。作者论证，原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机，作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建，输出相似句子，人们将不再认为它“理解”或“有共情”。论文并非否定AI认知，而是揭示测量问题：许多关于LLM类人属性的声称依赖于界面和观察者的预设，而不是系统本身。

arXiv Microsoft 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OpenBioRQ：未解决生物医学研究问题的智能体基准测试

OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试，覆盖 12 个领域。问题无固定答案密钥，迫使模型通过多步工具调用自主验证证据，从而评估其真实性及弃权能力。当前智能体极少捏造引用（超 99% 可解析），但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上；在最难子集中同系列模型仅解决约 17%，而前沿智能体（Gemini-3-Pro、Opus-4.7、GPT-5.5）表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后，评分者间一致性从 Spearman 0.35 提升至 0.82。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EBench：通用移动操控策略的细粒度诊断基准

EBench是一个模拟基准，用于细粒度诊断通用移动操控策略的能力，而非仅评估单一成功率。它包含26个多样化任务，沿5个能力维度和4个泛化维度标注。评估了π₀、π₀.₅、XVLA和InternVLA-A1等当前最先进的通用操控模型，发现成功率相近的模型能力画像存在显著差异：π₀.₅测试成功率最高且训练-测试保留最佳；InternVLA-A1在移动操控任务上占优，但在灵巧任务上崩溃；XVLA在原子技能上与其他策略互补。EBench还从4个代表性角度分析泛化能力，揭示了不同分布偏移因素的影响。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选74

可验证搜索不是可学习的链式思维

论文以九个确定性生成器推理任务为测试床，证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中，即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练，蒸馏后准确率始终为0.01–0.07，而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八（71%），但无法前向推导。干预实验揭示密码键后，同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录，让模型仅做回忆加验证，才能学会该任务（Private LB 0.92）。结论：蒸馏学到的是记忆和验证，而非搜索。

推理数据/训练论文/研究

推荐理由：这篇论文给CoT蒸馏泼了盆冷水，证明回溯搜索这种过程是学不会的，模型只能记住验证步骤。做推理微调的团队该重新审视自己的数据生成策略了。

08:00

HuggingFace Daily Papers（社区热门论文）

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

更深并非总是更好：通过Confident Decoding缓解对齐税

大语言模型自动回归生成传统上从最终层解码，但研究发现最终层可能将预测扰动到通用或对齐偏好的token，造成对齐税。Confident Decoding是一种无需训练的解码策略，通过熵引导的保守向后搜索动态选择最可靠的近最终层，并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上，该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进，零内存开销，延迟增加不到2%。结果表明，动态绕过最终层扰动可以解锁更强推理能力。

安全/对齐推理论文/研究

03:02

HuggingFace Daily Papers（社区热门论文）

LedgerAgent：面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中，易导致信息过时或策略违规。LedgerAgent 是一种推理时方法，将观察到的任务状态单独维护于分类账中并渲染到提示词；在改变环境的工具调用前，用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上，LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法，在多轮一致性指标上提升最大。

智能体 MCP/工具论文/研究

01:23

Greg Brockman@gdb

Greg Brockman 发推介绍 OpenAI 与波士顿儿童医院合作，利用 o3 Deep Research 辅助诊断儿童罕见遗传病，相关成果发表在 NEJM AI。o3 模型虽已发布超过一年，Brockman 感慨如今模型的能力或将带来更大突破。

OpenAI Newsroom: For families facing rare genetic diseases, answers can be hard to find. @HallieJackson spoke live with @_perloj and Dr. ...

OpenAI 行业动态论文/研究

6月19日

23:22

elvis@omarsar0

自动化SKILL.md生成：三阶段流水线论文

关键要点：OpenAI昨日为Codex推出了从交互中打包技能的类似功能；论文提出三阶段流水线（GUI轨迹分割→聚类候选技能→训练技能感知策略）。聚类纯度优异（5/8簇达0.95以上），但可读性未迁移：GRPO仅将技能步骤准确率从18.5%提至20.5%，在BrowseComp+上无改善，甚至输给简单频率先验。作者指出三个缺陷：弱边界检测器、无序片段表示、离线奖励模型。

智能体 arXiv 数据/训练论文/研究

23:02

HuggingFace Daily Papers（社区热门论文）

FID彩票：量化生成式模型评估中的隐藏随机性

FID是图像生成的事实标准评估指标，但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量，在数百个SiT网络上直接测量方差。发现：重新训练模型使FID变化幅度是固定网络重新采样的3.2倍，差距来自随机初始化、数据顺序和流匹配损失的高斯噪声；增加计算或模型大小几乎不缩小分散度，FID变异系数稳定在1-2%；每格无分类器引导调优使分散度减半，但重新洗牌最优种子。建议：在每格最优引导下评估，将低于~1.3% CoV的FID差距视为无结论，报告多个训练种子的误差条。

图像生成论文/研究评测/基准

21:52

Rohan Paul@rohanpaul_ai

通用智能体必须记住什么？

该论文指出，通用智能体不能仅依赖当前观测，必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时，仅凭观察无法区分当前场景。作者证明，要在两个域都表现良好的智能体，必须为不同域维持不同的内部记忆状态。核心结论：好的通用智能体不是对当前所见做出反应，而是必须携带来自先前经验的隐藏上下文。

智能体 arXiv 论文/研究

20:59

IT之家（RSS）

麻省理工学院新研究：过度依赖聊天机器人或削弱批判思维

麻省理工学院一项为期4周、67人参与的研究发现，过度依赖AI助手可能削弱批判性思维。实验使用基于GPT-4o并接入谷歌搜索的聊天机器人，参与者借助AI判断新闻标题和图片真伪时，正确概率提高21%，但在无AI帮助时独自识别错误信息的表现下降15.3%。研究指出，AI直接给出答案而非引导思考，短期内提升准确率，长期却削弱独立判断力，约四分之一参与者误以为能力提升，实际表现已变差。

OpenAI 安全/对齐论文/研究

19:01

HuggingFace Daily Papers（社区热门论文）

Multi-LCB：将LiveCodeBench扩展到多种编程语言

Multi-LCB 是一个新基准，将 LiveCodeBench（LCB）从 Python 扩展到 12 种编程语言，保持原有污染控制和评估协议，并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异，直接暴露了当前 LLM 在多语言代码生成上的关键短板。

arXiv 编码论文/研究评测/基准

19:01

HuggingFace Daily Papers（社区热门论文）

重新审视LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

当前FP4硬件路径（如NVIDIA Blackwell/Rubin-class及AMD MI350系列）均基于E2M1格式，但其可表示bin的几何不对称导致系统性负舍入误差——收缩偏差（Shrinkage Bias），该偏差在层间累积并被随机Hadamard变换（RHT）放大，解释了E2M1 FP4训练不稳定的原因。均匀网格E1M2/INT4避免了此误差并提升了量化质量。据此提出UFP4方案，对三个训练GEMM应用RHT并将随机舍入限制在dY。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中，UFP4持续低于强E2M1基线的BF16相对损失退化。未来加速器应将E1M2/INT4风格均匀4-bit网格作为一等训练基元。

数据/训练论文/研究

18:51

The Decoder：AI News（RSS）

OpenAI研究人员：少量"有益特质"训练让AI模型更安全且更难被操纵

OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程，模型便在53个独立基准（衡量欺骗、谄媚、奖励黑客等）中的44个上获得改进。健康数据训练也提升非健康评估，反之亦然。模型对有害提示和有害微调更具抵抗力，同时保持有用可操控性，研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。

OpenAI 安全/对齐推理论文/研究

15:55

HuggingFace Daily Papers（社区热门论文）

精选75

HumanScale：自我中心人类视频在具身预训练中可超越真实机器人数据

HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后，基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%，分布内任务成功率高52.5%，分布外任务成功率高90%。研究验证了一种可扩展范式：先以人类视频预训练学习多样世界表征，再以少量标注机器人数据微调对齐动作空间。

具身智能数据/训练论文/研究

推荐理由：让机器人看人类干活视频，预训练效果居然比直接用真实机器人数据更好，这个反直觉发现可能彻底改变具身智能的数据策略，做机器人的值得认真读一读。

15:55

HuggingFace Daily Papers（社区热门论文）

FlowBender：反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架，将对齐误差作为第一类输入，训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号，经前向算子计算偏差，再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体，并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中，同时提升了保真度与合理性。

图像生成多模态数据/训练论文/研究

11:47

HuggingFace Daily Papers（社区热门论文）

JanusMesh：零样本快速3D视觉错觉生成框架

JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架，可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段：跨空间双分支去噪过程在体素空间中动态解码3D潜在表示，通过CLIP引导的视角对齐和SDF融合实现无缝几何融合；视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明，该方法在几何完整性、语义可识别性和效率上显著优于现有方法。

图像生成论文/研究

11:47

HuggingFace Daily Papers（社区热门论文）

S-Agent：空间工具使用智能体范式实现空间推理

S-Agent 将空间推理视为时空证据积累，以 VLM 为语义规划器，通过分层空间工具和专家将 2D 物体提升为 3D 几何证据，聚合为计数、测量等高级空间知识；Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上，S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B，性能媲美 GPT-5.4 和 Gemini 3。

智能体具身智能论文/研究

11:24

Ethan Mollick@emollick

研究表明，用"邪恶"数据训练AI会导致普遍的不对齐；而使用少量有益特质数据（即使仅限健康领域）进行强化学习，也能显著提升模型在广泛的对齐和益处评估上的表现。该研究希望推动更广泛、更持久的有益模型发展。

Karan Singhal: New research on beneficial RL: models trained on a small amount of beneficial trait data improve on a wide range of alig...

安全/对齐论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

超越静态排行榜：LLM智能体评估的预测有效性研究

研究指出聚合分数排行榜无法反映部署场景真实表现，排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现，涵盖多模态扩展、编排、检索、推理、基础设施及评估探针，并合并7个先前智能体基准。提出以预测有效性（样本内与样本外排名相关性）替代均值排名，构建12层测量框架，暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准，最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。

智能体 MCP/工具论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

JamSet与JamBench：首个项目级游戏代码框架数据集与基准

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目，其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务，用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为，瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

编码论文/研究评测/基准