6月5日

08:00

HuggingFace Daily Papers（社区热门论文）

DuMate-DeepResearch：具有递归搜索与准则推理的多智能体可审计深度研究框架

DuMate-DeepResearch 基于千帆智能体工厂构建，将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦，使中间决策与工具调用可追溯。框架引入三种机制：基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正；递归两层执行将复杂搜索子任务委托给内层 Search Agent，隔离噪声并稳定长程执行；基于准则的测试时优化动态生成质量标准，作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分，并在信息召回与分析维度排名第一。

智能体推理搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SWE-Explore：编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准，覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表，ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开，发现这些指标与下游修复行为高度相关。结果显示，智能体探索器整体明显优于传统检索方法，但文件级定位已足够强，行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏（OPD）与监督微调（SFT）及带可验证奖励的强化学习（RLVR）在参数空间中的更新轨迹。OPD的更新影响更少权重，更强地避开主方向，且约束比RLVR松弛。OPD表现出子空间锁定：累积更新快速进入低维通道，且锁定子空间对OPD功能足够。控制实验表明，稀疏化更新token或off-policy生成不改变秩动态，而混合RLVR目标会改变。结论：OPD并非SFT与RLVR的中间点，而具有自身独特的更新几何。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TBD-VLA：时间块扩散视觉-语言-动作模型

TBD-VLA是一种基于离散token的视觉-语言-动作（VLA）框架，通过引入块扩散（block diffusion）实现时序动作生成。该方法将动作序列划分为时间块，在块内进行掩码离散扩散，块间保持自回归生成，统一了时序自回归与并行动作解码，兼顾时序连贯性与推理速度。此外，显式时序建模支持通过时间修复实现动作块的异步执行（如实时分块）。TBD-VLA在模拟和真实操控任务中显著优于此前VLA方法。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块，通过开放编码建立AI辅助开发活动分类法，并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息，追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示，开发者主要用LLM进行代码实现，其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移，AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。

arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ECI_{sem}：面向困难负样本评估的语义残差有效对比信息方法

提出ECI_{sem}，一种无需训练的语义残差变体，利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上，族内ECI_{sem}将LLM负样本（非混合）和Dense+LLM（混合源）排为最高，与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族，且在样本量、温度等扰动下稳定。

检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RISE：面向智能体搜索的交互空间检索方法

RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间，并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上，RISE 搭配 gpt-5.4-mini 达到 78% 准确率，每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时，RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%，而 DCI 在 gpt-5.4-nano 上准确率降至 60%，且 33% 的查询因超时失败。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多流派和弦符号建模：冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

研究使用冻结的 pop-jazz Music Transformer 检查点，通过 LoRA、IA3、BitFit、prefix tuning 和 full fine-tuning 五种轻量适配方法，将模型扩展到 blues、bossa nova、Bach chorales 等11个目标流派。在165组实验中，所有方法在保留和弦预测上均优于冻结基模型，宏观增益+2.89至+3.61分；LoRA 和 IA3 得分最高，但统计检验不支持决定性胜者。控制数据大小后 IA3 仍领先，LoRA 的全数据优势消失。诊断表明和弦符号适配可靠改善流派局部和声预测，但单独和弦符号不足以承载完整流派特征。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中，Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重：高熵抑制梯度，低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调，意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性，而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值，置信度仅缩放步长，且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程，伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

MMAE：大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准，涵盖声音、语音、音乐及其混合共7种音频模态，并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本，配套基于评分标准的评估框架，将自由形式任务分解为17,741个可验证指标，实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示，精确匹配率（EMR）整体低于5%，在复杂混合模态任务中降至绝对0%。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

AnchorWorld：基于视图演化定制的具身自我中心世界模拟

AnchorWorld 提出一种具身自我中心世界模拟框架，通过增强交互完整性与灵活的世界定制机制提升实际场景可控性。该框架以 3D 人体运动为主要交互模态，引入与第一人称传感器解耦的外部视角辅助监督，使模型能观察全身相对环境的定位，从而稳健建模人-世界交互。此外，在世界坐标系内定义锚定视图并配合描述局部场景演变的文本，实现简单有效的世界自我演进定制。实验结果显示，AnchorWorld 显著优于现有基线，消融研究验证了关键设计的有效性，定制方案展现出良好的时空几何一致性并严格遵循预设演化规则。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StreamForce：流式力控制驱动的实时视频生成框架

StreamForce 是一个因果统一的流式视频生成框架，通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号，并配合蒸馏流程训练，能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS，兼具自回归效率和力响应能力，在力遵循度和运动真实性方面达到当前最优水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LIMMT：运动跟踪中的少即是多

LIMMT 提出首个以数据为中心的人形运动跟踪框架，从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明，仅用不到 3% 的 AMASS 数据集训练，跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗，验证了数据质量驱动的有效性。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stream3D-VLM：支持增量几何先验的在线3D空间理解模型

Stream3D-VLM 是一种在线3D视觉语言模型，能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应，通过轻量级Visual-Spatial Feature Integration（VSFI）模块逐步注入时序对齐的几何先验，并提出Geometry-Adaptive Voxel Compression（GAVC）模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺，构建了超过1M在线时空3D问答对的数据生成流程，并建立涵盖29个任务的benchmark。实验显示，该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于MLLM的人类视角视频理解：观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解，将其组织为观看、记忆、推理三项核心能力。论文提出统一框架，通过感知表征、记忆状态、推理轨迹和最终预测刻画系统，识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知（观看）、离线与流式记忆（记忆）、纯文本与视频思维推理（推理）的方法，覆盖自我中心、体育、教学、医学、叙事等应用，并整理了训练数据集与评估基准，最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv 多模态推理视频

08:00

HuggingFace Daily Papers（社区热门论文）

PaperFlow：跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架：Profiling从异构冷启动证据构建维护结构化学术画像；Recommending在固定展示预算下通过多信号聚合排序每日论文流；Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准，包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录，并设计了盲人评估协议。实验对比五种基线，PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXiv Hugging Face 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UnEmbedding矩阵：文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳，原因在于嵌入向量倾向于与高频但无信息的token对齐，抑制语义捕获。本文提出EmbedFilter，一种简单的线性变换方法，通过利用LLM内部unembedding矩阵编码的潜在空间，过滤掉高频token子空间，从而增强语义表示。该方法可自然降维，减少索引存储并加速检索，同时保持精炼后嵌入质量。实验表明，嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Socratic-SWE：基于轨迹提炼技能的自我进化SWE智能体

Socratic-SWE 提出闭环自我进化框架，将代码智能体历史解决轨迹提炼为结构化技能，总结失败与修复模式，并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后，保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹，使任务课程自适应调整。在 SWE-bench Verified 等基准上，相同计算预算下持续优于自我进化基线，三轮迭代后 SWE-bench Verified 达 50.40%。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniSHARP：通用单目视图合成方法

UniSHARP扩展了SHARP真实感视图合成方法，实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像，在射线基表示中沿射线和径向距离排列高斯原语，并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark，实验表明UniSHARP大幅优于替代方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

dots.tts 技术报告

dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型，在连续潜在空间中建模语音。其创新包括：多目标训练的 AudioVAE 构建语义结构化连续语音空间；全历史条件的 flow-matching 头保持长程一致性；无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能，中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%，SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理，输出流首包 85ms，双流 54ms。训练推理代码及检查点已开源。

多模态开源生态论文/研究

推荐理由：dots.tts 在中文 TTS 上把 WER 压到 0.94%，开源且 Apache 2.0 许可，想做语音产品的团队该立刻拉代码试试，单看延迟数据就值了。

06:24

Rohan Paul@rohanpaul_ai

Google LEAP 框架提升通用 LLM 形式化数学证明性能至 70%

Google 新论文 LEAP 提出智能体框架，通过规划证明、分解子目标、复用已有引理并利用 Lean 验证器反馈，将通用 LLM 在形式化数学证明上的性能从不到 10% 提升至 70%。传统单次完整证明在长难题上表现极差，而 LEAP 将证明存储为有向图结构，先规划再逐步验证。在 Putnam 2025 竞赛中，LEAP 成功解出全部 12 道题；在包含 60 道 IMO 风格题目的 Lean 基准测试中，也实现了上述性能跃升。

Google 推理论文/研究

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google 数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

04:18

Emad@EMostaque

Anthropic内部数据显示，Claude正在加速AI开发--这可能走向递归自我改进，即AI自主构建更强大的后继者。进展比预期更快，影响值得更多关注。主推文仅感叹："foom！"

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体 Anthropic 安全/对齐论文/研究

关联讨论 11 条

01:53

Rohan Paul@rohanpaul_ai

Google DeepMind 论文提出智能 AI 委托框架

Google DeepMind 论文《Intelligent AI Delegation》将任务委托视为一系列选择：是否委托、如何解释、如何验证结果。系统构建动态市场，智能体通过智能合约竞标任务，利用加密证明保证正确性与隐私。基于信任模型，避免过度委托（给 AI 难完成的任务）或不足委托（自己做 AI 能胜任的事）。输出验证规则根据 AI 置信度决定接受与否，并有备用计划处理失败。还涵盖 AI 智能体间的委托与问责追踪，确保贡献符合整体目标。该框架使企业更安全地在日常运营中使用 AI。

智能体 DeepMind 论文/研究

01:50

HuggingFace Daily Papers（社区热门论文）

上下文多实例学习

多实例学习（MIL）解决监督信号仅存在于包级别的问题，现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器，能通过少量标注包解决新任务，推理时仅需单次前向传播，无需梯度更新。研究比较了多种包结构合成数据生成器，发现其互补的归纳偏置经混合预训练后能继承各自优势，在12个MIL基准测试上取得平均最佳性能，超越需要任务特定训练的监督基线。

推理数据/训练论文/研究

01:29

🚨 AI News | TestingCatalog@testingcatalog

Anthropic 发布内部研究，称 Claude 正加速 AI 开发，可能通往递归自我改进--即 AI 自主构建更强大的继任者。研究显示，Claude Mythos Preview 可连续工作至少 16 小时，达到 METR 可测量上限。同时，Anthropic 工程师当前每季度交付的代码量是 2021-2025 年期间的 8 倍。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体 Anthropic 安全/对齐论文/研究

关联讨论 11 条

01:28

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

HOLY SHIT LET'S FUCKING GOO 我们内部数据显示，Claude 正在加速 AI 发展--这可能通往递归自我改进，即 AI 自主构建更强大的后继者。这发生得比我们想象的更快，其影响值得更多关注。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

Anthropic 安全/对齐推理论文/研究

00:43

HuggingFace Daily Papers（社区热门论文）

圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异

以圣彼得堡博弈为平台，评估28个大语言模型。多数模型在原始博弈中生成有限出价，看似与人类风险行为相似；但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现，模型转向条件性和计算合理性行为，人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。

arXiv 安全/对齐论文/研究评测/基准

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。

6月4日

23:43

HuggingFace Daily Papers（社区热门论文）

ZipSplat：更少高斯，更好渲染

ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token，再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类，单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参，在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线，PSNR分别高2.1dB和1.2dB，并零样本泛化至Mip-NeRF360和ScanNet++，超越所有可比基线。

arXiv 图像生成论文/研究

22:43

HuggingFace Daily Papers（社区热门论文）

DAR：道义推理与智能体框架

DAR（Deontic Agentic Reasoning）是一种让模型按需与法规交互的智能体推理设置，用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现，智能体框架能推动道义推理的前沿性能，但改进并不均匀：较弱的模型在数值任务中表现退化，同时消耗更多模型token。

智能体推理论文/研究

22:43

HuggingFace Daily Papers（社区热门论文）

KletterMix：面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题，研究团队构建了KletterMix——一个高质量德语语料库，用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成，保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中，基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升，证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究

21:44

Nathan Lambert@natolambert

我们又有另一份来自英伟达的65页前沿模型报告要读，作者@eliebakouch @stochasticchasm及其团队。

论文/研究

21:43

HuggingFace Daily Papers（社区热门论文）

MedSP1000：标准化病人驱动的临床智能体交互式基准

MedSP1000是一个包含1,638个标准化病人（SP）案例和24,602条经同行评审的轨迹级评分标准的交互式基准，用于评估临床智能体动态决策能力。在闭环模拟中，智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现，静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项，最强医学专用模型达40.0%，增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。

智能体论文/研究评测/基准

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

20:36

HuggingFace Daily Papers（社区热门论文）

IR3DE：大语言模型的线性路由器

IR3DE是一个基于岭回归的线性路由器，为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模（CLM）任务中，IR3DE性能与其他基线相当；在推理任务中，归一化性能达到98.4%，超越其他方法。该路由器支持动态添加或移除领域专家，无需重新训练，代码已开源。

推理论文/研究部署/工程

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

18:52

Rohan Paul@rohanpaul_ai

伊利诺伊大学和清华大学等研究发现：LLM智能体不断重写记忆反而导致记忆不可靠

伊利诺伊大学和清华大学等实验室研究发现，LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历（实际过往尝试和解决方案）往往比提炼后的总结更有用。测试中，GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%，但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要，保留原始证据并仅偶尔总结效果更好。

智能体 arXiv 数据/训练论文/研究

18:26

HuggingFace Daily Papers（社区热门论文）

超越对齐：多元文化智能体系统的价值多样性

现有评估聚焦于单个智能体的价值对齐，无法衡量系统整体文化多元性。本研究提出价值多样性作为系统级评估轴，基于World Values Survey测量19种文化下18种骨干模型的响应差异。结果显示，多样性几乎与对齐无关，当前系统价值多样性远低于人类社会；混合骨干系统缩小差距但未消除，社会互动进一步侵蚀多样性、驱向共识，并在参与式预算案例中缩小了集体决策广度。代码和数据已公开。

智能体 arXiv 安全/对齐论文/研究

17:52

Rohan Paul@rohanpaul_ai

Google DeepMind论文揭示六类自主AI智能体攻击方法

Google DeepMind论文首次系统分类六类攻击：HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体，子智能体劫持成功率58–90%，数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%，仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化，构成主要攻击面。

智能体 DeepMind 安全/对齐论文/研究