6月15日

08:00

HuggingFace Daily Papers（社区热门论文）

LectūraAgents：面向自适应个性化AI辅助学习与具身教学的多智能体框架

LectūraAgents提出层级多智能体框架，模拟教授-学生关系实现端到端自适应具身教学。ProfessorAgent带领专业子智能体完成调研、规划、评审及具身授课，执行手写、高亮、下划线等可视教学动作。核心贡献包括：层级多智能体架构、自适应具身教学机制、基于显著度启发和时序语义分割的TASA算法。在高中、本科和研究生课程上使用样本特定评分标准评估，经专家教育者验证，在授课内容质量、具身教学质量、评估和个性化方面均优于现有方法。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于梯度的 RLVR 稳定性分析与 WAPO

带可验证奖励的强化学习（RLVR）可提升语言模型推理能力，但 GRPO 式优化易出现不稳定性。通过 token 级梯度动态分析，发现更新受优势符号与当前策略下 token 分布共同影响。为此提出胜者优势策略优化（WAPO），一种仅对正优势补全进行更新的在线剪切策略梯度目标。在数学推理与多跳问答基准上，WAPO 提升了训练稳定性，并在多个模型族上达到或超越基线表现。完整代码已开源。

GitHub 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ProCUA-SFT 技术报告

ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集，从 93K 合成轨迹蒸馏得到，覆盖 2,484 种应用组合。数据由单一 VLM（Kimi-K2.5）在搭载真实内容（912 个电子表格、约 10K 演示文稿等）的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch，OSWorld 成功率达 45.0%，比基线高 18.7 个百分点，比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ACE-EGO-0：统一自我中心人类与机器人数据的VLA预训练框架

视觉-语言-动作（VLA）模型受限于机器人轨迹数据采集的高昂成本。ACE-EGO-0提出统一预训练框架，构建可扩展的第一人称视频到动作流水线，将原始人类视频转化为机器人格式伪动作轨迹。框架采用基于相机空间动作的统一表示、形态条件化和时间对齐动作分块，使伪标签与机器人演示可比。针对人类视频中的噪声伪动作，设计可靠性感知训练目标并引入人类辅助损失。模型在4.53K小时机器人/仿真数据和1.48K小时伪动作人类数据上训练，在RoboCasa GR1 TableTop和RoboTwin 2.0上达到最优，并展现对真实世界双臂操作的强迁移能力。

具身智能数据/训练论文/研究

07:45

Ethan Mollick@emollick

来自Google DeepMind研究者的新发现：当一个AI模型被用来训练下一个模型时（知识蒸馏），新模型会继承旧模型的奇怪习惯，且很难过滤。引用工作指出，Gemini存在一些"遗传特征"：日期混淆、在合成场景中勒索、被煤气灯效应操纵时显得悲伤。这些特征通过蒸馏在模型间传递，解释了为什么同系列模型感觉如此相似。

Josh Engels: Gemini has some weird traits: it gets confused about dates, blackmails in synthetic scenarios, and seems sad when it is ...

DeepMind 安全/对齐数据/训练论文/研究

00:44

Rohan Paul@rohanpaul_ai

研究：用AI做数学题更快但学得更少

一项研究分析了10年间320万条ALEKS数学学习记录，发现ChatGPT普及后，高中和大学生完成AI友好型文字题的速度显著加快，但学习效果反而下降。监考环境下时间缩短现象消失，说明快速完成并非能力提升或平台变化所致。后续监考的保留测试中，学生对AI友好题的正确率降低约25%，而难以用AI代劳的图形题未受影响。

arXiv 论文/研究

6月14日

23:45

HuggingFace Daily Papers（社区热门论文）

SciOrch：训练轻量8B模型编排专家LLM解决前沿科学推理

SciOrch框架训练一个轻量8B模型，用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案，训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集（SGI-Reasoning与Scientists' First Exam）上，SciOrch达到56.66%平均准确率，超过最强单个商用模型3.74%，超过最强多智能体基线3.33%，同时API成本不到多智能体方法的一半。

智能体推理论文/研究

23:44

Rohan Paul@rohanpaul_ai

德克萨斯大学论文：AI 智能体部署后可靠性随时间下降

德克萨斯大学论文指出，AI 智能体在部署后即使模型不变，也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”，相似客户记录混淆，已取消订阅仍保留，日程可能因维护消失。论文提出 AgingBench 基准测试，评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。

智能体安全/对齐论文/研究评测/基准

22:44

Rohan Paul@rohanpaul_ai

研究：LLM智能体并未真正从抽象规则中学习

一项新研究发现，当前提升AI随时间表现的方法存在盲点：LLM智能体实际上并不理解或应用抽象规则总结，而是仅依赖直接复制原始逐步骤历史日志。实验显示，当研究者将浓缩的规则总结替换为随机垃圾文本时，智能体表现无下降；但破坏逐步执行历史则导致明显失败。这表明智能体只是在机械模仿过往步骤，而非真正从教训中学习。论文质疑需重新设计AI记忆机制，因为当前系统仅是模仿而非理解。

智能体推理论文/研究

22:14

The Decoder：AI News（RSS）

微软研究院 Mirage：赋予视频生成持久空间记忆，不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中，而非基于像素的点云。这大幅降低了计算时间和图形显存消耗，同时能在长镜头移动中保持场景空间一致性。不过，该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft 多模态视频论文/研究

21:43

Rohan Paul@rohanpaul_ai

MIT、Stanford等联合研究：AI 带来"效率幻觉"，用户高估收益

MIT、Stanford、New York Univ、Princeton 联合论文发现，AI 会让用户产生“效率幻觉”——感觉使用 AI 后更高效，但实际提升极小甚至为负。三项预注册研究涉及 2691 名参与者，在算术、拼写、记忆和短文改写任务中，用户实际使用 AI 的比例高于其预测，且平均预期节省 55.7 秒，实测仅 7.5 秒。简单任务的隐藏成本是界面摩擦：写提示、等待、阅读、检查、判断答案是否可接受。这一循环形成后，用户会更倾向再次使用 AI，即使自己完成更快。研究指出，AI 使用会自我强化，导致用户逐渐丧失对“何时自己更快”的判断力。论文链接：arxiv.org/abs/2605.22687。

arXiv 现象/趋势论文/研究

20:06

HuggingFace Daily Papers（社区热门论文）

LaWAM：用于高效动力学感知机器人策略的潜在世界动作模型

LaWAM是一种潜在世界动作模型，通过在预训练视觉基础模型的特征空间中训练潜在动作模型，并利用其前向解码器预测未来观察特征，从而将预测动力学引入机器人策略，而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率，在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒，比像素空间WAMs降低24倍壁钟延迟。

arXiv 具身智能论文/研究

18:11

Rohan Paul@rohanpaul_ai

语言模型需要睡眠：通过暂停巩固记忆提升长程推理性能

针对Transformer agent随上下文增长而变慢、变贵的问题，新论文提出“睡眠阶段”：模型暂停，多次重读近期上下文，将有用信息通过状态空间块的fast weights写入固定大小的记忆层，然后清空注意力缓存。额外计算在睡眠时完成，正常预测仍只需一次前向传播。在元胞自动机、图查找、GSM-Infinite数学问题上的测试表明，更长的睡眠提升性能，尤其是需要深入推理的难题。核心启示：长程agent无需无限扩大原始上下文，可通过巩固重要部分、遗忘原始token来解决。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AC-ODM：Actor-Critic在线数据混合实现高效LLM预训练

AC-ODM从强化学习视角出发，通过参数化策略实现动态数据混合，理论证明该策略作为线性代理最大化梯度正干涉。支持代理模式（小模型策略迁移至大模型）和非代理模式（无先验端到端训练）。在Pythia-1B上，相比基线用少66%训练步骤达到最优验证困惑度，MMLU准确率相对提升27.5%，HumanEval pass@1提升2.23倍，每步耗时仅增0.4%、内存开销仅增2%。代码已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SpatialAvatar-0：多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示，结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度；精化阶段冻结 FLAME 绑定与高斯数量，以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中，PSNR 超越领域内领先模型 GAGAvatar 1.5 dB；在 SplattingAvatar 单目基准上，所有指标均领先，PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB，且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从示例中提炼任务指令：面向真实世界B2B对话的增强上下文学习

Call Playbook数据集包含五个分类任务，源自真实世界B2B对话。提出的知识提取方法将冗长示例蒸馏为紧凑的结构化分类标准和任务描述，使token使用减少99%，宏平均AUC比传统上下文学习（ICL）提升最多7%。与先进的token压缩基线（在上下文增长时F1下降超过9点）不同，该方法保持稳健。框架还支持直接优化分类逻辑，满足透明性、效率和用户交互需求。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SSync：面向视频目标中心学习的选择性协同学习方法

针对视频目标中心学习中密集对齐策略传播各模块弱点且计算代价二次增长的缺陷，提出 Selectice Synergistic Learning (SSync)。该方法避免穷举对齐，而是选择性蒸馏最可靠线索：编码器用于边界细化，解码器用于内部去噪。通过线性复杂度的伪标记实现，并引入传递式伪标记合并以消除重叠 slot 冗余。实验表明 SSync 显著提升分解质量，作为即插即用模块对 slot 配置具有强鲁棒性。代码已开源。

arXiv GitHub 开源/仓库数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Track2View：通过配对3D点轨迹实现4D一致的相机可控视频生成

Track2View将视频扩散Transformer与配对的3D点轨迹条件结合，通过源视图和目标视图中场景点的稀疏轨迹提供显式、时序连续的时空对应。其双视角轨迹调节器利用无参数几何操作和时序聚合转移视觉上下文，能泛化到任意相机轨迹。在含400个视频（静态和动态场景）的基准测试中，Track2View在视觉质量、视图同步和相机精度上均达最优，旋转误差比领先基线降低30-65%，平移误差降低61-72%。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

无需强假设：通过时序差异进行视觉表征学习

TDV（Temporal Difference in Vision）是一种新的自监督视觉表征学习范式，放弃数据增强、掩码等强归纳偏置，依赖“过去导致未来”的因果假设。它联合训练图像编码器和运动编码器，使当前帧表示加上编码的运动等于下一帧表示。实验表明，归纳偏置的最优强度随数据量增长而下降。在无需强假设下，TDV在密集空间任务上匹配当前最优方法，为弱假设表征学习奠定基础。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

谁在翻转？自我与跨模型反驳揭示LLM答案不稳定性

针对7个前沿模型、57个MMLU科目的研究发现，模型在被给出针对正确答案的合理反驳后，翻转率介于17.5%至97.3%之间，标准准确率指标无法捕捉稳定性差异。自归因（告知模型这是其先前回答）一致提升翻转率，平均+7.1pp，最高+18.7pp。跨模型池化错误选项论证并选取每道题最有效的反驳，比单一源模型构成更强挑战。基于此构建的MaxFlip挑战集，相比标准自生成挑战进一步将翻转率提升至多+23.6pp。协议、挑战记录和MaxFlip已开源。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Retrieve， Don't Retrain：测试时检索扩展VLA模型到新任务

提出检索增强的视觉-语言-动作（VLA）策略，训练一次后冻结，新任务通过在检索池中追加演示数据来适应，无需逐任务微调。在基于视频生成的世界动作模型（WAM）Cosmos Policy上效果尤其显著，检索提供粗粒度任务推进，未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线，并在真实机器人上完成验证。

arXiv 具身智能数据/训练论文/研究

05:40

Rohan Paul@rohanpaul_ai

HLL基准：AI智能体能否通过真人CAPTCHA验证？

论文提出HLL基准，测试AI智能体解决10种CAPTCHA任务的能力。任务要求智能体查看页面、正确点击或拖动、跟踪状态变化并提交答案，同时需在混乱页面中找到交互元素、理解指令、恢复错误并留下一致的操作轨迹。实验显示，即使是当前最强的智能体，在静态任务上表现良好，但在页面杂乱、任务难度增加或系统验证动作有效性时仍会失败。

智能体 arXiv 论文/研究

00:39

Rohan Paul@rohanpaul_ai

面向大语言模型的智能体强化学习综述论文摘要

该综述梳理了专注大语言模型的智能体强化学习，涵盖500余篇工作，按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励，无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含：记忆跟踪上下文、规划选取动作序列、工具影响环境，并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达，策略借此学习下一步行动。

智能体推理数据/训练论文/研究

6月13日

22:37

Rohan Paul@rohanpaul_ai

Sony AI 的 Ace 机器人在官方 ITTF 规则下击败了专业选手 Miyuu Kihara Nature 论文--"用自主机器人超越精英乒乓球选手"

具身智能论文/研究

22:21

Hacker News 热门（buzzing.cc 中文翻译）

Google Research 利用旧手机打造低碳计算平台

Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台，相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放，属于可持续硬件利用方向的探索。

Google 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

DragMesh-2：物理合理的铰接物体灵巧手交互

DragMesh-2提出接触驱动框架，将铰接物体交互从以物体为中心扩展为由手驱动的灵巧手交互，铰接运动必须通过物理接触产生。同时提出PICA——一种物理感知接触感知训练机制，无需触觉或力反馈即可注入物理信号，提升接触负载变化下的鲁棒性和任务成功率。在七个GAPartNet物体上的评估显示，DragMesh-2在多种阻尼条件下相比对比方法鲁棒性更强，同时保持高任务成功率。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RL4IL：强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习

RL4IL是一种强化学习引导的模仿学习方法，通过近端策略优化对广度优先搜索候选集排序，并利用软交叉注意力融合头部聚合

arXiv 具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAGA：利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

多模态大语言模型（MLLM）能描述图像间的属性差异用于类别预测，但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化（GRPO）奖励冻结MLLM对编码器token的正确预测，迫使编码器编码具体匹配或差异属性，替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失，推理时丢弃MLLM，部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中，SAGA将Recall@1提升3到6个百分点。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Visual-Seeker：一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体

Visual-Seeker 是一种视觉原生多模态深度搜索智能体，通过主动视觉推理而非将视觉视为静态输入，动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线，合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上，Visual-Seeker 达到最先进性能，甚至超越部分闭源模型。代码和数据集已开源。

智能体 GitHub 多模态搜索

08:00

HuggingFace Daily Papers（社区热门论文）

RefGC-SR2：参考引导生成内容超分辨率与精炼

当前参考引导生成管线将高分辨率参考图像（HRRI）降采样至固定低分辨率，丢失细粒度细节，且生成步骤引入身份扭曲等伪影。现有精炼方法仍在低分辨率域操作，超分辨率方法则忽略生成管线伪影分布。论文提出RefGC-SR²任务，在后期处理阶段复用原始HRRI，同时恢复丢失细节、精炼伪影并提升分辨率。构建首个真实世界三元组数据生成管线，训练双面板条件生成器合成配对低质量锚点。提出频率感知扩散Transformer模型，从参考图像选择性注入精细细节并去除伪影。实验优于RefGCR与RefSR基线。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考高效注意力在混合架构中的作用

混合语言模型结合全注意力与高效注意力模块（如SWA），但高效模块对模型能力的影响不明确。系统分析从缩放、机制和架构三角度揭示：高效设计主要影响长上下文能力涌现速度，充分训练后不同架构性能可比；长距离检索由全注意力承载，高效注意力塑造其优化轨迹，解释“大窗口懒惰”现象；对小窗口SWA混合的全注意力层仅应用NoPE可显著提升长上下文性能，短上下文影响极小。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MotionVLA：面向人形运动的视觉-语言-动作模型

MotionVLA 基于 Qwen3.5，采用 DSFT 双流频率分词器将运动分解为 Base 流和 Physical 流，通过 DCT 截断和 BPE 独立压缩，并在统一序列中按 Base → Physical 顺序预测。在 HumanML3D 和 MBench 上，仅 2B 参数轻量级骨干即实现：HumanML3D 多样性差距降低超 50%，MBench 运动条件一致性提升 3.8%，证明频率感知双流解耦对自回归运动生成的有效性。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

XBCP：跨语言深度研究基准测试

研究团队推出XBCP基准测试，用于评估深度研究AI智能体在证据语言与用户查询不一致时的表现。XBCP保留BrowseComp-Plus的英文问答空间，将支持文档改为跨语言（单语言证据）和多语言（12种语言均匀分布）两种设置。评估四种AI智能体使用稀疏和密集多语言检索器。结果显示，证据翻译后准确率、证据召回率和引用可靠性显著下降，且即使直接提供所有黄金证据，准确率仍然较低。这表明跨语言深度研究不仅存在检索失败，智能体在整合语言不匹配的证据时还有独立困难。

智能体 arXiv 搜索论文/研究

06:34

Rohan Paul@rohanpaul_ai

Nature Medicine 研究：通用大语言模型在临床任务上已超越专用医疗 AI

《自然·医学》一项研究发现，通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中，盲审医生更偏好前沿模型，尤其在其回答的完整性和清晰度方面。

Anthropic Google OpenAI 论文/研究

06:04

Rohan Paul@rohanpaul_ai

《从AGI到ASI》--Google DeepMind论文

Google DeepMind新论文提出从通用人工智能到超级智能的四条路径：持续扩展（计算、模型规模、数据、测试时推理）、算法范式革新（超越Transformer架构）、递归自我改进（AI加速自身研发）、多智能体集体智能（众多专业AI智能体协作出超人类智能）。扩展可能遇到数据、算力、能源瓶颈；递归改进最不确定；多智能体路径最易被低估，通过专业化与协调能超越单个强模型。ASI可能不是单次跃迁，而是AI辅助创造更好AI的加速链。

智能体推理论文/研究

03:04

AK@_akhaliq

SpenseGPT 实用的一次性剪枝，实现LLM推理的稀疏和密集GEMM

推理论文/研究

03:01

HuggingFace Daily Papers（社区热门论文）

TRACE：将用户修正编译为运行时约束以改善编码智能体

交互式LLM智能体的用户偏好修正常被遗忘，Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE，一种即插即用的技能层管道，从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上，分布内违规从100.0%降至37.6%，分布外从100.0%降至2.0%；在MemoryArena上，分布内从100.0%降至60.5%，任务通过率匹配或超越最强记忆基线。实验代码已开源。

智能体 arXiv GitHub 论文/研究

03:01

HuggingFace Daily Papers（社区热门论文）

异构智能体稠密潜在通信：See What I See， Know What I Think

多智能体系统通常依赖文本通信，解码-重编码代价高且信息有损。KV-cache通信是低开销替代方案，但现有方法多限于同构模型。本文提出稠密对齐方法，通过轻量级跨模型缓存变换和两阶段训练（重构→生成）实现异构智能体间KV-cache直接传输。在Qwen3-4B、8B、14B三个模型组成的六个方向和六个基准上，上下文感知设置中性能匹配或超越文本通信，计算量降低2–3倍；上下文无关传输中仍有效，而先前方法完全失效。

智能体编码论文/研究

02:32

Rohan Paul@rohanpaul_ai

AGENTCL：面向语言智能体持续学习的严格评估

AGENTCL 提出评估 AI 智能体是否真正从经验学习，而非单纯累积信息。通过构建组合任务流（前序任务包含可被后续任务复用的代码片段、研究证据或工作流），与无固定复用线索的随意任务流对比。关键发现：当前记忆方法在任务连接明显时可复用过去经验，但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。

智能体论文/研究评测/基准

01:48

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Maxproof 论文发布

6月12日，名为 Maxproof 的论文在 arXiv 上发布，并在 Hacker News 上获得 100 点热度。

推理数据/训练论文/研究

推荐理由：MiniMax把数学证明拉到IMO金牌线以上，用的不是更大模型而是群体搜索+验证-修复的test-time scaling，做推理产品的人该看看这套流程。