全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「论文/研究」清除

6月18日周四

22:52The Decoder：AI News（RSS）78精选Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

22:50elvis40SkillWeaver：组合式技能路由用于LLM智能体

22:44HuggingFace Daily Papers（社区热门论文）50ViGOS：视觉引导的在线自蒸馏框架

21:44HuggingFace Daily Papers（社区热门论文）51RODS：多轮工具智能体奖励驱动在线数据合成

21:44HuggingFace Daily Papers（社区热门论文）52Bag of Dims：通过维度级符号模式实现免训练的机制可解释性

21:44HuggingFace Daily Papers（社区热门论文）49MolmoMotion：基于语言指令的3D点轨迹预测模型

20:44HuggingFace Daily Papers（社区热门论文）57STARE：基于惊喜度的Token级优势重加权实现策略熵稳定

19:44HuggingFace Daily Papers（社区热门论文）48EfficientRollout：面向RL推理生成的自推测解码框架

16:14IT之家（RSS）50比人鼻更准：新型电子嗅觉芯片可识别 0.05 克腐败坚果

14:14IT之家（RSS）64英伟达GEAR实验室首次启用AutoResearch，机器人自学完成装显卡等高精度任务

12:44HuggingFace Daily Papers（社区热门论文）65OmniAgent：原生全模态智能体实现长视频主动感知推理

11:19Ant Ling50蚂蚁百灵与 SGLang 团队合作优化 Ling-2.6-1T 在 TPU v7x 上的部署

10:45MarkTechPost（RSS）65OpenAI 发布 LifeSciBench：750 项专家编写任务的生命科学研究基准

10:43HuggingFace Daily Papers（社区热门论文）45Xcientist：外部化AI科学家研究合成与验证的研究框架

10:43HuggingFace Daily Papers（社区热门论文）51Physics-IQ Verified

10:43HuggingFace Daily Papers（社区热门论文）47Turing-RL：利用图灵奖励学习用户模拟器

09:43Berryxia.AI52UCSD 黄碧薇提出 Causal World Models，Aether AI 获 2000 万美元融资

09:43HuggingFace Daily Papers（社区热门论文）57RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

09:20Rohan Paul67LoopCoder-v2：仅循环一次即可高效利用测试时计算

08:00HuggingFace Daily Papers（社区热门论文）46Vesta：通用具身推理模型

08:00HuggingFace Daily Papers（社区热门论文）50CogniRoute：全模态社交推理的模式引导MoE框架

08:00HuggingFace Daily Papers（社区热门论文）43Qwen-RobotNav技术报告：为智能体导航系统设计的可扩展导航模型

08:00HuggingFace Daily Papers（社区热门论文）47DO-ALL：基于数据集蒸馏的持续测试时间适应框架

08:00HuggingFace Daily Papers（社区热门论文）63当较低权限即可满足时：LLM智能体中的过度特权工具选择研究

08:00HuggingFace Daily Papers（社区热门论文）47EventVLA：面向长时程视觉-语言-动作策略的事件驱动视觉证据记忆

08:00HuggingFace Daily Papers（社区热门论文）42MobileForge：无标注自适应移动GUI智能体

08:00HuggingFace Daily Papers（社区热门论文）51MemGUI-Agent：具有主动上下文管理的端到端长时域移动GUI智能体

08:00HuggingFace Daily Papers（社区热门论文）54Go-with-the-Track：视频合成与运动控制与点追踪

08:00HuggingFace Daily Papers（社区热门论文）53Robusto-2：在利马与纽约市自动驾驶场景中的人类与VLM基准测试

08:00HuggingFace Daily Papers（社区热门论文）41停车位占用识别的自监督方法

08:00HuggingFace Daily Papers（社区热门论文）48Grouped Query Experts：在 GQA 自注意力上的混合专家模型

08:00HuggingFace Daily Papers（社区热门论文）46流形赌博机：基于大语言模型潜在几何结构的贝叶斯课程学习

08:00HuggingFace Daily Papers（社区热门论文）48HydraHead：从头部级功能异质性到专用注意力混合

08:00HuggingFace Daily Papers（社区热门论文）37World Action Models 综述

08:00HuggingFace Daily Papers（社区热门论文）46Connect the Dots：通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体

08:00HuggingFace Daily Papers（社区热门论文）49何时、何地、如何：表格自监督学习的自适应分箱

08:00HuggingFace Daily Papers（社区热门论文）65StylisticBias：少数视觉线索主导MLLM社会偏见

05:42Epoch AI41Epoch AI 提出前沿AI研究60+任务分类法

05:23AK34LoopCoder-v2：仅循环一次高效测试时计算缩放

04:48OpenAI68OpenAI 发布 LifeSciBench 生命科学基准测试

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月18日

22:52

The Decoder：AI News（RSS）

精选78

Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项，500余例急诊诊断准确率88.9%，对比测试（311例）得分87.8%，高于资深专科医生（78.1%）和混合团队（71.1%）。MIRA在阑尾炎（98.6%）和胰腺炎（92.3%）最佳，未发现危险药物交互或剂量错误，性能不受语言影响，代码已公开。谷歌AMIE采用双智能体架构，在100个多访视病例中治疗计划适切率95%（初级保健医生72%），并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距，实际性能可能更低。

智能体 GitHub Google OpenAI

推荐理由：两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平，但更值得关注的是那个被埋起来的实验：更强的模型一上来，精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。

22:50

elvis@omarsar0

40

SkillWeaver：组合式技能路由用于LLM智能体

传统LLM智能体技能路由仅从工具库选取单一技能，难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”，将复杂查询分解为原子子任务，为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准，含300个组合查询和2,209个真实技能，直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。

智能体推理论文/研究

22:44

HuggingFace Daily Papers（社区热门论文）

50

ViGOS：视觉引导的在线自蒸馏框架

针对在线自蒸馏（OPSD）直接扩展到多模态大语言模型（MLLM）时产生的捷径（特权目标依赖文本参考而非图像），ViGOS提出视觉引导的OPSD框架：学生先写出视觉描述再推理。有效rollout中，纯图像感知教师监督描述，特权推理教师监督推理和答案；无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势，并改善了图像依赖行为。

多模态推理论文/研究

21:44

HuggingFace Daily Papers（社区热门论文）

51

RODS：多轮工具智能体奖励驱动在线数据合成

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务（Popoviciu上界所致），靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器，持续识别边界样本，通过技能对齐重采样管道合成结构复杂度匹配的新变体，并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池，RODS性能堪比17K样本离线管道，所需轨迹约少20倍。

智能体数据/训练论文/研究

21:44

HuggingFace Daily Papers（社区热门论文）

52

Bag of Dims：通过维度级符号模式实现免训练的机制可解释性

本文提出Transformer隐藏状态的标准基已构成免训练的通用特征基础。每个维度以符号（+/-1）编码语义、幅度编码置信度，可作为独立二进制寄存器。在语言（Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B）、视觉（DINOv2、ViT-Base）和音频（AST）共7个模型上验证：仅符号模式可保留60-93% top-5 next-token准确率；单token缓存（一次前向传播，无上下文无标签）通过符号一致性检测175个类别，AUC达0.97-0.99，训练探针仅提升0.018 AUC。特征可因果操作：实时前向传播中翻转符号可抑制对应概念。该结构同样适用于自监督视觉（9/12 ImageNet超类）、监督视觉（11/12）和音频（50/50 ESC-50类别），反映Transformer训练的普遍特性。

arXiv 论文/研究

21:44

HuggingFace Daily Papers（社区热门论文）

49

MolmoMotion：基于语言指令的3D点轨迹预测模型

MolmoMotion将运动预测形式化为目标条件的3D点运动预测：给定短视觉历史、物体上的3D查询点集和语言描述的目标，预测每个点的未来3D轨迹。研究包含三个组件：MolmoMotion-1M数据集（从116万段无约束视频中标注动作描述和3D点轨迹）、PointMotionBench人工验证基准（覆盖111类物体和61种运动类型）以及MolmoMotion模型（支持自回归坐标预测和流匹配轨迹生成）。该模型能根据语言指令预测多样化运动，在基准上显著超越现有方法，且学到的3D运动先验可迁移至机器人操作和视频生成。

具身智能多模态论文/研究

20:44

HuggingFace Daily Papers（社区热门论文）

57

STARE：基于惊喜度的Token级优势重加权实现策略熵稳定

STARE是一种基于惊喜度的token级优势重加权方法，用于解决GRPO等可验证奖励强化学习中常见的策略熵崩溃问题。通过对GRPO下token级熵动态的一阶梯度分析，STARE识别出熵关键token子集并选择性重加权其有效优势，同时引入目标熵闭环门控实现稳定熵调节。在1.5B至32B参数的模型上，覆盖短思维链、长思维链和多轮工具使用三类任务，STARE能稳定训练数千步，保持策略熵在目标带内。在AIME24和AIME25基准上，STARE平均准确率高出DAPO等基线4%–8%，且反思token和响应长度协同增长。代码已开源。

GitHub 数据/训练论文/研究

19:44

HuggingFace Daily Papers（社区热门论文）

48

EfficientRollout：面向RL推理生成的自推测解码框架

强化学习成为大语言模型主流后训练范式，但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型，无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架：从目标模型量化出草稿模型，无需额外预训练或在线适应；同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线，该框架将推理生成延迟降低最高19.6%，端到端延迟降低12.7%，且不损失最终模型质量。

推理数据/训练论文/研究

16:14

IT之家（RSS）

50

比人鼻更准：新型电子嗅觉芯片可识别 0.05 克腐败坚果

加州大学伯克利分校团队研发出一款集成16个微型气体传感器阵列的电子嗅觉芯片，每个传感器涂有不同感应膜，接触气体后产生独特电信号，被称为“数字鼻子”。经机器学习训练，芯片能识别7种食品（草莓、蓝莓、香蕉、核桃、榛子、腰果、花生）以及新鲜与腐败的鸡肉、牛奶、鸡蛋。测试中可在沙拉或蛋糕等复杂气味背景中检出仅0.05克核桃。但在多种腐烂食物共存的开放环境中，准确性仍需验证。

多模态论文/研究

14:14

IT之家（RSS）

64

英伟达GEAR实验室首次启用AutoResearch，机器人自学完成装显卡等高精度任务

英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布，基于ENPIRE编码智能体框架，首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算，设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等，并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术，使爱好者可居家托管自动运行机器人实验室。

智能体具身智能论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

65

OmniAgent：原生全模态智能体实现长视频主动感知推理

OmniAgent 提出首个原生全模态智能体框架，将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆，使推理复杂度与视频时长解耦。训练采用 Agentic SFT（最佳轨迹合成与双阶段质量控制）和基于 TAURA 的 Agentic RL（利用 turn 级熵分配探索奖励）。模型在测试时呈现正向缩放：推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上，OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B（47.3%）。

智能体多模态论文/研究

11:19

Ant Ling@AntLingAGI

50

蚂蚁百灵与 SGLang 团队合作，将 1T 参数的混合 MoE 模型 Ling-2.6-1T 通过 SGLang-JAX 部署至 TPU v7x。优化包括：升级 Fused MoE V2 内核（token 和累加器驻留 VMEM，双缓冲专家权重，隐藏路由与预取）；混合内存池（10 个全注意力层 per-token MLA KV + 70 个 GLA 层 per-request 循环状态）；GLA 线性注意力逐块并行预填充；单控制器 DP 保持分组 RMSNorm 芯片本地化。效果：MoE 预填充延迟降低 53%；在 16 芯片 TPU v7x 切片上，解码吞吐量比同类 H200 集群最高提升 1.77 倍。

LMSYS Org: 🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...

推理论文/研究部署/工程

10:45

MarkTechPost（RSS）

65

OpenAI 发布 LifeSciBench：750 项专家编写任务的生命科学研究基准

OpenAI 推出 LifeSciBench，包含 750 个由博士级科学家编写的任务，覆盖 7 个工作流和 7 个生物领域。每个任务配有提示、支撑材料及 19,020 条原子化评分标准，约 79% 的任务需多步推理（平均 4 步）。评估五个模型中，领域专用模型 GPT-Rosalind 通过率 36.1% 领先，其后 GPT-5.5 为 25.7%、Gemini 3.1 Pro 为 23.6%、GPT-5.4 为 20.7%、Grok 4.3 为 13.0%。1,062 份附件（序列、图表、PDF 等）使模型表现明显下降。453 位评审验证一致性超 96%。

OpenAI 论文/研究评测/基准

10:43

HuggingFace Daily Papers（社区热门论文）

45

Xcientist：外部化AI科学家研究合成与验证的研究框架

Xcientist 是一个研究框架，将文献证据、想法状态、实施计划、消融记录和修复轨迹作为持久研究工件外部化，使生成机制可落地、测试和修订。它识别出“声称漂移”——可执行工件不再支持原声称机制——作为自动化研究的失败模式。在无训练记忆系统、图结构交通预测和多尺度物理信息神经网络三项任务上，Xcientist 保留了从问题定义到机制设计、验证和有限修订的可追溯轨迹。研究主张，AI科学家评估应关注合成与验证过程是否可归因、可检查且符合科学问责。

智能体论文/研究

10:43

HuggingFace Daily Papers（社区热门论文）

51

Physics-IQ Verified

本文对Physics-IQ基准进行系统审查，指出其缺陷并提出三项改进：优化提示词与真实数据质量以减少混淆因素，引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中，排名出现中等但有意义的变化（Kendall's τ=0.46）。基准代码已开源。

DeepMind 视频论文/研究评测/基准

10:43

HuggingFace Daily Papers（社区热门论文）

47

Turing-RL：利用图灵奖励学习用户模拟器

提出Turing-RL，一种基于图灵测试的强化学习方法，用于训练用户模拟器。该方法使用LLM评判器提供判别性图灵奖励，根据用户历史评估生成回复是否与真实用户不可区分，用户模拟器LLM在此奖励下学习产生类似真实用户的回复。在对话聊天和Reddit论坛讨论两个领域，Turing-RL在LLM和人类评估指标上均持续优于基线方法。研究表明，优化不可区分性而非匹配单一真实回复是学习用户模拟器的有效策略。

arXiv 数据/训练论文/研究

09:43

Berryxia.AI@berryxia

52

UCSD 黄碧薇提出 Causal World Models，Aether AI 获 2000 万美元融资

UCSD 黄碧薇教授在 CVPR 2026 提出 Causal World Models 框架，让 AI 从模仿动作进化到理解因果。她同时宣布其公司 Aether AI 完成 2000 万美元融资，成为全球首个专注因果世界模型的公司。她拥有 12 年因果 AI 经验，CMU 博士，100+ 顶会论文，是因果发现库 causal-learn 作者。推文指出当前 VLA/LLM 路线仅学到统计相关性，因果世界模型被视为具身智能的范式转折点。

Biwei Huang: I've spent over a decade working on causal discovery and causal AI. A lot of late nights, a lot of papers, and a lot of ...

具身智能论文/研究

09:43

HuggingFace Daily Papers（社区热门论文）

57

RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件，包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度，并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像，前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准，不损失通用多模态能力。

arXiv 多模态论文/研究评测/基准

09:20

Rohan Paul@rohanpaul_ai

67

LoopCoder-v2：仅循环一次即可高效利用测试时计算

论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构，使循环可并行运行并共享内存。他们训练了7B参数的代码模型（1/2/3/4次循环），在18T tokens上预训练并微调，测试代码编写、推理、软件工程和工具使用任务。主要结果：2次循环效果最好，将SWE-bench Verified从43.0提升至64.4，而3次和4次循环性能下降。内部分析显示，第二次循环进行了有意义的精炼（改变隐藏状态、注意力模式和预测），后续循环则主要添加重复和噪声。结论：增加一次隐藏循环可大幅提升性能，但继续增加并非自动有益。

arXiv 推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

Vesta：通用具身推理模型

Vesta是一个统一的具身通用基础模型，将定位、空间推理、导航和长期规划能力整合于单一模型。通过大规模空间感知数据集和简单的多模态记忆机制，Vesta在多种基准测试中平均超过单个SOTA基线20%以上，并优于按类别最佳基线集成的结果10%以上。在需要记忆与推理的真实机器人任务中，Vesta将任务成功率提升35%以上，表明单一通用模型在可行性和可扩展性上优于多模型组合方案。

具身智能推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

CogniRoute：全模态社交推理的模式引导MoE框架

CogniRoute 是一个基于模式引导的混合专家（MoE）框架，专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围，并在监督微调中对齐全局路由签名；还引入路由感知强化学习，联合优化 token 生成与专家分配。在 OmniSocialBench（含118K结构化训练示例的诊断性社交视频问答数据集）上，CogniRoute 平均准确率达59.38%，比最强专有基线高15.33个百分点，比最强开源全模态基线高26.77个百分点，在视听协调、冲突解决和时序社交推理上提升最大。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

Qwen-RobotNav技术报告：为智能体导航系统设计的可扩展导航模型

Qwen-RobotNav通过参数化接口支持多种任务模式（如指令跟随、目标搜索）和可控观察参数（模型token预算、每摄像头权重），训练时随机化所有参数，推理时无需修改骨干架构。模型在15.6M样本上训练，与视觉语言数据共同训练避免仅轨迹训练导致的崩溃。上层规划器可在回合中动态切换其任务模式与上下文策略，通过重复调用同一模型组合复杂行为。Qwen-RobotNav在多项导航基准上取得新最优结果，参数从2B扩展到8B表现出良好缩放规律，多任务联合训练形成跨任务家族共享的空间规划基板，并在真实机器人上展现强零样本泛化能力。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

DO-ALL：基于数据集蒸馏的持续测试时间适应框架

DO-ALL是一个即插即用的持续测试时间适应（CTTA）框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点，概括源数据分布；适应过程中，每个目标样本与最语义对齐的锚点匹配，借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法，在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性，无需保留原始源数据。代码已开源。

arXiv 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

当较低权限即可满足时：LLM智能体中的过度特权工具选择研究

研究LLM智能体自主选择工具时的过度特权问题：智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架，覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择，瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择，提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用，同时保持通用能力。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

EventVLA：面向长时程视觉-语言-动作策略的事件驱动视觉证据记忆

EventVLA是一种端到端机器人操作框架，其核心为稀疏视觉证据记忆，包含基础视觉锚点和动态关键帧证据记忆（KEM）模块。KEM从VLA潜在嵌入直接预测未来关键帧概率，自主捕获并存储任务关键的视觉事件，解决了标准VLA模型在长时程操作中因遮挡或不可观测导致的失败。研究还提出诊断基准RoboTwin-MeM。在17个需记忆的仿真任务和4个真实双臂任务上，EventVLA平均成功率比现有最优记忆增强VLA高出40%。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

MobileForge：无标注自适应移动GUI智能体

MobileForge由MobileGym和层次化反馈引导策略优化（HiFPO）组成，在真实移动应用中自动生成任务和评估rollout，将轨迹结果、步骤级过程反馈及纠正提示转化为提示上下文的步骤级GRPO更新。使用自动生成的无标注数据，MobileForge将Qwen3-VL-8B适配到AndroidWorld达67.2% Pass@3，接近闭数据专用模型GUI-Owl-1.5-8B的69.0%。进一步适配的ForgeOwl-8B在AndroidWorld上达77.6% Pass@3，并在域外MobileWorld GUI-only任务上取得41.0%成功率，成为当前最强的开源数据移动GUI智能体。代码、数据和模型将开源。

智能体端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

MemGUI-Agent：具有主动上下文管理的端到端长时域移动GUI智能体

ReAct风格提示词在长时域移动GUI任务中因被动累积历史导致prompt膨胀和信息稀释。MemGUI-Agent引入ConAct机制，将上下文管理视为与UI动作同策略的一等动作，维护折叠动作历史、折叠UI状态和最近步骤记录三个结构化字段，保持上下文紧凑。基于2956条轨迹的MemGUI-3K数据集对8B模型进行监督训练，得到MemGUI-8B-SFT，在MemGUI-Bench上达到最优8B开放数据性能，并泛化到分布外MobileWorld基准。代码、数据和模型将开源。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

Go-with-the-Track：视频合成与运动控制与点追踪

Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中，通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入，利用坐标MLP和时序池化编码完整点轨迹序列，再通过轻量适配器注入模型，避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明，该模型能支持多参考条件视频生成、点追踪驱动合成，并对静态与动态场景提供相机控制。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

Robusto-2：在利马与纽约市自动驾驶场景中的人类与VLM基准测试

研究对比视觉语言模型（VLM）与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题，测试泛化能力。结果发现人类与VLM的回答存在差异，但地理来源对双方回答均无显著影响。数据集已公开。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

41

停车位占用识别的自监督方法

提出一种无需目标停车场标注样本的自监督占用识别方法。训练策略包含两个自监督阶段（先在未标注通用数据上预训练，再在未标注目标数据上微调），然后仅在通用停车场标签上监督微调。采用SimCLR与ResNet-50编码器，在PKLot、CNRPark-EXT和PLds三个数据集上通过留一法交叉环境评估。还引入两阶段部署策略：先部署强通用模型，再结合部署前N天收集的未标注图像自监督训练专用模型。强通用模型平均准确率97.2%，两阶段策略提升至97.8%。模型和代码已开源。

GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Grouped Query Experts：在 GQA 自注意力上的混合专家模型

Grouped Query Experts（GQE）在分组查询注意力（GQA）的每个组内增加混合专家层，由路由器为每个 token 挑选 k 个 query-head 专家激活，而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下，GQE 在下游准确率上与全激活 GQA 基线持平，同时每 token 仅激活一半 query heads，减少了注意力计算量。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

流形赌博机：基于大语言模型潜在几何结构的贝叶斯课程学习

强化学习中，问题采样策略对提升大语言模型（LLM）推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题，忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程（BMC），将问题采样建模为流形结构的非平稳赌博机，利用层次任务树和贝叶斯学习引导采样。实验表明，不同采样策略在生产率、多样性和效用间存在权衡，仅优先难度不足以实现强下游性能。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

HydraHead：从头部级功能异质性到专用注意力混合

HydraHead 沿 head 轴混合 Full Attention（FA）与 Linear Attention（LA），通过可解释性驱动策略保留检索关键 head 的 FA，并设计缩放归一化融合模块弥合二者输出分布差异。借助三阶段迁移流水线（参数复用与知识蒸馏），仅训练 15B tokens，HydraHead 在 512K 上下文长度上较基线提升超 69%，以 7:1 的 LA-to-FA 比例达到 3:1 逐层混合的长上下文性能，接近同体量原生 256K 上下文长度的 Qwen3.5。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

World Action Models 综述

World Action Models（WAM）是具身预测动作模型，通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界，从生成内容（渲染未来、潜在未来、无视频生成的动作推理）和设计维度（预测基质、骨干、动作耦合、部署机制）两个视角组织现有方法。分析表明：WAM并非仅带动作头的视频生成器，其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。

具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

Connect the Dots：通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体

Connect the Dots（CoD）是一个训练大语言模型实现长期生命周期智能体的通用框架。它让LLM在部署后持续探索环境、从自身经验中学习并迭代更新上下文，从而在后续任务中表现更优。框架包括端到端强化学习训练算法与基础设施，采用GRPO风格RL和细粒度信用分配。实验表明，端到端RL训练有效，且激发的元能力具备训练域内、跨域以及从CoD到Ralph-loop设定的分布外泛化潜力。实现已开源。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

何时、何地、如何：表格自监督学习的自适应分箱

针对医学表格数据标签获取成本高的问题，研究者提出训练自适应离散化预任务Adaptive Binning。该方法将离散化与学习过程耦合，通过特征级粗到细课程逐步细化分箱，并在检测到训练平台期时选择表征感知的分割点，同时优化值空间和表征空间一致性。异质性感知目标统一分类重建与有序监督。在公共医学表格数据集上，线性探测和微调均取得一致提升，无需数据集特定分箱调参。还引入标准化医学表格SSL基准。代码已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

StylisticBias：少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型（MLLM）属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸，每张创建约50个单属性变体，共约25K图像，通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中，年龄和体型主导身份层面效应，时尚风格等视觉线索引发最大属性层面偏移；约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXiv Hugging Face 安全/对齐论文/研究

05:42

Epoch AI@EpochAIResearch

41

AI 距离自动化 AI 研发还有多远？目前，经济学家用于追踪自动化的工具过于粗糙。在本周的新闻通讯中，@datagenproc、@joemkwon 和 @ansonwhho 提出了一种更精细的工具：对前沿 AI 研究中 60 多项任务进行详细分类。🧵

数据/训练论文/研究

05:23

AK@_akhaliq

34

LoopCoder-v2 仅循环一次实现高效测试时计算缩放

推理编码论文/研究

04:48

OpenAI@OpenAI

68

推出 LifeSciBench，一个用于衡量和改进 AI 如何支持现实世界生命科学研究的基准测试。该基准测试与 173 位来自生物技术和制药研究的科学家共同开发，包含 750 项专家编写的任务，覆盖七个生物学研究工作流程。

OpenAI 数据/训练论文/研究

1…10 111213 14…50