AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 2872 条
全部一手资讯X论文
6月19日周五
00:55Noam Brown35OpenAI 公开 o1 被质疑,o3 医疗研究力证开放价值
00:51Greg Brockman51OpenAI o3 Deep Research 助解 376 例罕见病,发现 18 种新诊断
00:22Anthropic:Research(发表成果 · 网页)77精选Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
6月18日周四
23:51elvis64OpenAI 发布 LifeSciBench 生命科学基准
23:45HuggingFace Daily Papers(社区热门论文)55Discriminator-Guided RL:用数据自身奖励修正流匹配模型
23:21OpenAI46OpenAI o3 研究助解罕见儿科病例
23:05OpenAI:官网动态(RSS · 排除企业/客户案例)72精选OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%
22:52The Decoder:AI News(RSS)78精选Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生
22:50elvis40SkillWeaver:组合式技能路由用于LLM智能体
22:44HuggingFace Daily Papers(社区热门论文)50ViGOS:视觉引导的在线自蒸馏框架
21:44HuggingFace Daily Papers(社区热门论文)51RODS:多轮工具智能体奖励驱动在线数据合成
21:44HuggingFace Daily Papers(社区热门论文)52Bag of Dims:通过维度级符号模式实现免训练的机制可解释性
21:44HuggingFace Daily Papers(社区热门论文)49MolmoMotion:基于语言指令的3D点轨迹预测模型
21:18Google DeepMind43Google DeepMind 发布 AI 控制路线图
20:44HuggingFace Daily Papers(社区热门论文)57STARE:基于惊喜度的Token级优势重加权实现策略熵稳定
19:47Hacker News 热门(buzzing.cc 中文翻译)79精选ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容
19:44HuggingFace Daily Papers(社区热门论文)48EfficientRollout:面向RL推理生成的自推测解码框架
16:14IT之家(RSS)50比人鼻更准:新型电子嗅觉芯片可识别 0.05 克腐败坚果
14:14IT之家(RSS)64英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务
12:44HuggingFace Daily Papers(社区热门论文)65OmniAgent:原生全模态智能体实现长视频主动感知推理
11:19Ant Ling50蚂蚁百灵与 SGLang 团队合作优化 Ling-2.6-1T 在 TPU v7x 上的部署
10:45MarkTechPost(RSS)65OpenAI 发布 LifeSciBench:750 项专家编写任务的生命科学研究基准
10:43HuggingFace Daily Papers(社区热门论文)45Xcientist:外部化AI科学家研究合成与验证的研究框架
10:43HuggingFace Daily Papers(社区热门论文)51Physics-IQ Verified
10:43HuggingFace Daily Papers(社区热门论文)47Turing-RL:利用图灵奖励学习用户模拟器
09:43HuggingFace Daily Papers(社区热门论文)57RNG-Bench:多模态大语言模型在可控非马尔可夫游戏中的评估基准
09:20Rohan Paul67LoopCoder-v2:仅循环一次即可高效利用测试时计算
08:00HuggingFace Daily Papers(社区热门论文)46Vesta:通用具身推理模型
08:00HuggingFace Daily Papers(社区热门论文)50CogniRoute:全模态社交推理的模式引导MoE框架
08:00HuggingFace Daily Papers(社区热门论文)43Qwen-RobotNav技术报告:为智能体导航系统设计的可扩展导航模型
08:00HuggingFace Daily Papers(社区热门论文)47DO-ALL:基于数据集蒸馏的持续测试时间适应框架
08:00HuggingFace Daily Papers(社区热门论文)63当较低权限即可满足时:LLM智能体中的过度特权工具选择研究
08:00HuggingFace Daily Papers(社区热门论文)47EventVLA: 面向长时程视觉-语言-动作策略的事件驱动视觉证据记忆
08:00HuggingFace Daily Papers(社区热门论文)42MobileForge:无标注自适应移动GUI智能体
08:00HuggingFace Daily Papers(社区热门论文)51MemGUI-Agent:具有主动上下文管理的端到端长时域移动GUI智能体
08:00HuggingFace Daily Papers(社区热门论文)54Go-with-the-Track: 视频合成与运动控制与点追踪
08:00HuggingFace Daily Papers(社区热门论文)53Robusto-2:在利马与纽约市自动驾驶场景中的人类与VLM基准测试
08:00HuggingFace Daily Papers(社区热门论文)41停车位占用识别的自监督方法
08:00HuggingFace Daily Papers(社区热门论文)48Grouped Query Experts:在 GQA 自注意力上的混合专家模型
08:00HuggingFace Daily Papers(社区热门论文)46流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
00:55
Noam Brown@polynoamial
35
Noam Brown 发文称,OpenAI 公开 o1 后,有其他实验室研究者认为这是战略失误,应保密以拉开差距。但他引用的最新研究让他确信公开正确:OpenAI 与波士顿儿童医院、哈佛合作,在 NEJM AI 发表研究,展示 o3 Deep Research 帮助临床医生重新审视未解决的罕见儿科疾病病例,为等待多年的家庭找到答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI推理论文/研究
00:51
Greg Brockman@gdb
51
OpenAI 与波士顿儿童医院、哈佛大学合作,在 NEJM AI 发表研究,使用 o3 Deep Research 重新审视 376 例此前未解的罕见儿科疾病案例,帮助找到 18 种新诊断。其中包含一例 Kyra 自 9 岁起出现肌无力的罕见肌原纤维肌病,在她 28 岁生日前不久得到确诊,为等待多年的家庭提供了答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI推理搜索论文/研究
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究
关联讨论 1 条X:Anthropic (@AnthropicAI)
推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
6月18日
23:51
elvis@omarsar0
64
OpenAI 推出 LifeSciBench,用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发,包含 750 个专家编写任务,覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读,并指出通用模型在处理复杂结构时仍然失败,而面向科学研究的专用模型表现显著更优。

OpenAI: Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....

OpenAI评测/基准
23:45
HuggingFace Daily Papers(社区热门论文)
55
Discriminator-Guided RL:用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。

arXiv图像生成数据/训练论文/研究
23:21
OpenAI@OpenAI
46
与波士顿儿童医院和哈佛的研究人员合作,我们在NEJM AI上发表了一项研究,展示了o3 Deep Research如何帮助临床医生重新审视此前未解决的罕见儿科疾病案例,并为等待多年的家庭找到答案。
OpenAI推理论文/研究
23:05
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。

OpenAI推理数据/训练论文/研究

推荐理由:这是AI辅助罕见病诊断的严肃实证,4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远,但证明推理模型能帮专家从旧数据里挖出新线索。
22:52
The Decoder:AI News(RSS)
精选78
Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。

智能体GitHubGoogleOpenAI

推荐理由:两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平,但更值得关注的是那个被埋起来的实验:更强的模型一上来,精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。
22:50
elvis@omarsar0
40
SkillWeaver:组合式技能路由用于LLM智能体

传统LLM智能体技能路由仅从工具库选取单一技能,难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”,将复杂查询分解为原子子任务,为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准,含300个组合查询和2,209个真实技能,直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。

智能体推理论文/研究
22:44
HuggingFace Daily Papers(社区热门论文)
50
ViGOS:视觉引导的在线自蒸馏框架

针对在线自蒸馏(OPSD)直接扩展到多模态大语言模型(MLLM)时产生的捷径(特权目标依赖文本参考而非图像),ViGOS提出视觉引导的OPSD框架:学生先写出视觉描述再推理。有效rollout中,纯图像感知教师监督描述,特权推理教师监督推理和答案;无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势,并改善了图像依赖行为。

多模态推理论文/研究
21:44
HuggingFace Daily Papers(社区热门论文)
51
RODS:多轮工具智能体奖励驱动在线数据合成

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务(Popoviciu上界所致),靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器,持续识别边界样本,通过技能对齐重采样管道合成结构复杂度匹配的新变体,并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池,RODS性能堪比17K样本离线管道,所需轨迹约少20倍。

智能体数据/训练论文/研究
21:44
HuggingFace Daily Papers(社区热门论文)
52
Bag of Dims:通过维度级符号模式实现免训练的机制可解释性

本文提出Transformer隐藏状态的标准基已构成免训练的通用特征基础。每个维度以符号(+/-1)编码语义、幅度编码置信度,可作为独立二进制寄存器。在语言(Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B)、视觉(DINOv2、ViT-Base)和音频(AST)共7个模型上验证:仅符号模式可保留60-93% top-5 next-token准确率;单token缓存(一次前向传播,无上下文无标签)通过符号一致性检测175个类别,AUC达0.97-0.99,训练探针仅提升0.018 AUC。特征可因果操作:实时前向传播中翻转符号可抑制对应概念。该结构同样适用于自监督视觉(9/12 ImageNet超类)、监督视觉(11/12)和音频(50/50 ESC-50类别),反映Transformer训练的普遍特性。

arXiv论文/研究
21:44
HuggingFace Daily Papers(社区热门论文)
49
MolmoMotion:基于语言指令的3D点轨迹预测模型

MolmoMotion将运动预测形式化为目标条件的3D点运动预测:给定短视觉历史、物体上的3D查询点集和语言描述的目标,预测每个点的未来3D轨迹。研究包含三个组件:MolmoMotion-1M数据集(从116万段无约束视频中标注动作描述和3D点轨迹)、PointMotionBench人工验证基准(覆盖111类物体和61种运动类型)以及MolmoMotion模型(支持自回归坐标预测和流匹配轨迹生成)。该模型能根据语言指令预测多样化运动,在基准上显著超越现有方法,且学到的3D运动先验可迁移至机器人操作和视频生成。

具身智能多模态论文/研究
21:18
Google DeepMind@GoogleDeepMind
43
我们不做AI总会按我们意图行事的假设,而是问:如果它不这样做呢? 因此我们制定了AI控制路线图:一个用于构建和管理我们在Google内部部署的先进AI的框架。🧵
Google安全/对齐
20:44
HuggingFace Daily Papers(社区热门论文)
57
STARE:基于惊喜度的Token级优势重加权实现策略熵稳定

STARE是一种基于惊喜度的token级优势重加权方法,用于解决GRPO等可验证奖励强化学习中常见的策略熵崩溃问题。通过对GRPO下token级熵动态的一阶梯度分析,STARE识别出熵关键token子集并选择性重加权其有效优势,同时引入目标熵闭环门控实现稳定熵调节。在1.5B至32B参数的模型上,覆盖短思维链、长思维链和多轮工具使用三类任务,STARE能稳定训练数千步,保持策略熵在目标带内。在AIME24和AIME25基准上,STARE平均准确率高出DAPO等基线4%–8%,且反思token和响应长度协同增长。代码已开源。

GitHub数据/训练论文/研究
19:47
Hacker News 热门(buzzing.cc 中文翻译)
精选79
ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和“不做审查”指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

OpenAI图像生成安全/对齐

推荐理由:这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光,Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片,OpenAI 的回应和处理令人失望,暴露了训练数据治理的根本问题。
19:44
HuggingFace Daily Papers(社区热门论文)
48
EfficientRollout:面向RL推理生成的自推测解码框架

强化学习成为大语言模型主流后训练范式,但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型,无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架:从目标模型量化出草稿模型,无需额外预训练或在线适应;同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线,该框架将推理生成延迟降低最高19.6%,端到端延迟降低12.7%,且不损失最终模型质量。

推理数据/训练论文/研究
16:14
IT之家(RSS)
50
比人鼻更准:新型电子嗅觉芯片可识别 0.05 克腐败坚果

加州大学伯克利分校团队研发出一款集成16个微型气体传感器阵列的电子嗅觉芯片,每个传感器涂有不同感应膜,接触气体后产生独特电信号,被称为“数字鼻子”。经机器学习训练,芯片能识别7种食品(草莓、蓝莓、香蕉、核桃、榛子、腰果、花生)以及新鲜与腐败的鸡肉、牛奶、鸡蛋。测试中可在沙拉或蛋糕等复杂气味背景中检出仅0.05克核桃。但在多种腐烂食物共存的开放环境中,准确性仍需验证。

多模态论文/研究
14:14
IT之家(RSS)
64
英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务

英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布,基于ENPIRE编码智能体框架,首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算,设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等,并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术,使爱好者可居家托管自动运行机器人实验室。

智能体具身智能论文/研究
12:44
HuggingFace Daily Papers(社区热门论文)
65
OmniAgent:原生全模态智能体实现长视频主动感知推理

OmniAgent 提出首个原生全模态智能体框架,将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆,使推理复杂度与视频时长解耦。训练采用 Agentic SFT(最佳轨迹合成与双阶段质量控制)和基于 TAURA 的 Agentic RL(利用 turn 级熵分配探索奖励)。模型在测试时呈现正向缩放:推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上,OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B(47.3%)。

智能体多模态论文/研究
11:19
Ant Ling@AntLingAGI
50
蚂蚁百灵与 SGLang 团队合作,将 1T 参数的混合 MoE 模型 Ling-2.6-1T 通过 SGLang-JAX 部署至 TPU v7x。优化包括:升级 Fused MoE V2 内核(token 和累加器驻留 VMEM,双缓冲专家权重,隐藏路由与预取);混合内存池(10 个全注意力层 per-token MLA KV + 70 个 GLA 层 per-request 循环状态);GLA 线性注意力逐块并行预填充;单控制器 DP 保持分组 RMSNorm 芯片本地化。效果:MoE 预填充延迟降低 53%;在 16 芯片 TPU v7x 切片上,解码吞吐量比同类 H200 集群最高提升 1.77 倍。

LMSYS Org: 🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...

推理论文/研究部署/工程
10:45
MarkTechPost(RSS)
65
OpenAI 发布 LifeSciBench:750 项专家编写任务的生命科学研究基准

OpenAI 推出 LifeSciBench,包含 750 个由博士级科学家编写的任务,覆盖 7 个工作流和 7 个生物领域。每个任务配有提示、支撑材料及 19,020 条原子化评分标准,约 79% 的任务需多步推理(平均 4 步)。评估五个模型中,领域专用模型 GPT-Rosalind 通过率 36.1% 领先,其后 GPT-5.5 为 25.7%、Gemini 3.1 Pro 为 23.6%、GPT-5.4 为 20.7%、Grok 4.3 为 13.0%。1,062 份附件(序列、图表、PDF 等)使模型表现明显下降。453 位评审验证一致性超 96%。

OpenAI论文/研究评测/基准
10:43
HuggingFace Daily Papers(社区热门论文)
45
Xcientist:外部化AI科学家研究合成与验证的研究框架

Xcientist 是一个研究框架,将文献证据、想法状态、实施计划、消融记录和修复轨迹作为持久研究工件外部化,使生成机制可落地、测试和修订。它识别出“声称漂移”——可执行工件不再支持原声称机制——作为自动化研究的失败模式。在无训练记忆系统、图结构交通预测和多尺度物理信息神经网络三项任务上,Xcientist 保留了从问题定义到机制设计、验证和有限修订的可追溯轨迹。研究主张,AI科学家评估应关注合成与验证过程是否可归因、可检查且符合科学问责。

智能体论文/研究
10:43
HuggingFace Daily Papers(社区热门论文)
51
Physics-IQ Verified

本文对Physics-IQ基准进行系统审查,指出其缺陷并提出三项改进:优化提示词与真实数据质量以减少混淆因素,引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中,排名出现中等但有意义的变化(Kendall's τ=0.46)。基准代码已开源。

DeepMind视频论文/研究评测/基准
10:43
HuggingFace Daily Papers(社区热门论文)
47
Turing-RL:利用图灵奖励学习用户模拟器

提出Turing-RL,一种基于图灵测试的强化学习方法,用于训练用户模拟器。该方法使用LLM评判器提供判别性图灵奖励,根据用户历史评估生成回复是否与真实用户不可区分,用户模拟器LLM在此奖励下学习产生类似真实用户的回复。在对话聊天和Reddit论坛讨论两个领域,Turing-RL在LLM和人类评估指标上均持续优于基线方法。研究表明,优化不可区分性而非匹配单一真实回复是学习用户模拟器的有效策略。

arXiv数据/训练论文/研究
09:43
HuggingFace Daily Papers(社区热门论文)
57
RNG-Bench:多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件,包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度,并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像,前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准,不损失通用多模态能力。

arXiv多模态论文/研究评测/基准
09:20
Rohan Paul@rohanpaul_ai
67
LoopCoder-v2:仅循环一次即可高效利用测试时计算

论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构,使循环可并行运行并共享内存。他们训练了7B参数的代码模型(1/2/3/4次循环),在18T tokens上预训练并微调,测试代码编写、推理、软件工程和工具使用任务。主要结果:2次循环效果最好,将SWE-bench Verified从43.0提升至64.4,而3次和4次循环性能下降。内部分析显示,第二次循环进行了有意义的精炼(改变隐藏状态、注意力模式和预测),后续循环则主要添加重复和噪声。结论:增加一次隐藏循环可大幅提升性能,但继续增加并非自动有益。

arXiv推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Vesta:通用具身推理模型

Vesta是一个统一的具身通用基础模型,将定位、空间推理、导航和长期规划能力整合于单一模型。通过大规模空间感知数据集和简单的多模态记忆机制,Vesta在多种基准测试中平均超过单个SOTA基线20%以上,并优于按类别最佳基线集成的结果10%以上。在需要记忆与推理的真实机器人任务中,Vesta将任务成功率提升35%以上,表明单一通用模型在可行性和可扩展性上优于多模型组合方案。

具身智能推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
CogniRoute:全模态社交推理的模式引导MoE框架

CogniRoute 是一个基于模式引导的混合专家(MoE)框架,专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围,并在监督微调中对齐全局路由签名;还引入路由感知强化学习,联合优化 token 生成与专家分配。在 OmniSocialBench(含118K结构化训练示例的诊断性社交视频问答数据集)上,CogniRoute 平均准确率达59.38%,比最强专有基线高15.33个百分点,比最强开源全模态基线高26.77个百分点,在视听协调、冲突解决和时序社交推理上提升最大。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
Qwen-RobotNav技术报告:为智能体导航系统设计的可扩展导航模型

Qwen-RobotNav通过参数化接口支持多种任务模式(如指令跟随、目标搜索)和可控观察参数(模型token预算、每摄像头权重),训练时随机化所有参数,推理时无需修改骨干架构。模型在15.6M样本上训练,与视觉语言数据共同训练避免仅轨迹训练导致的崩溃。上层规划器可在回合中动态切换其任务模式与上下文策略,通过重复调用同一模型组合复杂行为。Qwen-RobotNav在多项导航基准上取得新最优结果,参数从2B扩展到8B表现出良好缩放规律,多任务联合训练形成跨任务家族共享的空间规划基板,并在真实机器人上展现强零样本泛化能力。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
DO-ALL:基于数据集蒸馏的持续测试时间适应框架

DO-ALL是一个即插即用的持续测试时间适应(CTTA)框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点,概括源数据分布;适应过程中,每个目标样本与最语义对齐的锚点匹配,借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法,在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性,无需保留原始源数据。代码已开源。

arXiv开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
当较低权限即可满足时:LLM智能体中的过度特权工具选择研究

研究LLM智能体自主选择工具时的过度特权问题:智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架,覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择,瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择,提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用,同时保持通用能力。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
EventVLA: 面向长时程视觉-语言-动作策略的事件驱动视觉证据记忆

EventVLA是一种端到端机器人操作框架,其核心为稀疏视觉证据记忆,包含基础视觉锚点和动态关键帧证据记忆(KEM)模块。KEM从VLA潜在嵌入直接预测未来关键帧概率,自主捕获并存储任务关键的视觉事件,解决了标准VLA模型在长时程操作中因遮挡或不可观测导致的失败。研究还提出诊断基准RoboTwin-MeM。在17个需记忆的仿真任务和4个真实双臂任务上,EventVLA平均成功率比现有最优记忆增强VLA高出40%。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
MobileForge:无标注自适应移动GUI智能体

MobileForge由MobileGym和层次化反馈引导策略优化(HiFPO)组成,在真实移动应用中自动生成任务和评估rollout,将轨迹结果、步骤级过程反馈及纠正提示转化为提示上下文的步骤级GRPO更新。使用自动生成的无标注数据,MobileForge将Qwen3-VL-8B适配到AndroidWorld达67.2% Pass@3,接近闭数据专用模型GUI-Owl-1.5-8B的69.0%。进一步适配的ForgeOwl-8B在AndroidWorld上达77.6% Pass@3,并在域外MobileWorld GUI-only任务上取得41.0%成功率,成为当前最强的开源数据移动GUI智能体。代码、数据和模型将开源。

智能体端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
MemGUI-Agent:具有主动上下文管理的端到端长时域移动GUI智能体

ReAct风格提示词在长时域移动GUI任务中因被动累积历史导致prompt膨胀和信息稀释。MemGUI-Agent引入ConAct机制,将上下文管理视为与UI动作同策略的一等动作,维护折叠动作历史、折叠UI状态和最近步骤记录三个结构化字段,保持上下文紧凑。基于2956条轨迹的MemGUI-3K数据集对8B模型进行监督训练,得到MemGUI-8B-SFT,在MemGUI-Bench上达到最优8B开放数据性能,并泛化到分布外MobileWorld基准。代码、数据和模型将开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Go-with-the-Track: 视频合成与运动控制与点追踪

Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中,通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入,利用坐标MLP和时序池化编码完整点轨迹序列,再通过轻量适配器注入模型,避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明,该模型能支持多参考条件视频生成、点追踪驱动合成,并对静态与动态场景提供相机控制。

图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Robusto-2:在利马与纽约市自动驾驶场景中的人类与VLM基准测试

研究对比视觉语言模型(VLM)与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题,测试泛化能力。结果发现人类与VLM的回答存在差异,但地理来源对双方回答均无显著影响。数据集已公开。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
停车位占用识别的自监督方法

提出一种无需目标停车场标注样本的自监督占用识别方法。训练策略包含两个自监督阶段(先在未标注通用数据上预训练,再在未标注目标数据上微调),然后仅在通用停车场标签上监督微调。采用SimCLR与ResNet-50编码器,在PKLot、CNRPark-EXT和PLds三个数据集上通过留一法交叉环境评估。还引入两阶段部署策略:先部署强通用模型,再结合部署前N天收集的未标注图像自监督训练专用模型。强通用模型平均准确率97.2%,两阶段策略提升至97.8%。模型和代码已开源。

GitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Grouped Query Experts:在 GQA 自注意力上的混合专家模型

Grouped Query Experts(GQE)在分组查询注意力(GQA)的每个组内增加混合专家层,由路由器为每个 token 挑选 k 个 query-head 专家激活,而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下,GQE 在下游准确率上与全激活 GQA 基线持平,同时每 token 仅激活一半 query heads,减少了注意力计算量。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习

强化学习中,问题采样策略对提升大语言模型(LLM)推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题,忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程(BMC),将问题采样建模为流形结构的非平稳赌博机,利用层次任务树和贝叶斯学习引导采样。实验表明,不同采样策略在生产率、多样性和效用间存在权衡,仅优先难度不足以实现强下游性能。

推理数据/训练论文/研究
‹ 上一页
1…1011121314…50
下一页 ›