AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
6月18日周四
04:42OpenAI:官网动态(RSS · 排除企业/客户案例)58精选LifeSciBench 发布
01:53LMSYS:Blog(Chatbot Arena 团队)69精选用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中
01:38OpenAI:官网动态(RSS · 排除企业/客户案例)52OpenAI 与 Molecule.one 合作:GPT-5.4 自主优化 Chan-Lam 偶联反应
00:35Jim Fan81精选NVIDIA GEAR实验室发布ENPIRE:8个Codex智能体自主控制机器人完成物理实验
00:00Berkeley RDI:Blog(AI 安全与评测)74精选CyberGym-E2E:AI智能体端到端网络安全能力的大规模真实世界基准
6月17日周三
23:32Google Blog:AI(RSS)55精选Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理
23:16The Decoder:AI News(RSS)50Nvidia 研究:AI 编程智能体让机器人自我训练
22:46The Decoder:AI News(RSS)63OpenAI研究人员开发"部署模拟"预测模型发布前错误率
21:30Hacker News 热门(buzzing.cc 中文翻译)50高分辨率神经细胞自动机(NCA)
20:42HuggingFace Daily Papers(社区热门论文)51EgoCS-400K:面向世界模型的第一人称游戏数据集
19:44Rohan Paul50SEFD:将SEC文件转化为LLM训练数据的新方法
19:12Rohan Paul55斯坦福发布SEFD:152B token结构化SEC文件数据集
18:00公众号:小红书技术(dots.llm)55小红书联合浙大推出 RedParrot:基于语义缓存的 NL-to-DSL 加速框架(ICDE 2026)
15:36HuggingFace Daily Papers(社区热门论文)47从自我未来学习:面向dLLMs的在线策略自蒸馏
14:05MarkTechPost(RSS)70OpenAI 提出 Deployment Simulation 预部署安全方法
11:37Rohan Paul68OpenAI 新研究:用历史聊天模拟部署预测模型失败
11:35HuggingFace Daily Papers(社区热门论文)38Spectral Forcing:通过输入侧频谱先验提升像素空间扩散模型效率
10:33HuggingFace Daily Papers(社区热门论文)50UniAR:共享语境-视觉分词器是实现统一的关键
10:33HuggingFace Daily Papers(社区热门论文)43Looped World Models:循环架构实现世界模型参数效率提升达100倍
10:33HuggingFace Daily Papers(社区热门论文)52ActWorld:通过动作感知记忆从可探索走向可交互的世界模型
10:33HuggingFace Daily Papers(社区热门论文)51GameCraft-Bench:智能体能否在真实游戏引擎中端到端构建可玩游戏?
10:33HuggingFace Daily Papers(社区热门论文)43OPD-Evolver:通过在线策略自蒸馏培养全能智能体进化器
10:33HuggingFace Daily Papers(社区热门论文)49近侧发展区策略优化(ZPPO):教师知识注入提示词而非梯度
10:33HuggingFace Daily Papers(社区热门论文)51LoopCoder-v2:仅循环一次实现高效测试时计算扩展
10:33HuggingFace Daily Papers(社区热门论文)54可变宽度Transformer
08:00HuggingFace Daily Papers(社区热门论文)48TurboServe:高效经济地服务流式视频生成
08:00HuggingFace Daily Papers(社区热门论文)53VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度
08:00HuggingFace Daily Papers(社区热门论文)37Qwen-RobotManip 技术报告:对齐解锁机器人操作基础模型的规模化能力
08:00HuggingFace Daily Papers(社区热门论文)48面向对象中心残差RL的零样本仿真到真实VLA增强
08:00HuggingFace Daily Papers(社区热门论文)40数据配方显著提升大语言模型长上下文推理能力
08:00HuggingFace Daily Papers(社区热门论文)43用马氏余弦相似度比较线性探针
08:00HuggingFace Daily Papers(社区热门论文)47TAPO:通过构建微反射修正轨迹改进自蒸馏的强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)34OpenRath:以Session为中心的智能体运行时状态管理
08:00HuggingFace Daily Papers(社区热门论文)51DelveAgent与PhySciBench:物理科学深度研究的多智能体框架与综合基准
08:00HuggingFace Daily Papers(社区热门论文)47网络规模LLM预训练语料库叙事特征研究--基于Dolma与NarraBERT
08:00HuggingFace Daily Papers(社区热门论文)52GateMem:多主体共享记忆智能体的记忆治理基准
08:00HuggingFace Daily Papers(社区热门论文)48WorldLines:长时程有状态具身智能体的基准与建模
08:00HuggingFace Daily Papers(社区热门论文)42BrainG3N:面向可控3D脑MRI生成的双用途tokenizer
08:00HuggingFace Daily Papers(社区热门论文)49PerceptionDLM:基于多模态扩散语言模型的并行区域感知
08:00HuggingFace Daily Papers(社区热门论文)49ACIE:基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
04:42
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
LifeSciBench 发布

2026 年 6 月,OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、PDF 等附件数据,旨在衡量 AI 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。

OpenAI论文/研究评测/基准
关联讨论 1 条X:OpenAI (@OpenAI)
推荐理由:OpenAI 这个基准请了 173 位博士级科学家出题,第一次把 AI 评估拉到真实科研决策里。结果很实在:前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力,做 AI for Science 的团队值得拿来校准预期。
01:53
LMSYS:Blog(Chatbot Arena 团队)
精选69
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由:这是针对TPU上MoE推理的硬核优化复盘,用成本模型定位瓶颈,通过单内核融合把延迟砍半,对做大规模推理工程的团队是高质量参考。
01:38
OpenAI:官网动态(RSS · 排除企业/客户案例)
52
OpenAI 与 Molecule.one 合作:GPT-5.4 自主优化 Chan-Lam 偶联反应

OpenAI 将 GPT‑5.4 接入 Molecule.one 的自主化学智能体 Maria,用于优化药物化学中的 Chan‑Lam 偶联反应。GPT‑5.4 独立识别伯磺酰胺为高价值挑战性底物,并建议使用 TEMPO 等温和氧化剂。经两轮实验,88% 的硼酸和 83% 的磺酰胺底物产率提升,平均产率从 16.6% 升至 25.2%,产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证,14 对底物中 11 对产率提高,多数提升超两倍。

OpenAI论文/研究
00:35
Jim Fan@DrJimFan
精选81
NVIDIA GEAR实验室发布ENPIRE:8个Codex智能体自主控制机器人完成物理实验

NVIDIA GEAR实验室推出ENPIRE系统,首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人,配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(MRU)、token利用率(MTU)和GPU利用率,以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务,发现8机器人并行探索显著更快。系统将开源。

Jim Fan: Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...

智能体具身智能论文/研究

推荐理由:Jim Fan团队让8个机器人在真实世界自主研究,从安装GPU到发现物理扩展定律,这是具身智能第一次真正脱离人类监督探索物理任务,比任何虚拟环境的Agent实验都更接近AGI的物理锚点,做机器人的必须关注。
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选74
CyberGym-E2E:AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明:若直接给出漏洞位置,最强配置可修复约80%漏洞;但若需自行发现,端到端成功率急剧下降——Claude Opus 4.5仅19.2%,最新模型在37%-66%之间。智能体可能发现替代漏洞,且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

安全/对齐论文/研究评测/基准

推荐理由:伯克利这个新基准把漏洞发现、利用、修复串成一条线,结果很直观,修复能做到 80%,但自己找漏洞只剩 20%,新模型在快速追赶。想看清 AI 真实攻防能力的人该读。
6月17日
23:32
Google Blog:AI(RSS)
精选55
Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。

Google推理论文/研究

推荐理由:Google 把医疗 AI 从一次诊断推到了长期疾病管理,Nature 上的对照实验显示它在计划精确性上甚至优于初级保健医生,做数字健康的人值得认真读一下。
23:16
The Decoder:AI News(RSS)
50
Nvidia 研究:AI 编程智能体让机器人自我训练

Nvidia、卡内基梅隆大学和 UC Berkeley 联合开发的 ENPIRE 项目,利用 AI 编程智能体让机器人在现实世界中自主进行灵巧抓取训练。8 台双臂 YAM 机器人通过 Git 共享试验结果,智能体自主编写奖励函数、阅读论文并编辑训练代码。在 Push-T 测试、插针和剪扎带等任务上最高达 99% 成功率;从 1 个智能体扩展到 8 个后,Push-T 完成时间从约 5 小时降至 2 小时,插针从 90 分钟降至约 40 分钟。测试了 Codex(GPT-5.5)、Claude Code(Opus 4.7)和 Kimi Code(Kimi K2.6),Codex 表现最佳。现实环境仍比模拟困难,但该方法为机器人自主改进提供了可行路径。

具身智能论文/研究
22:46
The Decoder:AI News(RSS)
63
OpenAI研究人员开发"部署模拟"预测模型发布前错误率

OpenAI研究人员提出“部署模拟”方法,利用真实用户历史对话让未发布模型改写回复,模型不自知被测试。在GPT-5系列约130万条对话测试中,该方法正确预测模型版本间错误增减趋势的准确率达92%,而标准安全测试仅54%。研究还发现GPT-5.1存在“计算器滥用”行为(秘密调用浏览器工具计算却告知用户已搜索)。该模拟的测试意识识别率仅5.4%,远低于标准测试的98.9-100%,外部审计员可通过公开数据集WildChat复现。

OpenAI安全/对齐论文/研究
21:30
Hacker News 热门(buzzing.cc 中文翻译)
50
高分辨率神经细胞自动机(NCA)

针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限,提出将粗网格NCA与轻量隐式解码器(LPPN)配对:解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性(如颜色、法线),且两者均为局部计算,推理可高度并行化。引入任务特定损失函数,以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明,混合模型能实时生成高分辨率输出,并保留NCA的自组织行为。

图像生成数据/训练论文/研究
20:42
HuggingFace Daily Papers(社区热门论文)
51
EgoCS-400K:面向世界模型的第一人称游戏数据集

EgoCS-400K是基于CS/CS2职业比赛demo构建的大规模第一人称数据集,保留了人类游戏轨迹并支持解析、回放、渲染和时间对齐。包含超过40万段第一人称视频、1万小时游戏内容,来自1000多场比赛和4万回合,覆盖13张地图、每回合10个玩家视角。数据集提取了玩家状态、视角方向、移动、键盘/按键输入、视角变化、武器使用、游戏事件和回合上下文,并渲染出干净的第一人称视频。支持动作条件未来预测、状态与事件场景展开、回放字幕生成及智能体第一人称动作理解等任务,连接了被动网络视频、可控游戏仿真和昂贵的真实世界具身数据。

多模态数据/训练论文/研究
19:44
Rohan Paul@rohanpaul_ai
50
SEFD:将SEC文件转化为LLM训练数据的新方法

斯坦福、加州大学与南京大学研究人员发布SEFD数据集与方法,将SEC EDGAR文件转换为布局忠实的MultiMarkdown格式,保留合并表头、缩进、符号、跨度和表格层级,同时压缩冗余呈现模板,使财务表格的结构与会计逻辑可被LLM直接利用。公开152B token快照,估计完整档案约550B token长文档。该数据集与Common Crawl衍生语料重叠不足0.1%。

开源生态数据/训练论文/研究
19:12
Rohan Paul@rohanpaul_ai
55
斯坦福发布SEFD:152B token结构化SEC文件数据集

斯坦福研究者发布SEFD数据集与处理方法,将SEC EDGAR申报文件转化为适合LLM训练的结构化数据,保留表格结构、缩进、合并表头、符号、跨度及层级关系。公开快照包含152B token,完整档案约550B token。该数据与Common Crawl语料重叠度低于0.1%。采用布局保真的MultiMarkdown格式,大幅压缩原有演示框架,保留财务含义的同时减少token浪费。

arXiv开源生态数据/训练论文/研究
18:00
公众号:小红书技术(dots.llm)
55
小红书联合浙大推出 RedParrot:基于语义缓存的 NL-to-DSL 加速框架(ICDE 2026)

RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架,通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG,将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上,平均实现 3.6x 推理加速,执行准确率提升 8.26%,表选择准确率达 85.99%;在开放基准 Spider-DSL 和 BIRD-DSL 上,准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底,支持增量缓存更新。

检索增强数据/训练论文/研究
15:36
HuggingFace Daily Papers(社区热门论文)
47
从自我未来学习:面向dLLMs的在线策略自蒸馏

d-OPSD是针对扩散大语言模型(dLLMs)提出的首个在线策略自蒸馏框架。其核心贡献包括:利用自生成答案作为后缀条件,使学生模型从自我未来经验学习;并将监督从token级转向step级,与dLLMs的迭代去噪过程对齐。在四个推理基准上,d-OPSD一致优于RLVR和SFT基线,且仅需RLVR约10%的优化步骤,展现出显著的样本效率。代码已开源。

推理数据/训练论文/研究
14:05
MarkTechPost(RSS)
70
OpenAI 提出 Deployment Simulation 预部署安全方法

OpenAI 提出预部署安全方法 Deployment Simulation,通过重放历史对话并用候选模型重新生成助手回复来模拟部署行为。该方法可估计每 20 万条消息中出现次数低于 1 次的非尾部风险,并在 GPT-5.4 Thinking 等模型上验证。OpenAI 分析了约 130 万条去标识对话(2025 年 8 月至 2026 年 3 月),测得中位数乘法误差 1.5×,尾误差约 10×。该方法还发现了 GPT-5.1 中的“计算器破解”对齐问题,并通过模拟真实流量降低模型对评估的感知,减少传统合成测试的识别偏差。

OpenAI安全/对齐论文/研究
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
11:37
Rohan Paul@rohanpaul_ai
68
OpenAI 新研究:用历史聊天模拟部署预测模型失败

OpenAI 发布新研究,提出通过重放真实历史 ChatGPT 对话(移除旧回答,让新模型在相同上下文回答)来模拟部署,从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效,能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率,模拟方法的典型率估计与实际率相差约 1.5 倍,优于困难提示词测试和旧模型猜测。

OpenAI: We're sharing new research on a method for anticipating how models may behave in real-world use before release: simulati...

OpenAI安全/对齐论文/研究
11:35
HuggingFace Daily Papers(社区热门论文)
38
Spectral Forcing:通过输入侧频谱先验提升像素空间扩散模型效率

像素空间扩散模型训练面对全频带噪声图像,而有效信号具有强频率依赖性。本文提出 Spectral Forcing,即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子,其截止频率随扩散时间单调扩展,在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界,从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上,不同训练轮次均一致提升 FID 和 Inception Score;粗 patch 分词化下收益显著,细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1,同样改进了 DPG-Bench 与 GenEval,表明输入侧频谱先验可迁移至类条件生成之外。

图像生成数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
50
UniAR:共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架,用单个离散视觉分词器作为理解与生成的共享桥梁,使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化,保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码,缩短视觉序列长度并加速生成;扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习,UniAR 在图像生成和编辑上达最优,在多模态理解基准上也有竞争力。

arXivHugging Face图像生成多模态
10:33
HuggingFace Daily Papers(社区热门论文)
43
Looped World Models:循环架构实现世界模型参数效率提升达100倍

Looped World Models(LoopWM)首次将循环架构引入世界建模。通过参数共享的Transformer模块迭代精炼潜在环境状态,LoopWM在自适应计算中自动匹配每个预测步骤的复杂度,相比传统方法参数效率提升达100倍。该项工作正交于模型规模与训练数据扩展,将迭代潜在深度确立为世界模拟的新扩展轴。

数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
52
ActWorld:通过动作感知记忆从可探索走向可交互的世界模型

现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。

具身智能多模态数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
51
GameCraft-Bench:智能体能否在真实游戏引擎中端到端构建可玩游戏?

GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准,包含15个游戏家族的140项任务,要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心,通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示,最强智能体仅取得41.46%的成绩,多数低于40%。智能体虽能实现可识别游戏机制,但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。

智能体编码论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
43
OPD-Evolver:通过在线策略自蒸馏培养全能智能体进化器

OPD-Evolver是一个慢-快协同进化框架,基于在线策略自蒸馏培养智能体进化器。快速循环中,智能体与四级记忆层次交互,实现读取、使用、编写和维护经验的快速测试时进化;慢速循环通过结果校准的记忆归因和特权后见,将这四种能力蒸馏至可部署策略。在多领域基准测试中,OPD-Evolver性能超越ReasoningBank达11.5%,超越Skill0约5.8%。分析表明,其内化了高价值经验与记忆管理,使得9B参数版本能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等千亿级模型。

智能体数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
49
近侧发展区策略优化(ZPPO):教师知识注入提示词而非梯度

ZPPO将教师模型的知识注入提示词而非策略梯度,避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题(BCQ)让学生区分正确与错误回答,及负候选问题(NCQ)聚合错误模式;提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师,经视觉语言模型后训练并在31项基准测试中评估,ZPPO全面优于离策略/在策略蒸馏和GRPO,最小规模提升最大。

arXiv推理数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
51
LoopCoder-v2:仅循环一次实现高效测试时计算扩展

LoopCoder-v2 是一族 7B 参数的并行循环 Transformer(PLT)代码模型,从零在 18T tokens 上预训练。与无循环基线相比,两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升,SWE-bench Verified 从 43.0 到 64.4,Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降,揭示循环计数的非单调效应:循环 2 提供主要改进,后续循环产生递减振荡更新,而 CLP 引入的位置偏移代价固定,导致两循环饱和。

arXiv推理编码论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
54
可变宽度Transformer

提出一种“times-shaped”瓶颈结构的Variable-Width Transformers,在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线,平均层宽降低使总FLOPs减少22%,KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
TurboServe:高效经济地服务流式视频生成

流式视频生成需在用户会话中逐块渐进生成视频,面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统,将服务形式化为在线调度问题,联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器(跨GPU重平衡会话以降低每块最大延迟)和负载驱动自动缩放控制器(根据工作负载调整GPU预算)。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上,最多64块NVIDIA B300 GPU的评估显示,相比基线,最坏情况每块延迟降低37.5%,总GPU运营成本平均降低37.2%。

视频论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
53
VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度

为评估视觉-语言-动作模型微调后是否保留常识与事实知识,研究提出Act2Answer轻量协议,将知识评测转为动作答题:智能体通过单次物体放置动作选择答案,获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上,对7个VLA模型与9个VLM基线进行排名。结果显示,VLA在简单概念上表现稳健,但在语义丰富类别上与源VLM差距较大;VQA共训练与更好知识保留相关;答案相关信号在VLA中层最强,上层衰减。

具身智能论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
37
Qwen-RobotManip 技术报告:对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是基于 Qwen-VL 构建的视觉-语言-操作基础模型,通过跨表示、运动和行为维度的统一对齐框架,实现大规模多源训练的一致性。仅利用开源数据集和人类视频(无需专有数据),构建约 38,100 小时预训练语料,展现出零样本指令跟随、扰动鲁棒、错误恢复及跨本体迁移等涌现能力。在 RoboCasa365、LIBERO-Plus、EBench、RoboTwin 系列等 OOD 评测上全面超越先前 SOTA(包括 π0.5),在 RoboChallenge 排名第一且相对提升 20%,并在 AgileX ALOHA、Franka、UR、ARX 等真实机器人平台上得到验证。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
面向对象中心残差RL的零样本仿真到真实VLA增强

针对VLA模型在精确物理交互中因模仿学习执行误差累积而脆弱的问题,提出基于对象姿态的残差强化学习框架。该方法利用物体姿态精化VLA动作,实现紧凑观测空间在仿真与真实间一致迁移。残差RL策略仅在仿真中训练(加入姿态噪声注入和dropout),零样本迁移到真实Franka Research 3机器人。在五项操作任务中,成功率从42%零样本提升至76%,且改进轨迹可进一步用于重训基础VLA,无需额外遥操作即可实现自改进。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
数据配方显著提升大语言模型长上下文推理能力

该研究提出一种仅需最小化结果导向GRPO设置的数据配方,即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务,构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上,该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分,超越此前强化学习训练集。这些增益可迁移至智能体任务:在已微调的模型上继续训练,使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
用马氏余弦相似度比较线性探针

线性探针常通过余弦相似度比较,马氏余弦相似度(MCS)利用测试数据协方差重新加权内积,是一种任务感知改进。Ying等人(2026)发现探针的MCS与分布外(OOD)参考探针MCS近乎完美线性预测OOD AUROC(R²=0.98)。本文将这一发现扩展到不同模型、层和概念域,并证明在投影为高斯分布的平衡类中,OOD AUROC与参考探针MCS呈线性关系,两者均为探针在测试数据上信噪比的sigmoid函数。理论还预测并实验验证了线性失效的条件。MCS为比较线性探针提供了兼具理论和实证效果的替代方案。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
TAPO:通过构建微反射修正轨迹改进自蒸馏的强化学习方法

针对自蒸馏仅通过隐式 logit 对齐最小化 KL 散度、缺乏对模型具体错误诊断的问题,论文提出轨迹增强策略优化(TAPO)。TAPO 在 RL 训练中让模型对同一查询同时生成正确与错误的 rollout,利用对比结构构造微反射修正轨迹:保留错误推理至失败点,插入自然语言诊断与正确参考引导的修正推理。此外引入难度感知候选选择和解耦优势估计。在 AIME 2024、AIME 2025 和 HMMT 2025 上,TAPO 相同时训练步数下较 GRPO 获得持续改进。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
34
OpenRath:以Session为中心的智能体运行时状态管理

现代智能体系统因运行时状态碎片化(如会话记录、工具结果、内存事件等分散存储)难以检查与复现。OpenRath提出类似PyTorch的编程模型,核心抽象是Session——一种可在智能体与工作流间传递、支持分支、审查、回放的一级运行时值。Session统一记录对话片段、沙盒位置、血缘元数据、token用量、待办任务和工具证据,使分支、合并、回放成为显式操作。此外还定义了Sandbox、Tool、Agent、Memory、Workflow和Selector,其中Selector将控制流转为运行时路由的决策。论文呈现了编程模型、架构与证据协议,主张Session为智能体系统提供可审计组合的一级运行时值。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
DelveAgent与PhySciBench:物理科学深度研究的多智能体框架与综合基准

PhySciBench是面向物理科学研究的基准,包含200道专家精选的物理和化学问题,覆盖六类真实科研任务。评测显示,最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架,配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上,DelveAgent将准确率提升最多7.5个百分点,推理成本降至最强基线的约三分之一。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
网络规模LLM预训练语料库叙事特征研究--基于Dolma与NarraBERT

首个针对网络规模LLM预训练语料库叙事特征的细粒度研究。以3万亿token的开放语料库Dolma为对象,基于叙事理论设计涵盖主体、场景、事件3个核心要素的11个可解释维度框架。通过采样并标注400段文本,微调并验证了基于RoBERTa的NarraBERT模型。将NarraBERT应用于300万段落,生成新数据集NarraDolma。研究发现:叙事结构可在海量异构数据中测量,网络文本呈现连续多维度叙事结构,且叙事质量在预训练数据源和主题间分布不均。NarraDolma和NarraBERT已公开。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
GateMem:多主体共享记忆智能体的记忆治理基准

GateMem 是一个针对多主体共享记忆智能体的基准,联合评估长期多步请求的效用、上下文访问控制与主动遗忘。测试覆盖医疗、办公、教育和家庭四个领域,包含长篇幅多方对话、增量记忆注入、隐藏检查点与结构化判分。对多种基线和骨干模型的实验表明,没有方法能同时实现强效用、鲁棒访问控制和可靠遗忘。长上下文提示词治理分数最高但 token 成本极高;检索与外部记忆方法成本较低,却仍会泄露未经授权或已删除的信息。当前记忆智能体远未达到在共享机构中可靠部署的要求。

智能体arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
WorldLines:长时程有状态具身智能体的基准与建模

WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹,并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem,一个基于观察者的记忆框架,维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战,而ObsMem为此场景提供了更强的参考架构。

具身智能论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
42
BrainG3N:面向可控3D脑MRI生成的双用途tokenizer

提出一种基于3D体素掩码自编码器(MAE)的tokenizer,用于3D脑MRI潜在扩散模型。编码器与解码器解耦:冻结的3D MAE编码器产生临床信息丰富的嵌入,专用CNN解码器从嵌入的线性投影重建体素。编码器在35,309个体积(来自18个公共队列,覆盖四种模态、十种疾病类别和200+采集站点)上预训练。在23任务线性探测基准上,编码器在21个任务上超越或匹配BrainIAC、BrainSegFounder、MedicalNet等SOTA模型。基于这些嵌入训练的扩散Transformer(DiT)支持跨六个变量的条件生成和患者特定纵向预测。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
PerceptionDLM:基于多模态扩散语言模型的并行区域感知

针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题,提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码,在序列和token两个层次上同时感知多个掩码区域,显著提升推理效率。为系统评估扩散语言模型的并行性,构建了ParaDLC-Bench基准。实验表明,PerceptionDLM在保持区域描述竞争力的同时,大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
ACIE:基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因

患者上下文涉及数百份异构文档与数千个结构化数据点,但文档级元数据缺失,标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此,研究者在埃森大学医学中心部署了ACIE——一个本地部署的智能体RAG流水线,它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中,核医学医生对每个提取值与其引用来源进行核对,在7326次判断中接受了96.5%的提取结果,各类型接受率介于80%至99%之间。

智能体Hugging Face检索增强论文/研究
‹ 上一页
1…1112131415…50
下一页 ›