AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2707 条
全部一手资讯X论文
标签「论文/研究」清除
6月17日周三
08:00HuggingFace Daily Papers(社区热门论文)48LooseControlVideo:利用空间阻挡实现导演级视频控制
03:52OpenAI:Alignment 研究博客(RSS)73精选公开聊天数据能否预测真实世界AI失调?
03:35Anthropic:Research(发表成果 · 网页)76同事件精选Anthropic:智能体编码中专业知识回报持续存在同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
03:25OpenAI:官网动态(RSS · 排除企业/客户案例)74精选OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为
02:28HuggingFace Daily Papers(社区热门论文)50SproutRAG:基于注意力引导的树搜索与渐进式嵌入的长文档RAG
6月16日周二
23:30HuggingFace Daily Papers(社区热门论文)53ExpRL:探索性RL用于LLM中期训练
22:30HuggingFace Daily Papers(社区热门论文)45EgoPhys:从第一人称视频学习可变形物体的可泛化物理模型
22:30HuggingFace Daily Papers(社区热门论文)56HUG:基于流匹配的通用人类抓取模型
16:28HuggingFace Daily Papers(社区热门论文)45MMDiff:将冻结扩散Transformer扩展为多模态生成系统
16:28HuggingFace Daily Papers(社区热门论文)49GD2PO:通过分组动态奖励解耦策略优化缓解多奖励冲突
16:28HuggingFace Daily Papers(社区热门论文)49HABC:面向稀疏回合结果的分层优势加权在线RL微调方法
14:27HuggingFace Daily Papers(社区热门论文)53PermaVid:通过解耦上下文记忆实现编辑间一致的视频生成
13:27HuggingFace Daily Papers(社区热门论文)49Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型
13:27HuggingFace Daily Papers(社区热门论文)42PauseRec:面向生成式推荐的轻量隐式推理范式
13:27HuggingFace Daily Papers(社区热门论文)37几何动作模型 (GAM) 用于机器人策略学习
12:27HuggingFace Daily Papers(社区热门论文)52BadWorld:针对世界模型的对抗攻击
12:27HuggingFace Daily Papers(社区热门论文)36OneRank:面向多任务推荐的统一Transformer原生排序架构
12:27HuggingFace Daily Papers(社区热门论文)61VibeThinker-3B:小模型可验证推理前沿探索技术报告
11:27HuggingFace Daily Papers(社区热门论文)52UniDDT:解耦扩散Transformer统一多模态理解与生成
11:27HuggingFace Daily Papers(社区热门论文)40TuneJury:开放的音乐生成偏好对齐奖励模型
11:27HuggingFace Daily Papers(社区热门论文)44TIE:基于轨迹的掩码扩散语言模型集成框架
11:27HuggingFace Daily Papers(社区热门论文)51Qwen-RobotWorld 技术报告:基于语言条件视频生成的具身世界模型
11:27HuggingFace Daily Papers(社区热门论文)48DreamX-World 1.0:通用交互式世界模型
11:27HuggingFace Daily Papers(社区热门论文)45BRDFusion:物理与生成融合的城市场景逆渲染框架
11:27HuggingFace Daily Papers(社区热门论文)55VisualClaw:面向物理世界的实时个性化多模态智能体
10:27HuggingFace Daily Papers(社区热门论文)47TokenPilot:面向LLM智能体的缓存高效上下文管理框架
08:00HuggingFace Daily Papers(社区热门论文)39超越NL2Code:多模态代码智能结构化综述
08:00HuggingFace Daily Papers(社区热门论文)42MCompassRAG:主题元数据作为段落级检索的语义指南针
08:00HuggingFace Daily Papers(社区热门论文)40GeneralVLA-2:几何感知重建与受控记忆用于机器人规划
08:00HuggingFace Daily Papers(社区热门论文)53LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论
08:00HuggingFace Daily Papers(社区热门论文)41轨迹级监督何时支持高效离线强化学习?
08:00HuggingFace Daily Papers(社区热门论文)50MaineCoon:首个实时音频-视频社交世界模型
08:00HuggingFace Daily Papers(社区热门论文)46LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境
08:00HuggingFace Daily Papers(社区热门论文)40SR-REAL:空间视觉语言模型的双路径推理增强
08:00HuggingFace Daily Papers(社区热门论文)38Kairos:面向Physical AI的原生世界模型栈
08:00HuggingFace Daily Papers(社区热门论文)44信任正确的教师:面向GUI Grounding的质量感知自蒸馏
08:00HuggingFace Daily Papers(社区热门论文)48Guava:面向具身操作的高效通用框架
08:00HuggingFace Daily Papers(社区热门论文)53CEO-Bench:智能体能玩长期游戏吗?
08:00HuggingFace Daily Papers(社区热门论文)48PAIWorld:面向机器人操作的三维一致世界基础模型
00:00Berkeley RDI:Blog(AI 安全与评测)68精选SageCTF:最强大CTF挑战AI智能体
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
08:00
HuggingFace Daily Papers(社区热门论文)
48
LooseControlVideo:利用空间阻挡实现导演级视频控制

LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理,使用户能创作高层级布局和轨迹,同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络,并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中,轨迹误差提升1.2倍到3倍,刚性运动一致性提升2倍,遮挡准确率提升1.5倍到2倍,显著优于现有2D盒子和流基线方法。

多模态视频论文/研究
03:52
OpenAI:Alignment 研究博客(RSS)
精选73
公开聊天数据能否预测真实世界AI失调?

OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI安全/对齐论文/研究

推荐理由:用公开旧聊天数据预测模型真实失败率,误差居然在 3 倍以内,做外部审计的可以认真看看。不过 agentic 场景明显不行,需要新数据集。
03:35
Anthropic:Research(发表成果 · 网页)
同事件精选76
Anthropic:智能体编码中专业知识回报持续存在

Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。

智能体Anthropic编码论文/研究
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
推荐理由:这份报告用40万次真实会话数据揭示了一个反直觉发现,决定Agent编码成败的,不是会不会写代码,而是对自己领域问题的理解深度。对非技术背景用AI编程的人和产品经理都是重要信号。
03:25
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI安全/对齐论文/研究
关联讨论 1 条MarkTechPost(RSS)
推荐理由:虽然只是安全评估方法,但OpenAI用130万真实对话验证,把预部署风险预测误差压到1.5倍,这套方法很可能成为未来模型发布前的标准动作。
02:28
HuggingFace Daily Papers(社区热门论文)
50
SproutRAG:基于注意力引导的树搜索与渐进式嵌入的长文档RAG

SproutRAG是一个注意力引导的层次化RAG框架,通过学习句子间注意力构建二分块树,将句子级块组织成语义连贯的渐增单元。检索时使用层次化波束搜索获取多粒度候选,无需额外LLM调用或压缩摘要。框架端到端联合训练,优化嵌入和树结构。在科学、法律和开放域四个基准上,平均信息效率(IE)提升6.1%。代码已开源。

GitHub检索增强论文/研究
6月16日
23:30
HuggingFace Daily Papers(社区热门论文)
53
ExpRL:探索性RL用于LLM中期训练

稀疏奖励RL提升LLM推理能力依赖模型初始覆盖范围。现有通过人工梳理推理轨迹的中期训练需手动指定学习内容。ExpRL提出自动化方式:利用大规模问答数据作为奖励脚手架——参考答案仅用于构建评分标准,LLM裁判对比模型推理轨迹与参考答案,输出过程级或结果级密集奖励。该方法强化稀疏最终奖励难以捕捉的中间步骤。在数学推理任务上,ExpRL比SFT、稀疏奖励GRPO和自蒸馏更强,并为后续稀疏奖励RL提供更好起点。混合领域实验表明可扩展至数学以外场景。

推理数据/训练论文/研究
22:30
HuggingFace Daily Papers(社区热门论文)
45
EgoPhys:从第一人称视频学习可变形物体的可泛化物理模型

EgoPhys是一个从第一人称RGB视频构建可变形物体物理数字孪生的框架。它通过将每个物体的逆物理解蒸馏成紧凑码本,实现对未见物体预测密集弹簧刚度场,无需测试时每弹簧优化。在重建、未来预测和零样本泛化上优于基线方法。研究团队还收集了涵盖多种可变形物体、场景和操作风格的第一人称交互数据集,并在真实xArm6机器人上验证:从单个人类玩耍视频初始化的数字孪生可作为内部世界表示辅助可变形物体规划。

具身智能数据/训练论文/研究
22:30
HuggingFace Daily Papers(社区热门论文)
56
HUG:基于流匹配的通用人类抓取模型

研究人员提出HUG,一种基于流匹配的模型,能从单张RGB-D图像生成多样化人类抓取姿态。团队利用智能眼镜收集了1M-HUG数据集(100万帧、27.8小时、6707个物体实例)。HUG融合RGB与深度观测,输出手腕平移、手腕旋转和MANO手部姿态,并可重定向至多种机器人手,实现零样本抓取。为标准化评估构建了HUG-Bench,含90个未见过物体(5种几何类别)。在30物体真实测试集上,HUG比SOTA基线高出23%和34%。代码、数据、基准、模型检查点和交互演示已发布。

具身智能数据/训练论文/研究
16:28
HuggingFace Daily Papers(社区热门论文)
45
MMDiff:将冻结扩散Transformer扩展为多模态生成系统

MMDiff将冻结的扩散Transformer转化为多模态生成系统,仅用轻量解码器头部即可联合输出图像与任意组合的密集感知模态。研究发现感知信息沿去噪轨迹呈时间分布,多时间步特征融合配合空间变化聚合权重至关重要,可将语义分割结果提升28.7% mIoU(相比单时间步提取)。该方法还采用概念驱动的注意力提取实现可解释的空间引导,并证明冻结扩散特征与DINOv3等SOTA编码器互补且性能相当。仅训练轻量解码器,即在语义分割、显著目标检测和深度估计上取得强性能,并支持大规模合成数据生成。

多模态数据/训练论文/研究
16:28
HuggingFace Daily Papers(社区热门论文)
49
GD2PO:通过分组动态奖励解耦策略优化缓解多奖励冲突

大语言模型后训练强化学习需同时优化多个可能冲突的奖励维度。现有GDPO方法将整体分数分解为独立奖励组分别计算损失,但单个rollout在不同维度上可能产生正负相反的advantage,导致信号抵消。受DAPO启发,GD²PO引入冲突感知过滤机制,屏蔽奖励维度间严重不一致的rollout,防止信号抵消,同时保留并增强有效advantage幅度,加速学习。还采用查询级重加权动态调整各查询更新强度。在工具调用、人类偏好对齐等多奖励场景实验中,GD²PO显著优于现有基线。代码已开源。

智能体数据/训练论文/研究
16:28
HuggingFace Daily Papers(社区热门论文)
49
HABC:面向稀疏回合结果的分层优势加权在线RL微调方法

针对预训练VLA策略在线RL微调中回合结果仅含单一成功/失败二元标签的问题,HABC提出分层优势加权方法。它分别训练生存性与效率两个critic head,通过状态自适应门控合并优势,优先保证生存性,仅在成功确定时转向效率,并将合并结果转化为每步权重作用于actor loss。干预感知信用分配进一步限制结果标签于当前策略自主执行片段。在三个接触丰富的双手真实机器人任务上,HABC将成功率从监督微调基线的36%、44%、12%分别提升至92%、88%、38%。

具身智能数据/训练论文/研究
14:27
HuggingFace Daily Papers(社区热门论文)
53
PermaVid:通过解耦上下文记忆实现编辑间一致的视频生成

PermaVid提出一种多模态上下文记忆框架,将空间上下文解耦为语义外观与几何结构,分别存储于RGB上下文记忆和深度上下文记忆。结合编辑感知的记忆更新与检索策略,使记忆演化与后续观测对齐。在编辑操作修改场景外观或布局后,该框架仍能保持生成视频在时间与视角上的长期语义与结构一致性,显著超越现有方法。

多模态论文/研究
13:27
HuggingFace Daily Papers(社区热门论文)
49
Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型

多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。

推理论文/研究部署/工程
13:27
HuggingFace Daily Papers(社区热门论文)
42
PauseRec:面向生成式推荐的轻量隐式推理范式

基于大语言模型(LLM)的生成式推荐(GR)使用语义ID(SID)表示物品,破坏了LLM的预训练自然语言推理接口。现有显式推理方法存在削弱世界知识表述、SID与自然语言token嵌入空间错位、依赖推理质量三个局限。PauseRec是一种轻量隐式推理范式,无需推理轨迹获取与对齐训练。相比标准显式CoT方法,PauseRec性能提升最高6.22%,训练GPU耗时减少65%,推理速度加快71.3%,成为更高效且有效的替代方案。

推理数据/训练论文/研究
13:27
HuggingFace Daily Papers(社区热门论文)
37
几何动作模型 (GAM) 用于机器人策略学习

GAM(Geometric Action Model)是一种语言条件操作策略,通过直接利用预训练几何基础模型(GFM)作为共享基座,在中间层分割GFM,浅层作观察编码器,插入因果未来预测器预测未来潜在token,再经剩余GFM块解码。设计让GFM以最小架构改动获得语言条件时间世界建模能力,同时保留丰富几何先验。在模拟和真实机器人操作基准上,GAM比当前基础模型规模基线更准确、鲁棒、快速且轻量。

具身智能论文/研究
12:27
HuggingFace Daily Papers(社区热门论文)
52
BadWorld:针对世界模型的对抗攻击

BadWorld 提出无标签对抗攻击框架,专门攻击自回归视觉世界模型(VWM)。通过自监督速度攻击破坏模型早期去噪动态,并采用轨迹自适应双层优化挖掘困难控制序列,生成控制无关扰动。在连续与离散控制的 VWM 上测试表明,视觉不可辨别的对抗图像能触发未来视频 rollout 的灾难性退化,包括去噪不完整、结构崩溃和控制不一致。该工作揭示了 VWM 在安全关键系统中部署的严重结构脆弱性,同时为隐私保护提供了可行机制。

安全/对齐论文/研究
12:27
HuggingFace Daily Papers(社区热门论文)
36
OneRank:面向多任务推荐的统一Transformer原生排序架构

OneRank是一种Transformer原生的多任务排序框架,消除编码器与预测器分离。前向通过任务条件信息选择、候选感知上下文化和受控跨任务交互自底向上学习任务特定表示;后向通过跨任务梯度隔离防止负迁移。采用动态匹配评分替代静态MLP评分器,实现上下文感知排序。大规模工业数据集上的离线和在线实验表明,OneRank优于基线且保持计算效率。

数据/训练论文/研究
12:27
HuggingFace Daily Papers(社区热门论文)
61
VibeThinker-3B:小模型可验证推理前沿探索技术报告

HuggingFace社区热门论文发布VibeThinker-3B技术报告。该3B参数模型基于Spectrum-to-Signal后训练范式,经课程监督微调、多域强化学习和离线知识蒸馏优化。在AIME26上得分94.3(借助claim-level test-time scaling提升至97.1),LiveCodeBench v6 Pass@1达80.2,最近LeetCode未见题接受率96.1%,性能匹敌DeepSeek V3.2、GLM-5、Gemini 3 Pro等更大旗舰模型。IFEval得分93.4,表明极端推理增强未损害指令可控性。论文提出参数压缩-覆盖假说。

推理编码论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
52
UniDDT:解耦扩散Transformer统一多模态理解与生成

UniDDT 利用 Noisy ViT 编码器与 LLM 统一视觉生成与理解的语义编码,并采用独立扩散解码器将扩散解码与文本解码解耦,以缓解多模态任务间的学习冲突与视觉空间不一致。它从同一图像-文本对构建双数据结构,利用生成与理解数据的相互依存关系。实验结果显示,视觉生成任务 GenEval 得分 0.87,DPG 得分 86.9;多模态理解任务 MME 得分 1699.5,SEEDbench 综合得分 76.5。

多模态数据/训练论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
40
TuneJury:开放的音乐生成偏好对齐奖励模型

TuneJury 是一个开放的实例级成对奖励模型,从文本提示和音频片段预测音乐偏好分数。其检查点基于公开的人类偏好标签训练,涵盖竞技场风格 A vs B 投票、度量对齐偏好对、众包成对比较和专家美学评级。预测分数差距在 held-out 测试集上校准良好,支持通过简单阈值过滤数据。TuneJury 可泛化到分布外基准,优于先前基线。引入 anchor calibration(事后、每系统的 Bradley-Terry 校准),以比从头再训练更高的数据效率恢复一致性。相同冻结奖励在 best-of-N 选择、DITTO 风格潜在优化和专家迭代后训练三个下游应用中驱动一致奖励轴增益。

多模态数据/训练论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
44
TIE:基于轨迹的掩码扩散语言模型集成框架

研究发现掩码扩散语言模型(MDLM)中,成功的生成在答案相关位置呈现稳定置信度动态,不可靠轨迹可通过注入其他模型的中间状态纠正。基于此,提出TIE(Trajectory-based Iterative Ensembling)框架,通过追踪置信度动态识别可靠解码轨迹并在模型间传递部分去噪序列,使不同模型在不同生成阶段贡献互补优势。在多种推理任务上取得强性能,为MDLM集成提供了实用方案。

推理数据/训练论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
51
Qwen-RobotWorld 技术报告:基于语言条件视频生成的具身世界模型

Qwen-RobotWorld 是一个语言条件视频世界模型,以自然语言为统一动作接口,从当前观测预测物理可行的未来视觉轨迹,覆盖机器人操作、自动驾驶、室内导航和人到机器人迁移。其核心设计包括:60 层双流 Diffusion Transformer(Double-Stream MMDiT)耦合冻结的 Qwen2.5-VL 语义与视频-VAE 隐特征;具身世界知识语料库(860 万视频-文本对,超 2 亿帧,含 20 余种具身形态和 500 余种动作);通用+专家渐进式课程训练,先学习通用视觉先验再注入具身专用知识。在 EWMBench 和 DreamGen Bench 上总分第一,在 WorldModelBench 和 PBench 上超越所有开源模型,RoboTwin-IF 零样本分析验证了泛化性与多视角一致性。

具身智能论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
48
DreamX-World 1.0:通用交互式世界模型

DreamX-World 1.0 是一款通用交互式文图生视频世界模型,支持可控长序列生成、相机导航、回溯已观测区域及提示事件,覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE(PRoPE 投影位置编码的轻量变体)。通过因果强制、DMD 风格蒸馏和长序列训练,将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收,并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中,相机控制得分 73.75,总体 84.76,优于 HY-WorldPlay 1.5(80.79)和 LingBot-World(80.45)。

具身智能视频论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
45
BRDFusion:物理与生成融合的城市场景逆渲染框架

BRDFusion是一个统一框架,结合物理建模和生成先验,用于从视频中恢复城市场景的显式、一致的场景属性,同时缓解优化歧义。在正向渲染中,物理模型提供基于场景配置的可控渲染,生成模型负责去噪和修复伪影,从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线,并支持新视角重光照、夜间模拟以及动态物体插入/编辑。

图像生成多模态论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
55
VisualClaw:面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体,通过级联门过滤流式帧与热/冷top-k注入技能库,将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库,在4个视频QA基准上平均准确率提升+3.85%,EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena(200场景多模态智能体基准),在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%,成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次,适合边缘部署。

智能体多模态视频论文/研究
10:27
HuggingFace Daily Papers(社区热门论文)
47
TokenPilot:面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
39
超越NL2Code:多模态代码智能结构化综述

本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。

arXiv多模态编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
MCompassRAG:主题元数据作为段落级检索的语义指南针

MCompassRAG是一个元数据引导的检索框架,利用主题级信号作为语义指南针,通过LLM教师蒸馏训练轻量检索器,在不额外调用LLM的情况下实现主题感知检索。在6个复杂检索基准上,MCompassRAG的信息效率(IE)平均提升8.24%,延迟比最强高效RAG基线低5倍以上。代码已开源。

arXiv检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
GeneralVLA-2:几何感知重建与受控记忆用于机器人规划

GeneralVLA-2针对通用视觉-语言-动作系统的两个瓶颈提出改进:引入GeoFuse-MV3D几何先验引导的多视图重建分支,通过输入视图掩码验证外部几何线索、软视觉外壳支持及轴对齐精炼,仅融合几何信息并保留外观,缓解单目SAM3D式重建的姿态与不可见几何幻觉;将原有KnowledgeBank升级为受控长期记忆系统,显式管理质量、置信度、生命周期、验证器与冲突元数据,并配合面向精度的检索。在GSO-30上,GeoFuse-MV3D相比MV-SAM3D基线将CD降低2.20%、LPIPS降低2.02%,PSNR提升2.36%、SSIM提升1.03%。在Terminal-Bench 2.0与SWE-Bench Verified上,KnowledgeBank相比ReasoningBank在Terminal-Bench SR上提升4.53%,SWE-Bench resolve rate提升3.73%,AS分别降低4.95%和5.65%。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%,但掩盖了错误集中方向。LegalHalluLens审计框架包含:类型化幻觉档案(数字、时间、义务权利、事实四类)、风险方向指数(RDI)及校准辩论管线。在510份合同、249,252条款实例中,同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点;两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%,以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式,作为多智能体辩论校准输入。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
41
轨迹级监督何时支持高效离线强化学习?

本文提出OPAC算法,从仅含轨迹级标签(标量回报)的离线数据中学习隐式奖励模型并优化策略。理论证明其高概率保证为tilde O(H^2C_{sa(π^star)}/n)并给出匹配下界。该框架可扩展至偏好反馈。进一步研究发现,当目标和监督均为轨迹级非线性聚合时,一般情形不可学习(全成功目标需Ω(2^H)条轨迹);引入结构系数κ_μ(σ)和χ_μ(σ)后,广义OPAC可实现多项式样本复杂度。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
MaineCoon:首个实时音频-视频社交世界模型

MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型,在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互,是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation(ROPD)。同时设计了首个智能体流推理框架,通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架,使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake,支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干,该框架在基准测试中取得最强综合性能,超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现,成功环境更新依赖失败证据并保留已有配置;当前 RL 检查点作为环境工程师优于原始基座模型,表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
SR-REAL:空间视觉语言模型的双路径推理增强

SR‑REAL 为空间 VLM 配备两条互补推理路径:纯语言推理(LOR)和检测后推理(DTR)。LOR 执行逐步语言演绎,DTR 先通过区域 token 检测 3D 几何线索(中心点或边界框),再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督,随后用准确率和格式奖励进行强化学习优化,DTR 额外使用基于离散中心的检测奖励。在多个空间基准上,SR‑REAL 显著优于基线:单个 RL 训练模型支持两种路径,联合训练实现互相增强,且模型无需调优即可跨数据集和领域泛化。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
38
Kairos:面向Physical AI的原生世界模型栈

Kairos是面向Physical AI的原生世界模型栈。它采用跨具身数据课程进行原生预训练,融合开放世界视频、人类行为数据和机器人交互。其统一架构配备混合线性时间注意力:滑动窗口捕获局部动态,扩张滑动窗口捕获中距离依赖,门控线性注意力维持持久全局记忆,理论上保证长时域状态传播误差可控。通过部署感知系统协同设计,在服务器和消费级硬件上实现低延迟的观察-行动-反馈循环。在具身世界模型、长时域和行为策略基准上,Kairos达到顶级性能并展现强效率-能力权衡。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
信任正确的教师:面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Guava:面向具身操作的高效通用框架

Guava 是一个用于具身工具使用的框架,通过系统探索智能体工作流、动作空间和观察空间,确定了三个关键设计:迭代感知-推理-动作循环、语义动作抽象和多模态观察。研究还开发了端到端训练流程,将具身操作能力蒸馏至一个 4B 开源模型,仅用少于 2K 条模拟轨迹。仿真与真实实验表明,Guava 性能接近前沿专有模型,对未见物体、新指令和长时任务有强泛化能力。结果表明,精心设计的框架可作为模型无关的具身操作接口,以极少数据为紧凑开源模型带来涌现能力。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
CEO-Bench:智能体能玩长期游戏吗?

CEO-Bench通过模拟初创公司500天运营,评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策,并处理嘈杂数据库。最强模型(Claude Opus 4.8、GPT-5.5)虽能编写复杂代码预测现金流、挖掘客户偏好,但仅勉强使余额维持起始的100万美元以上,无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
PAIWorld:面向机器人操作的三维一致世界基础模型

PAIWorld 是一种基于扩散 Transformer 的世界基础模型,通过三大组件解决多视图三维不一致问题:几何感知跨视图注意力模块建立显式视图间通信,几何旋转位置编码将相机光线方向和外部位姿编码进注意力机制,潜在三维 REPA 从冻结的三维基础模型中蒸馏三维感知特征。它在机器人操作基准上达到最优多视图三维一致性,WorldArena 排行榜第一,AgiBot-Challenge2026 排行榜第二,并支持基于模型的规划、世界动作模型和多视图策略后训练等下游应用。

具身智能论文/研究
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选68
SageCTF:最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由:SageCTF 在 DEF CON CTF 排进前 5%,是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力,给做复杂推理工具的人提供了真参考。
‹ 上一页
1…910111213…50
下一页 ›