AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 2862 条
全部一手资讯X论文
6月25日周四
08:00HuggingFace Daily Papers(社区热门论文)55延迟验证破坏多智能体LLM信念:不稳定性阈值与最优校正器放置
08:00HuggingFace Daily Papers(社区热门论文)47SAM2Matting:通用图像和视频抠图
08:00HuggingFace Daily Papers(社区热门论文)51LiveEdit:面向实时扩散的流式视频编辑
08:00HuggingFace Daily Papers(社区热门论文)43SharpMoE: 面向扩散MoE的显著性引导精确路由
08:00HuggingFace Daily Papers(社区热门论文)42MemoBench:动态变化环境中的世界建模基准测试
08:00HuggingFace Daily Papers(社区热门论文)58代码智能体需要多少静态结构?确定性锚定效应研究
08:00HuggingFace Daily Papers(社区热门论文)66LLM程序修复代理中代码执行成本效益的实证研究
08:00HuggingFace Daily Papers(社区热门论文)44聚类、路由、升级:面向成本感知的LLM服务的级联框架
08:00HuggingFace Daily Papers(社区热门论文)39LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)
08:00HuggingFace Daily Papers(社区热门论文)45NeuraDock Agent:低通道脑电图智能体的边界感知上下文接地架构
08:00HuggingFace Daily Papers(社区热门论文)51Ko-WideSearch:韩语广度搜索基准
08:00HuggingFace Daily Papers(社区热门论文)48Qwen-Image-2.0-RL 技术报告
08:00HuggingFace Daily Papers(社区热门论文)51PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动
08:00HuggingFace Daily Papers(社区热门论文)37DanceOPD:面向流匹配模型的on-policy生成场蒸馏框架
08:00HuggingFace Daily Papers(社区热门论文)65Qwen-Image-Agent:弥合真实图像生成中的上下文差距
08:00HuggingFace Daily Papers(社区热门论文)41OPID: 智能体强化学习的在线策略技能蒸馏
08:00HuggingFace Daily Papers(社区热门论文)54ViQ:任意分辨率的文本对齐视觉量化表示
08:00HuggingFace Daily Papers(社区热门论文)51面向鲁棒视频理解的置信感知工具编排
08:00HuggingFace Daily Papers(社区热门论文)48机器人控制的上下文世界建模
08:00HuggingFace Daily Papers(社区热门论文)50世界模型中的幻觉可预测且可预防
08:00HuggingFace Daily Papers(社区热门论文)54JetSpec:基于因果并行草稿头的推测解码框架
08:00HuggingFace Daily Papers(社区热门论文)65何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限
08:00HuggingFace Daily Papers(社区热门论文)50GauntletBench:在陌生环境中重新评估AI智能体能力
08:00HuggingFace Daily Papers(社区热门论文)48LISA:基于似然分数对齐的视觉条件可控生成正则化方法
08:00HuggingFace Daily Papers(社区热门论文)40EO-WM:物理信息驱动的概率地球观测预测世界模型
08:00HuggingFace Daily Papers(社区热门论文)49InfoKV:信息感知的KV缓存压缩用于长推理
07:15Ethan Mollick52自称不用AI者秘密使用
06:23elvis46Eric Xing论文定义智能体"五维度"框架
04:12HuggingFace Daily Papers(社区热门论文)54InSight: 通过可控VLA实现自主技能获取
01:22AK52Qwen-AgentWorld:通用智能体语言世界模型
01:05Google Research:Blog(网页)69精选思考即回忆:推理如何解锁LLM中的参数化知识
6月24日周三
21:12HuggingFace Daily Papers(社区热门论文)51AGORA:一个基于档案的智能体工作场所文档推理基准
21:11OpenBMB36面壁智能 OpenBMB 联合清华等提出 Know More, Know Clearer 元认知框架,应对 LLM 认知错位幻觉
20:48Ant Ling41蚂蚁百灵发布UFP4论文:均匀网格FP4训练配方
20:18Ant Ling53蚂蚁百灵UFP4:FP4训练关键在网格几何
18:30Hacker News 热门(buzzing.cc 中文翻译)80Qwen-AgentWorld:通用智能体的语言世界模型
15:37MarkTechPost(RSS)74精选DFlash:块扩散草稿模型实现最高15倍吞吐量提升
15:09HuggingFace Daily Papers(社区热门论文)55FLAT: 前馈潜码三角形泼溅实现几何精确场景生成
11:55HuggingFace Daily Papers(社区热门论文)52DREAM: 通过自回归建模实现密集检索嵌入
11:55HuggingFace Daily Papers(社区热门论文)54FlowR2A:多模态驾驶规划的奖励到动作分布学习
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
08:00
HuggingFace Daily Papers(社区热门论文)
55
延迟验证破坏多智能体LLM信念:不稳定性阈值与最优校正器放置

多智能体大语言模型系统中,验证器与批评者智能体存在延迟,导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识,通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值:过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定;延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则,用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡,而接地事实性回答使真相成为吸收边界从而消除该效应。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
SAM2Matting:通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架,通过为基础追踪器(如 SAM2、SAM3)添加区域提议桥和专用抠图头,将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练,SAM2Matting 在视频抠图上实现了新 SOTA,支持多种提示类型,保持强时间一致性,并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
LiveEdit:面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
SharpMoE: 面向扩散MoE的显著性引导精确路由

SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号,使路由器在高噪声阶段也能识别显著token,并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明,SharpMoE作为即插即用方案可增强预训练收敛的MoE模型,在视觉生成任务上达到SOTA表现。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
MemoBench:动态变化环境中的世界建模基准测试

MemoBench 是一个针对视频生成模型在动态变化环境中的记忆一致性诊断基准,围绕“消失-重现”范式设计:目标物体经历物理过程后从画面中消失,模型需在其重新出现时正确恢复更新后的状态。基准包含 360 段真实与合成场景的真值片段,结合自动化指标与基于 VQA 的评估,覆盖四个诊断支柱。对八款当前最优模型的评测揭示了消失-重现模式下记忆一致性面临的关键难题与开放挑战。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
代码智能体需要多少静态结构?确定性锚定效应研究

基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。

智能体OpenAI编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
LLM程序修复代理中代码执行成本效益的实证研究

本研究分析了SWE-bench排行榜上7,745个代理轨迹,并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示:代码执行平均每任务8.8次测试运行,频率2-19,后期成功率更高;对商用SOTA代理,禁止执行与无限制执行间修复成功率差距仅1.25个百分点(无统计显著性),但禁止执行显著节省token与墙钟时间;执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行,应将其视为有明确成本收益权衡的资源。

智能体编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
聚类、路由、升级:面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
39
LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)

该方案在 LeHome Challenge 2026(ICRA 2026 双臂衣物折叠竞赛)中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作(VLA)策略:策略同时作为价值函数,预测动作、成功、进度及任务相关未来量,用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化,以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
NeuraDock Agent:低通道脑电图智能体的边界感知上下文接地架构

NeuraDock Agent是一个开源架构,将确定性本地EEG引擎与硬件感知语言层分离。它解析七通道脑电图,执行质量控制与审核后的频谱工作流,生成机器可读结果。大语言模型仅接收经过允许列表筛选的摘要和版本化上下文包,包含硬件描述、工作流、结果字段、实施边界、科学限制及参考案例,原始EEG和密集数组数据保留在本地。评估分三个层面:12份记录在十次数值重复中结果一致;请求捕获与故障注入实验验证了数据边界和本地工件保留;边界意识基准测试对36个普通和对抗性问题在4种上下文消融设置和2个LLM下产生288个输出,证实了硬件与实现感知接地机制的可行性,但未验证临床有效性。

arXiv其他论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
Ko-WideSearch:韩语广度搜索基准

现有网页智能体基准主要测深度搜索,缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准,通过自动化合成-验证流程构建。任务要求从集合父实体(如电视剧季、王朝)中完整列举成员并填充属性表,采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格,覆盖 190 个实体、16 个类别,设三个难度层级,通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示,智能体能恢复集合但无法填充行(Item-F1 92.8,Row-F1 53.7),难度提升准确率下降,增加搜索或花费无法缩小差距;难点在找到正确值而非格式化,自由文本单元格失败率最高。

智能体arXiv搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。

图像生成多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型,用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格,输入初始顶点位置、速度及材料类型(刚性或弹性),通过去噪扩散过程直接采样未来顶点轨迹,不依赖显式归纳偏置。概率性公式捕捉动力学不确定性,生成多种合理未来。模型在时间、空间和物体维度上分解注意力,实现置换不变的多物体推理。基于 10 万+模拟轨迹训练,可生成刚体和弹性力学,并泛化至混合材料、未见真实几何及更多物体场景,在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
DanceOPD:面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架,将每个样本路由至单一能力场,查询低噪声学生诱导状态,以速度MSE作为训练目标,使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源(包括无分类器指导等operator定义的速率场),在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力,同时保持锚点生成质量不受损。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
Qwen-Image-Agent:弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。

智能体图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
OPID: 智能体强化学习的在线策略技能蒸馏

OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ViQ:任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架,通过两阶段学习(文本对齐预训练与特征离散化)在离散表示中平衡语义与细节,并支持原生分辨率输入。预训练借助语言模型增强语义监督,离散化阶段采用近端表示学习逐步压缩特征空间,结合位置感知多头量化实现任意分辨率处理。多模态任务上,ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力,同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速,适用于不同大语言模型和训练方案。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。

智能体具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
机器人控制的上下文世界建模

传统VLA模型因仅依赖当前观测和语言指令,难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling(ICWM)将系统辨识作为上下文适应问题:机器人通过短暂自生成、任务无关交互历史,自主推断系统变量,从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式,无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明,ICWM在新相机视角下显著优于标准VLA基线。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
世界模型中的幻觉可预测且可预防

现代生成式世界模型渲染逼真未来时产生幻觉,集中于状态-动作空间低覆盖区域。研究引入MMBench2(427小时、210任务)数据集,训练350M参数世界模型,识别出三种幻觉模式(感知、动作边缘化、场景发散),并开发相应预测信号。训练时采用覆盖感知采样;在线时预测信号作为好奇心奖励指导数据收集,仅需50条真实轨迹即可微调模型全新环境。结论:世界模型幻觉本质是数据覆盖问题,检测信号可用于缓解。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
JetSpec:基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。

arXivGitHub开源生态推理
08:00
HuggingFace Daily Papers(社区热门论文)
65
何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限

多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
GauntletBench:在陌生环境中重新评估AI智能体能力

GauntletBench是一个基于网络的基准测试,用于评估AI智能体在陌生场景中的泛化能力,聚焦时间感知、图形理解与3D推理三项未被充分探索的能力,覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用,每项包含20个视觉密集型任务(共100个)。测试结果显示,最先进智能体的成功率仅19.1%,而人类非专家可达80%以上,凸显当前智能体与复杂现实场景之间的显著差距。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
LISA:基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。

arXiv图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
EO-WM:物理信息驱动的概率地球观测预测世界模型

EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型,将天气作为条件信号,稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号(如持续高温与干旱胁迫),并引入极端夏季基准和季节性匹配对基准,分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明,EO-WM在NDVI下降幅度预测上相对误差降低5.63%,方向命中率相对提升7.80%,同时保持标准像素级指标竞争力。模型与基准将开源。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
InfoKV:信息感知的KV缓存压缩用于长推理

大语言模型推理能力提升导致KV缓存快速增长,现有压缩方法仅依赖注意力权重,忽略了预测不确定性等信息论信号。本文提出Forward Influence度量,从前瞻视角衡量压缩token对未来上下文的影响。分析发现,高注意力得分token主要影响邻近上下文,而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架,融合token级预测不确定性与层表示演化,在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中,InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。

推理数据/训练论文/研究
07:15
Ethan Mollick@emollick
52
很多人声称从未使用AI,但实际上在秘密使用。 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5464215
现象/趋势论文/研究
06:23
elvis@omarsar0
46
Eric Xing论文定义智能体"五维度"框架

Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。

智能体论文/研究
04:12
HuggingFace Daily Papers(社区热门论文)
54
InSight: 通过可控VLA实现自主技能获取

InSight是一个框架,通过让视觉-语言-动作(VLA)模型在原始动作层面(如“将夹爪移动到碗边”“向上抬起”)变得可控,实现自主技能获取。包含两个阶段:(1)自动化分割管道,利用VLM规划分解和末端执行器位姿将演示分割为带标签原始动作;(2)VLM引导的数据飞轮,识别缺失原始动作,自主尝试并标注存储成功演示。在模拟和真实操作任务(方块翻转、抽屉关闭、清扫、扭转、倾倒)上的评估表明,无需人类演示目标技能即可习得,且原始动作可组合执行新任务。

具身智能论文/研究
01:22
AK@_akhaliq
52
Qwen-AgentWorld 为通用智能体设计的语言世界模型
智能体论文/研究
01:05
Google Research:Blog(网页)
精选69
思考即回忆:推理如何解锁LLM中的参数化知识

Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。

Google推理论文/研究

推荐理由:发现一个反直觉现象,让模型推理能提升简单事实回忆,不是靠分步解题而是计算缓冲和事实预热,对理解模型知识召回机制很有启发,但中间步骤幻觉也带来风险。
6月24日
21:12
HuggingFace Daily Papers(社区热门论文)
51
AGORA:一个基于档案的智能体工作场所文档推理基准

大语言模型正越来越多地作为智能体在文档上进行推理,而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token,远超任何模型的上下文窗口,迫使智能体进行审慎探索而非穷举扫描。评估8个模型后,最强模型准确率仅为59.4%,且各领域表现差异显著。

智能体推理论文/研究
21:11
OpenBMB@OpenBMB
36
面壁智能 OpenBMB 联合清华等提出 Know More, Know Clearer 元认知框架,应对 LLM 认知错位幻觉

面壁智能 OpenBMB 联合清华NLP、哈工大、东北大学提出元认知框架 Know More, Know Clearer,应对 LLM 因认知错位导致的幻觉。框架包含三项:结构性衰减定律(准确率随不确定性指数衰减);Know More(CGKE)将知识空间分为掌握/混淆/缺失三区针对性增强;Know Clearer(CDKC)基于 GRPO 对齐置信度,使平均 ECE 从 60.41 降至 24.34。在 11 个 QA 基准上,CDKC 将 Llama-3.1-8B 从 30.91% 提升至 55.50%(+24.59 点),Qwen2.5-7B 从 25.76% 提升至 48.29%(+22.53 点)。自知识基准上 CBS 达 73.43%、CAE 达 68.18%,正确决策率 63.37%,边界识别 79.07%,达到最佳平衡。

推理论文/研究
20:48
Ant Ling@AntLingAGI
41
蚂蚁百灵发表UFP4论文,提出均匀网格FP4训练配方。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中,该配方相比强E2M1基线实现了更低的BF16相对损失退化。论文指出,配合细粒度缩放和RHT后,FP4训练的瓶颈从动态范围转向局部分辨率,E1M2/INT4格式能更好利用RHT改进的桶分配,而E2M1可能使RHT有害。论文地址:https://arxiv.org/abs/2606.20381

Qian: Should FP4 training still default to E2M1?🤔 With fine-grained scaling + RHT, the bottleneck may shift from dynamic rang...

arXiv数据/训练论文/研究
20:18
Ant Ling@AntLingAGI
53
我们最近发布了一篇论文,表明UFP4,我们的均匀网格FP4训练方案,在密集1.5B、MoE 7.9B和MoE 124B长程预训练中,比强E2M1基线更接近BF16。 关键洞察:FP4训练质量不仅与比特宽度有关,还与网格几何有关。
数据/训练论文/研究
18:30
Hacker News 热门(buzzing.cc 中文翻译)
80
Qwen-AgentWorld:通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列,是首批基于语言模型的“语言世界模型”,通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹,经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器,它支持可扩展的可控仿真以增强智能体强化学习;作为统一基础模型,世界模型训练可有效预热下游7个智能体基准的性能。

智能体arXiv数据/训练论文/研究
关联讨论 5 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)
15:37
MarkTechPost(RSS)
精选74
DFlash:块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。

推理论文/研究部署/工程

推荐理由:DFlash把扩散模型引入推测解码草案阶段,一次并行生成整块token,单流加速最高6倍,NVIDIA实测吞吐量提升15倍,推理成本下降幅度很大,部署大模型的团队可以立刻关注。
15:09
HuggingFace Daily Papers(社区热门论文)
55
FLAT: 前馈潜码三角形泼溅实现几何精确场景生成

FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元,首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题,引入射线中心旋转参数化回归三角形,并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。

arXiv图像生成论文/研究
11:55
HuggingFace Daily Papers(社区热门论文)
52
DREAM: 通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型(LLM)自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头,使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上,使用0.5B至3B参数的嵌入骨干,DREAM均持续优于现有基线。

arXiv检索增强数据/训练论文/研究
11:55
HuggingFace Daily Papers(社区热门论文)
54
FlowR2A:多模态驾驶规划的奖励到动作分布学习

FlowR2A通过flow-matching解码器学习奖励条件动作分布,将基于评分方法(密集奖励监督但固定动作词汇)与基于锚点方法(动态生成提案但稀疏监督)统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布,引入细粒度每时间步奖励条件和奖励噪声增强,以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果,多模态提案质量显著高于此前方法。

具身智能多模态论文/研究
‹ 上一页
1…56789…50
下一页 ›