AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2710 条
全部一手资讯X论文
标签「论文/研究」清除
6月16日周二
08:00HuggingFace Daily Papers(社区热门论文)53CEO-Bench:智能体能玩长期游戏吗?
08:00HuggingFace Daily Papers(社区热门论文)48PAIWorld:面向机器人操作的三维一致世界基础模型
00:00Berkeley RDI:Blog(AI 安全与评测)68精选SageCTF:最强大CTF挑战AI智能体
6月15日周一
21:30公众号:百度智能云(文心)50上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA
08:00HuggingFace Daily Papers(社区热门论文)51后训练如何塑造生物推理模型
08:00HuggingFace Daily Papers(社区热门论文)37CoffeeBench:长期异构多智能体经济系统中的大语言模型智能体基准测试
08:00HuggingFace Daily Papers(社区热门论文)41RL-Index:面向检索索引推理的强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)51反思掩码(RM)激发掩码扩散模型的推理能力
08:00HuggingFace Daily Papers(社区热门论文)51MemSlides:面向个性化幻灯片生成的多轮局部修订分层记忆驱动智能体框架
08:00HuggingFace Daily Papers(社区热门论文)46ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习
08:00HuggingFace Daily Papers(社区热门论文)45无资源、无基准、没问题?评估与改进LLM在无资源语言上的代码生成
08:00HuggingFace Daily Papers(社区热门论文)44Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法
08:00HuggingFace Daily Papers(社区热门论文)36理解环境感知信息检索的行为:强化学习如何为不同检索器定制查询策略
08:00HuggingFace Daily Papers(社区热门论文)48视觉锚定推理(Thinking with Visual Grounding)
08:00HuggingFace Daily Papers(社区热门论文)53MyPCBench:面向个性化电脑使用智能体的基准测试
08:00HuggingFace Daily Papers(社区热门论文)55LOGOS:面向自然科学的通用科学生成语言模型
08:00HuggingFace Daily Papers(社区热门论文)53多智能体LLM系统中并发异常的验证检测与预防
08:00HuggingFace Daily Papers(社区热门论文)61RepSelect:通过表示选择性实现鲁棒的LLM遗忘
08:00HuggingFace Daily Papers(社区热门论文)47TV-Edit:文本-视觉联合指导的图像编辑框架
08:00HuggingFace Daily Papers(社区热门论文)43LectūraAgents:面向自适应个性化AI辅助学习与具身教学的多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)54基于梯度的 RLVR 稳定性分析与 WAPO
08:00HuggingFace Daily Papers(社区热门论文)48ProCUA-SFT 技术报告
08:00HuggingFace Daily Papers(社区热门论文)51ACE-EGO-0:统一自我中心人类与机器人数据的VLA预训练框架
6月14日周日
23:45HuggingFace Daily Papers(社区热门论文)42SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理
22:14The Decoder:AI News(RSS)45微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"
20:06HuggingFace Daily Papers(社区热门论文)49LaWAM:用于高效动力学感知机器人策略的潜在世界动作模型
08:00HuggingFace Daily Papers(社区热门论文)48AC-ODM:Actor-Critic在线数据混合实现高效LLM预训练
08:00HuggingFace Daily Papers(社区热门论文)51SpatialAvatar-0:多阶段重建的高质量4D头部头像
08:00HuggingFace Daily Papers(社区热门论文)45从示例中提炼任务指令:面向真实世界B2B对话的增强上下文学习
08:00HuggingFace Daily Papers(社区热门论文)42SSync:面向视频目标中心学习的选择性协同学习方法
08:00HuggingFace Daily Papers(社区热门论文)49Track2View:通过配对3D点轨迹实现4D一致的相机可控视频生成
08:00HuggingFace Daily Papers(社区热门论文)49无需强假设:通过时序差异进行视觉表征学习
08:00HuggingFace Daily Papers(社区热门论文)53谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性
08:00HuggingFace Daily Papers(社区热门论文)45Retrieve, Don't Retrain:测试时检索扩展VLA模型到新任务
6月13日周六
22:21Hacker News 热门(buzzing.cc 中文翻译)43Google Research 利用旧手机打造低碳计算平台
08:00HuggingFace Daily Papers(社区热门论文)37DragMesh-2:物理合理的铰接物体灵巧手交互
08:00HuggingFace Daily Papers(社区热门论文)37RL4IL:强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习
08:00HuggingFace Daily Papers(社区热门论文)44SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架
08:00HuggingFace Daily Papers(社区热门论文)54Visual-Seeker:一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体
08:00HuggingFace Daily Papers(社区热门论文)34RefGC-SR2:参考引导生成内容超分辨率与精炼
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
08:00
HuggingFace Daily Papers(社区热门论文)
53
CEO-Bench:智能体能玩长期游戏吗?

CEO-Bench通过模拟初创公司500天运营,评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策,并处理嘈杂数据库。最强模型(Claude Opus 4.8、GPT-5.5)虽能编写复杂代码预测现金流、挖掘客户偏好,但仅勉强使余额维持起始的100万美元以上,无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
PAIWorld:面向机器人操作的三维一致世界基础模型

PAIWorld 是一种基于扩散 Transformer 的世界基础模型,通过三大组件解决多视图三维不一致问题:几何感知跨视图注意力模块建立显式视图间通信,几何旋转位置编码将相机光线方向和外部位姿编码进注意力机制,潜在三维 REPA 从冻结的三维基础模型中蒸馏三维感知特征。它在机器人操作基准上达到最优多视图三维一致性,WorldArena 排行榜第一,AgiBot-Challenge2026 排行榜第二,并支持基于模型的规划、世界动作模型和多视图策略后训练等下游应用。

具身智能论文/研究
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选68
SageCTF:最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由:SageCTF 在 DEF CON CTF 排进前 5%,是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力,给做复杂推理工具的人提供了真参考。
6月15日
21:30
公众号:百度智能云(文心)
50
上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM,突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型,真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz,轻量版AHA-WAM-Flash达56.95Hz,提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
后训练如何塑造生物推理模型

研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型,控制backbone、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)的变化,测量域内(ID)与域外(OOD)性能。结果发现:CPT通过对齐生物语言提升下游性能;SFT持续提高ID但导致OOD先升后降;RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升,最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
CoffeeBench:长期异构多智能体经济系统中的大语言模型智能体基准测试

CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济,每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师,其余由固定参考智能体控制。测试多个开源和专有LLM,所有模型均优于不采取行动的被动基线,多数实现正净收入。表现更好的模型通信更频繁,而Claude Haiku 4.5出现空闲漂移失败模式,反复选择不作为。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
41
RL-Index:面向检索索引推理的强化学习方法

RL-Index 是一种智能体索引框架,将检索索引推理形式化为强化学习问题。它在索引阶段利用 LLM 生成的推理(rationales)增强文档,并采用 Group Relative Policy Optimization(GRPO)与检索相似度作为可验证奖励信号,直接优化索引决策以提升检索效果。在 BRIGHT 基准上,RL-Index 持续提升检索与下游问答性能,显著降低在线推理延迟,且所学的推理增强可跨不同检索器与生成器泛化,作为一种即插即用的索引策略。

检索增强推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
反思掩码(RM)激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
51
MemSlides:面向个性化幻灯片生成的多轮局部修订分层记忆驱动智能体框架

MemSlides提出分层记忆框架,将长期记忆与工作记忆分离。长期记忆再分为用户画像记忆(存储面向意图的配置,支持初始个性化)和工具记忆(存储可复用执行经验,支持可靠局部编辑);工作记忆在多轮修订中承载当前偏好与会话约束。框架采用范围限定的幻灯片局部修订机制,仅更新最小影响区域。实验表明:用户画像记忆提升多人物多意图场景的人物对齐效果,工具记忆改善闭环修改行为,工作记忆能有效传递偏好。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习

ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。

多模态推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
无资源、无基准、没问题?评估与改进LLM在无资源语言上的代码生成

针对LLM几乎未见训练数据的无资源编程语言,团队构建并发布了三个代码生成基准。实验发现,在目标语言上进一步预训练能最大提升性能,但直接用于指令微调模型会损害指令遵循能力。为此,从基础模型出发,先预训练再通过权重差异迁移从指令模型注入指令遵循能力,显著提升了无资源场景的代码生成表现,使公司能以低成本部署专用指令模型。

数据/训练编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
Taylor-Calibrate:混合线性注意力蒸馏的原则性初始化方法

混合线性注意力模型可加速长上下文推理,但将预训练Transformer转换为Gated DeltaNet学生模型时,直接复制教师注意力投影会导致初始化脆弱,需大量蒸馏token修复。Taylor-Calibrate是一种轻量级初始化方法,利用Taylor引导的教师注意力统计设定值投影、记忆时间尺度、写门和输出门,再通过短逐层对齐匹配教师输出。在四个教师设置和三种保留层策略下,Taylor-Calibrate显著提升零样本学生性能,代表性消融改进高达88倍,达到匹配恢复目标所需训练token比朴素转换少4.9至9.2倍。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
36
理解环境感知信息检索的行为:强化学习如何为不同检索器定制查询策略

基于检索增强生成(RAG)的方法在处理复杂查询时表现出色,但不同检索器需要截然不同的查询构建策略。该工作首次系统分析大语言模型(LLM)如何通过强化学习(RL)学习为不同检索器定制查询策略。实验表明,RL能有效指导LLM根据检索器特性调整查询风格,且不同检索器对描述型或疑问型查询的偏好显著不同。引入分支式rollout技术提升了多步检索轨迹下的训练稳定性。研究为构建真正检索器感知的RAG系统提供了实证证据和可操作洞见。代码与资源已公开。

检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
视觉锚定推理(Thinking with Visual Grounding)

提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
MyPCBench:面向个性化电脑使用智能体的基准测试

MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
LOGOS:面向自然科学的通用科学生成语言模型

LOGOS 是一个科学生成语言模型,将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列,无需依赖坐标或几何神经网络,即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上,LOGOS 匹配或超越领域专用基线,且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。

arXiv开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
多智能体LLM系统中并发异常的验证检测与预防

本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
RepSelect:通过表示选择性实现鲁棒的LLM遗忘

现有LLM遗忘方法易被微调或少量提示逆转,原因在于目标表示与保留集及攻击者可恢复子空间共享,破坏通用能力且易反制。RepSelect在前向更新前坍缩权重梯度主成分,隔离遗忘集独有表示。在Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四种模型上,针对生物危害知识和滥用倾向两类任务,与GradDiff等五个基线相比,RepSelect使重学习后答案准确率降幅比最强基线大4–50倍,对少量提示攻击近乎完全鲁棒。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
TV-Edit:文本-视觉联合指导的图像编辑框架

TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
LectūraAgents:面向自适应个性化AI辅助学习与具身教学的多智能体框架

LectūraAgents提出层级多智能体框架,模拟教授-学生关系实现端到端自适应具身教学。ProfessorAgent带领专业子智能体完成调研、规划、评审及具身授课,执行手写、高亮、下划线等可视教学动作。核心贡献包括:层级多智能体架构、自适应具身教学机制、基于显著度启发和时序语义分割的TASA算法。在高中、本科和研究生课程上使用样本特定评分标准评估,经专家教育者验证,在授课内容质量、具身教学质量、评估和个性化方面均优于现有方法。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
基于梯度的 RLVR 稳定性分析与 WAPO

带可验证奖励的强化学习(RLVR)可提升语言模型推理能力,但 GRPO 式优化易出现不稳定性。通过 token 级梯度动态分析,发现更新受优势符号与当前策略下 token 分布共同影响。为此提出胜者优势策略优化(WAPO),一种仅对正优势补全进行更新的在线剪切策略梯度目标。在数学推理与多跳问答基准上,WAPO 提升了训练稳定性,并在多个模型族上达到或超越基线表现。完整代码已开源。

GitHub推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
ProCUA-SFT 技术报告

ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
ACE-EGO-0:统一自我中心人类与机器人数据的VLA预训练框架

视觉-语言-动作(VLA)模型受限于机器人轨迹数据采集的高昂成本。ACE-EGO-0提出统一预训练框架,构建可扩展的第一人称视频到动作流水线,将原始人类视频转化为机器人格式伪动作轨迹。框架采用基于相机空间动作的统一表示、形态条件化和时间对齐动作分块,使伪标签与机器人演示可比。针对人类视频中的噪声伪动作,设计可靠性感知训练目标并引入人类辅助损失。模型在4.53K小时机器人/仿真数据和1.48K小时伪动作人类数据上训练,在RoboCasa GR1 TableTop和RoboTwin 2.0上达到最优,并展现对真实世界双臂操作的强迁移能力。

具身智能数据/训练论文/研究
6月14日
23:45
HuggingFace Daily Papers(社区热门论文)
42
SciOrch:训练轻量8B模型编排专家LLM解决前沿科学推理

SciOrch框架训练一个轻量8B模型,用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案,训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集(SGI-Reasoning与Scientists' First Exam)上,SciOrch达到56.66%平均准确率,超过最强单个商用模型3.74%,超过最强多智能体基线3.33%,同时API成本不到多智能体方法的一半。

智能体推理论文/研究
22:14
The Decoder:AI News(RSS)
45
微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中,而非基于像素的点云。这大幅降低了计算时间和图形显存消耗,同时能在长镜头移动中保持场景空间一致性。不过,该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft多模态视频论文/研究
20:06
HuggingFace Daily Papers(社区热门论文)
49
LaWAM:用于高效动力学感知机器人策略的潜在世界动作模型

LaWAM是一种潜在世界动作模型,通过在预训练视觉基础模型的特征空间中训练潜在动作模型,并利用其前向解码器预测未来观察特征,从而将预测动力学引入机器人策略,而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率,在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒,比像素空间WAMs降低24倍壁钟延迟。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
AC-ODM:Actor-Critic在线数据混合实现高效LLM预训练

AC-ODM从强化学习视角出发,通过参数化策略实现动态数据混合,理论证明该策略作为线性代理最大化梯度正干涉。支持代理模式(小模型策略迁移至大模型)和非代理模式(无先验端到端训练)。在Pythia-1B上,相比基线用少66%训练步骤达到最优验证困惑度,MMLU准确率相对提升27.5%,HumanEval pass@1提升2.23倍,每步耗时仅增0.4%、内存开销仅增2%。代码已开源。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
SpatialAvatar-0:多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示,结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度;精化阶段冻结 FLAME 绑定与高斯数量,以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中,PSNR 超越领域内领先模型 GAGAvatar 1.5 dB;在 SplattingAvatar 单目基准上,所有指标均领先,PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB,且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
从示例中提炼任务指令:面向真实世界B2B对话的增强上下文学习

Call Playbook数据集包含五个分类任务,源自真实世界B2B对话。提出的知识提取方法将冗长示例蒸馏为紧凑的结构化分类标准和任务描述,使token使用减少99%,宏平均AUC比传统上下文学习(ICL)提升最多7%。与先进的token压缩基线(在上下文增长时F1下降超过9点)不同,该方法保持稳健。框架还支持直接优化分类逻辑,满足透明性、效率和用户交互需求。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
SSync:面向视频目标中心学习的选择性协同学习方法

针对视频目标中心学习中密集对齐策略传播各模块弱点且计算代价二次增长的缺陷,提出 Selectice Synergistic Learning (SSync)。该方法避免穷举对齐,而是选择性蒸馏最可靠线索:编码器用于边界细化,解码器用于内部去噪。通过线性复杂度的伪标记实现,并引入传递式伪标记合并以消除重叠 slot 冗余。实验表明 SSync 显著提升分解质量,作为即插即用模块对 slot 配置具有强鲁棒性。代码已开源。

arXivGitHub开源/仓库数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
49
Track2View:通过配对3D点轨迹实现4D一致的相机可控视频生成

Track2View将视频扩散Transformer与配对的3D点轨迹条件结合,通过源视图和目标视图中场景点的稀疏轨迹提供显式、时序连续的时空对应。其双视角轨迹调节器利用无参数几何操作和时序聚合转移视觉上下文,能泛化到任意相机轨迹。在含400个视频(静态和动态场景)的基准测试中,Track2View在视觉质量、视图同步和相机精度上均达最优,旋转误差比领先基线降低30-65%,平移误差降低61-72%。

视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
无需强假设:通过时序差异进行视觉表征学习

TDV(Temporal Difference in Vision)是一种新的自监督视觉表征学习范式,放弃数据增强、掩码等强归纳偏置,依赖“过去导致未来”的因果假设。它联合训练图像编码器和运动编码器,使当前帧表示加上编码的运动等于下一帧表示。实验表明,归纳偏置的最优强度随数据量增长而下降。在无需强假设下,TDV在密集空间任务上匹配当前最优方法,为弱假设表征学习奠定基础。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性

针对7个前沿模型、57个MMLU科目的研究发现,模型在被给出针对正确答案的合理反驳后,翻转率介于17.5%至97.3%之间,标准准确率指标无法捕捉稳定性差异。自归因(告知模型这是其先前回答)一致提升翻转率,平均+7.1pp,最高+18.7pp。跨模型池化错误选项论证并选取每道题最有效的反驳,比单一源模型构成更强挑战。基于此构建的MaxFlip挑战集,相比标准自生成挑战进一步将翻转率提升至多+23.6pp。协议、挑战记录和MaxFlip已开源。

推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
45
Retrieve, Don't Retrain:测试时检索扩展VLA模型到新任务

提出检索增强的视觉-语言-动作(VLA)策略,训练一次后冻结,新任务通过在检索池中追加演示数据来适应,无需逐任务微调。在基于视频生成的世界动作模型(WAM)Cosmos Policy上效果尤其显著,检索提供粗粒度任务推进,未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线,并在真实机器人上完成验证。

arXiv具身智能数据/训练论文/研究
6月13日
22:21
Hacker News 热门(buzzing.cc 中文翻译)
43
Google Research 利用旧手机打造低碳计算平台

Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台,相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放,属于可持续硬件利用方向的探索。

Google论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
37
DragMesh-2:物理合理的铰接物体灵巧手交互

DragMesh-2提出接触驱动框架,将铰接物体交互从以物体为中心扩展为由手驱动的灵巧手交互,铰接运动必须通过物理接触产生。同时提出PICA——一种物理感知接触感知训练机制,无需触觉或力反馈即可注入物理信号,提升接触负载变化下的鲁棒性和任务成功率。在七个GAPartNet物体上的评估显示,DragMesh-2在多种阻尼条件下相比对比方法鲁棒性更强,同时保持高任务成功率。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
RL4IL:强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习

RL4IL是一种强化学习引导的模仿学习方法,通过近端策略优化对广度优先搜索候选集排序,并利用软交叉注意力融合头部聚合

arXiv具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

多模态大语言模型(MLLM)能描述图像间的属性差异用于类别预测,但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化(GRPO)奖励冻结MLLM对编码器token的正确预测,迫使编码器编码具体匹配或差异属性,替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失,推理时丢弃MLLM,部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中,SAGA将Recall@1提升3到6个百分点。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Visual-Seeker:一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体

Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。

智能体GitHub多模态搜索
08:00
HuggingFace Daily Papers(社区热门论文)
34
RefGC-SR2:参考引导生成内容超分辨率与精炼

当前参考引导生成管线将高分辨率参考图像(HRRI)降采样至固定低分辨率,丢失细粒度细节,且生成步骤引入身份扭曲等伪影。现有精炼方法仍在低分辨率域操作,超分辨率方法则忽略生成管线伪影分布。论文提出RefGC-SR²任务,在后期处理阶段复用原始HRRI,同时恢复丢失细节、精炼伪影并提升分辨率。构建首个真实世界三元组数据生成管线,训练双面板条件生成器合成配对低质量锚点。提出频率感知扩散Transformer模型,从参考图像选择性注入精细细节并去除伪影。实验优于RefGCR与RefSR基线。

图像生成论文/研究
‹ 上一页
1…1011121314…50
下一页 ›