全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「论文/研究」清除

6月13日周六

01:48Google Research：Blog（网页）44Google Research研究：AI如何帮助用户理解皮肤问题

00:41Jeff Dean48单真实神经元可完成网络级任务

6月12日周五

23:02Ethan Mollick72前沿LLM在医学评估中超越专业临床AI工具

20:18HuggingFace Daily Papers（社区热门论文）56IndustryBench-MIPU：面向工业产品的多图像属性提取基准

19:36IT之家（RSS）50我国成功研制出三维多层片上电容，可直接应用于 AI/GPU 芯片等

18:00HuggingFace Daily Papers（社区热门论文）60ArogyaSutra：面向印度语言多模态医疗推理的多智能体框架

17:00HuggingFace Daily Papers（社区热门论文）73精选HYDRA-X：原生统一多模态模型与整体视觉分词器

14:00HuggingFace Daily Papers（社区热门论文）77同事件精选MiniMax Sparse Attention（MSA）块状稀疏注意力同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

13:08Alibaba Cloud66阿里云NLAH：用自然语言替代代码

12:37Alibaba Cloud66NLAH：自然语言替代代码框架

12:00HuggingFace Daily Papers（社区热门论文）67EvoArena：面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

12:00HuggingFace Daily Papers（社区热门论文）69EvoBrowseComp：基于动态知识的搜索智能体评测基准

11:32AK62CHORUS：单一VLA策略实现多本体协作

11:00HuggingFace Daily Papers（社区热门论文）65MoVerse：基于全景高斯支架的实时视频世界模型

11:00HuggingFace Daily Papers（社区热门论文）58SpatialClaw：重新思考智能体空间推理的动作接口

11:00HuggingFace Daily Papers（社区热门论文）59Surflo：具有全局状态的一致3D曲面流模型

11:00HuggingFace Daily Papers（社区热门论文）55VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

11:00HuggingFace Daily Papers（社区热门论文）60LabVLA：面向科学实验室的视觉-语言-动作模型

11:00HuggingFace Daily Papers（社区热门论文）79同事件精选MaxProof：面向数学证明的群体级别测试时扩展框架（MiniMax-M3）同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

11:00HuggingFace Daily Papers（社区热门论文）63InterleaveThinker：强化智能体交错生成管线

11:00HuggingFace Daily Papers（社区热门论文）70精选EurekAgent：环境工程化实现自主科学发现

11:00HuggingFace Daily Papers（社区热门论文）75精选WEAVER：一种更优、更快、更长的机器人操作世界模型

11:00HuggingFace Daily Papers（社区热门论文）59SWITCH：可切换潜在推理框架

10:00HuggingFace Daily Papers（社区热门论文）68RepWAM：基于表征视觉-动作分词器的世界动作建模

10:00HuggingFace Daily Papers（社区热门论文）62HarnessBridge：面向LLM智能体调控的可学习双向控制器

08:00HuggingFace Daily Papers（社区热门论文）46FastMix：基于梯度下降的快速数据混合优化

08:00HuggingFace Daily Papers（社区热门论文）44ViT-Up：面向视觉Transformer的高保真特征上采样

08:00HuggingFace Daily Papers（社区热门论文）48Dr-DCI：检索器引导的动态工作空间扩展框架

08:00HuggingFace Daily Papers（社区热门论文）43Memento：通过主体重建实现长视频一致性生成

08:00HuggingFace Daily Papers（社区热门论文）51噪声感知下的选择性控制：模块化网络中聚合指标隐藏的治理失败

08:00HuggingFace Daily Papers（社区热门论文）49PhoneHarness：混合GUI、CLI与工具动作的手机智能体基准与执行框架

08:00HuggingFace Daily Papers（社区热门论文）54FastContext：用于编码智能体的高效仓库探索子智能体

08:00HuggingFace Daily Papers（社区热门论文）39Affordance20Q：面向物理属性的功能推理基准

08:00HuggingFace Daily Papers（社区热门论文）47LoSoNA：局部社交规范适应基准

08:00HuggingFace Daily Papers（社区热门论文）49Squeeze-Release：带精确结构最小化的迭代剪枝

08:00HuggingFace Daily Papers（社区热门论文）48AdaSR：自适应流式推理框架

08:00HuggingFace Daily Papers（社区热门论文）53RepFusion：利用多模态先验在表示空间中降噪

08:00HuggingFace Daily Papers（社区热门论文）35从聊天机器人到数字同事：持久自主AI的范式转变

08:00HuggingFace Daily Papers（社区热门论文）51ClinHallu：用于诊断医疗MLLM推理中阶段性幻觉的基准测试

08:00HuggingFace Daily Papers（社区热门论文）42HarnessX：一种可组合、自适应、可演化的智能体运行框架铸造厂

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月13日

01:48

Google Research：Blog（网页）

44

Google Research研究：AI如何帮助用户理解皮肤问题

Google Research 在《JAMA Dermatology》发表两项研究，探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示，AI 辅助显著提升了用户识别皮肤疾病名称的能力，并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集，旨在通过高质量信息支持皮肤健康决策。

Google 搜索论文/研究

00:41

Jeff Dean@JeffDean

48

据 Jeff Dean 转发，Ido Aizenbud 与合作者的新研究发现，单个皮层神经元能够对猫狗进行分类、识别口语单词并解决 10 位奇偶校验--这些任务此前被认为需要整个网络才能完成。

Ido Aizenbud: What can a neuron compute? Real biological neurons are complex, but how capable are they? Using a new method, we found t...

大佬观点推理论文/研究

6月12日

23:02

Ethan Mollick@emollick

72

一项发表在Nature Medicine的研究显示，通用前沿大语言模型（Google、OpenAI、Anthropic）在医学信息评估中全面优于专门的临床AI工具（OpenEvidence和UpToDate）。12名美国临床医生进行随机盲测，Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Eric Topol: For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...

Anthropic Google OpenAI 论文/研究

20:18

HuggingFace Daily Papers（社区热门论文）

56

IndustryBench-MIPU：面向工业产品的多图像属性提取基准

IndustryBench-MIPU是首个大规模多图像工业产品理解基准，聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注，通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示：单图像属性提取精度达86–94%，但产品级多图像召回最高仅49.9%；从单图像转向多图像提取时，召回率下降15–34个百分点。多图像完整性是核心瓶颈，而非单图像准确率。数据集与代码已公开。

arXiv 多模态论文/研究评测/基准

19:36

IT之家（RSS）

50

我国成功研制出三维多层片上电容，可直接应用于 AI/GPU 芯片等

湖北江城实验室成功研制三维多层片上电容，电容密度突破每平方毫米1000纳法，可直接应用于AI/GPU芯片、高性能处理器等高端芯片。目前正开展工艺流片及小批量试产，将在先进封装领域规模化应用。

18:00

HuggingFace Daily Papers（社区热门论文）

60

ArogyaSutra：面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情，研究团队构建了ArogyaBodha数据集，包含8个异构来源、31个身体系统、6种成像模态、21个临床领域，覆盖英语和7种主要印度语言。同时提出ArogyaSutra，一个基于Actor-Critic的多智能体框架，集成工具接地与双记忆机制，实现逐步推理感知决策，并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明，该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究

17:00

HuggingFace Daily Papers（社区热门论文）

精选73

HYDRA-X：原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建，并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中，源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行，提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv 多模态视频论文/研究

推荐理由：HYDRA-X 第一次把图像和视频标记塞进同一个 ViT，光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价，做多模态模型的该读读。

14:00

HuggingFace Daily Papers（社区热门论文）

同事件精选77

MiniMax Sparse Attention（MSA）块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA，基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块，Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上，MSA 与 GQA 性能持平，1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核，H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHub Hugging Face 开源/仓库推理

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍，而且直接开源了高效CUDA kernel和模型，做agent和代码仓库级推理的团队可以赶紧试试。

13:08

Alibaba Cloud@alibaba_cloud

66

🚀 驯服智能体混乱？论文揭示NLAH：用可执行自然语言替代僵硬的代码框架。 ✅ 性能媲美代码，模型token降低95%（60k→2.9k） ✅ 模块化设计实现精确的价值归因 ✅ 识别"负面资产"，如多候选搜索从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

智能体推理编码论文/研究

12:37

Alibaba Cloud@alibaba_cloud

66

🚀 驯服智能体混乱？论文揭示NLAH：用可执行自然语言替代刚性代码框架。 ✅ 性能与代码持平，token减少95%（60k→2.9k） ✅ 模块化设计实现精准价值归因 ✅ 识别"负资产"如多候选搜索从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

智能体 MCP/工具论文/研究

12:00

HuggingFace Daily Papers（社区热门论文）

67

EvoArena：面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

EvoArena是一个基准套件，将环境变化建模为终端、软件和社交领域的渐进更新序列，用于评估LLM智能体在动态环境中的表现。实验显示，当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式，通过结构化更新历史记录记忆演化，使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升，在GAIA和LoCoMo上分别提升6.1%和4.8%，并将EvoArena链级准确率提升3.7%。机制分析表明，EvoMem改善了记忆中的证据捕获，更完整地保留演化环境状态。

智能体论文/研究评测/基准

12:00

HuggingFace Daily Papers（社区热门论文）

69

EvoBrowseComp：基于动态知识的搜索智能体评测基准

EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准，问题通过实时网络遍历合成。其采用三智能体协作框架：QA 合成智能体从实时网页检索知识生成问答对；信息过滤智能体按可信度和流行度过滤以阻止参数捷径；高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新，防止污染并保持时效性。实验表明该基准难度极高，需广泛横向搜索能力，为可自动更新的高难度评测建立了可扩展范式。

智能体 arXiv 论文/研究评测/基准

11:32

AK@_akhaliq

62

CHORUS 去中心化多本体协作，基于单一VLA策略。

智能体具身智能论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

65

MoVerse：基于全景高斯支架的实时视频世界模型

MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离：先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图，再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold，最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生，实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。

图像生成视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

58

SpatialClaw：重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架，采用代码作为动作接口，维护预加载输入帧和感知几何原语的状态化 Python 内核，让 VLM 驱动的智能体逐步编写可执行代码单元，灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%，比近期空间智能体提升 11.2 个百分点，且在不做基准或模型适配的情况下，在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

59

Surflo：具有全局状态的一致3D曲面流模型

Surflo将可变数量的未定位RGB视图压缩成K个潜在token（全局状态），通过流匹配独立地将噪声点传输到曲面，解码出定向3D表面点。输出不受固定网格或token预算限制：同一潜在状态可在单次前向传播中生成数千到百万个点。推理时通过ODE积分注入光度梯度，关联邻近点以抑制局部不一致。在表面指标上匹配或超越前馈基线，比需数百视图的优化方法快一个数量级，是唯一结合全局潜在与任意分辨率解码的前馈方法。

图像生成论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

55

VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架，从单目视频的精确2D姿态训练3D人体运动先验，无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师，经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上，VideoMDM几乎缩小了与完全3D监督MDM的差距（FID 0.88 vs 0.54）；在真实视频数据集Fit3D和NBA上，生成的运动获得人类一致偏好。

多模态视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

60

LabVLA：面向科学实验室的视觉-语言-动作模型

科学实验室的机器人操作需要VLA模型，但现有模型多训练于家居场景，缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis，从原子技能组合生成结构化演示；并提出LabVLA模型，采用两阶段训练：先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力，再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上，LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。

具身智能数据/训练论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

同事件精选79

MaxProof：面向数学证明的群体级别测试时扩展框架（MiniMax-M3）

MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架，用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力，验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时，MaxProof 将模型用作生成器、验证器、精炼器和排序器，在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42，USAMO 2026 达 36/42，均超过人类金牌阈值。

推理论文/研究

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平，IMO 2025 35/42，USAMO 2026 36/42。这篇的意义不只分数，而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。

11:00

HuggingFace Daily Papers（社区热门论文）

63

InterleaveThinker：强化智能体交错生成管线

InterleaveThinker 提出多智能体管线，通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令，使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动，并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward，使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当；在 4-step FLUX.2-klein 推理基准上，WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理

11:00

HuggingFace Daily Papers（社区热门论文）

精选70

EurekAgent：环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统，专为度量驱动的自主科学发现设计。它从权限工程（可控执行与隔离评估）、产物工程（文件系统与 Git 协作）、预算工程（成本感知探索）和人在回路工程（简便监督干预）四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA，包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。

智能体 arXiv 开源生态论文/研究

推荐理由：EurekAgent 把科学发现的目光从设计智能体流程转向环境工程，用不到 11 美元就找到了新的圆打包纪录，这可能是低成本自主科研的转折点。

11:00

HuggingFace Daily Papers（社区热门论文）

精选75

WEAVER：一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构，通过流匹配损失训练预测未来潜变量和奖励值，满足保真度、一致性和效率三个要求。在机器人操作任务上，WEAVER在政策评估中与真实成功率的相关系数ρ=0.870，在π₀.₅基础模型基础上实现政策改进成功率提升38%，测试时规划成功率提升14%，且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。

arXiv 具身智能数据/训练论文/研究

推荐理由：世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标，真机实验把成功率拉高38%，代码模型全开源，搞具身智能的值得认真读。

11:00

HuggingFace Daily Papers（社区热门论文）

59

SWITCH：可切换潜在推理框架

SWITCH利用一对显式边界token（<swi>入口和</swi>出口）将隐藏状态递归块与标准同策略RL（GRPO）兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练，在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现：入口token是学习到的局部切换策略而非风格化伪影；打开的潜在步骤执行问题特定且因果重要的计算；该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。

arXiv 推理论文/研究

10:00

HuggingFace Daily Papers（社区热门论文）

68

RepWAM：基于表征视觉-动作分词器的世界动作建模

RepWAM是一种表征中心的世界动作模型（WAM），构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer，但像素重建对学习指令跟随动力学帮助有限。为此，研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token，预训练WAM联合建模未来视觉状态及连接它们的潜在动作，再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲，消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。

智能体 arXiv 具身智能论文/研究

10:00

HuggingFace Daily Papers（社区热门论文）

62

HarnessBridge：面向LLM智能体调控的可学习双向控制器

HarnessBridge是一个轻量级可学习调控控制器，将智能体-环境接口参数化为双向投影：观测投影将原始轨迹蒸馏为紧凑、决策相关状态，动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练，HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案，同时大幅减少token使用和轨迹长度，并从小型生成器泛化到更大商业模型。

智能体 MCP/工具推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

FastMix：基于梯度下降的快速数据混合优化

FASTMIX是一个自动化数据混合发现框架，只需训练单个代理模型，即可通过梯度下降联合优化混合系数和模型参数。该方法将混合选择重新表述为双层优化问题，将混合系数嵌入可微的迭代优化目标中，交替更新模型参数和混合比例。在预训练和后训练场景中，FASTMIX均优于基线方法，同时大幅降低搜索成本。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

ViT-Up：面向视觉Transformer的高保真特征上采样

ViT-Up提出隐式特征上采样框架，利用中间ViT隐藏状态构建逐层查询，替代外部图像引导，可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上，ViT-Up一致优于现有图像引导上采样方法：在DINOv3-S+骨干上，Cityscapes提升+2.07 mIoU，SPair-71k提升+4.17 PCK@0.10；在DINOv3-B骨干上，提升分别达+3.36 mIoU和+8.09 PCK@0.10，表明ViT-Up随骨干容量增长性能更优。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Dr-DCI：检索器引导的动态工作空间扩展框架

Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间，动态拉取相关文档到演化中的工作空间内执行直接语料交互（DCI）操作。在 Browsecomp-Plus 上达到 71.2% 准确率，优于原始 DCI 最多 8.3 个百分点，并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效，而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0，超越基于检索和搜索智能体的基线。消融分析表明，排序预览和文档间 DCI 是性能关键。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

Memento：通过主体重建实现长视频一致性生成

长视频生成中，主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题，联合训练自回归下一镜头生成与基于记忆的主体重建，利用历史记忆和全局描述恢复外观；双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

噪声感知下的选择性控制：模块化网络中聚合指标隐藏的治理失败

基于240个学习智能体的社区网络模拟显示，内容审核在噪声分类器下标准准确率几乎不变（p=0.96），但伤害集中在桥梁用户：有用帖子被错误抑制、危险帖子被错误放过。将两类错误与执法成本分开计算的治理损失L_gov在假阳性偏高噪声下翻倍。聚合准确率无法揭示受损对象，而用户度（连接数）近乎完美代理中介中心性（r=0.96），可作为低成本审计指标。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

PhoneHarness：混合GUI、CLI与工具动作的手机智能体基准与执行框架

PhoneHarness是一个面向手机智能体的混合动作基准与执行框架，支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流，而非仅输出合理答案。在标注评测集上，PhoneHarness达到75.0%通过率，超出最强非PhoneHarness设置12.9个百分点。结果表明，可靠的手机自动化依赖动作表面路由与可验证执行，而非单纯的视觉GUI控制。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

54

FastContext：用于编码智能体的高效仓库探索子智能体

FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体，由 4B–30B 参数的探索模型驱动，通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%，同时编码智能体 token 消耗减少最多 60%，且边际开销很低。结果表明，仓库探索可与解决任务分离，并由专用模型高效处理。

智能体 GitHub Microsoft 编码

08:00

HuggingFace Daily Papers（社区热门论文）

39

Affordance20Q：面向物理属性的功能推理基准

现有功能推理评测常暴露物体身份，使模型依赖记忆而非推理。新基准 Affordance20Q 采用 20 问游戏形式，隐藏物体身份，要求模型通过询问形状、材质等物理属性推断功能。数据集包含 1,009 个游戏，覆盖 454 个物体和 59 种功能。15 个大语言模型的测试显示，模型与人类表现差距约 20 个百分点。基于 KL 散度的信息增益分析表明，模型在游戏后期难以提出有区分度的问题。提出的 KARI 方法利用知识库生成功能规则，将开源 LLM 提升最高 15.2 个百分点。代码和数据已开源。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

LoSoNA：局部社交规范适应基准

LoSoNA 是一个评估大语言模型在多人群聊中推断并适应局部社交规范的基准。每个场景提供群聊记录，其中非目标参与者展示隐含规范，最后迫使目标模型回应以检测其是否推断出该规范。评估了八个前沿与开源模型，在四种提示条件下测试。朴素提示对多数模型效果有限；显式规范感知提示帮助不均，Gemini 3.1 Pro 达到 84.2%，Claude Fable 5 达到 81.6%，而其他模型提升较小甚至倒退。

08:00

HuggingFace Daily Papers（社区热门论文）

49

Squeeze-Release：带精确结构最小化的迭代剪枝

Squeeze-Release 提出精确结构改写（minimization），将带掩码网络转换为更小密集网络，前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化，中间释放步骤将压缩张量中原置零位置重置为小校准噪声，使容量重新可训练，后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm，将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39，ConvNeXt-Tiny 达 1/14.8，准确率相当，并可扩展至 Transformer 架构。

arXiv 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

48

AdaSR：自适应流式推理框架

AdaSR 是一个自适应流式推理框架，使大语言模型在输入持续到达时边接收边思考，并在流结束后进行最终推敲。它引入分层相对策略优化（HRPO），将策略优化分解为流式推理和深度推理两阶段，提供更细粒度的优势分配，取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励，确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明，相比监督微调基线，AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

RepFusion：利用多模态先验在表示空间中降噪

RepFusion复用多模态大语言模型（MLLM）作为噪声表示编码器，将其输出作为扩散Transformer的条件信号，用于文本到图像生成的去噪过程。在类似推理预算的对比中，RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明，MLLM为降噪视觉表示提供强先验，通过条件于演化的噪声表示，可以在现代T2I系统中有效利用测试时的重复MLLM计算。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

35

从聊天机器人到数字同事：持久自主AI的范式转变

大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开：认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM；工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹，评估从静态基准转向沙盒化、可审计、自我进化的生态系统。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

ClinHallu：用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型（MLLM）的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例，每个实例都带有结构化的推理追踪，分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预，可测量修正特定阶段对最终答案的影响。实验表明，追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台，并已公开提供。

arXiv GitHub 多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

42

HarnessX：一种可组合、自适应、可演化的智能体运行框架铸造厂

HarnessX 是一个智能体运行框架（harness）铸造厂，通过类型化原语和替代代数组装可组合的框架，并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化，将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上，HarnessX 平均提升 +14.5%，最高达 +44.0%，基线越低提升越明显。完整代码将在未来开源。

智能体 arXiv 论文/研究

1…15 161718 19…50