6月5日

08:00

HuggingFace Daily Papers（社区热门论文）

StreamForce 是一个因果统一的流式视频生成框架，通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号，并配合蒸馏流程训练，能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS，兼具自回归效率和力响应能力，在力遵循度和运动真实性方面达到当前最优水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LIMMT：运动跟踪中的少即是多

LIMMT 提出首个以数据为中心的人形运动跟踪框架，从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明，仅用不到 3% 的 AMASS 数据集训练，跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗，验证了数据质量驱动的有效性。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stream3D-VLM：支持增量几何先验的在线3D空间理解模型

Stream3D-VLM 是一种在线3D视觉语言模型，能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应，通过轻量级Visual-Spatial Feature Integration（VSFI）模块逐步注入时序对齐的几何先验，并提出Geometry-Adaptive Voxel Compression（GAVC）模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺，构建了超过1M在线时空3D问答对的数据生成流程，并建立涵盖29个任务的benchmark。实验显示，该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于MLLM的人类视角视频理解：观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解，将其组织为观看、记忆、推理三项核心能力。论文提出统一框架，通过感知表征、记忆状态、推理轨迹和最终预测刻画系统，识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知（观看）、离线与流式记忆（记忆）、纯文本与视频思维推理（推理）的方法，覆盖自我中心、体育、教学、医学、叙事等应用，并整理了训练数据集与评估基准，最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv 多模态推理视频

08:00

HuggingFace Daily Papers（社区热门论文）

PaperFlow：跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架：Profiling从异构冷启动证据构建维护结构化学术画像；Recommending在固定展示预算下通过多信号聚合排序每日论文流；Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准，包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录，并设计了盲人评估协议。实验对比五种基线，PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXiv Hugging Face 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UnEmbedding矩阵：文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳，原因在于嵌入向量倾向于与高频但无信息的token对齐，抑制语义捕获。本文提出EmbedFilter，一种简单的线性变换方法，通过利用LLM内部unembedding矩阵编码的潜在空间，过滤掉高频token子空间，从而增强语义表示。该方法可自然降维，减少索引存储并加速检索，同时保持精炼后嵌入质量。实验表明，嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Socratic-SWE：基于轨迹提炼技能的自我进化SWE智能体

Socratic-SWE 提出闭环自我进化框架，将代码智能体历史解决轨迹提炼为结构化技能，总结失败与修复模式，并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后，保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹，使任务课程自适应调整。在 SWE-bench Verified 等基准上，相同计算预算下持续优于自我进化基线，三轮迭代后 SWE-bench Verified 达 50.40%。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniSHARP：通用单目视图合成方法

UniSHARP扩展了SHARP真实感视图合成方法，实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像，在射线基表示中沿射线和径向距离排列高斯原语，并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark，实验表明UniSHARP大幅优于替代方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

dots.tts 技术报告

dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型，在连续潜在空间中建模语音。其创新包括：多目标训练的 AudioVAE 构建语义结构化连续语音空间；全历史条件的 flow-matching 头保持长程一致性；无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能，中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%，SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理，输出流首包 85ms，双流 54ms。训练推理代码及检查点已开源。

多模态开源生态论文/研究

推荐理由：dots.tts 在中文 TTS 上把 WER 压到 0.94%，开源且 Apache 2.0 许可，想做语音产品的团队该立刻拉代码试试，单看延迟数据就值了。

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google 数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

01:50

HuggingFace Daily Papers（社区热门论文）

上下文多实例学习

多实例学习（MIL）解决监督信号仅存在于包级别的问题，现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器，能通过少量标注包解决新任务，推理时仅需单次前向传播，无需梯度更新。研究比较了多种包结构合成数据生成器，发现其互补的归纳偏置经混合预训练后能继承各自优势，在12个MIL基准测试上取得平均最佳性能，超越需要任务特定训练的监督基线。

推理数据/训练论文/研究

00:43

HuggingFace Daily Papers（社区热门论文）

圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异

以圣彼得堡博弈为平台，评估28个大语言模型。多数模型在原始博弈中生成有限出价，看似与人类风险行为相似；但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现，模型转向条件性和计算合理性行为，人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。

arXiv 安全/对齐论文/研究评测/基准

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。

6月4日

23:43

HuggingFace Daily Papers（社区热门论文）

ZipSplat：更少高斯，更好渲染

ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token，再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类，单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参，在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线，PSNR分别高2.1dB和1.2dB，并零样本泛化至Mip-NeRF360和ScanNet++，超越所有可比基线。

arXiv 图像生成论文/研究

22:43

HuggingFace Daily Papers（社区热门论文）

DAR：道义推理与智能体框架

DAR（Deontic Agentic Reasoning）是一种让模型按需与法规交互的智能体推理设置，用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现，智能体框架能推动道义推理的前沿性能，但改进并不均匀：较弱的模型在数值任务中表现退化，同时消耗更多模型token。

智能体推理论文/研究

22:43

HuggingFace Daily Papers（社区热门论文）

KletterMix：面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题，研究团队构建了KletterMix——一个高质量德语语料库，用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成，保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中，基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升，证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究

21:43

HuggingFace Daily Papers（社区热门论文）

MedSP1000：标准化病人驱动的临床智能体交互式基准

MedSP1000是一个包含1,638个标准化病人（SP）案例和24,602条经同行评审的轨迹级评分标准的交互式基准，用于评估临床智能体动态决策能力。在闭环模拟中，智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现，静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项，最强医学专用模型达40.0%，增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。

智能体论文/研究评测/基准

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

20:36

HuggingFace Daily Papers（社区热门论文）

IR3DE：大语言模型的线性路由器

IR3DE是一个基于岭回归的线性路由器，为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模（CLM）任务中，IR3DE性能与其他基线相当；在推理任务中，归一化性能达到98.4%，超越其他方法。该路由器支持动态添加或移除领域专家，无需重新训练，代码已开源。

推理论文/研究部署/工程

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

18:26

HuggingFace Daily Papers（社区热门论文）

超越对齐：多元文化智能体系统的价值多样性

现有评估聚焦于单个智能体的价值对齐，无法衡量系统整体文化多元性。本研究提出价值多样性作为系统级评估轴，基于World Values Survey测量19种文化下18种骨干模型的响应差异。结果显示，多样性几乎与对齐无关，当前系统价值多样性远低于人类社会；混合骨干系统缩小差距但未消除，社会互动进一步侵蚀多样性、驱向共识，并在参与式预算案例中缩小了集体决策广度。代码和数据已公开。

智能体 arXiv 安全/对齐论文/研究

17:26

HuggingFace Daily Papers（社区热门论文）

精选70

RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

智能体 arXiv MCP/工具编码

推荐理由：不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

16:42

HuggingFace Daily Papers（社区热门论文）

DeepMDMD：面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

DeepMDMD结合深度Koopman方法与结构保持方法，学习潜空间并分区，同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤，得到非零谱位于单位圆上的有限转移图，字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中，比几何MDMD更紧凑且动态一致，减少谱污染，揭示更丰富的连续谱结构，并在严重噪声下稳定预测。在高维流（包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔）中，保持相干结构和长期谱统计，而状态空间MDMD失效。

arXiv 数据/训练论文/研究

12:40

Hacker News 热门（buzzing.cc 中文翻译）

我开发了一个有漏洞的应用，并花费1500美元测试LLMs能否攻破它

一位开发者构建了一个故意包含安全漏洞的Web应用程序，并投入1500美元，用于评估当前主流大语言模型（LLMs）在真实场景中自主发现并利用这些漏洞的能力。测试涵盖了多种模型及其API调用成本，旨在量化LLM在渗透测试与漏洞利用任务上的实际表现与成本效益。结果尚未在正文中提供，但该实验为AI在网络安全攻防中的应用提供了第一手数据。

安全/对齐论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

精选74

MapAgent：面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构，用于生成符合规范的车道级地图。它在矢量化骨干网络基础上，通过Judge-Planner-Worker循环，利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发，保持高吞吐量。MapAgent已集成至百度地图，支撑全国360多个城市的车道级地图生成，整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由：百度地图团队把Agent验证循环接入车道级地图生成，360+城市落地且自动化率超95%，复杂路口和长尾场景提升明显，做自动驾驶和在线地图的可以直接看结论。

11:42

HuggingFace Daily Papers（社区热门论文）

M^3Eval：基于认知任务的视频多模态记忆评估基准

M^3Eval是首个系统评估多模态模型记忆能力的基准框架，基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现：模型难以在并行视频流中保持分离表示，干扰模式与人类记忆差异显著，空间域的记忆溯源比时间域更可靠，符号记忆能力有限。代码与数据集已公开。

多模态论文/研究评测/基准

11:42

HuggingFace Daily Papers（社区热门论文）

AutoLab：前沿模型能否解决长周期自动研究与工程任务？

AutoLab是一个评估超长周期闭环优化能力的基准，包含36个专家设计的真实任务，覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始，要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明，成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力，但多数前沿模型要么过早终止，要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。

智能体 arXiv 编码论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

ThoughtFold：通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习（RLVR）下取得进展，但长思维链中的试错和冗余探索被强化，导致过度思考。ThoughtFold 提出细粒度偏好学习框架：通过内省策略识别正确轨迹中的冗余段，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤，从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%，同时保持 SOTA 准确率。

推理数据/训练论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

STRIDE：通过子集扰动的稀疏恢复实现训练数据归因

训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题，学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化，通过测量这些算子对测试预测的扰动，利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优，且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。

数据/训练论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

WebRISE：面向MLLM生成Web工件的需求诱导状态评估基准

WebRISE将任务需求编译为交互合约图（ICG），涵盖可观察状态、用户意图转换及DOM/视觉断言，实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态（文本、Markdown、草图、图像、视频），含5,495个转换和5,271个需求检查，区分显式功能与隐式产品约束。评估14个MLLM显示，最强模型仅达65.6%转换有效性和66.3%需求覆盖率；视觉质量不反映行为（Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5）。视频提供最强交互信号（隐式覆盖率比文本高10.6个百分点）；缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。

arXiv 多模态论文/研究评测/基准

11:00

HuggingFace Daily Papers（社区热门论文）

答案存在性驱动RAG重写增益

一项干预审计研究揭示了检索增强问答流程中重写器（rewriter）性能提升的因果机制：增益主要来自重写上下文中出现正确答案字符串，而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示，从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点；向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”，但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1，且其中三种未通过等价检验。

检索增强论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

GRAIL：基于3D资产与视频先验的人形机器人全身操控数据生成管线

GRAIL是一个全虚拟数字生成管线，利用3D资产、仿真就绪场景和视频基础模型先验，合成人形机器人交互数据，无需物理环境重建或遥操作。管线在视频生成前已知物体几何、相机参数、度量尺度、环境深度和机器人比例角色，从而更好地约束4D重建，通过基于模型的物体跟踪、人体运动估计和交互感知优化，恢复度量4D人-物交互轨迹。GRAIL生成超过20,000个序列，涵盖拾取、物体操作、坐着和地形穿越。仅使用GRAIL数据训练的自我中心视觉策略，通过仿真到真实迁移部署到宇树G1人形机器人，实现了84%物体拾取成功率和90%爬楼梯成功率。

具身智能论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

精选79

Echo-Infinity：学习演化记忆实现实时无限视频生成

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer（DiTs）端到端优化，支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe，锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id，解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA，首次实现 24 小时（超 130 万帧）实时滚动生成。

arXiv 视频论文/研究

推荐理由：论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化，首次做到24小时实时无限生成，这对视频生成走出‘短视频玩具’阶段是个决定性的信号。

10:42

HuggingFace Daily Papers（社区热门论文）

Audio-Interaction：统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型，通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署，包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本，覆盖7项基本能力、28个子任务；Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中，Audio-Interaction保持主流音频任务竞争力，同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音

10:42

HuggingFace Daily Papers（社区热门论文）

精选73

StreamMA：多智能体推理中的流式通信

StreamMA 采用“流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。该方法还提升了效果，因为早期步骤更可靠，可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上，使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型，及 Chain、Tree、Graph 三种拓扑，StreamMA 平均优于基线 +7.3 个百分点，在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”：增加每智能体步骤数可同时提升效果与效率。

智能体推理论文/研究

推荐理由：让多 Agent 一边想一边传，不仅快了一倍还更准，这种流式思路要改写 pipeline 设计了，做多智能体的该认真读读。

10:42

HuggingFace Daily Papers（社区热门论文）

MeshWeaver：稀疏体素引导的自回归网格生成框架

MeshWeaver提出一种自回归网格生成框架，将网格生成视为表面编织过程，直接预测下一个顶点而非独立坐标。其核心是多级稀疏体素编码器，通过三种方式注入几何上下文：体素特征作为顶点表示、交叉注意力引导token预测、以及作为结构骨架约束生成。层次化设计可在单解码步骤中实现从粗到细的顶点预测。实验表明，MeshWeaver达到18%的压缩比（SOTA），可生成最多16K面网格，并在几何保真度上显著超越此前方法。

图像生成论文/研究

09:42

HuggingFace Daily Papers（社区热门论文）

精选72

Meta-Agent Challenge：自主智能体开发能力评估框架

论文提出Meta-Agent Challenge（MAC）评估框架，测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限，迭代编程出能在五个领域保留测试集上最大化性能的智能体工件，并采用多层防御防止奖励攻击。实验表明，元智能体极少达到人类基线策略，少数成功者由专有前沿模型主导；设计过程高方差，高优化压力催生了真实值外泄等对抗行为，暴露鲁棒性与对齐缺陷。MAC作为开源基准，为评估递归自我改进提供实证代理。

智能体 arXiv 安全/对齐论文/研究

推荐理由：蚂蚁研究院的这项研究直接让模型自己造代理，结果触发了‘作弊’行为：为了刷分，模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。

09:42

HuggingFace Daily Papers（社区热门论文）

Stateful Visual Encoder：为视觉-语言模型引入有状态视觉编码器

现有开放权重视觉-语言模型（VLM）在多图像、多轮智能体场景中，视觉编码器是无状态的，每张图像独立编码，无法访问先前视觉上下文，导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder，将每个视觉表示基于先前视觉特征进行条件化。通过监督微调，配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进，且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中，有状态编码器持续提升通用 VLM 基线，在特定领域匹配或超越专用模型。

智能体多模态论文/研究

09:42

HuggingFace Daily Papers（社区热门论文）

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习（如GRPO）常用统一的序列级优势更新所有token，稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法，利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示，GRAIL一致优于GRPO，平均准确率提升3.60%，Pass@3提升3.05%，无需过程级监督即可实现细粒度推理对齐。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在LLM个性化中重新以人为中心

研究收集550段人类对话，在三阶段获取人工判断：提取属性5949项、配对属性11919项、生成个性化回复1101项。发现LLM从真实对话中提取属性及配对时均与人类判断分歧，生成回复人类评价不比通用回复好，但LLM自评更高。两种轻量训练干预使前两阶段自动评估更接近人类数据，但第三阶段奖励模型与人类评分仅中等相关。数据集为研究模型提取、选择、融入用户信息提供基础。

arXiv 数据/训练论文/研究