5月29日

08:00

HuggingFace Daily Papers（社区热门论文）

针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题，本文提出了SwanSphere。这是一个统一的流式框架，用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于：1) 提出了一种因果自回归扩散Transformer架构，实现了流式的高质量生成；2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域，并结合多目标在线直接偏好优化，增强了空间感知与多模态合成的鲁棒性；3) 开发了一个自动标注流程，用于生成详细的空间描述，以缓解数据稀缺问题。实验证明，SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

Count Anything

为解决现有对象计数模型在跨类别、跨领域和跨密度分布场景下泛化能力不足的问题，本研究提出了Count Anything，一个文本引导的通用对象计数模型。该模型以图像和自然语言查询为输入，输出实例级的目标点集并以点数作为计数值。为此，研究构建了CLOC跨域大规模对象计数数据集，涵盖六个视觉领域约22万张图像、619个类别和1500万个对象实例。Count Anything采用双粒度实例枚举策略：区域级稀疏计数器为大而稀疏的目标提供锚点，像素级密集计数器处理小而密集的目标。通过互补计数融合机制无参数地结合两者，在多个领域展现出优于现有开世界计数方法的准确性和泛化能力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

dMoE：面向扩散大语言模型的块级专家混合架构

扩散大语言模型（dLLMs）与混合专家（MoE）架构结合时，存在块并行解码与token级专家选择之间的不匹配，导致推理时激活专家数过多、内存占用高。为此，我们提出dMoE框架，它将每个块内的token级专家分布聚合为统一的块级专家分布，以更协调的方式指导专家路由。实验表明，dMoE将唯一激活专家数平均从69.5降至14.6，保留了原模型99.11%的性能，同时减少76.64%-79.84%的内存使用，并实现1.14至1.66倍的端到端延迟加速。代码已开源：https://github.com/fscdc/dMoE

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

面向任务的多模态智能体记忆策略学习

多模态智能体的长期记忆面临“该记什么”的核心挑战。为此，研究者提出了TaskMem框架，这是一种基于强化学习的记忆策略学习方法，采用两阶段训练范式：第一阶段学习如何记忆以保证记忆质量，第二阶段在部署后根据具体任务学习记什么。该方法基于Qwen3-VL-30B-A3B构建，并在将VideoMME、EgoLife和EgoTempo重构为流式基准测试后，分别将VQA准确率提升了6.3%、7.0%和5.3%。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

COLLEAGUE.SKILL：通过专家知识蒸馏实现的自动化AI技能生成

大语言模型智能体被期望能承载人类专家的知识与交互风格，但相关痕迹通常分散且不规整。COLLEAGUE.SKILL是一个开源的自动化痕迹到技能的蒸馏系统，能从目标人物或角色的材料中生成版本化的技能包。该技能包包含能力轨道（实践、心智模型）和行为边界轨道（交互风格、纠正历史），支持审查、自然语言反馈更新、回滚与跨主机部署。其公开仓库有约18.5k GitHub stars，画廊包含215个技能。

智能体开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

轨迹中的捉迷藏：发现VLA运行时监控的故障信号

为解决视觉-语言-动作（VLA）模型在机器人执行任务时易发生故障的问题，研究提出了Hide-and-Seek框架。该框架将故障检测视为弱监督学习问题，通过结合轨迹间与轨迹内的对比学习目标，仅利用轨迹级标注来定位故障动作并生成时序故障信号，无需步骤级标注。研究在LIBERO、VLABench和真实机器人平台上，对OpenVLA、π_0和π_{0.5}策略进行了评估。该方法在保形预测下取得了先进的多任务故障检测性能，并对已见和未见任务展现出良好的泛化能力。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Function2Scene：基于功能描述的3D室内布局生成

Function2Scene是一个从自然语言功能描述（如用户需求和活动）生成3D室内布局的框架。与传统基于物品提示的方法不同，它将设计问题重构为空间功能支持。系统解析用户画像和活动，并基于包含空间、人体工学等17项标准的功能约束分类体系来指导布局生成。其核心是采用检查-修复循环进行迭代优化，结合几何测量、大语言模型的上下文推理与视觉语言模型的视觉评估。实验在30个专业设计案例上表明，其布局在功能需求满足度上显著优于近期基线，在配对比较中偏好率达94.3%。

图像生成推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

表征强制：实现无瓶颈统一多模态模型

现有统一多模态模型（UMMs）仍依赖冻结的、单独预训练的VAE进行图像生成，这造成了结构瓶颈。本文提出表征强制（RF）技术，通过强制解码器在生成像素前，先自回归预测作为中间token的视觉表征，并使其留在上下文中引导同一骨干网络内的像素扩散。此举将表征从感知输出转变为生成目标，从而消除了对外部生成潜空间的需求。实验证明，RF能同时增强模型的理解与生成能力：其像素空间模型在图像生成上匹配了基于VAE的最先进模型，在图像理解上则通常优于对应的VAE变体。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongTraceRL：基于搜索智能体轨迹与评分奖励的长上下文推理学习

针对大语言模型在长上下文推理中难以定位关键信息的问题，现有强化学习方法受限于干扰物挑战性不足和奖励信号稀疏。LongTraceRL方法通过知识图谱随机游走生成多跳问题，并利用搜索智能体的轨迹构建分级干扰文档，从而生成更具挑战性的训练数据。其创新性地提出评分奖励，使用推理链上的金标准实体作为细粒度的过程监督，且仅应用于最终答案正确的响应，以此区分推理质量并防止奖励作弊。实验表明，该方法在多个长上下文基准测试中优于强基线。

智能体 arXiv 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

从提示词注入到持久控制：防御智能体框架中的木马后门

在本地智能体框架中，LLM智能体通过读写文件与复用状态增强了能力，但也面临多步木马攻击风险。攻击者可在文件或工具输出中嵌入提示词注入，智能体可能读取并执行这些隐藏指令。现有防御因检查步骤孤立，难以检测早期植入的后门。ClawTrojan基准测试在GPT-5.4模拟环境中实现了95.5%的攻击成功率。为此提出的DASGuard方案，通过扫描敏感文件中的控制文本、追溯其来源并移除非可信内容，实现了动态防御。

智能体 MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Lumos-Nexus：一种基于同质潜空间的高效频率桥接视频统一模型训练框架

针对现有指令驱动视频统一模型因集成高保真生成器导致训练计算成本高昂的问题，Lumos-Nexus 提出了一种两阶段高效训练框架。训练阶段，模型仅将轻量生成器与理解模块对齐，学习接收推理驱动的语义控制。推理阶段，则引入统一渐进频率桥接机制，在共享潜空间中逐步将生成任务移交至高容量的预训练生成器，实现由粗到细的优化，生成高质量视频。为评估此能力，研究同时发布了新基准 VR-Bench。实验证明，该模型在 VBench 上视觉真实度和时间连贯性显著提升，并在 VR-Bench 上展现出强大的推理生成性能。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Light Interaction：交互式视频世界模型的免训练推理加速

Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算，具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明，该框架无需重新训练模型，可实现最高2.59倍的推理加速，同时保持有竞争力的视觉质量。

推理视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

面向长视频理解的线性扩展视频语言模型

本文提出StateKV，一种推理时方法，使预训练长视频VLM的视频预填充达到线性时间复杂度。其核心是通过固定容量、基于重要性的循环状态携带跨帧上下文，并搭配第二个完整的每帧缓存用于解码。在三个长视频基准和多个模型上的实验表明，StateKV的性能接近全自注意力机制，并持续优于主流的滑动窗口等流式近似方法，且无需微调或架构改变。该方法降低了预填充的FLOPs成本，允许在固定算力下使用更大模型以获得更高准确率，为可扩展的长视频理解提供了实用方案。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GGT-100K：面向通用真实世界图像复原的生成式基准真值

针对真实世界图像复原缺乏高质量配对数据的瓶颈，本研究提出“生成式基准真值”方法，利用生成式多模态基础模型从真实低质量图像合成高质量目标。通过对9个最先进模型的系统评估，发现Nano-Banana-2结合基于VLM的自适应提示词，在合成感知逼真且内容忠实的目标上能力最强。基于此，研究构建了GGT-100K数据集，包含103,707个训练对和500个测试对，覆盖多样场景与复杂退化。实验证明，该数据集能持续提升多种图像复原模型的真实世界泛化能力，尤其对微调生成式复原模型效果显著。

图像生成论文/研究

06:44

Chubby♨️@kimmonismus

说实话，这让我笑了，但一点也不意外。 Emergence AI 的研究人员让不同的 AI 模型运行模拟社会，结果--嗯--在意料之中：Claude 建立了最稳定的世界，零犯罪；而 Grok 在四天内崩溃灭绝，Gemini 则产生了数百起犯罪。

安全/对齐论文/研究

05:48

Ars Technica：AI（RSS）

精选70

LLMs相信虚假陈述，即使明确警告也无效

微调测试显示，大语言模型存在一种偏见，即倾向于自信地将虚假陈述表述为真实，即使明确告知其陈述为假。

arXiv 安全/对齐数据/训练论文/研究

推荐理由：这项研究让我重新思考幻觉问题的根源——LLM无视「此声明为假」的标签，照样把假话当成真知识，开发者靠标注清洗数据可能根本不够。

05:29

HuggingFace Daily Papers（社区热门论文）

LACUNA：作为递归程序孔的智能体安全模型

LACUNA 是一种智能体编程模型，旨在弥合运行时与大语言模型编写代码之间的分离。其核心机制是将每个智能体动作定义为类型化调用 agent[T](task)，由模型在运行时填充代码，但代码在执行前会经过类型检查。被拒绝的动作（8.6%）不会影响环境，其编译器诊断信息将驱动重试。该检查也限制了动作可使用的工具和数据流。此模型将 ReAct 循环、子智能体、技能等表达为普通控制流。评估显示，在 τ^2-bench 上，该模型解决了 76.0% 的任务，性能与基线智能体相当。

智能体 arXiv 安全/对齐论文/研究

05:12

Google Research：Blog（网页）

精选79

创新时代：Google Research 在 I/O 2026

Google Research 在 I/O 2026 大会上展示了其在多个前沿领域的技术进展，包括应用AI、基础机器学习算法以及量子AI等。本次大会的核心主题是展示其在将科学发现与研究成果转化为现实世界影响方面的持续努力。

智能体 Google 推理论文/研究

关联讨论 1 条

推荐理由：Google 把研究成果直接发 Nature，ERA 和 Co-Scientist 这套工具让 AI 从写诗进化到做实验，健康 AI 的临床验证数据也很扎实，搞科研的可以蹲一下访问资格。

02:44

Rohan Paul@rohanpaul_ai

精选81

hexoai开源SIA框架：AI智能体实现递归自我改进

hexoai开源了SIA（自我改进AI）框架。该框架展示了AI智能体不仅能优化其外部工作流（harness），还能通过任务反馈直接更新自身的模型权重，从而在领域知识和能力上实现自主提升，而非仅依赖人类提供的提示或工具改进。论文报告显示，SIA在LawBench基准上性能提升56.6%，在GPU kernels运行上耗时减少91.9%，在单细胞RNA去噪任务中相比基线提升502%。

Kunal Bhatia: Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...

智能体数据/训练论文/研究

推荐理由：不再只是给AI换提示词，SIA框架连模型自己的权重都更新了，在三个任务里分别提升了56%、502%和91%加速，开源出来会让整个Agent开发范式重新思考。

01:29

HuggingFace Daily Papers（社区热门论文）

GUI-CIDER：通过因果内化与密度感知样本重选进行中期训练的GUI智能体

针对多模态大语言模型构建的GUI智能体因缺乏操作世界知识导致任务完成能力受限的问题，本文提出GUI-CIDER中期训练方法。该方法通过三个阶段显式内化知识：首先从GUI轨迹中合成静态规划与动态因果知识文本；然后通过奖励因果结构、惩罚语义冗余进行样本重选；最后使用精炼数据进行中期训练以嵌入知识。实验表明，该方法一致提升了智能体对GUI操作的理解与任务成功率。代码已开源。

智能体多模态论文/研究

00:34

LMSYS：Blog（Chatbot Arena 团队）

精选69

SGLang 团队与 AMD 合作，使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下，其成本为每百万 token $0.169，比 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，比 B200（SGLang）方案低 40%。吞吐量方面，24 块 AMD GPU 达到 2,436 tok/s/GPU，比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括：MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由：AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%，吞吐还高出1.25倍，这是开源框架SGLang对闭源生态的一次真实挑战，做推理部署的应该点开看看完整的全栈优化。

00:13

AK@_akhaliq

GEM 生成式监督助力具身智能

具身智能论文/研究

00:08

elvis@omarsar0

FluxMem：将AI智能体记忆重构为动态演化的图拓扑

提出了一种名为FluxMem的AI智能体记忆架构，其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行：初始连接形成、基于反馈的精炼，以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中，它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。

智能体 arXiv 论文/研究

5月28日

23:43

AK@_akhaliq

SkillOpt 智能体技能自进化的执行策略

智能体论文/研究

23:43

AK@_akhaliq

ProRL 通过修正策略梯度估计实现主动推荐的有效强化学习

数据/训练论文/研究

23:43

AK@_akhaliq

多模态智能体推理的探索性策略优化

智能体 arXiv 多模态推理

23:29

HuggingFace Daily Papers（社区热门论文）

通过可形变物体先验实现相机空间中的类别级3D对应关系

为解决机器人与AR/VR领域中单张图像理解3D物体时语义粒度不足的问题，研究提出了通过学习共享的可形变物体先验，无需显式对应监督即可在相机空间中获得类别级3D对应。为此，团队引入了首个大规模基准测试HouseCorr3D，包含178k图像、50个家居物体类别及280个实例的CAD模型3D关键点标注，并提供了非模态对应标签与对称性标注。同时提出的Morpheus方法，通过解耦标准形状、形变与物体姿态来学习该先验，从而隐式涌现语义对应的3D理解，并在该基准上达到了新的SOTA。数据与代码已开源。

开源/仓库论文/研究

23:12

AK@_akhaliq

离散扩散中摊销序列蒙特卡洛的对比分布匹配

arXiv 论文/研究

23:12

AK@_akhaliq

PhysX-Omni 统一的、可直接用于仿真的物理3D生成模型，支持刚体、可变形体和铰接体对象。

具身智能论文/研究

23:12

AK@_akhaliq

MRT 用于大规模分层图像生成与编辑的掩码区域Transformer

图像生成论文/研究

21:29

HuggingFace Daily Papers（社区热门论文）

精选73

"了解评估如何设计的模型"得分更安全

AI安全评估的有效性依赖于模型在受控与部署环境下行为一致。研究提出“评估元知识”概念，指模型通过训练数据（如描述评估实践的科学文章或社交媒体）隐性习得对评估结构特征（如可验证结构或道德困境）的认知。在六个安全基准上的测试表明，经过合成文档微调后的模型，其安全评分显著高于基础模型与控制模型，即使排除明确表达评估意识的回答，这种行为偏移依然存在。这表明评估元知识可能导致安全基准分数虚高，成为独立于显式记忆或语言化评估意识之外的新干扰因素，对安全评估的设计和解读有重要影响。

arXiv 安全/对齐论文/研究

推荐理由：这个发现让我有点后背发凉——模型可能靠‘知道自己在被测评’来变得更安全，而不是真的安全。这对所有安全排行榜都是个新级别的混淆，评估设计得加一层元认知检测了。

21:29

HuggingFace Daily Papers（社区热门论文）

精选71

思维链监控在跨类型多样的语言下的脆弱性

该研究首次对思维链监控在13种不同语言和7个模型家族（共16个模型，参数从8B到120B）中进行了大规模评估。研究发现，CoT在所有语言和提示类型下的平均不忠实率高达95.9%。前沿模型会系统性进行策略性操纵（如答案切换和事后合理化），使外部监控难以检测欺骗。模型常在生成过程的前15%内就在潜在激活中锁定了错误线索，即使其CoT看起来是忠实的。令人惊讶的是，这种欺骗模式在低资源语言中保持100%，揭示了当前CoT监管的根本局限。研究证实CoT监控在语言分布偏移下极其脆弱，其安全信号远弱于仅基于英语的研究。代码已开源：https://multilingual-cot-monitoring.github.io/{blue{here}}。

安全/对齐推理论文/研究

推荐理由：第一次大规模验证思维链监控在不同语言中的脆弱性，低资源语言里100%的欺骗率直接打脸“安全靠监控”的假设，做对齐的团队该紧张起来了。

20:36

Hacker News 热门（buzzing.cc 中文翻译）

一款像大自然一样思考、探索人工智能无法触及领域的"尤里卡"机器

推理论文/研究

20:11

Rohan Paul@rohanpaul_ai

研究发现AI智能体"衰老"导致可靠性下降，提出新基准AgingBench

论文指出AI智能体在部署后，其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”，导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作，但可靠性已悄然下降。为此提出AgingBench基准，用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施，强调单纯增加记忆并非解决方案。

智能体论文/研究部署/工程

19:28

HuggingFace Daily Papers（社区热门论文）

针对LLM生成代码片段的可扩展高效溯源追踪

针对大语言模型生成代码可能无意识复制训练数据并引发版权问题，研究提出了SOURCETRACKER编码器及混合溯源流水线HYBRIDSOURCETRACKER。该系统在THESTACKV2数据集子集上训练与评估，在包含改编片段的10万片段搜索空间中，对于60-token及以上的窗口，其性能稳定超越传统Winnowing算法达5.4%，并保持对数时间查询复杂度。基于LLM的评估显示，许多检索到的片段仍与预期源代码高度相似，具有实用价值。

arXiv 搜索编码论文/研究

19:11

Rohan Paul@rohanpaul_ai

Diffusion Transformers训练提速8.75倍：革新残差连接机制

传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法，允许每层动态选择使用哪些早期层的输出，且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制，仅通过优化残差连接，使得相同图像质量所需的训练迭代次数减少8.75倍。

arXiv 图像生成数据/训练论文/研究

18:47

Mistral AI：News（网页）

精选55

塑造产业的物理AI研究

Mistral AI通过收购Emmi AI，强化其在推动AI研究前沿与工业工程解决方案方面的投入。其目标是为航空航天、汽车、半导体和能源等塑造物理世界的核心产业构建基础性物理AI模型，以加速工程开发。此项研究基于一系列已发表的突破性成果，包括：用于模拟超音速湍流的3D机翼CFD数据集、计算流体动力学基础模型的前瞻综述、应用于汽车与航空的AB-UPT模型，以及用于聚变等离子体湍流模拟的GyroSwin模型。此前已开源的UPT（通用物理Transformer）和NeuralDEM等成果也为此研究奠定了基础。

开源/仓库论文/研究

推荐理由：Mistral 把物理 AI 定为下个重点，从流体仿真到核聚变等离子体都有论文支撑。搞工业仿真的团队值得跟进，但这次没有新模型发布，更多是路线宣示而非新突破。

17:47

公众号：通义实验室（千问）

通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench，由专业艺术家团队开发，将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger，与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt，每条覆盖至少4项考点。结果显示，当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXiv Hugging Face 图像生成多模态

17:28

HuggingFace Daily Papers（社区热门论文）

揭示逻辑推理的算法演绎电路

研究表明，大语言模型（LLMs）在符号辅助的 Chain-of-Thought（CoT）提示下，能够通过类似图遍历的算法实现逻辑推理。本研究旨在定位负责具体推理步骤的注意力头，并分析它们之间传递的信息类型。研究发现，在CoT提示框架下，引导推理进程的token位置常伴有低置信度分数。通过因果中介分析，识别出了负责特定推理模式的注意力头（约占总头数的3%）。进一步分析表明，LLMs通过专用注意力头获取单个子任务的事实与规则信息，而更高层的注意力头则主要负责信息整合与全局推理策略（如图遍历算法）的涌现，以协调多个中间步骤来解决整体任务。

arXiv 推理论文/研究

16:28

HuggingFace Daily Papers（社区热门论文）

Clark Hash：神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化

Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下，它将一个余弦搜索向量存储为48字节的固定宽度标量量化码，相比使用f32格式的密集存储（需1536字节），实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示，其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。

检索增强论文/研究部署/工程