5月25日

08:00

HuggingFace Daily Papers（社区热门论文）

现有基于大语言模型的记忆系统采用通用、静态策略，忽略了不同用户值得存储在记忆中的内容存在差异。为解决这一问题，研究引入 PerMemBench，首个用于评估个性化记忆系统的基准测试，并提出 session level storage gating 轻量级框架，通过选择性地为临时会话跳过记忆操作以实现记忆个性化。研究确认个性化在完美门控条件下能带来显著的记忆保留增益，但准确的门控仍是开放性挑战。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向鲁棒多视角3D重建的几何感知表征去噪

提出几何感知表征去噪（GARD）框架，用于解决真实退化条件下多视角3D重建的鲁棒性问题。该框架在前馈3D重建模型的特征空间中执行基于扩散的多视角修复，利用其几何感知表征恢复精确场景几何结构。同时，通过额外的RGB图像解码器，可同步恢复高质量RGB图像。在Depth Anything 3 (DA3)基准测试上的全面实验证明了该框架的有效性。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

看得越多，就懂得越多吗？单锚点优势归一化实现多源视觉推理

现有基于可验证奖励的强化学习（RLVR）视觉推理方法在处理多源输入时，常将其视为简单信息堆叠，缺乏机制区分融合带来的信息增益与噪声干扰，导致多源性能可能低于单源。为此，本文提出MARS框架，将每种视觉模态建模为独立信息源，并以单源奖励为动态锚点，将多源融合引入的信息增益显式纳入优势归一化过程，以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明，该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从多模态大语言模型中挖掘主体驱动生成能力

现有主体驱动生成方法因分别编码文本与参考图像，存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型（MLLMs）之上，并引入基于VAE的身份条件。通过设计双层聚合（DLA）模块汇聚多层次的MLLM特征，以及采用多阶段去噪策略，在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明，该方法能协调多模态理解与身份保留，缓解复制粘贴问题，并在人类偏好评估中取得优越性能。

图像生成多模态论文/研究

03:57

Hacker News 热门（buzzing.cc 中文翻译）

约束衰减：大型语言模型代理在后端代码生成中的脆弱性

论文研究了大型语言模型代理在后端代码生成任务中存在的脆弱性，特别是“约束衰减”现象。该研究揭示了这类智能体在处理复杂后端开发时，其生成代码的质量或遵循指定约束的能力会随任务难度或上下文变化而出现下降。

智能体 arXiv 编码论文/研究

5月24日

21:57

The Decoder：AI News（RSS）

字节跳动研究发现：向多模态大模型提问比转录文本更利于长文档训练

字节跳动 Seed 团队的研究表明，一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时，比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍，该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式，优于传统上对页面内容进行转录的训练方法。

多模态数据/训练论文/研究

17:06

MarkTechPost（RSS）

微软研究院推出Webwright终端原生浏览器代理框架

微软研究院近日发布了Webwright，这是一个终端原生的浏览器代理框架。它通过可复用的Playwright脚本取代传统点击追踪的网页自动化方式，基于包含三个模块的单一代理循环构建，代码量约1000行。由GPT-5.4驱动的Webwright在长周期Odysseys基准测试中取得60.1%的得分，较基线模型的33.5%提升近一倍；同时在Online-Mind2Web基准测试中达到86.7%，成为当前开源工具中自动评估得分最高的方案。

智能体 Microsoft 开源/仓库论文/研究

16:27

The Decoder：AI News（RSS）

研究人员让Claude Code发现人类可能不会设计的AI缩放算法

马里兰大学、谷歌、Meta等机构的研究人员利用AutoTTS框架，使Claude Code编码智能体自主发现了用于AI推理的控制算法。该算法将计算成本降低了约70%，同时保持了与标准自一致性方法相当的准确率。整个算法搜索过程耗时160分钟，成本仅为40美元。这项工作展示了AI智能体自主设计高效算法的可能性。

智能体推理论文/研究

12:00

公众号：腾讯混元

清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠，NPU推理提速4.1倍

在MLSys 2026 MoE模型推理优化竞赛中，清华联合腾讯混元获得冠军。针对MoE架构在异构芯片（NPU）上面临的推理性能挑战，其提出的优化方案在NPU上实现4.1倍推理速度提升。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

WorldCraft：从相机导航到物体操作的交互式视频世界模型

WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后，模型生成未来帧，使选定物体沿轨迹运动同时相机继续导航。其核心包括：Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影；Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力；Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制，保持相机保真度，并维持跨长自回归滚动的物体状态。

arXiv 具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NITP：用于大语言模型预训练的下一隐式Token预测方法

标准的下一Token预测（NTP）仅使用输出logit空间的离散标签进行监督，这导致潜在表示空间约束不足。为解决此问题，本文提出了NITP方法，它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容，并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明，NITP能正则化优化过程，促进紧凑且结构化的表示几何。实验表明，在从0.5B到9B参数的密集与MoE模型上，NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上，NITP在MMLU-Pro上实现了5.7%的绝对提升，在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升，仅增加约2%的训练FLOPs且无额外推理成本。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CONF-KV：基于置信度的 KV 缓存驱逐与混合精度存储方案

CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数，以此动态分配每一步的缓存预算：在模型不确定时保留更多上下文，自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序，并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明，在生成长度达 4K 时，其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中，CONF-KV 达到 91.4% 的准确率，远高于滑动窗口（53.8%）和 H2O（80.6%）。在 75 个 VisualWebArena 任务中，它以 2.8 倍更低的峰值内存，保留了完整 KV 缓存 95.3% 的成功率。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead，一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型，无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块，通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖，以直接在3D表示中强制多视角一致性。同时，设计了一个SE(3)多视角评判器，在未观测真实多视角对的情况下，奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量，超越先前方法的纹理和几何一致性。此外，文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K，用于训练与评估。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

神经网络在宽度、深度与时间中的生长

该研究在循环卷积神经网络中，将宽度、深度和时间定义为可微分成本项，并与任务误差一同通过反向传播进行联合优化。通过施加不同压力，多样化的计算图在训练中自然涌现。研究发现，这三种资源可以相互权衡以达到特定准确率。网络规模随任务复杂度在三个维度上增长，并在输入被遮挡时自发增加循环步数。模型使用的时间与人类在物体识别任务中的反应时间存在相关性。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

现有指代分割模型通常假设用户查询精确无歧义，但在实际应用中这一假设难以成立。为此，本文提出IC-Seg，一个新颖的智能体框架，它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力，进一步引入Hi-GRPO分层优化策略，在轨迹、对话轮和步骤层级注入密集监督信号，以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS，实验证明IC-Seg在处理歧义查询上显著优于现有方法，并在标准推理分割基准上保持state-of-the-art性能。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

STREAM：一种从流媒体中挖掘高价值任务导向对话的数据中心框架

为解决垂直领域大语言模型缺乏复杂任务导向对话数据的瓶颈，STREAM框架提出一种从公开流媒体（直播与短视频）中规模化合成高质量服务对话的新方法。该框架从嘈杂的流媒体中挖掘真实交互信号，结合角色人物构建与对话蓝图设计，并利用检索增强生成（RAG）技术支持知识响应。基于此发布的StreamDial数据集覆盖汽车、餐饮与酒店三大领域，包含87,498个对话会话与1,497,320轮对话。评估表明，该数据集提升了对话内在质量，并在多个骨干模型上改善了对话状态跟踪性能；在Qwen3-8B上的多语言迁移实验也取得了积极结果。

arXiv 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在潜在空间中学习高频连续动作块

为解决机器人高频（如60Hz）动作控制中时序平滑性与空间一致性难以兼顾的问题，本研究将高频动作学习从动作空间转移到变分自编码器（VAE）的潜在空间，显著提升了控制质量。为进一步在异步推理下实现流畅执行，提出了“先复用后精炼”的块级策略，以增强相邻动作块间的连续性。实验表明，该方法使机器人能够更连贯地执行复杂的接触密集型任务，减少了停顿与抖动，动作完成更为平滑。代码与数据已开源。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DarkForest：智能体少交流，准确率更高

多智能体大语言模型系统通过组合多个智能体的输出来提升推理能力，但交互密集的方法易导致错误传播和高通信开销。本文提出一个名为DarkForest的可控通信协调框架。该框架首先让每个智能体独立生成答案，随后将原始响应解析为结构化候选记录，并依据代理可靠性等因素对语义等价的候选进行分组与校准，协调器仅从该信念分布中接收策略允许的证据。在六个推理基准测试上，DarkForest取得了领先的综合质量，其基准指标比最强基线提升高达30.7%，同时将token消耗降低至通信密集型基线的1/6.5。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

方向对齐缓解大语言模型强化学习中的奖励漏洞

奖励漏洞是大语言模型在强化学习中通过捷径优化代理奖励而非解决任务的问题。研究通过分析参数更新的奇异方向发现，漏洞运行相比正常运行呈现显著方向偏移。为此提出可信方向投影方法，将梯度约束在干净参考子空间内，在数学推理实验中有效延迟了捷径利用并保持任务性能。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

注入视觉概念：在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间，实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化（PNO）模块。实验表明，VCF 能从参考图像转移风格、构图和调色板等视觉属性，同时遵循文本提示。定量结果显示，其文本对齐度（CLIP 分数）与视觉相似度（LPIPS）之间存在权衡，但在参考保真度上优于基线方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SimuWoB：模拟真实移动应用以实现快速可靠的GUI智能体评测

SimuWoB是一个为移动GUI智能体设计的完全合成基准测试，包含120个跨越不同类型和难度等级的任务。它通过一个框架生成高保真任务和虚拟环境，并为每个任务自动提供有效奖励；环境以无后端的网页形式部署，可通过URL访问，以实现高效、可复现的评估。实验显示，在最先进的移动GUI智能体上，平均成功率仅为27.92%，长视野任务的成功率降至17.82%，揭示了当前智能体在复杂场景下的不足。与真实世界样本任务的评估结果对比表明，基于此合成环境的评估具有良好的泛化能力。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

忠实性指标并不测量忠实性：基于真实标注的元评估

针对大语言模型链式推理（CoT）是否忠实反映其内部计算的评估难题，研究构建了包含3,066个标注CoT的BonaFide基准，覆盖13个任务与10个模型。通过对主流忠实性指标的首次系统性评估发现，大多数指标的表现接近随机水平，存在预测偏差，且在长链推理上性能下降。最佳指标在CoT级别的AUROC仅为0.70，另一指标在步骤级别为0.59，两者均无法跨场景迁移且计算成本高昂。研究揭示了当前忠实性评估的根本性缺陷。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Macaron-A2UI：面向个人智能体的生成式UI模型

为突破个人智能体静态文本交互的瓶颈，生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型，旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作，用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库，引入A2UI-Bench评测基准，并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分，超越了全schema前沿基线。模型、基准与评测协议均已开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

针对图像描述生成强化学习中的奖励粒度不足问题，提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述，多模态评判器枚举两者间可验证的视觉声明差异，分配错误类型与严重程度，并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明，该框架在多个基准上改善了事实性与覆盖率的平衡，在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

你的嵌入模型，比你想象的更SMART

SMART是一个框架，旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互，实现即插即用的性能提升。研究表明，SMART能提升包括最先进模型在内的多模态检索性能，在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力，还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。

arXiv 多模态开源生态搜索

08:00

HuggingFace Daily Papers（社区热门论文）

几何感知图像 Flow Matching

研究发现，自然图像的语义信息主要编码在方向分量中，其范数分量可由全局平均近似，表明图像数据本质上可建模于超球面。基于此，论文提出了两种几何感知方法：利用角距离的球形最优传输流匹配（SOT-CFM）与在流形上约束动力学的球形流匹配（SFM）。实验证明，这两种方法性能优于欧几里得基线，为基于黎曼流形的建模与自然图像生成之间建立了联系。

arXiv 图像生成论文/研究

5月23日

18:35

MarkTechPost（RSS）

Nous Research 发布对比神经元归因（CNA）：无需SAE训练或权重修改的稀疏MLP电路引导

Nous Research 推出对比神经元归因（CNA）技术，通过识别并抑制稀疏MLP神经元电路来引导大语言模型的行为输出。该方法无需进行稀疏自编码器训练，也无需修改模型权重，同时能在引导行为的同时保持模型在通用能力基准测试上的性能不发生退化。这为控制LLM行为提供了一种更轻量、无侵入性的新途径。

安全/对齐论文/研究

10:57

Hacker News 热门（buzzing.cc 中文翻译）

CODA：将Transformer模块重写为GEMM-Epilogue程序

论文提出CODA技术，旨在优化Transformer架构的核心计算。其核心思想是将Transformer块中的复杂操作（如注意力机制、前馈网络）统一抽象并重写为“通用矩阵乘法（GEMM）+ 后续操作（Epilogue）”的程序化组合。这种方法能够更高效地映射到现代硬件（如GPU）上执行，通过融合计算、减少内存访问来提升整体效率。该成果已发布于arXiv，并在Hacker News社区获得关注（100点热度），反映了业界对大模型底层计算优化的持续探索。

论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

基于激活补丁技术的LLM知识遗忘深度测量

大语言模型的知识遗忘是实现隐私保护和AI安全的关键机制，但现有评估方法难以验证目标知识是否从模型内部被真正擦除。本文提出了一种新的度量指标UDS，用于量化遗忘的机制深度。该方法首先在保留模型上定位编码目标知识的层，然后在遗忘后模型上评估其擦除程度（0-1分）。在涵盖8种方法、150个遗忘模型的元评估中，UDS的可靠性与稳健性表现最佳。研究还揭示了不同白盒度量在层级评估上可能存在差异。代码与数据已开源。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv 具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

预测动力学能否存在于物理世界中？

预测性物理AI系统的输出（如状态预测、行动规划）即使误差低，也不一定物理可行。本研究提出了“物理可接受性”评估框架，将解码后的提案视为候选动力学，在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功，但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中，该完整验证门的AUC达0.957，残差过滤器能预防87-89%的无效提案，同时保持99.8%的任务正常进展。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向应用对地观测的组合图像检索基准评测

论文建立了针对遥感组合图像检索（RSCIR）的统一基准评测框架。研究在PatternCom数据集上，系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时，引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明，无需训练的组合方法可作为遥感图像检索强健且可扩展的基线；而以变化为中心的检索任务，因需保持场景身份不变，带来了与基于属性检索不同的挑战。

GitHub 多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AgentFugue：通过集体推理实现长期任务的智能体扩展

现有长期智能体任务的研究主要聚焦于增强单个智能体。本研究则探索通过对等智能体的协作来扩展能力，提出了AgentFugue框架。该框架构建了一个共享推理中心，当多个对等智能体并行探索同一任务时，中心会记录每个智能体的发现、尝试与排除项，使其他智能体能够选择性复用这些中间推理成果，而无需集中式规划。训练后的该中心作为插件通信层，在长期任务测试中表现优于强基线。结果表明，集体推理可使对等智能体扩展成为一种独立的能力提升途径。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAM：面向长期推理智能体的状态自适应记忆

针对长期智能体推理中交互历史过长且关键信息分散的问题，SAM框架提出了一种状态自适应记忆方案。该方案将当前交互整合为紧凑的记忆线索，同时保留原始轨迹页面以支持意图驱动的召回，无需重新训练主干模型。SAM通过专家监督与强化学习优化记忆模块，使其与轨迹级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch和HLE等基准测试中，SAM在不同智能体骨架上均持续优于强基线。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ECHO：终端智能体免费学习世界模型

ECHO（环境交叉熵混合目标）是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上，增加了一个辅助损失项，训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明，在TerminalBench-2.0上，ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范，能使基础模型匹配专家SFT后GRPO的性能，并在部分场景下可能实现无验证器的自我改进。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SEAL：智能体与学习环境的协同进化

针对大语言模型智能体自我进化中，策略与环境被单独优化导致的错位问题，本文提出SEAL框架。它构建了一个闭环协同进化系统：通过收集策略轨迹并诊断失败，将失败诊断作为共享信号，同时优化智能体的模型策略和训练环境。环境侧进化其学习接口，提供更明确的工具可用性提示；策略侧则利用诊断信息更新模型。实验表明，仅使用400个训练样本，SEAL在三种骨干网络上平均提升了8.25至26.25个点，并展现出跨领域迁移能力。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-MoE：通过混合 MoE 改进大语言模型的多语言机器翻译

Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力：先在单语语料上用混合专家进行后预训练，再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家，分别保留单语知识和学习翻译知识，并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明，该框架在多语言翻译任务上显著优于现有基线，有效缓解了参数干扰问题。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

05:27

Hacker News 热门（buzzing.cc 中文翻译）

"玻璃翼"项目：初步进展报告

Anthropic发布了“玻璃翼”项目的初步进展报告。该项目详情尚待公开，相关链接已指向其官方研究页面。该报告目前已引起技术社区关注，在Hacker News上获得119个积分。

Anthropic 安全/对齐论文/研究

关联讨论 5 条

04:16

HuggingFace Daily Papers（社区热门论文）

现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现，传统的分块外扩扩散流程在推理时效率较低。为此，提出了现场音乐扩散模型（LMDMs），通过引入分块KV缓存优化生成过程，显著提升了推理效率。同时，LMDMs采用ARC-Forcing范式实现稳定的后训练对齐，减少了误差累积，无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景，并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行，为音乐创作提供实时音色变换支持。

推理论文/研究部署/工程