AIHOT

5月8日

08:00

HuggingFace Daily Papers（社区热门论文）

循环LLM架构（如Ouro）通过迭代更新内部表征进行推理，但其标准KV缓存导致内存消耗随推理深度线性增长，限制了可扩展性。本研究提出高效内存循环Transformer（MELT），通过每层共享一个跨循环的KV缓存，并利用可学习的门控机制更新缓存，从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法：插值过渡与注意力对齐蒸馏。实验表明，基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM，同时内存占用与标准模型相当，远低于Ouro，实现了不牺牲性能的恒定内存迭代推理。

arXiv推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

SplatWeaver：一种为可泛化新视角合成动态分配高斯图元的框架

针对现有基于3D高斯泼溅的方法为每个像素或体素分配固定数量图元，导致资源分配不均的问题，本文提出SplatWeaver框架。该框架引入一组基数高斯专家和一个像素级路由方案，能以前馈方式自适应地为不同空间位置分配0到M个高斯图元。通过结合高频先验与路由正则化，引导路由机制向精细结构、复杂几何和纹理区域分配更多图元，同时抑制平滑区域的冗余。多场景实验表明，SplatWeaver能以更少的图元数量，持续生成比现有先进方法更逼真的新视角渲染结果。

图像生成开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FlashEvolve：通过异步阶段编排加速智能体自我进化

FlashEvolve 是一个高效框架，旨在解决基于大语言模型的智能体进化过程中因阶段同步和执行负载不均导致的时间瓶颈。它采用异步工作队列取代同步执行，允许不同进化阶段与步骤重叠运行。为处理异步引入的数据陈旧问题，框架追踪版本并对陈旧工件采取更新、丢弃或修补策略，并利用推测性阶段完成与自适应工作流控制进一步提升吞吐量与令牌效率。在 GEPA 基准测试中，其在本地 vLLM 上实现了 3.5 倍的提案吞吐量提升，在 API 服务上相比同步方法提升达 4.9 倍。该设计同样适用于 ACE 等任务。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

SEIF：用于指令跟随的自进化强化学习

指令跟随是大语言模型的基本能力，但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此，研究团队提出SEIF框架，通过自进化循环提升指令跟随能力。SEIF包含四个角色：生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower，以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化，使指令难度与模型能力相互促进。实验显示，SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现，有效训练策略是在早期充分训练以打下基础，后期适度训练以避免过拟合。相关代码与数据已开源。

开源/仓库推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

自动准则即奖励：从隐式偏好到显式多模态生成准则

研究提出Auto-Rubric as Reward框架，将多模态模型对齐问题从隐式权重优化转为基于显式准则的分解。该方法先将视觉语言模型内化的偏好知识外化为针对特定提示的结构化评估准则，将整体意图分解为可独立验证的质量维度，有效抑制位置偏差等评估偏见。为实现生成训练，进一步提出Rubric Policy Optimization方法，将多维评估提炼为稳健的二元奖励，用基于准则的偏好决策替代不透明的标量回归以稳定策略梯度。在文生图和图像编辑任务上的实验表明，该框架优于主流奖励模型，证明将隐式偏好显式化为结构化准则能实现更可靠、高效的多模态对齐。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DiffRetriever：基于扩散语言模型的并行代表词元检索方法

针对自回归模型生成多代表词元效率低下的问题，DiffRetriever提出了一种基于扩散语言模型的检索方法。它通过在提示后添加K个掩码位置，并利用扩散模型的双向前向传播一次性生成所有代表词元，从而避免了顺序生成的延迟瓶颈。实验表明，在多类扩散骨干模型上，其多词元版本在领域内及跨领域评估中均显著优于单词元版本，而自回归的多词元方法则效果不佳且延迟随K线性增加。经监督微调后，基于Dream骨干的DiffRetriever在BEIR-7基准上超越了PromptReps、同骨干的编码式基线以及对比微调的RepLLaMA。研究还发现，在冻结基础模型上采用自适应预算选择策略能取得更优效果。

搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BalCapRL：基于强化学习的平衡型多模态大语言模型图像描述框架

针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题，研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量，通过采用GDPO风格的奖励解耦归一化处理连续值奖励，并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明，该方法能一致提升描述质量，不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。

arXiv图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于量规的在线策略蒸馏

针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题，本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率，仅需教师生成的响应即可工作，实现了黑盒兼容。ROPD通过对比师生响应差异，自动生成针对特定提示的量规，并据此对学生模型输出进行评分与在线策略优化。实验证明，该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法，样本效率最高可提升10倍，为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。

arXivGitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ModelLens：从海量模型中为你的任务寻找最佳模型

开源生态拥有数十万个预训练模型，但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池，或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录，通过学习模型-数据集-指标三元组的性能感知潜在空间，可直接为未见过的数据集推荐未见过的模型，无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中，其性能超越了依赖元数据或需运行每个候选模型的基线方法，并能将多种路由方法的性能提升高达81%，在文本和视觉-语言任务上展现了泛化能力。

arXivHugging Face多模态开源生态

08:00

HuggingFace Daily Papers（社区热门论文）

以轨迹为师：基于能量导航蒸馏的少步离散流匹配

针对离散流匹配生成文本需数百步迭代的问题，本研究提出轨迹塑形离散流匹配方法。传统蒸馏中，由随机跳跃构建的轨迹质量是性能瓶颈。新方法引入轻量级“能量罗盘”，在训练时评估并选择最连贯的候选序列来引导轨迹生成，此过程仅增加训练成本。在1.7亿参数语言建模任务中，经塑形的8步学生模型比1024步教师模型困惑度降低32%、速度提升128倍，且在不同数据与模型规模上表现一致。该方法取得了优于所有对比基线的最佳困惑度，包括使用更多数据或更大模型的方案。

arXiv推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于残差潜在动作学习视觉特征世界模型

本研究提出了一种新型的残差潜在动作表示，它能从DINO残差中学习，并具备预测性、泛化性与时序编码能力。基于此构建的RLA世界模型通过流匹配预测未来状态，在仿真与真实数据集上超越了当前最先进的基于特征的方法和视频扩散世界模型，且速度快数个数量级。此外，团队开发了两种利用该世界模型改进机器人策略学习的技术：一是从无动作演示视频中学习的极简世界动作模型；二是首个完全在仅从离线视频学习的世界模型内训练、使用视频对齐奖励且无需在线交互或手工奖励的视觉强化学习框架。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Delta-Adapter：基于单对图像监督的可扩展范例编辑

本文提出Delta-Adapter，一种仅需单对源-目标图像监督的范例图像编辑新方法。该方法利用预训练视觉编码器从范例对中提取编码视觉变换的“语义增量”，并通过基于Perceiver的适配器将其注入预训练编辑模型。由于模型从未直接看到目标图像，后者可作为预测目标，从而实现了单对监督训练，并能利用现有大规模编辑数据集。此外，引入的语义增量一致性损失确保了生成变化与真实语义增量对齐。实验表明，该方法在多种编辑任务上显著提升了编辑准确性与内容一致性，并能有效泛化至未见过的编辑类型。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

如果AI系统不是聊天机器人？

本文认为，AI向聊天机器人界面的快速收敛并非中性选择，而是一种重塑社会、经济、法律和环境系统的主导性配置。研究揭示了该范式的结构性缺陷：在复杂或高风险场景中常无法满足需求却表现过度自信；其普及会改变工作、学习和决策模式，导致技能退化和知识同质化。更广泛的社会影响包括劳动力替代、经济权力集中，以及大规模基础设施带来的环境成本激增。当前发展路径过度强调对话通用性，忽视了专业性、问责制和社会可持续性。因此，应推动超越通用聊天机器人的多元化系统设计，发展任务专用工具并建立制度保障以减轻社会损害。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MatryoshkaLoRA：一种用于大语言模型微调的学习精确层次化低秩表示的通用框架

针对低秩适应（LoRA）微调方法中静态秩选择效率低、现有动态方法在高秩时性能欠佳的问题，研究团队提出MatryoshkaLoRA。该框架通过在现有LoRA适配器间插入一个固定的对角矩阵P，来相应地缩放其子秩，从而学习精确的层次化低秩表示。这一简单修改确保了所有子秩都能高效利用梯度信息，支持动态秩选择且精度损失最小。团队同时提出了“秩精度曲线下面积”（AURAC）评估指标。实验表明，该方法相比现有秩自适应方法能学习到更精确的表示，并在多个数据集上实现了更优的精度与性能权衡。代码已开源。

arXiv开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

稀疏自编码器即插即用防火墙：用于视觉-语言模型对抗攻击检测

针对视觉-语言模型（VLM）易受对抗攻击的安全问题，本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器（SAE）作为即插即用模块插入预训练VLM，通过标准重建目标训练，使稀疏潜在特征自然捕获攻击信号，从而可靠识别图像是否遭受对抗扰动。实验表明，SAEgis在域内、跨域及跨攻击场景中均表现强劲，其跨域泛化能力显著优于现有基线。该方法无需对抗训练，开销极小，为实际VLM系统提供了一种实用的安全增强方案。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从误差控制动力学角度重新思考循环模型中的状态追踪

循环模型状态追踪理论长期聚焦于表达能力，但误差控制同样关键，它主导着隐藏状态在区分符号状态方向上的漂移。研究证明，包含状态空间模型和线性注意力在内的仿射循环网络，一旦保存状态表示，就无法纠正沿状态分离子空间的误差。因此，实际模型学到的并非鲁棒的状态追踪，而是受累积误差控制的有限时域解。分析表明，仅当累积的类内扩散相对于初始类间分离较小时，追踪结果才可读。在群体状态追踪任务上的实验证实，当可区分比率超过解码器可读阈值时，追踪会崩溃，且该临界点能准确预测下游任务失效的时域。这表明，鲁棒的状态追踪不仅取决于架构的理论表达能力，更关键地取决于其误差控制能力。

arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SpecBlock：一种具有动态树草案生成的块迭代推测解码方法

SpecBlock是一种新型块迭代推测解码草案器，旨在融合路径依赖性与低成本生成。其核心在于每次前向传播生成一个包含K个连续依赖位置的“块”，通过重复块扩展构建草案树。关键技术包括：块内层间移位传递隐藏状态；跨块机制允许新块从旧块任意位置继承路径状态；协同训练的排序头动态分配分支，取代固定Top-K树；有效前缀掩码优化训练目标。部署时采用成本感知赌博算法，仅当预期吞吐增益超过更新成本时才利用验证器反馈选择性更新草案器。实验表明，在仅消耗EAGLE-3草案成本44-52%的情况下，SpecBlock将平均加速比提升了8-13%，成本感知自适应进一步将优势扩大至11-19%。

arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：面向复杂图像生成的结构化分解与条件技能编排框架

针对复杂图像生成中语义承诺难以持续追踪的“概念断层”问题，本文提出了SCOPE框架。该框架通过维护一个动态演化的结构化规范来管理语义承诺，并围绕未解决或被违反的承诺，有条件地调用检索、推理和修复等技能。为评估承诺级别的意图实现效果，研究构建了人工标注基准Gen-Arena并提出了严格的“实体门控意图通过率”指标。实验表明，SCOPE在Gen-Arena上以0.60的EGIP显著超越所有基线模型，在WISE-V和MindBench基准上也表现出色，验证了持续承诺跟踪的有效性。

arXiv图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AEM：面向多轮智能体强化学习的自适应熵调制方法

针对多轮任务中稀疏奖励导致的信用分配难题，本研究提出无监督方法AEM。它将熵动态分析从令牌级提升至响应级，以对齐LLM智能体的动作粒度并降低令牌采样噪声的敏感性。该方法推导出响应级不确定性代理，并利用其重新缩放优势函数，通过正负样本的动态平衡实现从探索到利用的自然过渡。在ALFWorld等多个基准上的实验表明，AEM能持续提升多种强RL基线性能，集成至先进软件工程训练框架时可实现+1.4%的性能增益。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TextLDM：基于连续潜在扩散的语言建模

TextLDM将视觉领域的潜在扩散模型成功迁移至文本生成。该方法采用基于Transformer的VAE将离散词元映射为连续潜在表示，并通过表征对齐技术使其与冻结的预训练语言模型特征对齐，以提升条件去噪效果。随后，标准扩散Transformer在此潜在空间内执行流匹配。核心突破在于获得了高质量的连续文本表示：仅重建保真度不足，而与预训练模型对齐对生成质量至关重要。在OpenWebText2上训练后，TextLDM显著超越了之前的扩散语言模型，并达到了GPT-2的性能水平，证明视觉DiT方案能有效迁移至语言领域。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过双层路由混合专家将持续学习扩展至300多个任务

研究团队提出名为CaRE的持续学习模型，其核心是创新的双层路由混合专家（BR-MoE）机制。该机制通过动态激活任务特定路由器和专家网络，将判别性与综合性特征注入模型各层，有效平衡了学习的稳定性与可塑性。为评估长任务序列性能，团队发布了包含数百个任务的OmniBenchmark-1K数据集。实验表明，CaRE在经典任务序列（5-20个任务）及超长序列（100至300多个非重叠任务）上均大幅领先现有基线，成为首个可扩展至300多个任务的持续学习器。代码与数据集已开源。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

先验对齐自编码器：为潜在扩散模型构建友好的潜在流形

本文研究了潜在扩散模型所需潜在流形的关键特性，提出了三个核心属性：连贯的空间结构、局部流形连续性和全局流形语义。基于此发现，研究者设计了先验对齐自编码器（PAE），它通过利用视觉基础模型提炼的先验和基于扰动的正则化，将这些属性转化为明确的训练目标，从而主动塑造对生成友好的潜在空间。在ImageNet 256x256数据集上的实验表明，PAE在训练效率和生成质量上均优于现有分词器，在相同设置下收敛速度比RAE快达13倍，并取得了1.03的最新最优gFID分数。

图像生成开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Flow-OPD：面向流匹配模型的在线策略蒸馏框架

针对流匹配文本到图像模型在多任务对齐中面临的奖励稀疏与梯度干扰问题，本研究提出首个统一后训练框架Flow-OPD。该框架采用两阶段策略：先通过单奖励微调培养领域专家教师模型，再利用基于流匹配的冷启动方案建立初始策略，并通过在线采样、任务路由标注和密集轨迹监督三步整合异构专业知识。引入的流形锚点正则化技术，借助任务无关教师提供全数据监督，有效缓解了纯强化学习对齐常见的美学质量下降。实验表明，Flow-OPD显著提升了多项性能指标，并保持了图像保真度与人类偏好对齐。

图像生成安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

各向异性模态对齐

多模态大语言模型训练受限于高质量配对数据稀缺。现有方法利用预训练多模态对比模型的共享表示空间进行单模态训练，但跨模态表示互换性受模态鸿沟阻碍。研究发现，模态鸿沟并非全局偏移，而是集中于少数主导方向的各向异性残差结构。基于此，提出各向异性模态对齐原则，设计几何校正框架AnisoAlign，利用目标模态内部几何先验对源模态表示进行有界校正，构建目标模态替代表示。实验验证该方法在几何诊断和纯文本MLLM训练中的有效性，将模态鸿沟转化为可校正的结构化几何现象，为单模态数据训练多模态模型提供新对齐视角。

arXiv多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HyperEyes：面向并行多模态搜索代理的双粒度效率感知强化学习

针对现有多模态搜索代理顺序处理实体导致效率低下的问题，本文提出HyperEyes。它将视觉定位与检索融合为单一原子操作，支持对多实体进行并行搜索，并将推理效率作为核心训练目标。其训练采用双阶段策略：首先通过并行适配数据合成流程进行冷启动监督；随后运用双粒度效率感知强化学习框架，在宏观层面通过动态收紧参考的轨迹级奖励抑制冗余工具调用，在微观层面利用策略蒸馏注入密集的令牌级纠正信号。研究还构建了人工标注基准IMEB以同时评估搜索能力与效率。实验表明，HyperEyes-30B在六个基准上以平均减少5.3倍工具调用轮次的代价，在准确率上超越最强开源代理9.9%。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

智能体时代，谁为认知劳动定价？以计算为锚的工资

研究指出，AI智能体并非劳动力，而是一种将计算资本转化为有效认知劳动的生产技术。在人类与智能体劳动可替代的任务中，竞争性人类工资存在一个以计算为锚的上界，表达式为 λ·k·r_c（其中 r_c 是计算资本租赁价格，k 是单位智能体劳动的计算密集度，λ 是相对生产率）。这一框架将决定均衡工资的弹性供给边际，从劳动力市场转移至计算资本市场。核心结论是：认知劳动的定价者不再是劳动力市场。研究基于经典要素定价框架推导，并通过CES聚合进行推广，区分了可替代与互补性任务。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型自我改进：用于测试时扩展的智能体发现框架

研究团队提出环境驱动框架AutoTTS，将测试时扩展策略设计转化为可自动探索的环境构建问题。该框架将宽度-深度扩展形式化为对预收集推理轨迹的控制器合成，通过Beta参数化使搜索可行，并利用细粒度执行轨迹反馈提升效率。在数学推理基准测试中，自动发现的策略在准确率-成本权衡上优于人工基线，并能泛化至未见过的任务和模型规模，整个发现过程仅需39.9美元和160分钟。相关代码与数据已开源。

arXiv推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

快速字节潜在变换器

针对字节级语言模型自回归生成速度慢的问题，Byte Latent Transformer (BLT) 提出了新的训练与生成技术。其核心是最快的变体 BLT Diffusion (BLT-D)，它结合块级扩散目标与下一个字节预测损失，能在每个解码步骤并行生成多个字节，大幅减少前向传播次数。此外，受推测解码启发，研究提出了两种在速度与质量间权衡的扩展：BLT Self-speculation (BLT-S) 让局部解码器起草超出常规边界的字节后进行单次验证；BLT Diffusion+Verification (BLT-DV) 则在扩散生成后增加自回归验证步骤。这些方法在生成任务上的预估内存带宽成本可比原始 BLT 降低超过 50%，共同为字节级模型的实际应用扫清了关键障碍。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

归一化轨迹模型

针对扩散模型在少步采样时假设失效的问题，研究团队提出了归一化轨迹模型（NTM）。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流，其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器，支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏，仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中，NTM仅用四步采样就能匹配或超越现有强基线，并独特地保持了生成轨迹的精确似然。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

STARFlow2：连接语言模型与标准化流以实现统一多模态生成

为构建真正统一的文本-图像序列生成模型，研究团队提出STARFlow2。该模型基于Pretzel架构，通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流，两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间，STARFlow2实现了缓存友好的交错生成，文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明，该模型在图像生成与多模态理解任务上均表现优异，验证了自回归标准化流作为统一多模态建模基础的可行性。

arXiv图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

InterLV-Search：交错多模态智能体搜索基准测试

现有基准测试未能充分评估视觉证据在交错搜索轨迹中的作用。为此，研究团队推出InterLV-Search基准，专门评估语言与视觉证据在搜索过程中反复交错使用的智能体能力。该基准包含2,061个示例，涵盖主动视觉证据搜寻、受控离线及开放网络交错多模态搜索三个层级，并首次引入涉及多实体比较的多模态多分支样本。实验表明，当前最先进的多模态智能体在此任务上整体准确率仍低于50%，在视觉证据定位、搜索控制和多模态证据整合方面面临显著挑战。基准数据与评估代码已开源。

智能体多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MISA：面向长上下文大模型推理的索引器稀疏注意力混合方法

MISA是DeepSeek稀疏注意力中索引器模块的即插即用替代方案。它将索引器的多个查询头视为专家混合池，通过一个轻量级路由器，仅根据查询激活少数几个头部进行昂贵的令牌级评分，从而大幅降低计算成本。无需额外训练，仅激活8个头时，MISA在DeepSeek-V3.2和GLM-5上就能达到与原始密集索引器相当的LongBench性能，同时分别减少八分之七和四分之三的头部使用量。该方法在128K上下文内能保持完整的“大海捞针”热力图，每层可恢复超过92%的原始索引器所选令牌，其内核在单H200 GPU上实现了约3.82倍的加速。

推理论文/研究部署/工程

05:36

Hacker News 热门（buzzing.cc 中文翻译）

自然语言自编码器：将克劳德的思绪转化为文字

Anthropic公司发布了一项名为“自然语言自编码器”的研究，旨在将Claude模型的内部思维过程转化为人类可读的文本。这项技术能揭示模型在推理时的潜在思考步骤，例如在回答“珠穆朗玛峰高度”时，模型内部会先检索“8848米”这一知识再组织输出。该方法提升了AI的可解释性，有助于研究者理解并改进大语言模型的决策机制。相关论文和详细信息已在Anthropic官网公布。

Anthropic安全/对齐论文/研究

关联讨论 1 条

02:30

Apple Machine Learning Research（RSS）

精选69

用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构（TC-JEPA），通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器，对输入文本标记计算稀疏交叉注意力，从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比，TC-JEPA能够学习到语义更丰富的视觉表征，解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由：Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练，用稀疏交叉注意力减少预测不确定性，对多模态表征学习是个不错的思路补充，做视觉模型的值得一看。

02:30

OpenAI：Alignment 研究博客（RSS）

精选72

研究强化学习中意外对思维链（CoT）评分的影响

研究发现，部分已发布的模型存在有限的意外对思维链（CoT）进行评分的情况。团队已修复受影响的奖励通路，并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限，且修复后未对监控能力产生负面影响。

OpenAI安全/对齐推理论文/研究

推荐理由：OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染，已修复且确认没有引发监控降级。这件事不大，但对研究 RLHF 可扩展监督的人来说值得一瞥，提醒奖励模型工程比想象中更易出错。

01:30

Apple Machine Learning Research（RSS）

精选69

实用学习型图像压缩的关键要素

学习型编解码器相比传统硬编码方法的显著优势在于能直接针对人类视觉系统进行优化，但目前尚未出现兼具感知质量与实用性的图像编解码方案。本研究通过全面分析关键建模选择，旨在填补这一空白，探索在感知质量与运行效率间的联合优化方案，并在消融实验中引入了若干新技术。研究进一步采用性能感知的神经架构优化方法，为构建真正实用化的学习型图像压缩系统提供了系统性的设计指南与实验基准。

端侧论文/研究

推荐理由：Apple 这篇调研把感知质量和运行效率同时拉进实做框架，做 codec 或端侧推理的人值得认真读一下。

01:29

Anthropic：Research（发表成果 · 网页）

精选81

自然语言自编码器：将Claude的"想法"解码为文本

Anthropic团队推出自然语言自编码器方法，能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”，形成“激活值→文本解释→重建激活值”的循环，并以重建相似度为目标进行优化。应用表明，NLA能揭示模型未言明的内部状态，例如在安全测试中，发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码，并合作发布了交互式探索工具。

Anthropic安全/对齐开源生态论文/研究

关联讨论 1 条

推荐理由：Anthropic 搞出了一种从激活中直接读出自然语言的方法，相当于给 Claude 的内心戏配了字幕。他们用这招发现模型在安全测试里比表面更常怀疑自己被评估，对审计隐藏动机也有奇效。做 AI 安全的人应该立刻点开看。

01:22

HuggingFace Daily Papers（社区热门论文）

评估智能体创造性推理：基于可供性的工具重新利用基准CreativityBench

研究团队推出CreativityBench基准，以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库，生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明，模型虽常能选择合理物体，但在识别正确部件、其可供性及所需物理机制方面存在显著困难，导致性能大幅下降。模型规模扩大带来的改进很快饱和，通用推理能力与思维链等策略均未能有效提升创造性可供性发现，凸显该能力仍是当前模型的主要挑战。

智能体推理论文/研究评测/基准

5月7日

23:22

HuggingFace Daily Papers（社区热门论文）

首个词元即知晓：单次解码置信度用于幻觉检测

研究发现，仅通过单次贪婪解码中首个内容答案词元的归一化熵计算置信度指标 phi_first，就能有效检测大语言模型在闭卷事实问答中的幻觉。在三个7-8B指令微调模型和两个基准上，phi_first 的平均AUROC达0.820，优于需多次采样的语义一致性方法（0.793）和标准表层自洽性方法（0.791）。该指标与语义一致性呈中到强相关，两者结合提升有限，表明模型在首个词元分布中已包含了多样本一致性所捕获的大部分不确定性信息，可作为低成本基线指标。

arXiv安全/对齐推理论文/研究

23:22

HuggingFace Daily Papers（社区热门论文）

SWE-WebDevBench：将编码智能体应用平台作为虚拟软件机构进行评估

研究团队推出SWE-WebDev Bench评估框架，从交互模式、机构角色和复杂度三个维度，通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷：存在将丰富业务需求过度简化的“规范瓶颈”；普遍存在前端与后端脱节，精美UI常掩盖缺失或故障的后端；生产就绪度陡降，工程质量得分无平台超过60%，且人工后期工作量差异大；安全与基础设施问题广泛，安全得分无平台超过65%，并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。

智能体编码论文/研究评测/基准