AIHOT

4月30日

08:00

HuggingFace Daily Papers（社区热门论文）

WindowsWorld是一个跨应用工作流基准，旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架，生成包含四个难度级别及中间检查的任务，经人工审核后在模拟环境中执行。基准包含181个任务，平均每个任务有5.0个子目标，覆盖17种常用桌面应用，其中78%为跨应用任务。实验结果显示，当前领先的大模型与代理在跨应用任务上表现不佳（成功率低于21%），远低于简单单应用任务；在需要跨三个及以上应用进行条件判断与推理的任务中大多失败，且执行效率低下。相关代码、基准数据与评估资源已开源。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

通过Haiku模型连接空间生物学与临床组织学

Haiku是一个基于多重免疫荧光数据训练的三模态对比学习模型，整合了空间蛋白质组、H&E组织病理图像和临床数据。该模型在来自1,606名患者、涵盖11种器官类型的3,218个组织切片上训练，实现了三模态跨模态检索，在下游分类、生存预测等任务中超越单模态基线。其创新性在于支持仅通过临床文本描述进行零样本生物标志物推断，并引入反事实预测框架，能在固定组织形态下通过修改临床元数据揭示与癌症进展相关的微环境分子变化，为连接分子测量与临床背景提供了系统分析工具。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

评估胰腺导管腺癌血管侵犯：PDACVI基准测试

研究团队发布了CURVAS-PDACVI数据集与挑战赛，这是一个针对胰腺导管腺癌术前血管侵犯评估的开放基准。数据集包含每例扫描的五位专家独立标注，支持不确定性感知AI模型的开发。提出的评估框架不仅衡量空间重叠度，还纳入概率校准与侵犯判定。对六种前沿方法的评估表明，全局体积精度高的模型在关键的肿瘤-血管界面未必可靠；而专门建模标注者分歧的方法能生成更校准的概率图，在专家共识低的复杂案例中更具鲁棒性。该基准揭示了体积精度作为手术适用性代理指标的局限性，推动了面向术前决策的不确定性感知模型的发展。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重复优于多样：面向高效德语建模的高质量数据过滤策略

针对德语等高资源非英语语言，本研究构建分层过滤器处理5亿份网络文档，对比了单次训练大规模低过滤数据与多轮重复训练高质量核心数据的效果。实验表明，重复训练高质量数据在多种模型规模和训练量级下均稳定优于追求多样性的单次训练，即使重复7轮后性能差距依然显著。这证明通过质量过滤实现语义集中，比单纯扩大数据量更能高效推进语言建模。基于此发布的德语模型Boldt，在训练量仅为同类模型1/10至1/360的情况下取得了领先性能，相关清洗后的评估基准已公开。

arXiv开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MASCing：通过激活引导掩码配置专家混合模型行为

MASCing框架首次实现无需重新训练的专家混合模型安全行为灵活配置。该框架使用LSTM代理模型捕捉路由依赖关系，通过优化引导矩阵识别行为相关专家回路，并在推理时对路由门应用引导掩码以覆盖专家选择，从而针对性增强或抑制特定安全行为。在七款开源MoE模型测试中，该框架以可忽略开销显著提升性能：多轮越狱防御平均成功率从52.5%提升至83.9%，成人内容生成平均成功率从52.6%提升至82.0%，最高增益分别达89.2%和93.0%。

安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

When Do Diffusion Models Learn to Generate Multiple Objects？

研究通过引入mosaic框架，系统探究了扩散模型在多物体生成中的局限性。发现场景复杂性是主要障碍，而非概念不平衡；在低数据量下，计数能力尤其难以学习。当训练中排除更多概念组合时，模型的组合泛化能力会崩溃。这些发现揭示了扩散模型的基本限制，为设计更强归纳偏置和数据方案以提升多物体组合生成鲁棒性提供了依据。

图像生成数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

利用 Sign Language Models 自举标注手语注释

研究团队开发了一套手语伪标注流程，以解决高质量标注数据匮乏对AI手语翻译发展的限制。该流程以手语视频和英文文本为输入，输出包括时间区间在内的可能注释排序集合，涵盖手势词、手指拼写单词和手语分类器。新发布的ASL STEM Wiki和FLEURS-ASL等数据集虽包含数百小时专业译员数据，但因标注成本过高仅实现部分标注。该自举方法旨在显著提升大规模手语数据的利用效率。

多模态数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

精选63

STARFlow-V：基于标准化流的端到端视频生成建模

研究团队提出了基于标准化流的视频生成模型STARFlow-V，旨在应对视频生成领域长期由扩散模型主导的局面。该模型具备端到端学习、鲁棒的因果预测和原生似然估计等优势，能够直接处理连续数据并建模复杂的时空动态。这一工作标志着标准化流在图像生成取得进展后，首次被系统性地扩展至计算成本更高、时空结构更复杂的视频生成任务中，为生成式模型的设计提供了新的技术路径。

论文/研究

推荐理由：扩散模型几乎垄断视频生成，Apple 这篇用正规化流做视频却是清奇思路，端到端学习和因果预测的优势值得研究员细看。

07:08

Anthropic@AnthropicAI

科学博客上新：我们给Claude出了99个分析真实生物学数据的难题，并将其表现与专家小组进行了比较。在23个问题上，专家们被难住了。我们最新的模型解决了其中大约30%--以及其余的大部分问题。

Anthropic推理论文/研究

05:13

Anthropic：Research（发表成果 · 网页）

精选63

使用BioMysteryBench评估Claude的生物信息学研究能力

Anthropic团队开发了BioMysteryBench生物信息学基准测试，用于评估Claude在分析真实数据集、解决开放式研究问题上的能力。测试发现，Claude的生物学科学能力正快速迭代，当前模型表现已与人类专家相当，最新模型甚至解决了部分专家小组未能破解的问题，且有时策略迥异。该基准旨在应对科学评估的固有挑战，如生物学研究中存在多种合理的“正确”方法，以及研究决策的高度主观性。

Anthropic论文/研究评测/基准

关联讨论 1 条

推荐理由：Anthropic 用 99 道真实生物信息学题测 Claude，发现最新模型在人类解不出的难题上也能答对 30%，而且解题策略和人类完全不同。做生物信息的同行值得看看这个 benchmark 的设计思路，比刷分数字有意思得多。

04:08

Anthropic@AnthropicAI

在新的Anthropic Fellows研究中，我们探讨了"内省适配器"：这种工具能让语言模型自我报告在训练过程中习得的行为--包括潜在的错位。【引用 @kshenoy_】：大型语言模型能否直接告诉我们它们在训练中习得的不良行为？我们训练了一个单一的内省适配器（IA），使微调后的模型能够描述自身行为。该方法可推广至检测隐藏的错位、后门和安全措施移除。

keshav: Can LLMs simply tell us about unwanted behaviors they've picked up in training? We train a single Introspection Adapter ...

Anthropic数据/训练论文/研究

02:43

LMSYS：Blog（Chatbot Arena 团队）

精选74

秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术

LMSYS团队针对SGLang中的强化学习工作负载，提出了一种基于RDMA的点对点权重更新机制，作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输，将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒，提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余，允许推理服务器更快恢复rollout过程，且兼容所有主流开源模型。

智能体开源生态论文/研究部署/工程

推荐理由：LMSYS 把分布式 RL 训练的权重同步从 NCCL 广播改成 RDMA P2P，1T 参数模型传输快了 7 倍，做大规模 RL infra 的团队该认真看看这个工程方案。

4月29日

22:43

elvis@omarsar0

智能体缰绳工程：实现AI智能体核心组件的可观测自动化进化

针对AI智能体开发中依赖人工调试、成本高昂且脆弱的“缰绳”设计问题，研究者提出了“智能体缰绳工程”框架。该框架通过三层设计实现可观测的进化：将组件视为可回滚的文件、从海量运行轨迹中提炼经验证据、将决策转化为可由任务结果验证的预测。每次修改都成为可验证或回滚的“合约”。实验表明，该框架在十次迭代内将Terminal-Bench 2的pass@1分数从69.7%提升至77.0%，超越人工设计与基线方法。进化后的缰绳能跨模型迁移并提升性能，同时在SWE-bench上减少12%的令牌消耗，为智能体系统的核心组件提供了首个自动化、可靠的优化方案。

智能体arXivMCP/工具编码

19:34

IT之家（RSS）

研究团队：自2022年ChatGPT诞生以来，如今互联网新增内容中35%均由AI生成

英国帝国理工学院、斯坦福大学及互联网档案馆的研究显示，自ChatGPT推出至2025年中，全球互联网约35%的新增内容带有AI生成痕迹，占比从近零快速跃升。研究验证了AI内容存在“语义收缩”和“情绪单一且正面”的现象，其语义相似度比人工内容高33%，正面情绪评分高107%。但其他如事实质量下降等负面影响未获统计支持。目前，生成式AI主要影响了文字多样性和情绪表达，对信息可信度的冲击尚未明确证实。

数据/训练现象/趋势

16:38

Rohan Paul@rohanpaul_ai

AMD提出长上下文混合LLM架构HyLo，实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构，可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选，保留关键注意力层以保证质量，同时用固定内存的廉价层替换多数层以追踪长序列，从而将可用上下文扩展至200万token，并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型，HyLo在保持短上下文性能接近基准的同时，在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究

14:38

HuggingFace Daily Papers（社区热门论文）

AutoResearchBench：评估AI智能体在复杂科学文献发现中的基准

为评估AI智能体在自主科学研究中的文献发现能力，研究者推出了AutoResearchBench基准测试平台。它包含两项任务：“深度研究”需通过多步探索定位特定论文；“广度研究”需全面收集满足条件的论文系列。该基准具有研究导向性、文献聚焦性和开放探索性三大特点，对智能体的科学理解与精细推理能力提出高要求。实验显示，即使最强大的大语言模型在深度研究任务上准确率仅为9.39%，在广度研究任务上的IoU指标仅为9.31%，凸显了任务的艰巨性。相关数据集与代码已开源。

智能体论文/研究评测/基准

14:38

HuggingFace Daily Papers（社区热门论文）

MAIC-UI：用生成式用户界面制作交互式课件

传统创建交互式STEM课件需要编程技能，而现有生成式AI工具存在生成静态、处理长文档困难、缺乏教学严谨性及修改耗时过长等问题。为此，我们提出了MAIC-UI，一个零代码创作系统，允许教育工作者从教科书、PPT和PDF快速创建并编辑交互式课件。该系统通过结构化知识分析与多模态理解确保教学严谨性，采用“生成-验证-优化”两阶段流程分离内容与视觉优化，并基于统一差异的增量生成技术实现点击定位编辑，将迭代周期缩短至10秒内。一项40人对照实验表明，该系统相比直接文本转HTML生成，显著减少了编辑迭代次数（4.9 vs. 7.0），并提升了易学性与可控性。在53名高中生参与的三个月课堂部署中，使用该系统的班级STEM成绩提升了9.21分，有效促进了学习自主性并缩小了成绩差距。

智能体教程/实践论文/研究

11:11

向阳乔木@vista8

姚老师和张凯的GEO论文已在全球最大论文平台arxiv完成审核并发布，这是全球第二篇GEO专项研究。论文基于今年3月最新数据，涵盖大量Prompt、引用和AI抓取记录，采用科学方法进行GEO分析，类似数据驱动的增长洞察。研究成果以正式报告形式呈现，源数据已开源在GitHub。作者表示，如果对社区有帮助，将继续抓取更多数据进行专项研究并开放成果。

姚金刚: 我和张凯的GEO论文,在全球最大的论文平台http://arxiv.org完成审核并正式发布这应该是全球第二篇与GEO有关的专项论文论文基于今年3月份最新的数据,包括602条 Prompt、21143 条引用、23745条AI抓取记录,...

arXiv搜索数据/训练论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

递归多智能体系统

本研究将递归计算从单一模型扩展至多智能体系统，提出RecursiveMAS框架。该框架通过轻量级RecursiveLink模块连接异构智能体，形成协作循环，实现潜在思维生成与状态传递，并采用内外双循环算法进行全系统协同优化。理论分析表明其效率高于传统文本交互系统且训练稳定。在数学、科学、医学等9项基准测试中，该框架相比先进基线平均准确率提升8.3%，推理速度加快1.2–2.4倍，token使用量减少34.6%–75.6%。代码与数据已公开。

智能体数据/训练论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

DV-World：真实场景下的数据可视化智能体评测基准

针对现有基准在环境隔离、任务单一和意图假设完美等方面的局限，本文提出了DV-World基准。该基准包含260个任务，旨在真实工作流中评估数据可视化智能体。它涵盖三大领域：支持原生电子表格图表创建与诊断的DV-Sheet、要求跨编程范式重构可视化以适应新数据的DV-Evolution，以及通过模拟模糊需求测试主动意图对齐的DV-Interact。基准采用结合数值对齐与多模态大模型语义视觉评判的混合评估框架。实验表明，当前最先进模型整体表现不足50%，凸显其处理真实世界复杂挑战的能力存在严重缺陷。DV-World为引导智能体发展企业级综合专业知识提供了现实测试平台。

智能体编码论文/研究评测/基准

10:38

HuggingFace Daily Papers（社区热门论文）

通过技能图实现可扩展的终端任务合成

SkillSynth 是一个基于场景中介技能图的自动化终端任务合成框架，旨在解决终端智能体训练中高质量、多样化执行轨迹稀缺的问题。该方法首先构建大规模技能图，以场景作为中间过渡节点连接多样化的命令行技能；随后从图中采样路径作为真实工作流的抽象，并通过多智能体系统将其实例化为可执行任务。通过在图形采样的工作流路径上进行任务合成，SkillSynth 能够显式控制解决合成任务所需的最小执行轨迹的多样性。在 Terminal-Bench 上的实验验证了其有效性。此外，SkillSynth 合成的任务实例已用于训练 Hy3 Preview，提升了其在终端环境下的智能体能力。

智能体数据/训练论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

视频生成的系统性后训练框架

研究团队提出一个系统性后训练框架，旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段：首先通过监督微调将基础模型转化为稳定的指令跟随策略；随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习，以提升感知质量和时间连贯性；接着集成专用语言模型进行提示词增强以优化用户输入；最后通过推理优化提升系统效率。实验表明，该统一流程能有效减少常见伪影，显著提升可控性和视觉美感，同时严格遵守采样成本限制。

数据/训练视频论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

IAM：身份感知的人体运动与形状联合生成

研究团队提出了一种身份感知的人体运动生成框架IAM，旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号（自然语言描述和视觉线索）表征身份，并引入运动与形状联合生成范式，能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行，结果表明该方法在保持高运动质量的同时，显著提升了运动真实感及运动与身份的一致性。

具身智能多模态论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

通过再生实现精修：扩大修改空间提升统一多模态模型的图像精修能力

针对当前统一多模态模型（UMMs）主要遵循的基于编辑（RvE）精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题，本研究提出了一种基于再生（RvR）的新框架。RvR将精修任务重新定义为条件图像再生，其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生，而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制，实现了更完整的语义对齐。实验结果表明，RvR在多个基准测试上均取得显著性能提升：Geneval得分从0.78升至0.91，DPGBench从84.02提高到87.21，UniGenBench++则从61.53跃升至77.41。

图像生成多模态论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

互促学习：面向快速自回归音视频角色生成的双模式自演进框架

本文提出Mutual Forcing框架，用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练，先训练单模态生成器，再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型，将少步与多步生成集成于单一权重共享模型中，通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法，本方法仅需4至8步即可达到或超越基线性能，在效率与质量上均具优势。该方法无需额外双向教师模型，支持更灵活的训练序列长度，并可直接从真实配对数据中学习。

多模态视频论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

BARRED：通过非对称辩论合成训练定制策略护栏

BARRED框架仅需任务描述和少量未标注样本，即可生成忠实且多样的合成训练数据。该方法将领域空间分解为多个维度以确保全面覆盖，并采用多智能体辩论验证标签正确性，从而构建高质量训练语料。实验表明，基于此合成数据微调的小型语言模型，在多种定制策略任务上持续超越包括推理模型在内的先进专有大模型及专用护栏模型。消融研究证实，维度分解与辩论验证对确保数据多样性和标签保真度至关重要。该框架消除了对大量人工标注的依赖，为精准定制护栏提供了可扩展方案。

智能体安全/对齐论文/研究

08:33

IT之家（RSS）

突破 2 纳米工艺极限：DNA 生物晶体管实现分子级计算与存储双重突破

韩国科学技术院研究团队成功开发出一种基于DNA的生物晶体管，突破了传统硅基半导体2纳米的微型化极限。该技术利用间距仅0.34纳米的DNA分子，通过可逆组装与解组装响应外部信号，实现了分子层面的计算与信息存储双重功能，克服了传统DNA电路一次性使用的缺陷。这项模拟半导体晶体管原理的成果，有望应用于体内分子诊断装置，实时监测疾病信号，为生物计算与医疗技术开辟了新方向。研究已发表于《Science Advances》。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HiL-Bench（人在回路基准测试）：智能体知道何时该求助吗？

HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时，能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息，核心指标 Ask-F1 综合衡量提问精准度与障碍召回率，以平衡过度提问与盲目猜测。评估显示，当前前沿模型在判断求助时机上存在普遍缺陷，其完整信息性能仅能恢复一小部分。失败模式主要体现为三种：过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练，一个 32B 模型在求助质量与任务通过率上均获得提升，且能力可跨领域迁移，表明判断力可通过训练改进。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

ComboStoc：扩散生成模型中的组合随机性

本文针对扩散生成模型中未被充分研究的组合复杂性问题，指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间，从而限制模型性能。为此，我们提出了ComboStoc方法，通过构建充分利用组合结构的随机过程，显著加速了图像和3D形状等多种数据模态的网络训练。此外，该方法还支持在测试时生成过程中，为不同维度和属性使用异步时间步，从而实现对它们不同程度的灵活控制。代码已开源。

arXiv图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

更优模型，更快训练：用于单细胞基础模型的Sigmoid注意力机制

本研究提出将Sigmoid注意力作为Softmax注意力的直接替代方案，用于构建更稳定的生物基础模型。在六个单细胞数据集上的实验表明，Sigmoid注意力能提升25%的细胞类型分离度，改善细胞类型内聚性，并降低验证损失，同时训练速度提升高达10%。理论分析揭示，Sigmoid具有全局有界导数和对角雅可比结构，这缓解了Softmax的稠密耦合带来的不稳定性。在压力测试中，训练1.6亿参数模型时，Softmax出现梯度爆炸，而Sigmoid保持稳定。团队开源了高性能GPU内核TritonSigmoid，在H100上实现515 TFLOPS，性能超越现有方案，并原生支持生物序列所需的填充处理。

开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Prox-E：通过基于基元的抽象实现细粒度3D形状编辑

研究团队提出Prox-E，一个无需训练即可实现细粒度3D控制的框架。该方法先将输入3D形状抽象为一组紧凑的几何基元，再利用预训练的视觉语言模型对该抽象进行基元层级的编辑指定，最终引导3D生成模型完成局部结构修改，同时严格保持物体未变化区域的原始身份。实验表明，该方法在身份保持、形状质量和指令遵循度上，均优于现有的基于2D的3D编辑器和需要训练的方法。

arXiv图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Web2BigTable：面向互联网规模信息搜索与提取的双层多智能体LLM系统

Web2BigTable是一个支持广度和深度搜索的双层多智能体框架。上层编排器将任务分解为子问题，下层工作智能体并行求解。系统通过运行-验证-反思的闭环流程，利用持久化外部记忆联合改进任务分解与执行，并实现单智能体的自我进化。工作智能体通过共享工作空间协调，减少冗余探索、调和冲突证据并适应覆盖缺口。该系统在广度搜索基准WideSearch上达到新SOTA：Avg@4成功率为38.50（是第二名的7.5倍），行F1为63.53，项F1为80.12。在深度搜索基准XBench-DeepSearch上也取得73.0的准确率。代码已开源。

智能体搜索论文/研究

08:00

Apple Machine Learning Research（RSS）

Adaptive Thinking：大型语言模型知道何时在潜在空间中思考

研究提出了一种名为“自适应思考”的新方法，使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准，当模型对简单问题已有高置信度答案时，会跳过显式推理步骤，直接生成最终答案。实验表明，在保持相同性能水平下，该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量，实现了更高效的计算最优推理。

推理论文/研究

08:00

Apple Machine Learning Research（RSS）

DSO：用于缓解偏见的直接引导优化

研究团队提出DSO方法，旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时，通过单一标量参数直接、实时地控制偏见缓解程度，实现无需重新训练的动态调整。实验表明，DSO能在偏见指标上实现高达90%的改善，同时将性能损失控制在10%以内，有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向高效计算机使用代理的步骤级优化

现有计算机使用代理在长周期图形界面任务中因每一步都调用大型多模态模型而导致效率低下。此类任务轨迹具有高度异质性：多数步骤可由轻量策略可靠处理，而错误多集中于少数高风险时刻，表现为进度停滞与语义漂移。为此，本文提出一种事件驱动的步骤级级联框架，默认运行轻量策略，仅当轻量监测器识别到风险升高时才升级至强模型。该框架整合了停滞监测器与里程碑监测器，能根据交互进程自适应分配计算资源，将始终开启的前沿模型推理转变为按需调用。该模块化设计无需改变现有代理架构或重新训练大模型即可直接集成。

智能体arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ViPO：大规模视觉偏好优化

针对现有开源视觉偏好数据集存在的冲突偏好、低分辨率等问题，研究团队提出Poly-DPO算法，通过多项式项动态调整模型置信度以增强抗噪性。为突破数据瓶颈，团队构建了大规模高质量数据集ViPO，包含百万级图像对与数十万视频对。实验表明，在高质量ViPO上，Poly-DPO最优配置会收敛至标准DPO，验证了数据质量；而在噪声数据集上，Poly-DPO相比Diffusion-DPO在SD1.5和SDXL模型上分别取得6.87和2.32的性能提升。研究证实，算法适应性与数据质量共同推动视觉偏好优化的规模化发展。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

合规性与合理性：大语言模型中推理可控性研究

本研究通过推理冲突视角，探讨大语言模型能否将归纳、演绎等基本推理模式与具体问题实例解耦。发现LLMs优先考虑合理性而非合规性，即使指令冲突也倾向任务适用推理。任务准确率不严格由合理性决定，模型依赖内部参数记忆且随规模增强。推理冲突可内部检测，置信度显著下降。实验显示推理类型从中后层线性编码，表明激活层面可控。通过机制干预，成功将模型导向合规，指令遵循率最高提升29%。这表明主动干预能有效解耦逻辑模式与数据，提升可控性、忠实度和泛化能力。

arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

长度价值模型：面向令牌级长度建模的可扩展价值预训练

长度价值模型（LenVM）是一个创新的令牌级框架，它将剩余生成长度预测转化为价值估计问题，通过为每个生成令牌分配恒定负奖励来获得密集、无偏且可扩展的监督信号。实验表明，LenVM能显著提升模型对生成长度的精确控制能力：在LIFEBench精确长度匹配任务中，它将一个7B模型的长度分数从30.9大幅提升至64.8，超越了前沿闭源模型。同时，该模型支持性能与效率的连续权衡，如在GSM8K上设定200令牌预算时，能保持63%的准确率，远超基线模型的6%。此外，LenVM能从提示开始预测总长度，并提供生成动态的可解释视图，展现了其作为通用长度建模框架的广泛潜力。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于RoundPipe在消费级多GPU上实现高效训练

针对消费级GPU服务器内存有限和PCIe互联慢的问题，研究团队提出了RoundPipe流水线调度方案。该方法通过将GPU视为无状态工作节点，以轮询方式动态分配计算阶段，打破了权重绑定限制，实现了接近零气泡的流水线。系统集成了优先级感知传输调度、细粒度事件同步协议与自动分层划分算法。在8块RTX 4090的服务器上测试表明，其对1.7B至32B模型的微调速度比现有最优基线快1.48至2.16倍，并能单机完成Qwen3-235B模型（31K序列长度）的LoRA微调。该工具已作为开源Python库发布。

开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

最后一篇人类撰写的论文：智能体原生研究制品

传统科学论文为追求线性叙事，舍弃了大量失败实验与分支路径，且描述与可执行细节间存在鸿沟，严重阻碍了AI智能体的理解与复现。为此，研究团队提出“智能体原生研究制品”（ARA）协议，以包含科学逻辑、可执行代码、探索图谱及证据层的机器可执行研究包取代传统论文。其生态系统由实时研究管理器、ARA编译器和原生评审系统支持。实验表明，ARA将问答准确率从72.4%提升至93.7%，复现成功率从57.4%提高至64.4%。保存的失败轨迹能加速扩展任务，但也可能限制高能力智能体跳出既有框架。

智能体arXiv论文/研究