6月4日

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹，经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%，训练速度提升2.0–7.6倍，推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率；压缩学生模型可保留高达96%的原始准确率，同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时，压缩轨迹缩小了与原始轨迹的差距，但未超过原始。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhaseLock：两步推理锁定运动先验，避免视觉细化阶段擦除物理一致性

图像到视频扩散模型常生成违反物理定律的运动。研究发现，同一模型的两步生成比50步生成物理一致性更好。频谱分析表明，去噪过程中相位退化约18%，幅度保持稳定。基于此，提出无需训练的PhaseLock框架，从仅两步推理提取运动先验，通过Latent Delta Guidance施加到高保真生成。PhaseLock有效缓解相位退化，在多种模型上平均提升物理一致性6.2点，同时保持视觉保真度，额外开销仅1.06倍时间和1.02倍内存，并减少对外部昂贵引导方法的依赖（约5倍时间）。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DIRECT：通过分解视觉代理实现直接3D感知物体插入

提出DIRECT框架，实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件：参考物体外观引导、用户调整的3D代理几何引导、目标背景上下文引导，通过分开注入避免特征纠缠，同时保留参考外观、遵循指定姿态并适配场景。还引入自动化数据构建管道提升训练数据多样性与质量。实验表明，DIRECT在几何可控性和视觉质量上均优于此前方法。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SoCRATES：面向跨领域与社会认知变化的主动式LLM调解评估基准

SoCRATES是一个评估主动式LLM调解员在真实多领域场景中表现的基准。它通过智能体流水线从真实冲突构建8个领域场景，探测战略姿态、参与方构成、历史长度、情绪反应和文化身份5个社交认知适应轴，并使用主题局部评估器仅对推进该主题的轮次打分。该评估器与人类专家的对齐度达0.82，是每轮基线得分的两倍以上。对8个前沿LLM的测试显示，即使最强的调解员在多样化现实测试床下也仅能弥合约三分之一的未调解共识差距，且性能随社交认知轴剧烈变化，表明进步关键在于社会适应能力。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

反事实链与因果图的大语言模型可解释性

提出一种使用因果图解释大语言模型推理的方法，包含四阶段：发现类区分概念、将输入映射为LLM感知的概念状态、通过MCMC启发的反事实增强扩充稀疏观测数据、利用σ-CG进行稳定因果发现。在三个大语言模型上应用于疾病诊断、情感分析和LLM-as-a-judge分类任务。实验评估了因果图的预测保真度和结构稳定性，以及反事实增强的收敛性与下游效用。结果表明所发现的因果图捕获了与LLM推理一致的有意义依赖关系，为概念层面的可解释性提供了基础。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SubtleMemory：细粒度关系记忆辨别基准

SubtleMemory是一个评估长期运行AI智能体在细粒度关系记忆辨别上能力的基准。它构建关系控制的潜在语义伪影变体（包含互补、细微或矛盾关系），并嵌入逼真的用户-智能体历史。基准包含1,522个评估实例，基于10个长历史，覆盖用户相关与非用户相关查询。评测了多个独立记忆系统和Claw-style智能体，发现当前系统表现薄弱。研究还引入诊断协议，揭示记忆保留、检索和下游推理阶段的差异化能力轮廓。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Astra：借助世界模拟器实现智能体视觉空间推理

视觉-语言模型（VLM）在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL（基于强化学习的VLM策略）与Astra-WM（基于Bagel的世界模拟器）耦合，后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习，训练模型仅在想象观测优于直接回答时调用模拟器。实验显示，Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5；Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8，在MindCube上从36.8提升至42.7。

具身智能多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OpenSkill：开放世界下的LLM智能体自我进化

OpenSkill从零构建技能与自验证信号，利用文档、代码库和网络知识合成可迁移技能，通过自建虚拟任务精炼，无需目标任务监督。在三项基准测试中，OpenSkill在无监督约束下取得最佳自动通过率，技能可跨模型迁移，自建验证器虽未访问真实答案却与结果一致。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WorldBench：一个挑战性强且视觉多样化的多模态推理基准

WorldBench是一个用于评估多模态大语言模型(MLLM)的推理基准，通过构建涵盖多个领域（如生物）的数千个视觉概念分类体系，从搜索引擎和现有数据集中广泛收集图片，并采用结构化试错方法手动设计前沿MLLM难以回答的挑战性问题。在15个MLLM上的评估显示，最强模型准确率仅达64.0%，部分模型性能略高于随机水平，揭示了现有模型在视觉理解上的不足。该基准在视觉多样性上优于现有任何多样化基准。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ToolMaze：LLM智能体在工具失效时的动态重规划与异常恢复基准测试

ToolMaze是一个评估LLM智能体在工具失效场景下动态路径发现与错误恢复能力的基准测试。其采用双维度设计：DAG拓扑复杂度与2×2工具扰动分类（显式/隐式、瞬时/永久）。评估显示，几乎所有模型在扰动下性能均下降，隐式语义失效导致扰动恢复率（PRR）骤降约37%，复杂拓扑则使智能体陷入无效试错循环。关键发现：智能体容错能力随模型规模提升的速度比基本任务执行慢3.66倍，动态重规划成为模型扩展无法解决的独立瓶颈。数据和代码已公开。

智能体 MCP/工具论文/研究

02:56

Anthropic@AnthropicAI

安全社区的技术在应对AI驱动的网络攻击方面表现如何？我们检查了832个恶意账户，并将其活动映射到一个长期存在的威胁行为者战术和技术数据库。以下是我们学到的：https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack

Anthropic 安全/对齐论文/研究

02:42

HuggingFace Daily Papers（社区热门论文）

条件假设生成：基于大语言模型的文本分析中研究者指定协变量

计算社会科学的核心目标是发现语言在不同结果中的可解释差异。现有基于LLM的假设生成方法仅选取全局判别模式，忽略研究者领域知识中的协变量，导致所选模式可能反映混淆而非实质差异。本文提出条件假设生成框架，通过纳入研究者指定的协变量，引导假设发现聚焦于相关子群内成立的差异。针对子群代表性不足（层不平衡）和差异方向可能逆转（符号反转）两个挑战，提出两种方法：引入特征-协变量交互检测符号反转，以及应用层内去均值和逆频率重加权平衡欠代表层。实验表明，协变量感知的生成方法能在相关子群内产出更有用的假设。

arXiv 数据/训练论文/研究

00:42

HuggingFace Daily Papers（社区热门论文）

精选76

Ultralytics YOLO26：统一实时端到端视觉模型

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理，彻底移除 DFL，获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类，提供 5 种尺度（n/s/m/l/x）及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP，T4 TensorRT 延迟 1.7–11.8 ms；YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

开源生态端侧论文/研究部署/工程

推荐理由：这次YOLO26把NMS和DFL都拿掉了，还把大模型训练的Muon优化器改成MuSGD，在COCO上的速度精度平衡比上一代强不少，做实时检测的应该拿来跑一跑。

00:33

Microsoft Research@MSFTResearch

一份在中西部装瓶厂进行的三个月试点显示，当AI超越聊天进入决策领域时会发生什么--约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN

Microsoft 推理论文/研究部署/工程

6月3日

23:42

HuggingFace Daily Papers（社区热门论文）

KVarN：方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积

KVarN是一种免校准的KV-cache量化方法，通过Hadamard旋转结合双标度方差归一化，同时对K和V矩阵的两个轴进行归一化，以修复异常token尺度误差，大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下，KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。

arXiv 推理论文/研究部署/工程

23:17

elvis@omarsar0

Google 新研究 LEAP：通用大模型封装在智能体框架中，解决全部 Putnam 2025 问题

Google 新研究 LEAP 将通用大语言模型封装在智能体框架中，每个步骤基于 Lean 编译器，并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题，并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%，击败了得分 48% 的专业金牌系统。论文链接：https://arxiv.org/abs/2606.03303。

智能体 Google 推理论文/研究

23:15

Ethan Mollick@emollick

嘿，这是我们发表的论文！【引用 @PNAS News】：过去一周PNAS最高浏览量文章之一--《劝说大语言模型遵守有异议的请求》。查看论文：https://ow.ly/wOxl50Z6fZA 更多热门文章请访问 https://ow.ly/uLkC50Z6fZz。

PNASNews: One of the most-viewed PNAS articles in the last week is "Persuading large language models to comply with objectionable ...

安全/对齐论文/研究

22:42

HuggingFace Daily Papers（社区热门论文）

ByG：无需配对数据的流匹配图像/视频编辑框架

提出 Bootstrap Your Generator (ByG) 框架，用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索，结合循环一致性保持结构；通过梯度路由将下游损失反向传播到噪声训练状态，弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA，泛化到未见领域，性能优于用百万级配对样本训练的监督基线。实验表明，从基础模型提取的语义线索提供了稳健的训练信号，无需外部奖励模型。

arXiv 图像生成视频论文/研究

22:42

HuggingFace Daily Papers（社区热门论文）

AURA：面向机器人策略的恒定VRAM动作门控记忆

AURA-Mem是一种恒定大小的递归记忆机制，专为机器人策略设计。它包装了一个冻结的视觉-语言-动作主干（7B参数），通过学习门控仅在当前观测会改变下一步动作时写入记忆。推理状态固定为4,224字节，而KV-cache在100,000步时大6,061倍。在LIBERO-Long上，门控策略未降低成功率（0.233），略优于始终写入的KV臂（0.217），同时写入次数减少7.0倍。在合成基准上，AURA-Mem匹配最佳O(1)基线精度，写入次数减少5.19–6.13倍，而随机或周期调度无法复现该增益。

具身智能论文/研究

20:49

Chubby♨️@kimmonismus

Microsoft MAI 技术报告公开模型细节：1T 总参数，35B 活跃参数，在 33.5T tokens 上训练。最突出的特点是零合成数据、零知识蒸馏，推理、智能体行为、工具使用全部在后训练中从头学习。报告透明度极高，首次在此规模公开各迭代的 MFU 和完整缩放方案，目标成为前沿实验室。

elie: microsoft MAI tech report is a gold mine, one of the most transparent for a model at this scale. this model uses zero sy...

Microsoft 数据/训练论文/研究

20:42

HuggingFace Daily Papers（社区热门论文）

BA-T：面向两视图光束平差法的迭代Transformer

BA-T是一种用于两视图光束平差法的迭代Transformer，受经典BA启发，将BA风格的结构化更新实现为隐式token空间中的可重复层。不同于传统前馈3D重建模型依赖深度解码器堆叠，BA-T基于潜在残差通过单一轻量层逐步精炼位姿和重建结果。实验显示，BA-T在迭代中持续提升精度，实现比传统解码器更强的跨视图一致性，并以仅16%的decoder参数匹配或超越更大模型。代码已开源。

GitHub 论文/研究

19:37

Hacker News 热门（buzzing.cc 中文翻译）

自然界中蛋白质折叠的不合理冗余

标题为《自然界中蛋白质折叠的不合理冗余》，指出蛋白质折叠结构存在不合理的冗余现象。文章发布于 research.ligo.bio，在 Hacker News 获得 100 点赞。

数据/训练论文/研究

18:00

Anthropic：Newsroom（网页）

Anthropic：一年来AI赋能网络威胁映射分析

Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号，映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件，6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动，账户发现增长8.9%，AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联（最低技能者平均16种，最高约20种），所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术，并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。

Anthropic 安全/对齐论文/研究

关联讨论 1 条

17:51

Anthropic：Research（发表成果 · 网页）

同事件精选69

Anthropic 分析 832 个 AI 恶意账户：中高风险攻击者半年从 33% 跃至 56%

Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户，映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件，6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%，AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台（Claude Code、API、聊天界面）的威胁评估失效，而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。

Anthropic 安全/对齐论文/研究

同一事件，精选展示《AI驱动的网络威胁映射：LLM ATT&CK Navigator的洞察》

推荐理由：这份报告用一整年的真实案例揭示了AI攻击正从初始入侵转向深度潜伏，连MITRE ATT&CK框架都开始跟不上。安全从业者值得一读，它告诉你下一波威胁长什么样。

14:42

HuggingFace Daily Papers（社区热门论文）

PaddleOCR-VL-1.6：通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型，基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域，该模型引入了区域感知数据优化框架进行定向增强，并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩，展现出与顶尖VLMs的竞争力。

arXiv 多模态数据/训练论文/研究

13:42

HuggingFace Daily Papers（社区热门论文）

Small RL Controller， Large Language Model： RL-Guided Adaptive Sampling for Test-Time Scaling

该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程，并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本，仅依赖最终答案的统计信息，并能联合权衡答案正确性、延迟与计算成本，且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行，与ASC等强基线相比，该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。

推理论文/研究

12:42

HuggingFace Daily Papers（社区热门论文）

面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率，但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现，淘汰少量大数值价值状态会导致模型陷入重复推理循环；引入随机性则能提升缓存多样性以改善准确率。基于此，本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明，该方法进行4倍缓存压缩时，在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法，并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程

12:42

HuggingFace Daily Papers（社区热门论文）

精选70

世界模型与语言模型：论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹，但可能视觉合理却任务错误；多模态大语言模型则擅长抽象推理。为此，研究提出了“受控的具体推理”框架，并构建了VRQABench和OpenWorldQA两个基准。同时，提出了Privileged-Future On-Policy Self-Distillation（PF-OPSD）方法，该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹，但部署时无需真实未来。实验结果显示，PF-OPSD在两个基准上分别比基线高出10.6%和10.9%，并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由：世界模型靠视觉预测，语言模型靠抽象推理，这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%，还给全开源，做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。

11:37

向阳乔木@vista8

斯坦福团队研究：未过滤数据训练大模型，效果可能优于清洗数据

斯坦福团队研究发现，使用未过滤Common Crawl数据训练模型时，在计算量充足下效果可能优于清洗后数据，结论呈现模型规模依赖性：小模型（15M）上过滤数据全面领先，但大模型（330M、1B）未过滤数据在充分训练后反而超越过滤版本，原因是大模型参数容量足够大，可在训练中自行隔离噪声与有效信息。

数据/训练论文/研究

11:05

Hacker News 热门（buzzing.cc 中文翻译）

精选71

斯坦福大学法学院研究：人工智能的表现优于法学教授

斯坦福大学法学院的一项研究表明，人工智能的表现优于法学教授。该发现引发了广泛关注，在Hacker News平台获得了104个Points。

Google 论文/研究

推荐理由：这不是简单的问答正确率，而是法律教授在盲评中更偏爱AI的回答，把「AI只能做有标准答案的事」的假设砸了一个洞，做教育和专业服务的人都该看看。

10:49

Berryxia.AI@berryxia

兄弟们，Google DeepMind 团队又来整活儿！

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist，旨在实现科研流程自动化。该系统能够生成、辩论和验证假设，帮助科学家从高强度脑力劳动中解放出来。过去一年，它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家，而是作为“专职研究伙伴”。目前，其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体 DeepMind Google 推理

10:41

HuggingFace Daily Papers（社区热门论文）

视觉状态追踪基准VSTAT：评估多模态大语言模型的视频理解能力

研究者提出了视觉状态追踪基准VSTAT，用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段，并配有1500个必须通过连续感知才能回答的问题。测试发现，现有顶尖多模态大语言模型在VSTAT上的表现远低于人类，仅略高于随机答案基线。分析表明，模型的文本推理能力尚可，但视觉感知所必需的事件追踪能力存在不足。初步评估也显示，包括智能体在内的现有方法也未能有效解决这一问题。

多模态视频论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

Humanoid-GPT：通过规模化数据与结构实现零样本动作追踪

Humanoid-GPT是一个基于GPT架构的Transformer模型，专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练，该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量，Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer，并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明，该模型在零样本泛化至新任务的同时，能稳健地追踪复杂动态动作，建立了新的性能前沿。

具身智能数据/训练论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

语言模型需要睡眠：学习自我修改与巩固记忆

受人类学习过程启发，研究提出了一种让大语言模型持续学习的“睡眠”范式。该范式包含两个阶段：第一阶段为记忆巩固，通过“知识播种”将较小模型的记忆向上蒸馏至更大网络，以保留知识并提升容量；第二阶段为“做梦”，模型利用强化学习生成合成数据课程进行自我演练和改进，无需人工监督。实验验证了该范式在长期、持续学习、知识整合及少样本泛化任务上的重要性。

论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

NVIDIA OmniDreams：用于闭环自动驾驶模拟的实时生成式世界模型

OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型，使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作，自回归地实时生成动作条件化的逼真传感器视频，可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中，作为高响应性环境。初步结果显示，基于OmniDreams后训练的世界-动作模型（WAM）在Physical AI自动驾驶NuRec数据集上，仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。

具身智能论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

Ψ-Bench：评估说服性对话中的人格敏感影响力

Ψ-Bench 是一个新提出的基准测试，旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景，并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估，发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现，在提供客户档案后，模型性能平均提升 18.24%，凸显了用户特定信息对于实现有效说服的重要性。该工作指出，人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。

智能体 arXiv 开源生态论文/研究

08:16

Rohan Paul@rohanpaul_ai

斯坦福研究：AI在合同法教学中优于同行教授

斯坦福研究人员发现，在评估合同法问题时，法律教授有75%的次数更倾向于选择AI给出的答案，而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案，并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高，而且教授们仅将3.5%的AI答案标记为“有害”，而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅，其表现常能达到教授向学生解释法律模糊性的教学标准。

安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PRECISE：基于预测驱动推理的统计可靠LLM排序评估方法

PRECISE扩展预测驱动推理（PPI），结合少量人工标注与大量LLM评判，得到偏差校正的排序评估指标。PPI在任意LLM评判误差分布下均无偏。针对Precision@K等分层指标，将输出空间计算复杂度从O(2^|C|)降至O(2^K)。在ESCI基准上，30条人工标注加上Claude 3 Sonnet评判使Precision@4估计的标准误差从4.45降至3.50（降低21%）。生产系统中，该框架从100条标签和2小时领域专家标注中正确识别出三个系统变体的最优者，A/B测试确认该排名，日销售额提升407 bps。

arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

SparDA：面向长上下文LLM推理的高效稀疏解耦注意力架构

SparDA提出解耦稀疏注意力架构，在QKV外引入第四层投影Forecast，预测下一层所需KV块，使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数，训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度，实现prefill加速1.25倍、decode加速1.7倍；相比非offload稀疏基线，单GPU上decode吞吐量提升5.3倍。代码已开源。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

PACT：行动状态通信实现高效多智能体系统

多智能体系统（MAS）中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优，但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议，将通信视为公共状态更新问题，把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能，同时大幅减少token消耗：在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率，在SWE-agent上解决率不变但输入token减半。代码已公开。

智能体 MCP/工具论文/研究部署/工程