6月24日

00:03

HuggingFace Daily Papers（社区热门论文）

Vera 是一种分层扩散模型，专为内容保留视频编辑设计。它生成编辑层及 alpha 遮罩，与源视频合成，从而分离创意编辑与内容保留。架构采用混合 Transformer（MoT），各层独立 DiT 通过联合自注意力交互。训练使用高质量分层数据集，含精确 alpha 遮罩和多样场景。定量基准和人类偏好显示，Vera 在内容保留上优于开源模型，编辑质量有竞争力，仅使用 486K 帧分层训练数据。

视频论文/研究

6月23日

22:49

HuggingFace Daily Papers（社区热门论文）

精选78

能力强但粗心：计算机使用智能体是否遵循情境完整性？

AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由：计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。

21:48

Apple Machine Learning Research（RSS）

基于指标依赖的标注饱和：从标签分布中学习

在ChaosNLI数据集（每项100个标注）上微调NLI模型，发现所需标注人数因评估指标而异：熵相关（识别分歧项）需约20-50个标注者收敛，KL散度（分布匹配）约10个标注者即饱和（达全量效果的87%-95%）。软标签的熵相关r=0.643（p<0.001），优于五种标签平滑强度下的r≈0.45-0.49，因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论：标注预算应依据目标评估指标制定。

数据/训练论文/研究

20:49

HuggingFace Daily Papers（社区热门论文）

Arbor：显式几何约束实现可控3D资产生成

Arbor是一个可训练的附件，为文本条件潜空间3D生成引入约束网格作为原生3D控制接口。约束分三类：包络区域（应有几何）、避让区域（保持空白）和接触区域（物体应接触）。Arbor将约束网格转换为模型token，在冻结去噪器内学习路由附件，使每个潜空间区域只接收相关约束信号。在自动和艺术家控制基准测试中，Arbor在固定约束下提升了约束遵循度，同时保持了对象质量和多样性。

多模态论文/研究

15:13

HuggingFace Daily Papers（社区热门论文）

精选75

HAKARI-Bench：统一条件下比较检索架构与效率设置的轻量级基准

HAKARI-Bench 是一个轻量级检索基准，将现有检索套件重建为小型数据集（Nano-sets），涵盖 35 个基准、551 个任务和 43 种语言，采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体（降维、量化等）在同一条件下对比。在 55 个模型上，整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR（完整版）的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测，而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。

Hugging Face 检索增强论文/研究

推荐理由：有了这个轻量级基准，做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置，而且排名与完整评测高度一致，是工程选型的高性价比工具。