6月17日

08:00

HuggingFace Daily Papers（社区热门论文）

提出一种基于3D体素掩码自编码器（MAE）的tokenizer，用于3D脑MRI潜在扩散模型。编码器与解码器解耦：冻结的3D MAE编码器产生临床信息丰富的嵌入，专用CNN解码器从嵌入的线性投影重建体素。编码器在35,309个体积（来自18个公共队列，覆盖四种模态、十种疾病类别和200+采集站点）上预训练。在23任务线性探测基准上，编码器在21个任务上超越或匹配BrainIAC、BrainSegFounder、MedicalNet等SOTA模型。基于这些嵌入训练的扩散Transformer（DiT）支持跨六个变量的条件生成和患者特定纵向预测。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PerceptionDLM：基于多模态扩散语言模型的并行区域感知

针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题，提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性，通过高效提示和结构化注意力掩码，在序列和token两个层次上同时感知多个掩码区域，显著提升推理效率。为系统评估扩散语言模型的并行性，构建了ParaDLC-Bench基准。实验表明，PerceptionDLM在保持区域描述竞争力的同时，大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Moebius：0.22B参数轻量级图像修复框架，性能媲美10B级模型

Moebius是一个仅0.22B参数的轻量级图像修复框架。它通过引入Local-λ Mix Interaction（LλMI）块重构扩散主干，其中Local-λ和Interactive-λ模块将空间上下文与全局语义先验压缩为固定大小的线性矩阵，在削减参数的同时保留复杂潜在交互。配合仅在隐空间执行的自适应多粒度蒸馏策略，Moebius在自然图像和人像基准上达到了与11.9B参数模型FLUX.1-Fill-Dev相当甚至更优的生成质量，总推理速度提升超过15倍。

arXiv 图像生成论文/研究

6月16日

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。