全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态论文 · 2868 条

全部一手资讯 X 论文

6月19日周五

18:51The Decoder：AI News（RSS）67OpenAI研究人员：少量"有益特质"训练让AI模型更安全且更难被操纵

15:55HuggingFace Daily Papers（社区热门论文）75精选HumanScale：自我中心人类视频在具身预训练中可超越真实机器人数据

15:55HuggingFace Daily Papers（社区热门论文）56FlowBender：反馈感知训练用于自纠正条件流

11:47HuggingFace Daily Papers（社区热门论文）48JanusMesh：零样本快速3D视觉错觉生成框架

11:47HuggingFace Daily Papers（社区热门论文）50S-Agent：空间工具使用智能体范式实现空间推理

10:47HuggingFace Daily Papers（社区热门论文）51超越静态排行榜：LLM智能体评估的预测有效性研究

10:47HuggingFace Daily Papers（社区热门论文）48JamSet与JamBench：首个项目级游戏代码框架数据集与基准

10:47HuggingFace Daily Papers（社区热门论文）56当前世界模型缺乏持久状态核心

10:47HuggingFace Daily Papers（社区热门论文）49FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

10:47HuggingFace Daily Papers（社区热门论文）46Holo-World：面向视频世界模型的统一相机、物体与天气控制

10:47HuggingFace Daily Papers（社区热门论文）45ENPIRE：真实世界中机器人策略的自主改进框架

09:47HuggingFace Daily Papers（社区热门论文）51SEVRA：面向预算感知推理的选择性验证服务层控制器

08:00HuggingFace Daily Papers（社区热门论文）47BioInsight：面向交互式生物医学知识发现的多智能体编排

08:00HuggingFace Daily Papers（社区热门论文）68离散化奖励模型

08:00HuggingFace Daily Papers（社区热门论文）47非语言发声中的说话人身份：条件蒸馏与混合专家方法

08:00HuggingFace Daily Papers（社区热门论文）67PrivacyAlign：面向LLM智能体的上下文隐私对齐

08:00HuggingFace Daily Papers（社区热门论文）36UnityShots：记忆驱动的多镜头音视频生成系统

08:00HuggingFace Daily Papers（社区热门论文）38GPT-4o 辅助游戏重构与功能生成：一项无尽跑酷游戏案例研究

08:00HuggingFace Daily Papers（社区热门论文）40数据受限语言模型预训练的训练时数据增强解析

08:00HuggingFace Daily Papers（社区热门论文）49分层语言模型（TLM）：在同一权重中分离公共与私有能力

08:00HuggingFace Daily Papers（社区热门论文）51Counsel：面向智能体任务的元评估数据集

08:00HuggingFace Daily Papers（社区热门论文）43ICME 2026 ATTM效率赛道：FluxAudio-S 结合 TuneJury 人类偏好奖励

08:00HuggingFace Daily Papers（社区热门论文）46DataClaw_0-9B：从原始流中智能体化定制多模态数据

08:00HuggingFace Daily Papers（社区热门论文）44PoLAR：将潜在动作中的程度和模式分解用于机器人策略学习

08:00HuggingFace Daily Papers（社区热门论文）58EvoEmbedding：用于长上下文检索和智能体记忆的可演化表征

08:00HuggingFace Daily Papers（社区热门论文）46CalVerT：带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

07:58Rohan Paul65OpenAI 新研究：真实情境 RL 训练使模型将安全行为迁移到未训练任务

07:54Ethan Mollick67Ethan Mollick 称赞 AA-Briefcase 为真实知识工作优质基准

07:47HuggingFace Daily Papers（社区热门论文）51REVES：基于修订与验证的测试时扩展训练框架

05:55OpenAI：Alignment 研究博客（RSS）64精选OpenAI 强化学习实现广泛且持久的有益模型

05:53OpenAI62OpenAI研究：训练广泛持久有益的模型

02:51Jeff Dean49Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文

02:47Hugging Face：Blog（RSS）75精选MosaicLeaks：你的研究智能体能保守秘密吗？

02:23The Decoder：AI News（RSS）63Google Deepmind 发布 AI 控制路线图：将 AI 智能体视为内部威胁，基于行为逐步授权

01:24Rohan Paul68Claude Opus 4.7 编程机器狗：独立完成任务快 20 倍，但未能取球

01:21Anthropic68Opus 4.7编程机器狗速度提升20倍

00:55Noam Brown35OpenAI 公开 o1 被质疑，o3 医疗研究力证开放价值

00:51Greg Brockman51OpenAI o3 Deep Research 助解 376 例罕见病，发现 18 种新诊断

00:22Anthropic：Research（发表成果 · 网页）77精选Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

6月18日周四

23:51elvis64OpenAI 发布 LifeSciBench 生命科学基准

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月19日

18:51

The Decoder：AI News（RSS）

67

OpenAI研究人员：少量"有益特质"训练让AI模型更安全且更难被操纵

OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程，模型便在53个独立基准（衡量欺骗、谄媚、奖励黑客等）中的44个上获得改进。健康数据训练也提升非健康评估，反之亦然。模型对有害提示和有害微调更具抵抗力，同时保持有用可操控性，研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。

OpenAI 安全/对齐推理论文/研究

15:55

HuggingFace Daily Papers（社区热门论文）

精选75

HumanScale：自我中心人类视频在具身预训练中可超越真实机器人数据

HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后，基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%，分布内任务成功率高52.5%，分布外任务成功率高90%。研究验证了一种可扩展范式：先以人类视频预训练学习多样世界表征，再以少量标注机器人数据微调对齐动作空间。

具身智能数据/训练论文/研究

推荐理由：让机器人看人类干活视频，预训练效果居然比直接用真实机器人数据更好，这个反直觉发现可能彻底改变具身智能的数据策略，做机器人的值得认真读一读。

15:55

HuggingFace Daily Papers（社区热门论文）

56

FlowBender：反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架，将对齐误差作为第一类输入，训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号，经前向算子计算偏差，再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体，并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中，同时提升了保真度与合理性。

图像生成多模态数据/训练论文/研究

11:47

HuggingFace Daily Papers（社区热门论文）

48

JanusMesh：零样本快速3D视觉错觉生成框架

JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架，可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段：跨空间双分支去噪过程在体素空间中动态解码3D潜在表示，通过CLIP引导的视角对齐和SDF融合实现无缝几何融合；视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明，该方法在几何完整性、语义可识别性和效率上显著优于现有方法。

图像生成论文/研究

11:47

HuggingFace Daily Papers（社区热门论文）

50

S-Agent：空间工具使用智能体范式实现空间推理

S-Agent 将空间推理视为时空证据积累，以 VLM 为语义规划器，通过分层空间工具和专家将 2D 物体提升为 3D 几何证据，聚合为计数、测量等高级空间知识；Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上，S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B，性能媲美 GPT-5.4 和 Gemini 3。

智能体具身智能论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

51

超越静态排行榜：LLM智能体评估的预测有效性研究

研究指出聚合分数排行榜无法反映部署场景真实表现，排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现，涵盖多模态扩展、编排、检索、推理、基础设施及评估探针，并合并7个先前智能体基准。提出以预测有效性（样本内与样本外排名相关性）替代均值排名，构建12层测量框架，暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准，最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。

智能体 MCP/工具论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

48

JamSet与JamBench：首个项目级游戏代码框架数据集与基准

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目，其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务，用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为，瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

编码论文/研究评测/基准

10:47

HuggingFace Daily Papers（社区热门论文）

56

当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性，忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预，通过链式评估：摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型（9600个视频，覆盖四种控制范式）的测试表明，当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态，而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模，表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

具身智能视频论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

49

FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像，保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架，将LoRA作为风格与内容的组合锚点，通过生成-过滤流程构建大规模三元组数据。针对内容泄漏，采用两阶段课程学习：注意力级增强约束抑制风格参考泄漏，频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

Hugging Face 图像生成开源生态论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

46

Holo-World：面向视频世界模型的统一相机、物体与天气控制

Holo-World 是一种视频世界模型，从单张图像出发，根据显式相机控制、物体控制和可选天气指令，生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间，利用渲染背景、几何缓冲和物体控制维持场景结构，并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差，增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下，天气状态生成优于视频到视频的天气编辑基线。

多模态论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

45

ENPIRE：真实世界中机器人策略的自主改进框架

ENPIRE 提出一个闭环框架，让编码智能体通过环境（自动重置与验证）、策略改进、回滚（并行评估策略）和进化（分析日志、查阅文献、改进训练与算法代码）四个模块，自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程，在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率，并通过机器人集群加速迭代。

智能体具身智能论文/研究

09:47

HuggingFace Daily Papers（社区热门论文）

51

SEVRA：面向预算感知推理的选择性验证服务层控制器

SEVRA是一种服务层控制器，使用冻结的Qwen3-4B求解器，通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上，选择性验证达76.3%准确率，高于始终验证的75.5%，后生成token减少26.8%，有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上，选择性策略仅验证3.0%样本，准确率从93.4%提升至94.5%，验证token减少91.2%。部署规则：先调整初始预算，再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

BioInsight：面向交互式生物医学知识发现的多智能体编排

BioInsight 是一个多智能体系统，将静态生物医学报告生成转变为交互式、以证据为中心的界面生成。给定疾病名称、蛋白质关联表和可选队列元数据，系统通过类型化中间产物（排名通路、文献证据包、蛋白质级推理笔记、引用报告、仪表盘模式和交互界面）组织疾病特异性证据。它将证据检索与机制推理分离，通过确定性组件规范化引用，并将报告中的结构化证据转换为交互界面。在标准化生物医学问答、蛋白质功能推理和端到端证据综合评测中，BioInsight达到最佳性能，表明生物医学AI系统应转向保留来源的交互式证据制品。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

离散化奖励模型

奖励模型的连续打分存在过度敏感性问题，对质量相当的回应给出差异大的分数。论文提出用“区分能力”和“特异性”两个独立指标评估奖励模型，并描述一种无训练算法：对神经奖励模型应用蒙特卡洛 dropout 生成离散奖励簇。理论证明存在离散化方案能在最小损失区分能力的前提下降低过度敏感性，实验表明离散化奖励比原始奖励更能减少奖励作弊、获得更优策略。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

非语言发声中的说话人身份：条件蒸馏与混合专家方法

针对非语言发声（NVV）中说话人身份一致性评估，现有说话人验证（SV）系统泛化差且微调会导致灾难性遗忘。本文提出融合冻结Data2Vec自监督特征与ECAPA-TDNN的框架，并加入带领域感知路由的混合专家（MoE）模块。通过预训练教师模型在语音输入上施加条件蒸馏损失以保持语音验证精度，同时用对比损失弥合语音与NVV的域间差距。该方法将NVV的等错误率（EER）从38.93%降至22.66%，语音EER从13.17%降至9.24%。

arXiv 论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

67

PrivacyAlign：面向LLM智能体的上下文隐私对齐

PrivacyAlign数据集包含1,350个样本，来自599位标注者的3,516条详细注释，覆盖当前LLM实际泄露隐私的场景。基于这些注释，条件化LLM评审者的人类注释和解释使判断更可靠；标注条件奖励建模在强化学习中评分新响应，训练出的小规模开源权重智能体模型更符合人类隐私规范，在PrivacyAlign和现有智能体隐私基准上取得显著提升。

智能体安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

36

UnityShots：记忆驱动的多镜头音视频生成系统

UnityShots基于LTX-2.3构建，通过记忆驱动实现多镜头音视频生成。视频流维护两个固定大小的记忆插槽：长期记忆（LTM）锚定开场镜头，短期记忆（STM）保存前一段尾部，由边界条件门控（融合视觉剪辑概率与节拍跟踪器信号）在每次剪辑时更新。音频流在每镜头注入参考说话者token以保持音色。离散剪辑类型先验通过AdaLN学习，推理时可调节过渡强度。团队发布包含200个多文化多镜头序列的基准，覆盖6个种族区域和10+语言，附有每镜头参考身份、参考音频和边界标签。在I2V、T2V和R2V条件下，UnityShots在所有跨镜头一致性指标上领先开源基线，并在多镜头维度匹配最强闭源系统。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

38

GPT-4o 辅助游戏重构与功能生成：一项无尽跑酷游戏案例研究

一项基于 GPT-4o 在 Python/Pygame 无尽跑酷游戏中的探索性案例研究，评估了六项开发任务：三项本地化重构和三项游戏玩法功能生成。结果显示，GPT-4o 成功完成了所有重构任务，但仅正确集成了一项新功能。研究表明，在此场景下，GPT-4o 处理局部代码转换比实现跨系统的新交互更可靠，为 LLM 辅助游戏开发提供了透明案例参考。

编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

数据受限语言模型预训练的训练时数据增强解析

针对数据受限、算力充裕场景下标准自回归预训练多轮迭代后严重过拟合的问题，研究引入三类正交训练时数据增强：token级噪声（掩码、随机替换）、序列重排（从右至左预测、Fill-in-the-Middle）及目标偏移预测（预测x_{t+i}, i>1）。消融实验表明，单项增强均能延缓过拟合并降低验证损失，其中随机替换效果最优；组合多种增强可进一步降低最小验证损失。该方法有效缓解了自回归预训练在固定语料上重复训练时的数据效率低下问题。代码与数据已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

分层语言模型（TLM）：在同一权重中分离公共与私有能力

为调和开源权重与敏感能力控制，论文提出分层语言模型(TLM)。一套权重支持多个能力层级：默认公共配置行为与常规LLM一致；紧凑密钥通过指定少量参数的排列，在相同权重上诱导出包含私有能力的替代计算图。在180M和650M参数模型上预训练并微调密钥配置后，密钥配置可获取新语言、指令跟随和私有事实记忆能力，而公共配置完全不展现。该方法自然扩展至多层级，且因授权基于权重结构，可抵抗微调式提取和密钥部分泄露。

安全/对齐开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

Counsel：面向智能体任务的元评估数据集

Counsel是首个公开的智能体任务元评估数据集，包含开源权重LLMJ在tau-bench（客服）和DA-Code（编程）两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”，一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性：最强模型位置标注一致率约88%，推理标注约65%。数据集使用开源权重模型生成并采用宽松许可，可用于校准、改进或训练面向智能体的LLMJ。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

43

ICME 2026 ATTM效率赛道：FluxAudio-S 结合 TuneJury 人类偏好奖励

研究人员在 120M 参数的 FluxAudio-S 骨干上构建管道，引入来自 TuneJury（基于开放音乐偏好数据集的成对排序器）的人类偏好奖励，同时作为训练时条件信号和样本选择标准。五个工程决策包括：训练时奖励条件（兼作推理 CFG 轴）、五种分数条件架构扫描、对 top decile 专家迭代、短偏好微调 CRPO、以及推理后处理（联合 CFG、源分离、响度归一化）。在 100 个 Song Describer 提示上的逐阶段分解表明，专家迭代贡献最大，训练时奖励条件有效，而偏好微调仅带来噪声级增益。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

DataClaw_0-9B：从原始流中智能体化定制多模态数据

DataClaw_0-9B提出主动智能体化数据定制范式，将数据处理提升为可学习能力。通过两阶段pipeline将生成语义合成锚定于确定性事实锚点，构建覆盖五个物理与数字域的大规模数据集，并采用SFT与GRPO实现与复杂定制意图对齐。同时构建首个数据精炼基准DataClaw_0-val，在视频生成、真实世界VQA与GUI导航下游任务中验证了其提供高信息密度数据的能力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

PoLAR：将潜在动作中的程度和模式分解用于机器人策略学习

PoLAR 在潜在动作空间上施加径向结构，使半径编码过渡程度、方向保留过渡模式。利用两帧观测间的时间偏移作为过渡程度的弱代理，在双曲空间中实例化，借助其随半径膨胀的体积容纳更大程度下的多样化模式。在任务内和大规模预训练中，PoLAR 在仿真和真实机器人实验里提升了下游策略性能，优于潜在动作基线及强预训练 VLA 模型。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

EvoEmbedding：用于长上下文检索和智能体记忆的可演化表征

现有嵌入模型是静态的，孤立编码文本片段，忽略上下文与时间顺序。EvoEmbedding 生成可演化表征，专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆，并与原始内容共同生成演化嵌入，使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索，构建了训练数据集 EvoTrain‑180K，并引入记忆队列防止表征崩塌，结合分段批处理加速训练 3.8 倍。实验表明，该模型在长上下文检索基准上超越更大规模专用模型，并可泛化至上下文长 10 倍的下游任务；集成至简单 RAG 管线即可超越专用智能体记忆系统。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

CalVerT：带校准验证器遥测的智能体在知识密集型任务中提升行动与学习

大语言模型智能体在知识密集型问答中常因无法判断答案是否不确定、无支撑或已完整，导致过早给出自信但无支撑的回答，或在证据足够时过度检索。CalVerT通过向智能体状态注入校准的自信心分数和基础验证器分数，提供更完整的状态空间视图。在四个QA基准上，无需训练即可提升F1，既触发对过度依赖参数知识的检索，又减少冗余检索。经强化学习训练后，添加CalVerT遥测的智能体表现优于同等训练的无遥测系统。

智能体推理论文/研究

07:58

Rohan Paul@rohanpaul_ai

65

OpenAI 新研究：真实情境 RL 训练使模型将安全行为迁移到未训练任务

OpenAI 最新研究显示，在真实人类情境中进行强化学习（RL）训练，可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移：仅用健康数据训练，模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容，模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为，同时保持对有益指令的响应，实现了安全研究期待的非对称性。OpenAI 表示，希望模型在承担更长、更高风险任务时，能将有益安全行为带入新领域并在压力下保持。

OpenAI: As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond...

OpenAI 安全/对齐论文/研究

07:54

Ethan Mollick@emollick

67

Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准，未饱和且含私有保留测试，同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布，测试模型在多周、多任务项目中的能力，输入含数万条 Slack 消息和数千封邮件。模型排名：Claude Fable 5（已不可用）以 1587 Elo 居首，Claude Opus 4.8（1356）第二，GLM-5.2 max（1266）第三。结果凸显难度：最佳模型仅 3% 任务满足全部标准，31/91 任务无模型超过 50%，成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体 Anthropic 推理评测/基准

07:47

HuggingFace Daily Papers（社区热门论文）

51

REVES：基于修订与验证的测试时扩展训练框架

REVES是一种两阶段迭代训练框架，通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示，聚焦于答案变换与错误识别，相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上，使用公开测试用例作为反馈，较RL基线提升+6.5点，较标准多轮训练提升+4.0点。在circle packing任务上，仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。

arXiv GitHub 推理数据/训练

05:55

OpenAI：Alignment 研究博客（RSS）

精选64

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测（包括奖励黑客、欺骗、有害建议、规范遵从等）上均表现提升，且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下，模型仍难以被导向有害行为，表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 这个对齐实验给出了一个反直觉发现，只在健康数据上训练有益行为竟然也能改善非健康领域的对齐，而且更难被攻破，虽然离落地还远但方向很关键。

05:53

OpenAI@OpenAI

62

随着AI承担更长时间、更高风险的任务，我们希望模型能将有益且安全的行为带入训练之外的新领域--并在压力下保持这种行为。这正是我们关于训练模型实现广泛且持久有益的新研究背后的理念。https://alignment.openai.com/beneficial-rl/

OpenAI 安全/对齐论文/研究

02:51

Jeff Dean@JeffDean

49

Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文

Jeff Dean 等 Google 同事发布论文，回顾 TPU v2 到 Ironwood 五代训练超算的演进，将于 2026 年 7/8 月发表于 IEEE Micro。关键变化：TPU v2 采用气冷，v3 起改为水冷；互联从 2D 升级为 3D torus；每 pod 芯片数从 256 增至 9216；每 flop 能效提升约 30 倍。此外，Google 内部工作负载已大幅转向基于 Transformer 的模型。

arXiv Google 数据/训练论文/研究

02:47

Hugging Face：Blog（RSS）

精选75

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息，单纯提示减少泄露几乎没用，而隐私感知训练把泄露率从34%降到9.9%，且不损伤任务表现，做企业级agent产品的团队要重视。

02:23

The Decoder：AI News（RSS）

63

Google Deepmind 发布 AI 控制路线图：将 AI 智能体视为内部威胁，基于行为逐步授权

Google Deepmind 发布“AI 控制路线图”，将内部 AI 智能体视为潜在内部威胁，类比驾驶教练的双重控制，基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架，通过可信 AI 监督系统监控活跃智能体推理与行动，预防系统在危害发生前阻断。在 100 万个编码任务测试中，发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行，可捕捉意外数据删除。安全措施划分为四个检测级别（D1–D4）和三个响应级别（R1–R3）。Deepmind 另发布政策论文《AI 智能体安全三层架构》，覆盖单体、多智能体及生态系统，警告全球安全标准窗口期正在关闭。

智能体 DeepMind 安全/对齐论文/研究

01:24

Rohan Paul@rohanpaul_ai

68

Claude Opus 4.7 编程机器狗：独立完成任务快 20 倍，但未能取球

Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务，约为去年人类团队（借助 Opus 4.1）耗时 264 分钟的 20 倍，代码量从 10,309 行降至 1,045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球，失败原因在于闭环控制——机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码，但实时物理判断仍具挑战。

Anthropic: New Frontier Red Team blog: Phase 2 of Project Fetch, where we test how well Claude can program a robodog. Opus 4.7, on ...

Anthropic 具身智能编码论文/研究

01:21

Anthropic@AnthropicAI

68

New Frontier Red Team 博客：Project Fetch 第二阶段，我们测试 Claude 编程机器狗的能力。 Opus 4.7 单独完成任务的速度比去年最佳人类团队（辅以 Opus 4.1）快约 20 倍。（可惜，机器狗仍然未能取回沙滩球。） https://www.anthropic.com/research/project-fetch-phase-two

Anthropic 具身智能论文/研究

00:55

Noam Brown@polynoamial

35

Noam Brown 发文称，OpenAI 公开 o1 后，有其他实验室研究者认为这是战略失误，应保密以拉开差距。但他引用的最新研究让他确信公开正确：OpenAI 与波士顿儿童医院、哈佛合作，在 NEJM AI 发表研究，展示 o3 Deep Research 帮助临床医生重新审视未解决的罕见儿科疾病病例，为等待多年的家庭找到答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI 推理论文/研究

00:51

Greg Brockman@gdb

51

OpenAI 与波士顿儿童医院、哈佛大学合作，在 NEJM AI 发表研究，使用 o3 Deep Research 重新审视 376 例此前未解的罕见儿科疾病案例，帮助找到 18 种新诊断。其中包含一例 Kyra 自 9 岁起出现肌无力的罕见肌原纤维肌病，在她 28 岁生日前不久得到确诊，为等待多年的家庭提供了答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI 推理搜索论文/研究

00:22

Anthropic：Research（发表成果 · 网页）

精选77

Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中，配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中，Claude Opus 4.7 无需人类协助即完成所有任务，速度比最快人类团队快约20倍，比无 Claude 团队快37倍以上，编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色，但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化，而非针对机器人领域的专项优化。

智能体 Anthropic 具身智能论文/研究

推荐理由：Anthropic 用 Claude Opus 4.7 自主操作机器狗，比当初的人类志愿者快 18-37 倍，代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条，做具身智能和 agent 的人都该看一眼。

6月18日

23:51

elvis@omarsar0

64

OpenAI 推出 LifeSciBench，用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发，包含 750 个专家编写任务，覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读，并指出通用模型在处理复杂结构时仍然失败，而面向科学研究的专用模型表现显著更优。

OpenAI: Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....

OpenAI 评测/基准

1…9 101112 13…50