6月17日

08:00

HuggingFace Daily Papers（社区热门论文）

LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理，使用户能创作高层级布局和轨迹，同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络，并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中，轨迹误差提升1.2倍到3倍，刚性运动一致性提升2倍，遮挡准确率提升1.5倍到2倍，显著优于现有2D盒子和流基线方法。

多模态视频论文/研究

03:52

OpenAI：Alignment 研究博客（RSS）

精选73

公开聊天数据能否预测真实世界AI失调？

OpenAI利用WildChat公开数据集（2023年4月至2024年5月收集的100万条对话）模拟模型部署，预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现，WildChat模拟的平均预测误差约3倍；但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI 安全/对齐论文/研究

推荐理由：用公开旧聊天数据预测模型真实失败率，误差居然在 3 倍以内，做外部审计的可以认真看看。不过 agentic 场景明显不行，需要新数据集。

03:35

Anthropic：Research（发表成果 · 网页）

同事件精选76

Anthropic：智能体编码中专业知识回报持续存在

Anthropic 基于约40万次 Claude Code 交互会话（2025年10月至2026年4月）分析发现：人类主导规划决策（做什么），Claude 主导执行决策（怎么做）。领域专业知识越强，模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近；领域专家成功率更高，但与中级用户差距不大。七个月间调试会话占比下降近一半，使用转向端到端智能体任务（部署运行代码、分析数据、编写非代码文档），典型任务价值平均上升约25%。

智能体 Anthropic 编码论文/研究

同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

推荐理由：这份报告用40万次真实会话数据揭示了一个反直觉发现，决定Agent编码成败的，不是会不会写代码，而是对自己领域问题的理解深度。对非技术背景用AI编程的人和产品经理都是重要信号。

03:25

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI 安全/对齐论文/研究

关联讨论 1 条

推荐理由：虽然只是安全评估方法，但OpenAI用130万真实对话验证，把预部署风险预测误差压到1.5倍，这套方法很可能成为未来模型发布前的标准动作。