72
AI 摘要
嗯。 [引用 @METR_Evals]:我们于2026年3月的有限窗口内评估了Claude Mythos Preview的早期版本进行风险评估。在我们的任务套件上,我们估计其50%时间范围至少为16小时(95%置信区间8.5小时至55小时),这处于我们无需新任务即可测量的上限。
Huh.
We evaluated an early version of Claude Mythos Preview for risk assessment during a limited window in March 2026. We estimated a 50%-time-horizon of at least 16...