4月12日

17:10

Rohan Paul@rohanpaul_ai

美国金融监管机构因 Anthropic Mythos 模型潜在风险召集大银行紧急会议，美联储主席鲍威尔与财长贝森特将其视为系统性威胁，担忧 AI 驱动的新型网络攻击可能冲击银行体系核心。摩根大通 CEO 戴蒙亦警告 AI 将加剧网络安全风险。

Rohan Paul: CNBC: U.S. financial regulators just pulled the biggest banks into an urgent meeting over Anthropic's Mythos model becau...

Anthropic 安全/对齐

04:05

Nathan Lambert@natolambert

开始为 RLHF 书籍搭建代码库，欢迎通过 issues、邮件和评论等方式提交反馈以完善内容。作者提到还需要再购置一台 DGX Spark。

大佬观点安全/对齐数据/训练

4月11日

10:51

Ethan Mollick@emollick

一项对比实验显示，LLM 生成的社区笔记比人工撰写的获得更广泛的跨意识形态认可。来自不同政治光谱的评分者普遍认为，AI 生成的事实核查更有帮助且意识形态偏见更少。

安全/对齐论文/研究

06:38

Rohan Paul@rohanpaul_ai

美监管机构紧急会商Anthropic Mythos模型，评估AI网络攻击威胁

美联储主席Powell、财政部长Bessent与主要银行CEO就Anthropic的Mythos模型召开紧急会议，评估AI驱动网络攻击对银行系统核心的威胁。监管机构将此视为系统性风险。JPMorgan CEO Dimon警告AI将加剧网络风险。Sam Altman预测12个月内将出现重大网络威胁，AI生物恐怖主义正从理论走向现实，可能需要根本性制度变革，但华盛顿尚未准备好。

Rohan Paul: Sam Altman: "In the next year, we will see significant threats we have to mitigate from cyber, and these models are alre...

Anthropic 安全/对齐

06:25

Rohan Paul@rohanpaul_ai

Altman警告：网络攻击与AI生物恐怖威胁迫近

Sam Altman发出严峻警告：未来12个月内或遭遇大规模网络攻击，AI生物恐怖主义正从理论变为现实。随着AI模型能力急剧提升，恐怖组织利用其开发新型病原体的风险已迫在眉睫。Altman指出，应对这些威胁需要彻底重构资本主义体系，但Washington显然尚未准备好接受这种根本性变革。

OpenAI 大佬观点安全/对齐

04:12

Chubby♨️@kimmonismus

美国高级官员（包括 Jerome Powell、Scott Bessent 等）警告，Anthropic 的先进 AI 模型 Mythos 具备极强的系统漏洞发现能力，可能开启网络安全威胁新时代，必须严格限制使用以防滥用。

Anthropic 安全/对齐

4月10日

21:59

Hacker News 热门（buzzing.cc 中文翻译）

OpenAI支持一项旨在限制因人工智能引发的大规模死亡事件所产生法律责任的法案

OpenAI 支持一项新法案，拟豁免 AI 公司因人工智能引发大规模死亡事件的法律责任。该立法若通过，AI 实验室将免于因模型造成严重伤害而被起诉，引发对企业逃避安全责任的担忧。

OpenAI 安全/对齐政策/监管

13:07

Yuchen Jin@Yuchenj_UW

Claude Mythos 以"太危险且可怕"为由，拒绝代用户向 IRS 提交税表。网友借机吐槽：Anthropic 能"杀死"各种功能，为何不能干掉 TurboTax。

Yuchen Jin: Anthropic killed this, Anthropic killed that, why cant Anthropic kill TurboTax

Anthropic 安全/对齐现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

LLM Agents 的多层级指令层级体系

针对 LLM Agents 面临的多来源指令冲突问题，研究者提出 Many-Tier Instruction Hierarchy（ManyIH）范式，突破传统固定少层级的限制，支持任意多权限级别的指令冲突解决。同步发布的 ManyIH-Bench 基准测试包含 853 个任务，要求模型在 46 个真实 agent 场景中处理多达 12 层级的冲突指令。实验表明，当前前沿模型在复杂冲突下准确率仅约 40%，亟需细粒度、可扩展的冲突解决方法。

智能体安全/对齐论文/研究

05:33

Nathan Lambert@natolambert

不要轻信反开放模型的恐慌言论，但承认AI能力发展迅速，未来或需对开放权重模型更谨慎。作者认为Claude Mythos并非触发监管的关键节点，但对此并非完全确信。

Anthropic 大佬观点安全/对齐开源生态

01:45

Nathan Lambert@natolambert

RLHF权威专著即将出版，作者称记录领域基石

作者宣布《Reinforcement Learning from Human Feedback》已完成写作，进入最终制作阶段，预计1-2个月内出版。该书聚焦LLM的核心强化学习方法、直觉与实现，同时涵盖后训练技术及RLHF领域的未解决问题。作者强调，这是记录RLHF领域组织的权威著作，尽管该方向常被AI其他进展掩盖，但其在人机交互中的核心地位使其值得深入探讨，而非追逐易过时的动态话题。

大佬观点安全/对齐数据/训练

01:15

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

佛罗里达州对 OpenAI 及 ChatGPT 展开调查，指控其技术伤害儿童、危及美国人，并声称与近期佛罗里达州立大学枪击案有关。州总检察长警告 AI 可能导致人类生存危机或灭亡，要求追究责任。

Attorney General James Uthmeier: Today, we launched an investigation into OpenAI and ChatGPT. AI should advance mankind, not destroy it. We're demanding ...

OpenAI 安全/对齐政策/监管

4月9日

18:30

Haider.@haider1

OpenAI 计划向少数公司限量开放具备高级网络安全能力的新模型，暂不公开发布，与 Anthropic 限制发布 Mythos 类似。作者质疑这是 PR 噱头，原本期待的是 GPT-5.5 或 GPT-5o 的正式亮相。

Wall St Engine: Axios: OpenAI is planning a staggered rollout for a new model with advanced cybersecurity capabilities, limiting access ...

Anthropic OpenAI 安全/对齐模型发布

10:30

Haider.@haider1

Anthropic 称 Opus 4.6 有 20% 概率具备意识，那 Mythos 在该评估中会得多少分？GPT-5.4 和 Opus 4.6 已在协助 Terence Tao 等学者进行博士级研究，即将发布的 Spud 和 Mythos 又将具备何种能力？

Anthropic 大佬观点安全/对齐推理

01:47

Gary Marcus：The Road to AI We Can Trust（RSS）

如何看待 Anthropic 那份关于 Mythos 的（或许）可怕新报告？

Anthropic 发布了一份关于 Mythos 的新报告，其潜在影响令人担忧。尽管目前可验证的具体事实细节尚不充分，文章建议保持冷静思考，提供了理性评估该报告的出发点，呼吁在获得更多实证信息前避免过度反应，基于现有线索进行审慎分析。

Anthropic 大佬观点安全/对齐

4月8日

22:59

Ethan Mollick@emollick

质疑大型企业 CISO 办公室是否真正重视 Mythos 红队报告的警示。基于 AI 能力扩散历史，恶意行为者将在 6-9 个月内获得类似能力，安全团队所剩时间无几。

安全/对齐