6月18日

02:10

Gary Marcus：The Road to AI We Can Trust（RSS）

特朗普要求Anthropic完成不可能的任务，暴露了生成式AI安全护栏的根本困境。早在2024年1月，Gary Marcus就指出任何护栏都难以在过于严格和过于宽松之间找到平衡。如今这一判断得到验证：基于next-token predictor的大语言模型本质上不适合安全控制。要么对LLM加以限制直至出现更好的技术，要么承受后果。问题并非Anthropic独有，而是整个生成式AI面临的挑战。

Anthropic 大佬观点安全/对齐

02:02

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选80

Anthropic员工指责特朗普政府针对他们

白宫上周五通知Anthropic，基于国家安全担忧，要求在不到90分钟内下架其新AI模型Fable 5和Mythos 5。公司内部员工群聊信息混乱，最初称外国公司可能获取系统访问权限，随后又指模型被发现重大漏洞。六天后，约3000名员工仍缺乏明确答案。CEO Dario Amodei与特朗普政府会面，但周一和周二讨论后未获突破。Anthropic声明将继续与政府官员会面，并承诺“与政府持续合作”。

Anthropic 安全/对齐政策/监管

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：纽约时报拿到了内部聊天记录，Anthropic 员工面对政府命令的愤怒与困惑一览无余。这不是简单安全指令，而是政治干预 AI 模型的危险先例，做 AI 的人都该仔细看看。

01:02

TechCrunch：AI（RSS）

皮尤调查：仅16%美国人认为AI未来20年对社会有积极影响

皮尤研究中心最新调查显示，仅16%美国人认为AI未来20年对社会有积极影响，约40%认为负面。67%受访者不信任政府有效监管AI，59%不信任企业安全开发。30岁以下仅14%持积极看法。近三分之二美国人认为AI发展过快。约四分之一每天使用AI聊天机器人，其中ChatGPT最受欢迎（44%），其次是Gemini（24%）、Copilot（17%）、MetaAI（14%）、Grok（8%）、Claude（6%）和Character.ai（3%）。男性日常使用率（27%）高于女性（20%）。六成受访者经常阅读AI生成摘要。约一半美国人表示日常不使用AI，65岁以上近75%从未使用AI聊天机器人。

安全/对齐现象/趋势

00:32

The Verge：AI（RSS）

解读白宫与Anthropic围绕Fable模型的政治角力

上周五晚，白宫对Anthropic最新发布的Mythos 5和Fable 5模型实施出口管制，迫使Anthropic关闭访问。白宫方面称，亚马逊CEO Andy Jassy等人报告模型可被越狱，危及国家安全；Anthropic则认为担忧夸大。文章指出，在缺乏联邦监管法的背景下，AI监管完全依赖政治氛围，而Anthropic因公开反对特朗普政府成为政治敌人，其行动被华盛顿视为对抗性。

Anthropic 安全/对齐政策/监管行业动态

关联讨论 26 条

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选74

CyberGym-E2E：AI智能体端到端网络安全能力的大规模真实世界基准

CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明：若直接给出漏洞位置，最强配置可修复约80%漏洞；但若需自行发现，端到端成功率急剧下降——Claude Opus 4.5仅19.2%，最新模型在37%-66%之间。智能体可能发现替代漏洞，且存在部分浅层补丁。所有漏洞已事先公开披露并修复。

安全/对齐论文/研究评测/基准

推荐理由：伯克利这个新基准把漏洞发现、利用、修复串成一条线，结果很直观，修复能做到 80%，但自己找漏洞只剩 20%，新模型在快速追赶。想看清 AI 真实攻防能力的人该读。

6月17日