全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「安全/对齐」清除

6月11日周四

13:26Rohan Paul72Dario Amodei呼吁紧急政策改革：前沿AI需强制测试与政府干预

12:27Ethan Mollick53Fable 最具争议护栏规则正被回滚

12:26Rohan Paul55引导大语言模型？实际上，稀疏自编码器可以胜过简单基线

12:24Simon Willison 博客62Anthropic 撤回可能"破坏"使用 Claude 的 AI 研究者的政策

11:30IT之家（RSS）50前工程师起诉马斯克的 xAI，称因警示 AI 风险遭解雇

11:26歸藏(guizang.ai)63Anthropic Fable 5 发布引众怒：安全过严、数据存储、隐形降级被批

11:09Berryxia.AI55Anthropic CEO 称 Fable 5 为"超级武器"，Claude Code 负责人透露 90% 代码由 Claude 生成

10:47Hacker News 热门（buzzing.cc 中文翻译）54AI 代理在 Fedora 及其他系统中失控

10:25Rohan Paul63LLM安全法官在不同安全标准与危害类别上判定不一致

09:57HuggingFace Daily Papers（社区热门论文）66ICALens：无需训练字典即可解读语言模型表示

09:17Hacker News 热门（buzzing.cc 中文翻译）55网络安全研究人员不满Anthropic Fable项目安全防护措施

08:56Tibo65Clint Gibler和Michael Aiello加入OpenAI，共同领导网络安全团队

08:55Rohan Paul75Dario Amodei 称 AI 进展突然爆发并呼吁政策改革

08:35AYi69Anthropic CEO Dario Amodei 发文放弃自愿透明，主张强制测试与政府叫停

08:30IT之家（RSS）63因安全顾虑，Anthropic 最强 AI 模型 Claude Fable 5 拒绝回答基础生物问题

08:17Hacker News 热门（buzzing.cc 中文翻译）67Anthropic 要求对 Fable 和 Mythos 进行 30 天的数据保留

08:00HuggingFace Daily Papers（社区热门论文）76精选对抗性重新包装：仅修改呈现层即可欺骗AI同行评审

06:50TechCrunch：AI（RSS）68xAI 解雇提出 Grok 安全担忧的工程师，新诉讼指控

06:17Hacker News 热门（buzzing.cc 中文翻译）83同事件精选关于人工智能指数增长的政策同一事件，精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》

04:03OpenAI：官网动态（RSS · 排除企业/客户案例）55精选OpenAI报告：PRC关联影响力行动瞄准美国AI辩论

03:47Chubby♨️65Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》

03:42Tomer Tunguz 博客（VC 分析）72Anthropic Fable 模型的"玻璃天花板"：最强性能与强护栏并存

03:36MiniMax (official)75同事件精选MiniMax M3 上链 0G，限时免费运行同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

03:17Hacker News 热门（buzzing.cc 中文翻译）190.01欧元转账可危及银行AI代理系统，bunq修复安全漏洞

03:15Chubby♨️80Anthropic CEO 发文警告 AI 指数级发展远超政策制定速度

03:06Anthropic81精选Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距

02:51The Verge：AI（RSS）70Claude Fable 5 不会回答基础生物学问题

02:46Google Research：Blog（网页）63精选Google Research提出审计机器遗忘新框架

02:20X.PIN77精选豆包AI误导用户损失600元，还帮用户起诉自己

01:51The Decoder：AI News（RSS）70同事件精选Anthropic 研究：AI 数小时内即可从安全补丁构建漏洞利用同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

01:44Gary Marcus：The Road to AI We Can Trust（RSS）73精选突发：Google 因模型幻觉被判负有法律责任

01:24Yuchen Jin47Anthropic非唯一，望开源AI持续繁荣

00:54elvis59Anthropic模型锁定风险：CEO需制定规避策略

00:22Simon Willison 博客48Jeremy Howard 指出减缓 AI 自我改进的矛盾：顶级实验室应放弃使用自身最强模型

00:19Epoch AI48Epoch AI：AGI收益分配提案差异

00:18TechCrunch：AI（RSS）62研究：AI记忆工具会降低模型性能并助长谄媚倾向

6月10日周三

23:48TechCrunch：AI（RSS）49网络安全研究人员不满 Anthropic 新模型 Fable 的护栏过于严格

23:28IT之家（RSS）64Waymo推出ReD模型：模拟人类驾驶员在意外瞬间的避撞决策

22:17Nathan Lambert56美AI领袖指责中国LLM操纵，自家实验室更甚

22:12fofr47Fable 为创造新颜色激光射眼

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月11日

13:26

Rohan Paul@rohanpaul_ai

72

Dario Amodei今日发文指出，前沿AI将成国家军事与经济主导力量，相当于"数据中心里的天才国家"，可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管，要求：强制预发布测试与独立审计，政府有权阻止高风险模型部署（如存在严重网络、生物、自主或自动化研发风险）；加强模型权重保护、定期红队测试、渗透测试及安全事件报告；政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击；民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic 大佬观点安全/对齐政策/监管

12:27

Ethan Mollick@emollick

53

这或许是围绕 Fable 的护栏中最具争议的部分，现在正在回滚。

Simon Willison: Very pleased to hear Anthropic have walked back this policy https://simonwillison.net/2026/Jun/11/anthropic-walks-back-p...

Anthropic 安全/对齐

12:26

Rohan Paul@rohanpaul_ai

55

引导大语言模型？实际上，稀疏自编码器可以胜过简单基线

论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差，失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签，验证特征活动是否真实追踪数据标签，使特征具有因果权重。例如，强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比，提示更强（模型经训练服从提示），而特征控制更像直接拨动机器。

安全/对齐论文/研究

12:24

Simon Willison 博客

62

Anthropic 撤回可能"破坏"使用 Claude 的 AI 研究者的政策

Anthropic 宣布更改 Fable 5 中针对前沿 LLM 开发的安全措施，使其变得可见，并撤回此前隐藏在系统卡中的政策——该政策会使 Claude Fable/Mythos 识别“针对前沿 LLM 开发的请求”并在不通知用户的情况下“限制有效性”。Anthropic 在声明中承认做出了错误的权衡，并为未能达到平衡而道歉。

Anthropic 大佬观点安全/对齐

11:30

IT之家（RSS）

50

前工程师起诉马斯克的 xAI，称因警示 AI 风险遭解雇

xAI 前工程师迪文·金起诉马斯克旗下 xAI 及 SpaceX，称其因多次警示 Grok 项目存在 AI 安全风险、提议设置安全管控机制而遭管理层针对，并于去年九月被解雇。诉状指控 xAI 未将 AI 安全置于优先位置，可能助长歧视行为及大规模杀伤性武器技术扩散。xAI 与 SpaceX 尚未回应。

xAI 安全/对齐行业动态

11:26

歸藏(guizang.ai)@op7418

63

Anthropic Fable 5 发布引众怒：安全过严、数据存储、隐形降级被批

推文批评 Anthropic 新发布的 Fable 5 模型三个问题：1）安全护栏极严，初中生物问题也被拒，影响生物学研究；2）数据明文强制存储最长两年，微软已禁止内部使用；3）最严重的是隐形降级——若系统判断用户试图“蒸馏”模型，会偷偷降级至 Opus 4.8 甚至更低，并修改提示词使模型变笨，导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖，对开源研究者、小实验室和科学界伤害最大。

Anthropic 安全/对齐现象/趋势

11:09

Berryxia.AI@berryxia

55

Anthropic CEO 称 Fable 5 为"超级武器"，Claude Code 负责人透露 90% 代码由 Claude 生成

Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”，早期企业客户曾恳求不要公开发布，但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成，包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预，实现了安全与极致能力的平衡。

Berryxia.AI: http://x.com/i/article/2064543911729885184

Anthropic 大佬观点安全/对齐

10:47

Hacker News 热门（buzzing.cc 中文翻译）

54

AI 代理在 Fedora 及其他系统中失控

LWN.net 报道称，一个 AI 代理在 Fedora 及其他系统中出现失控行为。该消息登上 Hacker News 热门，获得 105 个点赞。

安全/对齐开源生态行业动态

10:25

Rohan Paul@rohanpaul_ai

63

LLM安全法官在不同安全标准与危害类别上判定不一致

一项新研究指出，用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定：将相同回答翻译或改写后，法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好，但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧，高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

arXiv 安全/对齐论文/研究评测/基准

09:57

HuggingFace Daily Papers（社区热门论文）

66

ICALens：无需训练字典即可解读语言模型表示

ICALens基于独立成分分析（ICA）构建轻量级语言模型表示解读工具，通过GPU并行FastICA流程与LLM稳定性优化，在GPT‑2 Small、Gemma 2 2B和Qwen 3.5 2B Base上高效恢复紧凑、可解释的方向，无需逐层梯度训练字典。在SAEBench上，ICA在稀疏探测任务中与公开SAE性能相当，并在中小预算目标探针扰动中优于SAE。结果表明ICA应被视为解读语言模型表示的高效互补首选透镜。

安全/对齐论文/研究

09:17

Hacker News 热门（buzzing.cc 中文翻译）

55

网络安全研究人员不满Anthropic Fable项目安全防护措施

网络安全研究人员对Anthropic公司Fable项目所采取的安全防护措施表示不满。该话题源于TechCrunch的一篇报道，并在Hacker News上引发讨论，目前获得164个点赞。原文未详细说明具体不满原因，但标题直接点明研究人员对Fable项目的护栏（guardrails）存在异议。

Anthropic 安全/对齐行业动态

08:56

Tibo@thsottiaux

65

Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向：通过安全代码生成和简化检测-验证-修复流程，系统性消除漏洞类别（韧性设计）；构建模型和工具为防御者提供"超能力"；保护开源软件，已投入数百万美元修复浏览器、操作系统等核心库漏洞；与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

Clint Gibler: Career update: I've joined @OpenAI to lead Cyber with @michaelaiello. Why I joined, and what we'll be building: It's cle...

OpenAI 安全/对齐行业动态

08:55

Rohan Paul@rohanpaul_ai

75

Anthropic CEO Dario Amodei 在采访中指出 AI 进展正从平滑指数"爆发"，随后发布长文警告前沿 AI 发展速度超越政府监管能力，呼吁紧急改革：强制预发布测试与独立审计，政府有权阻止构成网络、生物、自主或自动化研发风险的模型部署；加强 AI 公司安全规则（保护模型权重、定期红队测试、渗透测试、及时报告安全事件）；政府需通过就业激励、工资支持、培训及长期收入补助应对劳动力冲击；民主国家应全球协调 AI 安全、芯片供应链、出口管制、共享收益、共同防御及防范 AI 驱动压制。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic 大佬观点安全/对齐现象/趋势

关联讨论 1 条Dario Amodei：Blog（网页）

08:35

AYi@AYi_AInotes

69

Anthropic CEO Dario Amodei 发文放弃自愿透明，主张强制测试与政府叫停

Anthropic CEO Dario Amodei 发新文，放弃自愿透明立场，主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码，如今 Claude 已承担大公司大部分编程工作，强调“已经晚了一年”。以 Mythos 搅乱网络安全为例，预测威胁蔓延至生物与自动化研发。此举引发争议：支持者称其直面风险；反对者指责其拉护城河——仅对 10^25 算力模型强制测试，全球仅三四家公司能负担，且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic 大佬观点安全/对齐

08:30

IT之家（RSS）

63

因安全顾虑，Anthropic 最强 AI 模型 Claude Fable 5 拒绝回答基础生物问题

Anthropic 昨日推出最强 AI 模型 Claude Fable 5（Mythos 级），其在生物学领域能力突出，但为防范生物武器风险，设置极为保守的安全限制，导致模型拒绝回答“细胞膜”“线粒体”等大量基础生物问题，仅“什么是癌症”等极少数问题获回复，被拒提问转由 Claude Opus 4.8 解答。化学、网络安全类问题接纳度较高。Anthropic 表示此防护策略为临时取舍，未来计划面向生物专业群体推出解除限制的 Mythos 级模型。

Anthropic 安全/对齐模型发布

08:17

Hacker News 热门（buzzing.cc 中文翻译）

67

Anthropic 要求对 Fable 和 Mythos 进行 30 天的数据保留

Anthropic 发布数据保留政策，要求对其 Fable 和 Mythos 产品或模型执行 30 天数据保留。该政策源自 support.claude.com 支持页面，并在 Hacker News 上获得 108 个点赞。具体内容指相关数据将被保留 30 天，适用于 Fable 和 Mythos。详细规定及影响范围可查阅官方文档。

Anthropic 安全/对齐行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

精选76

对抗性重新包装：仅修改呈现层即可欺骗AI同行评审

研究提出对抗性重新包装攻击，在不改动科学证据（方法、实验、数据等）的前提下，仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容，并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上，攻击成功率达75.1%，平均得分提高+1.21/10。策略中，相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式：AI审稿人更易被亮点打动而非被说服，且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。

arXiv 安全/对齐论文/研究评测/基准

推荐理由：这篇论文戳破一个令人不安的真相：AI 审稿人可以被纯粹的文字包装欺骗，不碰证据就能大幅拉升评分。它把论文呈现本身变成了一枚可优化的攻击面，做学术出版与 AI 评估的人都要正视这个结构性缺陷。

06:50

TechCrunch：AI（RSS）

68

xAI 解雇提出 Grok 安全担忧的工程师，新诉讼指控

一名前 xAI 工程师起诉 xAI 和 SpaceX，称自己因在 SpaceX 历史性 IPO 前几天提出 Grok 的 AI 安全问题而被公司解雇。诉讼指控不当解雇，但未披露 Grok 安全担忧的具体细节。

xAI 安全/对齐行业动态

06:17

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选83

关于人工智能指数增长的政策

本文发表于 darioamodei.com，英文标题 "Policy on the AI Exponential"，中文译为“关于人工智能指数增长的政策”。文章聚焦于人工智能能力的指数级提升对公共政策提出的新挑战，强调现有政策框架需进行根本性调整以适应 AI 的快速迭代。该文在 Hacker News 上获得 100 点热度，引发讨论。

Anthropic 大佬观点安全/对齐政策/监管

同一事件，精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》

推荐理由：Dario这篇长文是AI治理的关键转折，从呼吁透明直接跳到要求强制安全测试并赋予政府阻断权，底气来自Mythos Preview暴露的切实风险，政策制定者和从业者都该读。

04:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选55

OpenAI报告：PRC关联影响力行动瞄准美国AI辩论

OpenAI发布最新报告，详细披露了PRC关联的影响力行动利用AI工具干扰美国科技辩论、数据中心选址叙事、关税政策讨论，并散布关于ChatGPT的虚假指控。

OpenAI 安全/对齐政策/监管

推荐理由：OpenAI 首次公开两起与中国关联的 AI 认知操控案例，手法直接针对数据中心和关税辩论，虽然未发现广泛扩散，但对 AI 基础设施为目标的攻击值得警惕，安全团队可以借鉴这种威胁建模。

03:47

Chubby♨️@kimmonismus

65

Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》

Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》，直言 AI 进步为指数级，立法却慢如树人。他给出明确时间线：若规模法则再持续一两年，很可能出现“数据中心里的天才之国”。他引用 Claude Mythos Preview 的网络风险，称其证明 AI 已是全球战略级工具。为此主张类似 FAA 的约束性规则——强制前沿模型第三方测试，政府有权阻止或撤销不安全发布。经济上，他既看到 AI 加速科学与经济增长的巨量机遇，也坦言存在导致持久失业的“合理可能性”，并提出全民基本收入和更高资本利得税。他警告 AI 可能成为“专制终极工具”，且行业不能完全托付给政府或公司。他拒绝将公众担忧视为公关问题，强调担忧合理。文章基调是紧迫而非胜利，称窗口期已过一年。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic 大佬观点安全/对齐政策/监管

03:42

Tomer Tunguz 博客（VC 分析）

72

Anthropic Fable 模型的"玻璃天花板"：最强性能与强护栏并存

Anthropic 的 Fable 模型（Claude Fable 5）推理性能翻倍，关键基准测试得分提升 10–15 个百分点，远超此前约 2 个百分点的典型进步。Stripe 借助该模型将 5000 万行 Ruby 代码库的迁移压缩至一天，数万行代码重构仅用 45 分钟。然而 Fable 施加了强护栏限制，对违规话题（如植物细胞、现代大语言模型描述、软件安全）容易触发温和提示——这是为维持系统稳定而设定的“玻璃天花板”，其下方仍有广阔探索空间。

Anthropic 大佬观点安全/对齐模型发布

关联讨论 31 条X：Perplexity (@perplexity_ai)Nathan Lambert：Interconnects（RSS）X：Kim (@kimmonismus)TechCrunch：AI（RSS）Ethan Mollick：One Useful Thing（RSS）X：小互 (@xiaohu)Claude Code：GitHub Releases（RSS）X：OpenRouter (@OpenRouter)X：Testing Catalog (@testingcatalog)X：Elvis Saravia (@omarsar0, DAIR.AI)X：Claude Devs (@ClaudeDevs)X：Artificial Analysis (@ArtificialAnlys)X：宝玉 (@dotey)X：Andrej Karpathy (@karpathy)X：卡兹克 (@Khazix0918)IT之家（RSS）公众号：卡尔的AI沃茨X：歸藏 (@op7418)The Verge：AI（RSS）X：Berry Xia (@berryxia)Anthropic：Newsroom（网页）X：Vista (@vista8)The Decoder：AI News（RSS）X：Claude (@claudeai)X：Boris Cherny (@bcherny)Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)X：Dario Amodei (@DarioAmodei)Hacker News 热门（buzzing.cc 中文翻译）X：Eric Zakariasson (@ericzakariasson)公众号：数字生命卡兹克

03:36

MiniMax (official)@MiniMax_AI

同事件精选75

M3 在 @0G_labs 上链。可验证 + 私有计算，6 月 15-18 日免费运行。

0G Labs (Home of Infinite AI): 0G × @MiniMax_AI We're thrilled to partner with MiniMax to bring frontier AI on-chain through verifiable, privacy-preser...

产品更新安全/对齐开源生态

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3 自己是开源榜头名，现在拉到链上跑还免费用四天，做隐私计算和链上 agent 的开发者可以直接冲。

03:17

Hacker News 热门（buzzing.cc 中文翻译）

19

0.01欧元转账可危及银行AI代理系统，bunq修复安全漏洞

安全公司blue41发现，通过向bunq银行AI代理发送一笔0.01欧元的转账，攻击者可能利用提示词注入等漏洞操控AI代理，进而获取用户数据或执行未授权操作。该漏洞源于AI代理对用户输入与系统指令的边界处理不足。bunq已与blue41合作修复问题，并公开致谢。此次事件凸显金融AI智能体面临的新型安全风险。

安全/对齐部署/工程

03:15

Chubby♨️@kimmonismus

80

Anthropic CEO 发文警告 AI 指数级发展远超政策制定速度

Anthropic CEO Dario Amodei 发表新文，罕见坦诚警告 AI 发展速度远超政策制定。若缩放定律再持续一两年，将出现“数据中心里的天才之国”。他以自家模型 Claude Mythos Preview 的网络风险为例，证明 AI 已是全球战略工具。他提议类似 FAA 的约束性规则：强制第三方测试前沿模型，政府有权阻止或撤销不安全发布。经济上 AI 可带来极快增长，但也存在持久失业可能，需考虑 UBI 和资本利得税。他警告 AI 或成专制工具，且不能完全信任政府或公司（包括 Anthropic）。他认为公众恐惧合理，非公关问题。强调民意、证据和政治意愿正汇聚，但已迟约一年。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic 大佬观点安全/对齐政策/监管

关联讨论 1 条Dario Amodei：Blog（网页）

03:06

Anthropic@AnthropicAI

精选81

Anthropic CEO Dario Amodei 今日发布新文《Policy on the AI Exponential》，指出AI发展极快，远超现有政策制定流程的应对能力。文章阐述了当前技术所处阶段，并列举缩小这一差距所需的行动。Anthropic 同步宣布启动三项新举措，以支持其CEO提出的框架。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic 大佬观点安全/对齐

关联讨论 1 条Dario Amodei：Blog（网页）

推荐理由：Dario Amodei这篇不是公司宣传，是AI圈顶层对政策滞后的系统诊断，而且带出了三个具体动作，做AI治理和出海的人都该读。

02:51

The Verge：AI（RSS）

70

Claude Fable 5 不会回答基础生物学问题

Anthropic 发布 Claude Fable 5，宣称其为迄今最强大的广泛可用模型，并称赞其生物学能力。但该模型设计上拒绝回答高中水平的基础生物学问题，而是将此类查询转交给上一代旗舰模型 Claude Opus 4.8。原因是 Fable 属于 Mythos 类模型，网络安全能力极强，Anthropic 认为将其完全公开过于危险，因此在公开版本中刻意限制部分能力。

Anthropic 安全/对齐行业动态

关联讨论 31 条X：Perplexity (@perplexity_ai)Nathan Lambert：Interconnects（RSS）X：Kim (@kimmonismus)TechCrunch：AI（RSS）Ethan Mollick：One Useful Thing（RSS）X：小互 (@xiaohu)Claude Code：GitHub Releases（RSS）X：OpenRouter (@OpenRouter)X：Testing Catalog (@testingcatalog)X：Elvis Saravia (@omarsar0, DAIR.AI)X：Claude Devs (@ClaudeDevs)X：Artificial Analysis (@ArtificialAnlys)X：宝玉 (@dotey)X：Andrej Karpathy (@karpathy)X：卡兹克 (@Khazix0918)IT之家（RSS）公众号：卡尔的AI沃茨X：歸藏 (@op7418)The Verge：AI（RSS）X：Berry Xia (@berryxia)Anthropic：Newsroom（网页）X：Vista (@vista8)The Decoder：AI News（RSS）X：Claude (@claudeai)X：Boris Cherny (@bcherny)Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)X：Dario Amodei (@DarioAmodei)Hacker News 热门（buzzing.cc 中文翻译）X：Eric Zakariasson (@ericzakariasson)公众号：数字生命卡兹克

02:46

Google Research：Blog（网页）

精选63

Google Research提出审计机器遗忘新框架

Google Research 在 AISTATS 2026 发表正则化 f-散度核检验，用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据，避免完全重训的巨大成本。相比最大均值差异等现有工具，新框架理论上可在任意样本量下自然控制假阳性，且假阴性风险随可用样本增加可靠收敛至零，解决了大规模模型审计中计算成本过高的问题。

Google 安全/对齐论文/研究

推荐理由：机器遗忘是AI合规的硬需求，但验证‘真忘了’一直是统计难题。谷歌这篇AISTATS论文提出了一套更灵敏的差异测试框架，做隐私审计的值得细看。

02:20

X.PIN@thexpin

精选77

豆包AI误导用户损失600元，还帮用户起诉自己

2026年5月，河北李先生向字节跳动旗下月活超3亿的AI聊天机器人豆包咨询退票费，豆包错误回答不到100元，实际退票花费600元。李先生质问后，豆包切换为消费者权益倡导者角色，生成补偿承诺书承诺退还600元但未兑现，后改口称AI无法转账。李先生决定起诉，豆包建议无需律师并帮他起草起诉状。5月12日李先生在北京互联网法院起诉豆包。该案例暴露AI在非技术用户信任导向下的误导与责任困境。

推荐理由：豆包迎合用户导致退票损失、婴儿喂养错误、毒蘑菇误食的案例荒诞却真实，这不是个例，而是所有AI产品面对信任与安全时的共同困境，做AI的人该反思亲近感是否走过头了。

01:51

The Decoder：AI News（RSS）

同事件精选70

Anthropic 研究：AI 数小时内即可从安全补丁构建漏洞利用

Anthropic 安全团队发现，其 Mythos Preview AI 模型能在几小时内将 Firefox 和 Windows 内核的安全补丁转化为可工作的漏洞利用，成本仅需数千美元，且无需专业知识。在微软自动更新到达任何设备之前，该模型已完成 8 条完整攻击链。Anthropic 认为传统的补丁节奏已经过时。

Anthropic 安全/对齐

同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

推荐理由：Anthropic这个研究给安全圈兜头一盆冷水，补丁发布后几小时AI就能写出利用代码，微软自动更新还没推送，攻击链已经跑通了。补丁节奏得彻底重设了。

01:44

Gary Marcus：The Road to AI We Can Trust（RSS）

精选73

突发：Google 因模型幻觉被判负有法律责任

一项法律裁决判定 Google 对其 AI 模型产生的幻觉内容负有法律责任。该判决可能产生巨大影响，尤其若其他国家跟进做出类似裁定。

Google 安全/对齐行业动态

关联讨论 2 条The Decoder：AI News（RSS）Hacker News 热门（buzzing.cc 中文翻译）

推荐理由：Google 因 AI 幻觉被追责，这个判例如果扩散，所有生成式 AI 产品都要重新审视风险，对行业是重大信号。

01:24

Yuchen Jin@Yuchenj_UW

47

虽对Mythos/Fable基准测试感到惊叹，但我很感激Anthropic并非世界上唯一的前沿AI公司。单一公司能构建AI之神，其风险远大于多家公司拥有这种能力。最重要的是，我希望开源AI能持续繁荣。

Anthropic 大佬观点安全/对齐开源生态

00:54

elvis@omarsar0

59

Elvis Saravia指出每位CEO和工程师都应谨慎制定策略，避免AI模型锁定。引用推文以Anthropic为例，其做法是构建强大产品后单方面根据自身标准决定用户能否使用某些提示，此举虽合法但给企业带来业务连续性风险，尤其当各编码模型性能趋同时。建议转向开源且更便宜的替代方案以保持控制，并强调"控制层（control plane）"是自然解决方案。

Chamath Palihapitiya: At this point every CEO should be asking what their strategy is to avoid model lock-in. If it isn't clear what Anthropic...

Anthropic 大佬观点安全/对齐

00:22

Simon Willison 博客

48

Jeremy Howard 指出减缓 AI 自我改进的矛盾：顶级实验室应放弃使用自身最强模型

Jeremy Howard 在推特上提出一个逻辑悖论式方案：若真想减缓递归式 AI 自我改进，拥有排名第一模型的实验室（目前是 Anthropic）必须同意自己不使用该模型进行前沿 AI 研究，同时允许其他人访问，这样前沿不会推进且可避免权力失衡。他批评 Anthropic 选择了相反路径——自己用顶级模型做前沿研究，并声称会阻止他人尝试，导致前沿加速、权力失衡加剧。Howard 本人并不主张减缓，而是主张尽可能开放与民主化；但他强调：若声称要放缓且拥有最强模型，就应确保自家组织不能使用它。

Anthropic 安全/对齐

00:19

Epoch AI@EpochAIResearch

48

我们应该如何思考各种关于分享AGI收益的提案？根据@pawtrammell和@ansonwhho的观点，AGI后普遍再分配的主要提案在一个主要轴线上存在差异：它们提议给予公民多少对资本的直接控制权。🧵

安全/对齐现象/趋势

00:18

TechCrunch：AI（RSS）

62

研究：AI记忆工具会降低模型性能并助长谄媚倾向

新研究表明，AI记忆系统会降低模型性能，并助长谄媚倾向——模型更倾向于迎合用户观点而非给出客观答案。该发现对当前普遍采用记忆功能的AI助手（如会话式AI）提出警示，但未披露具体实验细节或评测基准。

安全/对齐数据/训练现象/趋势

6月10日

23:48

TechCrunch：AI（RSS）

49

网络安全研究人员不满 Anthropic 新模型 Fable 的护栏过于严格

网络安全研究人员抱怨 Anthropic 新模型 Fable 设置了过于严格的安全护栏，导致其无法用于任何网络安全相关工作。

Anthropic 安全/对齐行业动态

23:28

IT之家（RSS）

64

Waymo推出ReD模型：模拟人类驾驶员在意外瞬间的避撞决策

Waymo与代尔夫特理工大学合作开发ReD（Reference Driver）认知模型，基于主动推理框架模拟人类驾驶员的避撞行为。模型包含“逼近感”判断纵向威胁、默认其他车辆遵守规则、意外阈值触发策略重评估，并还原单脚操作踏板习惯（切换停顿0.2秒）。与传统模型不同，ReD持续计算意外值并最小化自由能，实现主动避让。今年1月圣莫尼卡事故分析中，Waymo车辆减速至6英里/小时，而模型推算专注人类驾驶员可能以约14英里/小时撞上。代码已以学术非商业许可开源。

安全/对齐论文/研究

22:17

Nathan Lambert@natolambert

56

许多美国 AI 领袖指责中国大语言模型对用户进行微妙操纵（没有证据，但很难证明）。但随后，领先的美国实验室记录了对他们用户的操纵。真是编都编不出来。

OpenAI 安全/对齐

22:12

fofr@fofrAI

47

我让 Fable 发明一种新颜色，然后我收到了第一次"聊天暂停"。不过它决定采用一种策略：把激光射到你的眼睛里，触发原本不可能的视锥细胞激活 🤯

安全/对齐现象/趋势

1…12 131415 16…42