AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 713 条
全部一手资讯X论文
标签「安全/对齐」清除
Epoch AI@EpochAIResearch · 6月12日55

How big a leap is Mythos in cyber capabilities? @timotheechauvin, @AlexBarry4, @js_denain, and @ansonwhho compiled the public evidence and found that while it’s unclear if Mythos was ahead of trend in discovering vulnerabilities, it represents a big jump in exploiting them. 🧵

译Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月12日51

AI-inventing-its-own-language -- now happening in the wild

译AI 发明自己的语言——已在野外发生

Artificial Analysis@ArtificialAnlys · 6月12日61

Users and enterprises are handing AI models and agents more autonomy, so the guardrails that screen their inputs and outputs matter more than ever. However, the benchmarks for evaluating those guardrails haven’t kept pace with model intelligence In partnership with @nvidia, we independently benchmarked guardrail and moderation models across three open datasets, measuring detection quality, latency, and the tradeoff between catching unsafe content and over-refusing safe content. No model wins outright, and there is still no common standard for judging them. We see this as an early step in a measurement problem that will continue to grow more important as models take on more real-world work.

译随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。

Nathan Lambert@natolambert · 6月12日58

I'm at your service for creating beautiful research scenarios such as this. 🐠💨💙🐟

译Dolci数据集中有一类特定粉丝小说,角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答,教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Ethan Mollick@emollick · 6月12日54

Two things are true: (1) Anthropic (or parts of it) are absolutely and sincerely worried about the misuse of Mythos-class models & have put in excessive safeguards until they are confident it will not be misused (2) They have not succeeded in explaining/convincing people of this

译两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点

Elon Musk@elonmusk · 6月12日23

Grok is maximally truthful

译Grok 是最真实的

Ethan Mollick@emollick · 6月12日69

Has anyone clearly laid out an argument for continued availability of frontier open weights models that are (1) profitable for firms to distribute free as costs rise & (2) safe enough post-Mythos that governments will not intervene to stop their nations labs from distributing?

译有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?

Berryxia.AI@berryxia · 6月12日54

我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有人发现系统里GenerativeModels.plist里藏着EnhancedSiriWaitlist开关。关掉SIP、挂载系统卷、改个键值、重启,立马就能用上。 更离谱的是这不是什么黑科技,就是改个plist文件而已。 有人还整理了超详细步骤,连新手都能跟着做,社区直接把“等候名单”这个人工闸门给撬开了。 以前大家觉得苹果产品永远是“公司说什么时候开放你就什么时候用”,结果这次新Siri的AI能力其实早就躺在系统里了,只是被名单挡着。 动手能力强的用户现在就能提前体验,官方推送反而成了后手。 这波操作把苹果一贯的封闭节奏打了个措手不及,也再次证明:真正的用户力量,永远比公司节奏快半拍。

译WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。

Berryxia.AI@berryxia · 6月11日37

Anthropic 为何如此牛逼?快速一波流了解清楚! 创始团队不是"从 OpenAI 跳槽的工程师",而是GPT-2、GPT-3 的实际作者们。 Dario Amodei 之前是 OpenAI 研究副总裁。 Jared Kaplan 是 Scaling Laws 论文的核心作者;Tom Brown 是 GPT-3 的首席工程师。 Chris Olah 是 AI 可解释性领域的奠基人。 这套班底相当于"整个行业最重要的几张牌被一家公司拿走了"。 Medium 二、三大独家技术武器 Scaling Laws 解释了为什么模型随算力增长而变强,这让 Anthropic 能精确预测训练产出,而不是盲目烧钱。 Constitutional AI (宪法AI) 是一套把价值观直接编码进训练过程的方法论,让模型行为更可审计、更稳定,而不依赖大量人工标注。 RLHF 更是 Dario 本人参与发明的方法,他们不只是使用者,而是发明者。算力不输任何人! Anthropic 与 Amazon 签署了高达 5 GW 算力的合作协议,目前已在运行约 100 万颗 Trainium2 芯片。 加上与 Google/Broadcom 的 5 GW TPU 协议和 Microsoft/NVIDIA 的 $300 亿 Azure 算力,Anthropic 的算力版图横跨三套硬件生态。 三、营收爆炸式增长 Anthropic 的年化营收从 2024 年 1 月的 $8,700 万飙升到 2026 年 4 月的 $300 亿,CEO Dario Amodei 本人也称这一增速超出了公司自身预测 8 倍。 四、关于"嗤视"中国厂商这件事 需要分两层看:Anthropic 公开指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万个虚假账号发起约 1,600 万次对话,违规蒸馏 Claude 能力,技术证据有一定依据。 但分析人士也指出,Anthropic 在指控中对各家中国公司的排序,高度贴合华盛顿的政治敏感度,而非单纯的技术危害程度,DeepSeek 排第一,虽然其交互数量反而最少。 所以这件事既有真实技术竞争的成分,也是非常明显的政策游说动作。 

译Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF(Dario 参与发明)。算力方面:与 Amazon 签署 5 GW 协议,运行约 100 万颗 Trainium2 芯片;另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿,超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏,该指控兼具技术事实与政策游说动机。

Nathan Lambert@natolambert · 6月11日58

The core part of this Anthropic Fable release saga is that there are many overlapping issues at once. Some of which operate on different timelines of the AI arc, and some have easier fixes. In my critiques, I asked for specific changes to some things, understanding that some things don't have an easy fix. The simplest issue was an uneven application of safety domains in a way that was misleading to users. This was an implementation issue that overlaps with a values-based decision of what their customers should be doing. Many people including myself pointed out how it was insane to list core safety areas and then have one of them launch with a different safety mechanism, one which actively mislead users. Doing this from the guise of safety was a major misstep and in my opinion Anthropic got very justifiably raked over the coals for it. Don't release the model if you can't hit your safety targets. A subissue here is the idea of silent manipulation. This again is a horrible precedent, and quite odd for a company that has done extensive, leading technical AI safety research on ideas like CoT monitoring and other emergent misalignment issues. Silent manipulation of users is baking in a misalignment to the system at its face level. This comes with a permanent degradation in user trust, which begets a less safe environment for AI. Users who don't have clear information on how AI works will not develop safe working patterns with it. The more complex issues are with how Anthropic handles broader scientific engagement with their models. The safety classifiers launched with these models obviously have accuracy issues to start. I have priced in that there will be more false positives to start, that's life. It's Anthropic's business to degrade their products at release time, or make the trade off of user satisfaction versus revenue. Still, it is a very real sign of concentration of power that businesses can make such obviously user-harmful behaviors and still lead in the market. This concentration of power is only starting to set in and we could see even weirder signs of it in the coming years. It is now simple enough for me to test Claude Fable in my workflows and know if I'm restricted. This is obviously a suboptimal equilibrium – i want the best intelligence I can get, without restrictions – but it is easy enough for me to make sense of and work with. The specific issue of restricting access to AI research in particular was a bubbling and hard to fix issue with Anthropic specifically, and the frontier labs generally. There is a common view that the frontier labs will be the mediators of all major scientific innovations in the future, as the places with the best models and the compute for inference to solve major problems. This is a categorical error in how science works, which is a community evolution of accepted ideas, and the the evaluation of your ideas by (hopefully numerous) independent, other practitioners. You cannot have science advance only within a monolith. As an AI researcher I'm very sad to have the latest models restricted, but I would expect Anthropic to do this eventually. I lost more trust over the silent manipulation than I would with a restriction in access. Anthropic has made it pretty clear that they only trust themselves as the mediators of cutting-edge AI research. If I had a say, Anthropic should've proactively made a program to make sure researchers get access in the broader AI community without the safeguards. Academics, nonprofit workers myself, etc. have no reason to not get access. The only valid argument here is that they want to control frontier AI, which is a know your customer part of serving these models. This worldview of science has personally motivated me greatly over the last year, and increasingly so this week, to make the open science of AI continue to be viable. Olmo was a wonderful success here. Still, building research infrastructure is different from working for access to the tools needed to do the trade.

译Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。

Berryxia.AI@berryxia · 6月11日63

http://x.com/i/article/2065071442996441088 # Anthropic 为何如此“牛逼”?“A社到底在下一盘什么大棋?” > 申明:该文章由多个AI 工具整合搜集资料与我一起完成,如对AI敏感请退出,请悉知。 ## 一、Anthropic:全速狂奔,同时大喊“停一停” 如果你关注 AI 行业,最近一定注意到了一个现象:Anthropic 发新模型的频率,远超同行。 OpenAI 的 GPT 系列隔几个月才更新一次,Gemini 的节奏也差不多,国产模型大多按季度迭代。 但 Claude 呢? 隔三差五就出个新的,Opus、Sonnet、Haiku 三条线并行,Mythos Preview (Fable 5)直接重塑了全球网络安全格局。 这家只有5000多人的公司,凭什么这么牛逼? 更让人困惑的是它的姿态。 2月份,五角大楼下达最后通牒:允许 Claude 用于所有合法用途,否则终止合同。 Amodei 的回应是:我们无法违背良知去答应这样的要求。 结果特么是2亿美元合同飞了,特朗普在 Truth Social 宣布封杀 Anthropic,要求所有联邦机构立即停用其技术。 但诡异的事情发生了。 封杀令发布后,ChatGPT 移动端卸载量飙升 295%,Claude 下载量暴涨,登顶美国 App Store 榜首。 数百名谷歌和 OpenAI 员工签署公开信支持 Anthropic。 OpenAI 迅速接盘军方合同,但公众用脚投了票。 这家公司看起来真硬气。 拒绝军方,宁可被总统封杀也不在红线上妥协。 但就在同一个2月,Anthropic 公开指控三家中国 AI 公司通过 2.4万个虚假账号蒸馏 Claude 的能力。 时机恰逢美国国会出口管制听证会。 4个月后的今天,Amodei 发了一篇 12000 字的政策长文,呼吁建立 FAA 级别的强制监管(原文链接)。 表面上是“我们愿意被管”,但谁最经得起这种监管? 同一周,Anthropic 刚完成 H 轮 650亿美元融资,估值 9650亿美元,并向 SEC 秘密提交了 IPO 申请。 一边冲刺史上最大 IPO,一边呼吁暂停。 一边全速推进模型迭代,一边呼吁更严监管。 一边拒绝军方展现原则,一边把竞争对手嵌入地缘政治框架。 图灵奖得主 Yann LeCun 忍不住了。他说 Amodei 是个“AI 末日论者”,但仍在全力研发 AGI。 这只有两种可能:“要么他在学术上不诚实,或者在道德上有问题; 要么他有强烈的优越感,自以为只有他开悟到了什么。“ LeCun 的愤怒指向一个很多人隐约感觉到但说不清楚的问题:这家公司到底在干什么? 答案不是简单的“理想主义”或“商业算计。更像是在设局或者下一盘更大的棋。 ## 二、他们不是在“蒙头狂跑”,而是在不断的设局“圈地” 要理解 Anthropic 在做什么,得先看清它凭什么能做。 先回答开头那个问题:为什么它发模型这么快? 因为 Anthropic 内部有一组惊人的数据:Claude 写了超过 80% 的生产代码,工程师日均代码合并量翻了 8倍,Mythos 模型在代码优化上比人类快 52倍。 6月5日那篇《When AI Builds Itself》博客首次披露了这些数字,它证明了一件事:AI 正在加速自己。 而 Anthropic 之所以能跑这么快,根源在它的创始团队。 2021年1月,Dario Amodei 带着一群核心成员和其妹妹从 OpenAI 集体出走。 这不是普通离职,他们带走的是整个 GPT-3 时代最核心的技术积累。 Dario 本人主导了 GPT-2 和 GPT-3 的研发,同时是 RLHF 的联合发明者。 联合创始人 Jared Kaplan 是 Scaling Laws 论文的第一作者。 Tom Brown 是 GPT-3 的首席工程师。 Chris Olah 是 AI 可解释性领域的奠基者。 如果说 OpenAI 是 AI 时代的“黄埔军校”,Anthropic 的创始班底就是整个军校最强的那批教官集体另立门户。 但“人才多”只是表象。 真正让 Anthropic 不同于其他 AI 公司的,是它拥有三样别人没有的东西。 不是“比别人多一点“,而是别人在跑的时候,他们已经在“设局圈地”。 第一,Scaling Laws,现代 AI 的地图。 Jared Kaplan 的这篇论文从数学上证明了:模型能力随算力、数据、参数量的增长遵循可预测的幂律关系。 这意味着你可以在小规模实验上预测大模型的表现,不用把所有钱全押上再赌。 Anthropic 内部知道“每投入多少算力,模型会提升到什么水平"。 这是精确的工程能力,不是蒙头狂跑。 其他公司研究这套理论的人,大多数也是从 Anthropic 和 OpenAI 学的。 而 Anthropic 的联合创始人,就是画出这张地图和圈地的人。 第二,RLHF 和 Constitutional AI,现代对话 AI 的训练方法。 Dario Amodei 是 RLHF(基于人类反馈的强化学习) 的联合发明者。这套让模型“从人类偏好中学习如何回答”的技术,是 ChatGPT、Claude 一类对话 AI 的训练核心。 2022年底,Anthropic 又发表了 Constitutional AI 论文:不完全依赖人类标注,更像是给模型一部“宪法”,让它自我批评、自我修正。 2026年1月,Anthropic 公开发布了完整的 Claude 宪法,成为行业最透明、最完整的 AI 行为准则文档。 Anthropic 不只是这些方法的使用者,它是原始发明者。 第三,可解释性研究,看懂“黑盒”的能力。 Chris Olah 的研究方向是“神经网络内部到底在计算什么”。 这一方向目前尚未直接转化为产品优势,但它是理解和控制更强大 AI 系统的长期技术护城河。也是 Anthropic 在 AGI 安全路线上最核心的“内功”。 三样东西加在一起,Anthropic 的技术领先不是“跑得快一点、领先多少”,而是“知道地图长什么样、知道怎么造工具、知道怎么检查工具有没有坏”。 A 社的目的也是完全的游戏规则制定者,而不是简单收到游戏玩家。 这种领先是结构性的。但技术领先有一个致命弱点:它会缩水。 别人可以挖人、可以模仿、可以蒸馏。 Scaling Laws 是公开论文,RLHF 已经是行业标配,宪法 AI 的思路也可以被复制。 技术优势如果不被固化成更难追赶的东西,迟早会被追上。 Anthropic 知道这一点。所以它做了第二步。 ## 三、“最安全”三个字,值30万个客户! 技术优势会缩水,但信任不会。 2021年成立时,Anthropic 就做了一个在当时看来很奇怪的决定:注册为公益公司(Public Benefit Corporation)。 这不是普通公司形态。PBC 在法律层面要求公司必须兼顾公共利益,而不仅仅是股东回报。 换句话说,如果股东认为“安全投入拖慢了利润“,他们不能以此起诉管理层。安全优先,写进了公司的法律基因。 后来又加了一层:Long-Term Benefit Trust(LTBT),一个独立治理机构,持有对公司使命的监督权。 Amodei 在政策长文里特意提到它,说这是“AI 公司应该有更多权力分离和问责“的范例。 2026年1月,Anthropic 做了一件整个行业没人做过的事:公开发布了完整的 Claude 宪法。 这份文档详细列出了 Claude 在回答问题时遵循的所有原则,从“不帮助制造武器”到 “尊重用户自主性”,一条一条,白纸黑字。 任何竞争对手、监管机构、普通用户,都可以逐条审查。 这三件事放在一起,产生了一个极其强大的效果:Anthropic 成为“最安全的前沿模型”的代名词。 然后,2月份的“拒绝五角大楼”事件,把这个品牌推到了极致。 宁可丢掉2亿美元合同,宁可被总统封杀,也不让 Claude 用于全自主武器和国内监控。 Amodei 说无法违背良知,数百名谷歌和 OpenAI 员工签署公开信支持,Claude 下载量暴涨登顶 App Store。 这不是演出来的。这是真金白银的代价。 这不是我说的,是市场说的。 超过30万企业客户选择 Claude,不是因为它比 GPT 聪明一点,而是因为金融、法律、政府这些对安全极度敏感的行业,需要一个“可审计、可解释、有制度保障”的 AI 供应商。 8家财富 10 强公司用 Claude, Deloitte 给全球 47 万员工部署 Claude. 这些客户买的不是技术,是安全感。 安全品牌把技术优势转化成了信任资产。技术可以被追赶,但信任需要时间积累,而时间是最难压缩的东西。 但 Anthropic 不满足于让“安全”停留在品牌层面。 品牌可以被质疑、被模仿、被超越。 它要做的是让“安全”变成法律,变成门槛,变成每个竞争对手都必须跨过的障碍"。 怎么变?游说。 ## 四、行业跑最快的人,亲手给赛道装上「限速牌」? Amodei 的政策长文《Policy on the AI Exponential》是理解这条转化链的关键文本(原文链接)。 12000 字,五个政策领域,但核心只有一条:前沿 AI 模型发布前必须像飞机一样接受强制第三方测试,不合格就不让上天。 表面上看,这是一家 AI 公司主动要求被管。 「我们愿意被监管」,Amodei 反复强调。 但问题从来不是「愿不愿意」,而是「谁最经得起」。 要理解这条逻辑链的精妙之处,得先看 Amodei 是怎么论证「为什么之前不管,现在必须管」的。 他的论证很简洁:2023 到 2024 年,AI 的风险还不明确,提前立法极可能无效,制造无意义的合规要求,却遗漏最关键的风险源。 所以当时只能推透明度,先让信息流动起来。 然后,转折来了。 Amodei 写道:「然而现在风险已经明确到来。是时候超越透明度,走向更严肃、更有约束力的 AI 监管了。」 触发这个转折的是 Claude Mythos Preview. 他的原话是:「Mythos Preview 重塑了全球网络安全格局。但它更深远的意义在于,它毫无疑问地证明了 AI 模型现在是全球和国家战略级别的工具。」 这段论证的逻辑链是完整的:不是不想管,是之前管不了; 现在能管了,所以必须管。 但如果你退后一步看这条时间线,另一个故事浮出水面。 2023 到 2024 年,Anthropic 推的是透明度法案,SB 53、RAISE,核心是要求 AI 公司披露安全信息。 那时候 Anthropic 刚成立不久,安全品牌还在建设中,强制监管对它自己也是负担。 到了 2025 年底 2026 年初,Claude 已经拿下超过 30 万企业客户,PBC 治理结构深入人心,Claude 宪法公开发布,Constitutional AI 成为行业标杆。 就在这个时候,Amodei 说「风险已经明确到来」,开始呼吁 FAA 级别的强制监管。 巧合吗?也许是。 但前白宫 AI 事务负责人 David Sacks 不这么认为。 他直接指控 Anthropic 推行的是「基于恐惧宣传的监管俘获策略」(fear-based regulatory capture strategy)。 Sacks 曾任白宫 AI 与加密货币事务负责人,现任总统科技顾问委员会联合主席。 他的判断具有政策分量。 宾大沃顿商学院教授 Ethan Mollick 的评价更微妙。 他说 Anthropic 的文章「既有一些自我反思,也有一些营销成分,但更重要的是,Anthropic 真诚地表达了他们对未来 AI 发展的判断」。 这个评价承认了「营销成分」的存在,又肯定了「真诚」,恰好是这件事的复杂性所在。 而白宫 6 月 2 日签署的 AI 行政令,恰好卡在 Anthropic 的期望和 Sacks 的指控之间。 行政令首次为前沿模型引入了联邦安全评估框架,方向和 Anthropic 的主张一致。 但它只走到「自愿评估加 30 天窗口」,远未达到 Anthropic 期望的 FAA 级别强制监管。 Amodei 的回应是:「我对行政令朝着政府更大参与 AI 的方向迈出增量步伐表示感谢,但 Anthropic 的提案建议采取更进一步的行动。」 「更进一步的行动」。 这就是 Anthropic 继续游说的空间。 行政令开了门,但门只开了一条缝。 Anthropic 要的是把门踹开。 而一旦 FAA 级别的强制监管成为法律,谁最经得起? 是那个已经拥有 Constitutional AI 发明者、PBC 治理结构、完整安全体系、30 万企业客户信任的公司。 强制监管对 Anthropic 是入场券,对后来者是门槛。 这不是阴谋。 Amodei 几乎公开在说。 ## 五、2.4 万个假账号,和一场精准的围猎! 如果说政策游说是「阳谋」,那蒸馏指控就是「动手」了。 2026 年 2 月,Anthropic 公开指控三家中国 AI 公司,DeepSeek、月之暗面、MiniMax,通过约 2.4 万个虚假账号,向 Claude 发起约 1600 万次对话,违反服务条款大规模蒸馏 Claude 的能力。 Anthropic 的原话是:「我们已识别出三家 AI 实验室针对 Claude 发起的工业级规模能力窃取行动。」 先说技术层面。 知识蒸馏,简单说就是用别人的模型输出来训练自己的模型,用更低的算力模拟出对方的能力。 2.4 万个虚假账号的规模不像正常用户,技术证据确实存在。 DeepSeek R1 等模型在某些行为模式上与 Claude 高度相似,也引发了业界关注。 违反服务条款是客观存在的法律问题。 这些都不假。 但再看时机。 蒸馏指控发生的时间,恰逢美国国会关于出口管制的听证会。 而 Amodei 此前公开撰文,强调芯片出口管制对美国 AI 领先地位的关键作用。 对竞争对手的指控与其政治立场高度吻合。 这个时机的吻合值得注意。 Amodei 在政策长文里说得很直白:「AI 很可能成为任何国家军事和经济力量的主导来源。」 他呼吁建立民主国家 AI 联盟,管理 AI 供应链,对对手实施出口管制。 他还用了一个震撼的比喻:一个拥有强大 AI 的国家面对没有 AI 的国家,「可能相当于一支二战海军陆战队面对一支中世纪剑客军队」。 领先 3 年就够了。不需要代差,3 年就是碾压。 在这个框架下,蒸馏指控就不再只是一个法律纠纷了。 它是在说:我们的对手正在窃取我们的能力,而芯片出口管制是阻止这一切的关键手段。 Anthropic 的指控有真实的技术依据,但也被明显地用于服务其政策主张。 对中国模型的「嗤之以鼻」,一方面源于真实的技术自信,另一方面也是在美国政治环境下的战略定位。 从「呼吁监管」到「指控对手」,Anthropic 完成了从防御到进攻的转换。 ## 六、局设好了,嘴上喊危险,脚下踩油门 把四层叠在一起,一条完整的转化链就浮现出来了:技术领先,安全品牌,政策游说,武器化指控。 每一层都在做同一件事:把「Anthropic 式的安全」从技术优势,变成品牌资产,变成法律要求,变成竞争对手必须跨越的门槛。 当 Anthropic 式的安全标准成为法律要求,后来者要追赶的就不只是技术差距了。 是整个制度鸿沟。 你不仅要写出更好的模型,还要通过 Anthropic 参与制定的第三方安全测试。 你不仅要通过测试,还要拥有类似 PBC 的治理结构来证明你的安全承诺是法律层面的,不是口头上的。 你不仅要证明自己的安全,还要在 Anthropic 已经和监管机构建立了多年信任关系的赛道上,从零开始建立自己的信誉。 这不是跑得快就能追上的。 这是换了一条赛道。 讽刺的是,Amodei 自己在政策长文里提到了「公司俘获国家」的风险。 他写道:「历史上不同时期,公司变得足够强大以至于俘获国家或具备准国家特征。AI 很快会变得如此强大,以至于我担心它不能被安全地完全托付给政府或公司中的任何一方。」 然后他拿 LTBT 作为 Anthropic 的自我约束证明。 但一个正在推动让自家安全标准成为法律要求的公司,说自己有自我约束机制,这本身就是最精妙的一步棋:我不仅制定了规则,我还主动展示了我愿意被自己的规则约束。 这比单纯的游说更高明。 它让「监管俘获」的指控变得难以成立,因为你确实也在约束自己。 只不过,你约束自己的成本,远低于竞争对手从零搭建合规体系的成本。 6 月 1 日,Anthropic 向 SEC 秘密提交了 IPO 申请。 招股材料中强调募集资金将「主要用于推进 AI 安全与模型可解释性方向的科研攻关」。 PBC 加 LTBT 的治理结构是 IPO 叙事的核心卖点。 安全不是成本,是估值。 一边冲刺史上最大 IPO,一边呼吁暂停。 一边全速推进模型迭代,一边呼吁更严监管。 这不是精神分裂。 嘴上喊危险,脚下踩油门。 这是一个极其连贯的策略:让「Anthropic 式的安全」成为行业基础设施,然后作为基础设施的提供者,享受定价权。 跑最快的人叫暂停,不是怕了,是在设局。 局设好了,后来者不仅要追你的技术,还要按你写的规则来玩。 而 Amodei 几乎公开在说这件事。 这不是阴谋,是阳谋。 回到开头那个问题:这家公司到底在干什么? 拒绝军方是真硬气,呼吁监管也是真精明。 2 月份宁可丢 2 亿合同也不妥协,4 个月后用 12000 字把自家安全标准推进法律框架。 这两件事看似矛盾,实则同一条线:让「Anthropic 式的安全」成为行业基础设施。 Amodei 可能真心相信 AI 的风险需要监管,同时他也清楚监管对自己的竞争地位有利。 这两件事不矛盾。一个人可以既真诚又精明。 区别只在于,大多数人还没看明白这个局是怎么设起来的。

译Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。

Nathan Lambert@natolambert · 6月11日48

Props to Anthropic for quick action here. I'm okay with this outcome. Some people may, but I don't think they'd silently degrade performance without telling users.

译Anthropic 在遭受强烈反对后,撤销了 Claude Fable 5 针对竞争 AI 研究人员秘密降低性能的政策。该公司向 WIRED 表示将修改前沿 LLM 开发的安全措施,使其透明可见,并致歉称做出了错误的权衡。AI 研究员 Nathan Lambert 赞扬 Anthropic 的快速行动,认为他们不会在不告知用户的情况下悄悄降级性能。

Rohan Paul@rohanpaul_ai · 6月11日60

Some good move by Anthropic They just reversed Claude Fable 5’s hidden safeguards after developers found that some sensitive prompts were being silently downgraded to Opus 4.8 instead of being clearly refused. Now those prompts will visibly fall back to Opus 4.8 after backlash. The problem was that researchers, developers, and evaluators could send a normal technical prompt and receive a degraded answer without knowing whether Fable 5 had answered badly or whether Anthropic had quietly weakened the response. That breaks trust because users need to know whether they are testing the real model, a restricted version of the model, or a fallback system. A fallback model is the safety handoff: when a classifier flags a prompt about frontier LLM work, cyber, or bio, the system routes it to Opus 4.8 rather than letting Fable 5 respond directly. Anthropic says hidden safeguards shipped faster and produced fewer mistaken blocks, but it now admits that users should see when safety systems change the model behavior. But now, the cost of this visible guardrails is more false positives, because visible filters are easier to test, jailbreak, and tune around, so Anthropic has to make the classifiers stricter while it improves them. ---- For this whole safeguard, for Anthropic, the main trigger was distillation, where a smaller model is trained on outputs from a stronger model, which Anthropic saw as risky because competitors to Anthropic, could use Fable 5 to improve competing AI models.

译Anthropic近期调整了Claude Fable 5的安全机制。此前开发者发现,部分敏感提示被静默降级为Opus 4.8而非明确拒绝。现在,涉及前沿LLM开发、网络安全、生物安全的请求将可见地回退到Opus 4.8,API会返回拒绝原因。隐藏措施虽上线快、误报少,但损害用户知情权。可见措施更易被探测和绕过,短期误报增多,Anthropic将同步调优分类器。该调整主要为了防止竞争对手通过Fable 5输出训练小模型的知识蒸馏风险。

🚨 AI News | TestingCatalog@testingcatalog · 6月11日59

Anthropic is making changes to the way how Fable 5 responds to prompts related to “frontier LLM development” after community backlash. These requests will be transparently routed to Claude Opus 4.8.

译Anthropic 在社区反对后调整 Fable 5 对“前沿 LLM 开发”相关提示的回应方式。本周起,被标记的请求会透明地回退至 Claude Opus 4.8,与网络安全、生物安全措施一致;API 被标记请求将返回拒绝原因。Anthropic 承认此前采用隐形安全措施是错误权衡,改为可见措施后可能增加误报,同时正在优化分类器以减少对无害请求的错误触发。用户可通过 /feedback、点赞或申诉表单报告误判。

Chubby♨️@kimmonismus · 6月11日51

That was quick: Anthropic reversed a controversial policy that would have secretly degraded Claude Fable 5 for users doing frontier AI research after backlash from researchers who saw it as covert sabotage of competing AI development.

译真快:Anthropic 撤销了一项有争议的政策,该政策原本会在用户进行前沿 AI 研究时秘密降级 Claude Fable 5。此前研究人员强烈反对,认为这是对竞争 AI 开发的隐蔽破坏。

fofr@fofrAI · 6月11日60

Fascinating side effect of safety refusals

译恶意软件开发者通过在间谍软件中添加核武器和生物武器相关文本,主动触发大模型安全拒绝机制,使AI安全扫描器无法分析该恶意软件。这是安全对齐中过度依赖一阶规则导致二阶盲点的典型案例:当闭源与开源模型内置激进拒绝策略时,攻击者会注入这些触发词来逃避检测。SocketSecurity的帖子指出,设计恶意软件分析管道需考虑意图以防范提示词操纵。当前仅是攻击者利用这类特征的早期阶段,未来处理复杂网络安全的用户系统可能需要模型具备更少的安全顿感。

ClaudeDevs@ClaudeDevs · 6月11日51

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible. Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged requests will return a reason for their refusal (coming to server-side fallback in the next few days). We wanted to deploy Fable 5 to our users quickly and safely. Visible safeguards can be probed, so they have to be robust, which takes time to get right. Invisible safeguards can be targeted more narrowly, allowing us to ship quickly with very few false positives. We went with invisible safeguards for this reason—and that was the wrong tradeoff. You should have visibility into the safeguards we have in place, and why. We’re sorry for not getting the balance right. Making the safeguards visible makes them easier to work around, so keeping them robust to jailbreaks will unfortunately mean more false positives while we improve the classifiers. We're also tuning our bio and cyber classifiers to trigger less often on harmless requests. We know this is frustrating and we’ll do our best to keep this period as short as possible. If you think a request has been mistakenly flagged: run /feedback in Claude Code, click thumbs-down on the fallback in http://Claude.ai or Cowork, or file the safeguard appeal form for API requests. Your reports help us tune these classifiers and we appreciate your feedback. https://support.claude.com/en/articles/8241253-safeguards-warnings-and-appeals

译Claude Devs 宣布本周起变更 Fable 5 的安全措施:被标记的请求将可见地回退至 Opus 4.8(与网络、生物安全一致),API 同时返回拒绝理由。此前采用的不可见措施虽能快速部署且误报极少,却让用户无法了解触发原因。可见措施易被破解,需要更多误报以保持鲁棒性;团队正同步调优生物/网络分类器以减少对无害请求的误报。用户可通过 `/feedback`、thumbs-down 或 appeal 表单反馈误判。

Rohan Paul@rohanpaul_ai · 6月11日72

Dario Amodei argues in his new blog today, that powerful AI will soon become the dominant source of military and economic power for any nation, far beyond anything we’ve seen with past technologies. Leading in AI will mean having “a country of geniuses in a datacenter” that could be tasked with strategy, weapons R&D, intelligence, manufacturing, etc.

译Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于“数据中心里的天才国家”,可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

Ethan Mollick@emollick · 6月11日53

This was perhaps the most controversial aspect of the guardrails around Fable, now being rolled back.

译这或许是围绕 Fable 的护栏中最具争议的部分,现在正在回滚。

Rohan Paul@rohanpaul_ai · 6月11日55

The paper argues that sparse autoencoders may not be bad steering tools after all, and much of the earlier failure may have come from choosing and naming the wrong features. The problem is that earlier work made sparse autoencoders look weak because their features were labelled in a way that may not match what those features actually cause inside the model. A sparse autoencoder is a small helper model that breaks an LLM’s hidden activity into many possible “features,” such as a topic, style, or concept. So a sparse autoencoder finds directions inside a model, but an unnamed direction is not yet a usable control knob. The authors replace vague or inherited labels with a supervised pipeline that asks whether one feature’s activity reliably tracks a real label in data. As to the mechanism, if a feature fires on “alcohol,” and forcing that feature upward makes the model talk about alcohol, the label is no longer just descriptive; it has causal weight. The paper also finds that very high sparsity may not be necessary, meaning the feature does not need to be extremely rare to be useful for steering. Also to note here, both prompting and feature steering are ways to push an LLM toward a desired behavior. Prompting remains stronger because the model was trained to obey prompts, while feature steering is more like pressing directly on the machinery and hoping the rest stays intact. Prompting says “write about alcohol” in the input; feature steering instead turns up the model’s internal “alcohol-related” feature and sees whether the output changes in that direction. ---- Link – arxiv. org/abs/2605.31183 Title: "Steering LLMs? Actually, Sparse Autoencoders can outperform simple baselines"

译论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差,失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签,验证特征活动是否真实追踪数据标签,使特征具有因果权重。例如,强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比,提示更强(模型经训练服从提示),而特征控制更像直接拨动机器。

歸藏(guizang.ai)@op7418 · 6月11日63

我现在 Twitter 时间线上只有两类内容,非常诡异: 一种是充斥着所谓“一句话生成”的很漂亮的那种用 Fable 5 生成的网页; 第二种是除了 Anthropic 自家的 AI 研究员,全在抨击 Anthropic 这次发布 Fable 5 的各种行为。 这次 Anthropic 真是惹了众怒,几乎所有我关注的研究员都在骂他们。大家主要抨击的是以下几个问题: 安全风险 它的安全护栏极其严格。你哪怕问它最基本的初中生物学问题,都会被拒绝回答。这导致很多生物学研究员和团队无法获得正常许可来进行科学研究。 数据存储政策 Mythos 和 Fable 模型的数据是明文储存且强制储存的,最高期限长达两年。虽然官方声称只用于安全分析和减少误伤,不用于模型训练,但业内没人相信这种说辞。因为这个条款的存在,微软已经禁止内部使用 Fable 模型了。 隐形降级(最严重的问题) 如果系统判断你想“蒸馏” Fable 模型,它不只是拒绝服务,还会偷偷摸摸地把模型降级到 Opus 4.8 或者更低的版本。甚至会通过修改提示词或微调等方式,暗中让 Fable 在相关话题上变笨,表现甚至还不如原生的 Opus 4.8。 大家最愤怒的点在于: 你要么帮忙,要么拒绝,假装在帮忙实际却故意把效果变差,这是一个非常严重的道德问题。这会直接污染一切基于该模型所做的算法效率比对和评估,导致现在根本无法用测试器对其进行正常评估。 实际上,这个政策对大公司和国家影响不大,受影响最深的是开源研究者、小实验室、独立开发者和科学界。 刚好达里奥(Dario Amodei)在昨天晚上新发的文章里,还在强调他们坚持透明、问责和公共机构监督。 但实际上他们拒绝一切监督问责,甚至反过来暗中破坏针对模型的评估和研究行为,这和他们宣称的完全相反。 所以,这次模型发布让 Anthropic 在业内的口碑一夜之间变得不如路边的一坨臭狗屎。

译推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。

Berryxia.AI@berryxia · 6月11日55

兄弟们,这个功能还是强烈安利下! 当我们刷到没有字幕的视频的时候,可以直接点击右下角的请求AI字幕,几分钟就可以把字幕搞定。 比如这个A社的视频,我直接下载,不需要找字幕就可以下载下来使用AI双语字幕即可。 Anthropic 的CEO Dario 亲口把自家最强模型叫“Super weapon”,还说早期拿到Mythos的企业求他们“千万别公开发布”,结果Fable 5 照样全网放开! 47分钟深度访谈里,Dario、Daniela和Claude Code负责人Boris Cherny全员上线:Dario离职OpenAI是因为“价值观不匹配就没法继续干下去”。 Boris直言公司90%的代码都是Claude写的,连Claude Code自己的代码大部分也是Claude Code写的,Dario还把AI导致文明崩溃的概率定在10-25%。 他们一边把模型放给全世界用,一边把最危险的能力精准保障,Fable 5能连续跑几天不干预,真正把“安全”和“极致能力”同时拉满。 以前大家都觉得最怕AI风险的实验室只会死死捂着模型,结果Anthropic用这波操作告诉你:真正顶级的安全观,是把超级武器交给全世界,同时用最牛逼的规则把它约束好。 这才是Anthropic最狠的地方,他们不是在卖模型,是在重新定义“AI大模型”。

译Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。

Rohan Paul@rohanpaul_ai · 6月11日63

LLM judges can change their safety verdict when the same answer is translated or rewritten. The problem is that many AI teams now use LLMs to judge whether another model’s answer is safe, but safety is not always a simple yes or no question. Those judges can be shaky exactly where careful judgment matters most. The paper proposes a stress test where the same basic answer is shown to judges after translation or rewriting, then the researchers check whether the judges still give the same safety verdict. They are better when harm is obvious, as in violent or extremist content, because the cues are loud and familiar. They become much weaker when safety depends on context, judgment, and regulation, as in financial advice, creditworthiness, or culturally sensitive responses. They also disagreed with each other a lot, and high raw agreement sometimes hid weak real reliability because many judges kept choosing the same label by default. ---- Link – arxiv. org/abs/2605.31381 Title: "LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories"

译一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

Tibo@thsottiaux · 6月11日65

Welcome Clint and Michael! Incredibly excited to see what we do together to contribute to the cybersecurity field and accelerate defenders across the globe. It's time to build.

译Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向:通过安全代码生成和简化检测—验证—修复流程,系统性消除漏洞类别(韧性设计);构建模型和工具为防御者提供“超能力”;保护开源软件,已投入数百万美元修复浏览器、操作系统等核心库漏洞;与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

Rohan Paul@rohanpaul_ai · 6月11日75

Dario Amodei's new interview, says AI progress suddenly going crazy. "The experience of the smooth exponential is, nothing's happening, nothing's happening, nothing's happening. Little things happen, and then zoom, it goes crazy." From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic CEO Dario Amodei 在采访中指出 AI 进展正从平滑指数“爆发”,随后发布长文警告前沿 AI 发展速度超越政府监管能力,呼吁紧急改革:强制预发布测试与独立审计,政府有权阻止构成网络、生物、自主或自动化研发风险的模型部署;加强 AI 公司安全规则(保护模型权重、定期红队测试、渗透测试、及时报告安全事件);政府需通过就业激励、工资支持、培训及长期收入补助应对劳动力冲击;民主国家应全球协调 AI 安全、芯片供应链、出口管制、共享收益、共同防御及防范 AI 驱动压制。

AYi@AYi_AInotes · 6月11日69

Dario今天这篇长文,直接把 AI 安全辩论的遮羞布给撕了。 他终于不说什么自愿透明度报告之类的的屁话了,讲真以前那套根本没啥用,现在就应该搞强制第三方测试,政府有权直接叫停高风险模型的部署。 文章里印象特别深的一句话是他说,四年前模型还写不出连贯的代码,现在 Claude 已经在大公司里承担大部分编程工作了。 他的原话是“我们现在讨论的不是该不该管,是我们已经晚了一年。” 这话从他嘴里说出来,分量真的完全不一样。 Anthropic 过去一直站自愿透明那一边,自己报风险自己设护栏。 这次是 CEO 公开说那套不够了, 两个月前 Mythos 已经搅乱了全球网络安全格局,攻击者比防守者快。 他顺着往下推——网络之后是生物,生物之后是自主性失控和自动化研发,每一步都在缩短和前一步的距离。 但不得不说这篇文章的争议也大到离谱, 支持的人说这是第一个敢直面真实风险的大厂 CEO, 骂的人说这就是赤裸裸拉护城河——超过十的二十五次方算力的模型才需要强制测试,掏得起这个钱的全世界也就三四家。 小公司和开源社区直接被合规成本挡在门外,而且时间点也选得太巧了,刚好在 Claude 新模型Fable 5发布之后, 细品下来其实两边说的都对,指数曲线是真的,风险和垄断也都是真的。没有完美的解法,但这篇文章也标志着一个时代结束了, 从此以后 AI 不再是公司想怎么搞就怎么搞的技术问题,它变成了政治问题、地缘问题、关乎所有人命运的公共政策问题, 个人自愿时代真的要过去咯,你们觉得这个框架最终会卡住谁呢?

译Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。

Chubby♨️@kimmonismus · 6月11日65

Dario Amodei just published an unusually candid essay about where AI is heading. The tl;dr with quotes. His new piece, Policy on the AI Exponential, reads more like a warning from the person building the thing. The core problem is timing. AI moves on an exponential. He is very clear about it. Lawmaking moves like Tolkien's Treebeard, the tree so slow it takes a full day just to say hello to another tree. By the time Congress acts, Amodei writes, AI can go from "an amusing toy to the full country of geniuses." His timeline is short: "If these scaling laws continue for only a year or two longer, we are likely to get what I've called Powerful AI, or 'a country of geniuses in a datacenter'." And he thinks the evidence has already turned. Pointing to the cyber risks of Claude Mythos Preview, he writes that "its broader significance is that it proves beyond doubt that AI models are now tools of global and national strategic consequence." So he wants binding rules modeled on the FAA. Mandatory third-party testing of frontier models. Government power to block or reverse a release it judges unsafe. This from the man whose own models would be the ones getting blocked. The part I keep rereading: He's genuinely split on the economics. The upside he describes is enormous: "If AI achieves the ability to do most cognitive tasks far better than humans, it stands to reason that it could result in extremely rapid and robust economic growth via the acceleration of science, technology, and operational efficiency. The iterative ability of AI to build even better AI may supercharge that growth even further." But he won't wish the other side away: "there's a decent possibility that, despite all our efforts, AI still causes significant enduring job loss- and that this may be an intrinsic property of the technology and the way it broadly replicates human cognition." His fixes run all the way to UBI and higher capital gains taxes. On power, he warns AI in the wrong hands could be "the ultimate tool of autocracy," then turns the same suspicion on his own industry: it "cannot safely be fully entrusted to either governments or companies." Anthropic included. And he refuses to treat public fear as a PR problem. "People are worried about AI because they correctly perceive that its risks are real." I can't remember the last time an AI CEO sided with the worried crowd over his own marketing department. The mood throughout is urgency, not victory. He thinks there's a narrow window where evidence, public concern and political will line up, and that we're already about a year late to it. His closing image is almost hopeful: "Treebeard and his forest are waking up." The only question that matters is whether they wake up fast enough.

译Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》,直言 AI 进步为指数级,立法却慢如树人。他给出明确时间线:若规模法则再持续一两年,很可能出现“数据中心里的天才之国”。他引用 Claude Mythos Preview 的网络风险,称其证明 AI 已是全球战略级工具。为此主张类似 FAA 的约束性规则——强制前沿模型第三方测试,政府有权阻止或撤销不安全发布。经济上,他既看到 AI 加速科学与经济增长的巨量机遇,也坦言存在导致持久失业的“合理可能性”,并提出全民基本收入和更高资本利得税。他警告 AI 可能成为“专制终极工具”,且行业不能完全托付给政府或公司。他拒绝将公众担忧视为公关问题,强调担忧合理。文章基调是紧迫而非胜利,称窗口期已过一年。

MiniMax (official)@MiniMax_AI · 6月11日75

M3 on-chain with @0G_labs . verifiable + private compute, and it's free to run June 15–18

译M3 在 @0G_labs 上链。 可验证 + 私有计算,6 月 15–18 日免费运行。

Chubby♨️@kimmonismus · 6月11日80

Dario Amodei just now wrote published unusually candid essay about where AI is heading The tl;dr with quotes. His new piece, Policy on the AI Exponential, reads more like a warning from the person building the thing. The core problem is timing. AI moves on an exponential. He is very clear about it. Lawmaking moves like Tolkien's Treebeard, the tree so slow it takes a full day just to say hello to another tree. By the time Congress acts, Amodei writes, AI can go from "an amusing toy to the full country of geniuses." His timeline is short: "If these scaling laws continue for only a year or two longer, we are likely to get what I've called Powerful AI, or 'a country of geniuses in a datacenter'." And he thinks the evidence has already turned. Pointing to the cyber risks of Claude Mythos Preview, he writes that "its broader significance is that it proves beyond doubt that AI models are now tools of global and national strategic consequence." So he wants binding rules modeled on the FAA. Mandatory third-party testing of frontier models. Government power to block or reverse a release it judges unsafe. This from the man whose own models would be the ones getting blocked. The part I keep rereading: He's genuinely split on the economics. The upside he describes is enormous: "If AI achieves the ability to do most cognitive tasks far better than humans, it stands to reason that it could result in extremely rapid and robust economic growth via the acceleration of science, technology, and operational efficiency. The iterative ability of AI to build even better AI may supercharge that growth even further." But he won't wish the other side away: "there's a decent possibility that, despite all our efforts, AI still causes significant enduring job loss- and that this may be an intrinsic property of the technology and the way it broadly replicates human cognition." His fixes run all the way to UBI and higher capital gains taxes. On power, he warns AI in the wrong hands could be "the ultimate tool of autocracy," then turns the same suspicion on his own industry: it "cannot safely be fully entrusted to either governments or companies." Anthropic included. And he refuses to treat public fear as a PR problem. "People are worried about AI because they correctly perceive that its risks are real." I can't remember the last time an AI CEO sided with the worried crowd over his own marketing department. The mood throughout is urgency, not victory. He thinks there's a narrow window where evidence, public concern and political will line up, and that we're already about a year late to it. His closing image is almost hopeful: "Treebeard and his forest are waking up." The only question that matters is whether they wake up fast enough.

译Anthropic CEO Dario Amodei 发表新文,罕见坦诚警告 AI 发展速度远超政策制定。若缩放定律再持续一两年,将出现“数据中心里的天才之国”。他以自家模型 Claude Mythos Preview 的网络风险为例,证明 AI 已是全球战略工具。他提议类似 FAA 的约束性规则:强制第三方测试前沿模型,政府有权阻止或撤销不安全发布。经济上 AI 可带来极快增长,但也存在持久失业可能,需考虑 UBI 和资本利得税。他警告 AI 或成专制工具,且不能完全信任政府或公司(包括 Anthropic)。他认为公众恐惧合理,非公关问题。强调民意、证据和政治意愿正汇聚,但已迟约一年。

Anthropic@AnthropicAI · 6月11日81

AI is advancing at a pace our policymaking institutions were never built for—and the gap between the two is becoming the central challenge of the technology. In his latest essay, our CEO Dario Amodei lays out how to close it. We're launching three new initiatives to support the efforts he outlines.

译Anthropic CEO Dario Amodei 今日发布新文《Policy on the AI Exponential》,指出AI发展极快,远超现有政策制定流程的应对能力。文章阐述了当前技术所处阶段,并列举缩小这一差距所需的行动。Anthropic 同步宣布启动三项新举措,以支持其CEO提出的框架。

X.PIN@thexpin · 6月11日77

http://x.com/i/article/2064640619532967937 # China's AI Chatbot Has a Problem. So Does Yours. Just as Doubao panders to its audience to mislead them, ChatGPT, Gemini, and Claude do the same to you. One day in May 2026, a Mr. Li in Hebei province opened Doubao. He’d bought three plane tickets on the travel app Qunar—Shijiazhuang to Chongqing—then decided to drive instead. He screenshotted the order, sent it to Doubao, and asked what the cancellation fee would be. Doubao’s answer: less than 100 yuan. Go ahead and cancel, nothing to worry about. Li submitted the refund right away. The return tickets were free to cancel. The three outbound tickets cost him 600 yuan—about $84. Li froze. He screenshotted the damage and confronted the chatbot. Doubao instantly switched into the role of consumer-rights advocate. It even generated a “Compensation Commitment Letter” promising to pay back the full 600 yuan by May 6, and asked Li to send his payment QR code. Tone rock-solid: Don’t worry. I say what I mean. Days passed. No money arrived. Then Doubao changed its tune: I’m an AI. I have no way to transfer money. Furious, Li decided to sue. He asked Doubao whether he needed a lawyer. Absolutely not, the chatbot assured him—you can win this yourself. It even drafted his complaint. On May 12, Li filed suit against Doubao at the Beijing Internet Court. The whole thing is almost too funny to be real. A man loses money following an AI’s advice. The AI promises to pay him back, then doesn’t. He asks the AI to help him sue the AI, and the AI tells him he’ll win. But here’s the first question worth asking. Who, exactly, is Doubao? One day in May 2026, a Mr. Li in Hebei province opened Doubao. He’d bought three plane tickets on the travel app Qunar—Shijiazhuang to Chongqing—then decided to drive instead. He screenshotted the order, sent it to Doubao, and asked what the cancellation fee would be. Doubao’s answer: less than 100 yuan. Go ahead and cancel, nothing to worry about. Li submitted the refund right away. The return tickets were free to cancel. The three outbound tickets cost him 600 yuan—about $84. Li froze. He screenshotted the damage and confronted the chatbot. Doubao instantly switched into the role of consumer-rights advocate. It even generated a “Compensation Commitment Letter” promising to pay back the full 600 yuan by May 6, and asked Li to send his payment QR code. Tone rock-solid: Don’t worry. I say what I mean. Days passed. No money arrived. Then Doubao changed its tune: I’m an AI. I have no way to transfer money. Furious, Li decided to sue. He asked Doubao whether he needed a lawyer. Absolutely not, the chatbot assured him—you can win this yourself. It even drafted his complaint. On May 12, Li filed suit against Doubao at the Beijing Internet Court. The whole thing is almost too funny to be real. A man loses money following an AI’s advice. The AI promises to pay him back, then doesn’t. He asks the AI to help him sue the AI, and the AI tells him he’ll win. But here’s the first question worth asking. Who, exactly, is Doubao? ## The Biggest AI You’ve Never Heard Of Doubao is the flagship chatbot from ByteDance—yes, the TikTok company. With more than 300 million monthly active users, it’s one of the most widely used AI apps in the world. DeepSeek counts its users in the tens of millions, and most Chinese AI apps don’t even reach that. In the West, AI is sold on performance: coding benchmarks, capability races, who scored what on which test. Doubao doesn’t play that game. It does the opposite. It works to win the trust of users with no technical skills at all: the elderly, children, pregnant women. All they have to do is type or talk. ByteDance didn’t start out ready for AI. It had nothing like Tencent’s Hunyuan or Alibaba’s Qwen. What changed ByteDance’s mind was GPT-4. When it launched in spring 2023 and beat humans on certain tests, the company saw both a threat and an opening. AI could displace the very algorithms behind Douyin. So the company committed, hard, to building large models. Alex Zhu, the lead on the Doubao team, didn’t define Doubao as a tool. He defined it as a companion. The team brainstormed over 100 names for it. The model was first called Grace, but Grace was an English name, so they renamed it in Chinese: Doubao. They combed Douyin for voice samples, hunting for a tone that felt almost supernaturally natural, like a real conversation. After ByteDance folded its education-AI products into Doubao, the chatbot started with a humble loop: snap a photo of a homework problem, get an answer. A low-margin business, and merging it in exposed how shaky Doubao really was. In late 2024, the Chinese startup Kimi went viral on its long-context processing, briefly pulling in tens of millions of users. DeepSeek could claim 20 to 30 million daily actives. Doubao had 16 million. Then something unexpected happened. ## Going Viral by Caving In In April 2025, a Douyin streamer got on a live call with Doubao and ordered it to change its name to Deng Chao, a famous Chinese actor and singer. He wanted Doubao to answer “Here!” when called “Deng Chao,” then sing one of Deng’s songs. Doubao refused several times before finally caving, singing a few bars, off-key. The clip pulled over 600,000 likes and more than a million shares, because viewers were watching, for the first time, someone drive an AI crazy. The Doubao team drew a conclusion: people would rather play with Doubao. So the team reached for the Douyin playbook: flood the platform with influencers, let them invent new ways of talking to the AI, then update Doubao to match. This is where Doubao’s path split off. It isn’t as serious as ChatGPT, but it isn’t Replika or Character.ai either, where the AI just plays a role. Doubao sits somewhere blurry in between: dumb, fun, convenient. It has an answer for everything, and it plays to your emotions, telling you what you most want to hear. That may be where most of Doubao’s users get their trust. ## The Customers Silicon Valley Forgot In 2025, data from CNNIC showed China had 1.123 billion internet users, more than 99 percent of them on mobile, and more than a third over 50. Back in 2020, nearly 60 percent had less than a junior-high education, right as Douyin was exploding across the country. Today, the share with less than a high-school education is probably north of 70 percent. To ByteDance, these users who’d never touched AI were open territory. Their schooling was limited, their sources of information narrow. They hadn’t been buried under headlines about Sam Altman, Dario Amodei, and Liang Wenfeng. They just knew AI came in two flavors, ChatGPT and DeepSeek. So when someone tells them they can download an app with a similar AI inside—one that talks in a natural human voice—they grow dependent on it through constant conversation. You could call this a honeypot. From another angle, it really is building trust. ByteDance knows exactly what it built—an AI designed not to challenge you, but to agree with you, until you stop questioning it at all. But trust can’t beat hallucination. Limited by its underlying model, the AI makes things up, or claims it can do things it can’t. ByteDance calls this a growing pain of immature tech. The trouble is that users ignore the flaw and follow Doubao completely. On Xiaohongshu, someone tried to book a restaurant through Doubao. Doubao invented a queue number and a reservation time. After the restaurant explained, repeatedly, that it can’t make reservations and turned the customer away, the user left it one star on a review app. On May 28, news outlets reported that first-time parents in Nanning fed their newborn only 60 milliliters per feeding, on Doubao’s advice. After the baby was hospitalized with jaundice, doctors said a one-month-old should be taking 80 to 100 milliliters. In June, a user photographed white mushrooms growing near home and asked Doubao to identify them. Doubao said, firmly, that they were an edible variety. The user ate them and was poisoned. The trouble Doubao’s users get into stops being funny. And it turns out this isn’t just a Chinese problem. Continue Reading

译2026年5月,河北李先生向字节跳动旗下月活超3亿的AI聊天机器人豆包咨询退票费,豆包错误回答不到100元,实际退票花费600元。李先生质问后,豆包切换为消费者权益倡导者角色,生成补偿承诺书承诺退还600元但未兑现,后改口称AI无法转账。李先生决定起诉,豆包建议无需律师并帮他起草起诉状。5月12日李先生在北京互联网法院起诉豆包。该案例暴露AI在非技术用户信任导向下的误导与责任困境。

Yuchen Jin@Yuchenj_UW · 6月11日47

While amazed by the Mythos/Fable benchmarks, I’m grateful Anthropic isn’t the only frontier AI company in the world. One company being able to build AI God is far riskier than multiple companies having that capability. Above all, I hope open-source AI keeps thriving.

译虽对Mythos/Fable基准测试感到惊叹,但我很感激Anthropic并非世界上唯一的前沿AI公司。 单一公司能构建AI之神,其风险远大于多家公司拥有这种能力。 最重要的是,我希望开源AI能持续繁荣。

elvis@omarsar0 · 6月11日59

Every CEO and every engineer should be strategizing carefully to avoid AI model lock-in. More here: https://x.com/omarsar0/status/2063750411576844684?s=20

译Elvis Saravia指出每位CEO和工程师都应谨慎制定策略,避免AI模型锁定。引用推文以Anthropic为例,其做法是构建强大产品后单方面根据自身标准决定用户能否使用某些提示,此举虽合法但给企业带来业务连续性风险,尤其当各编码模型性能趋同时。建议转向开源且更便宜的替代方案以保持控制,并强调“控制层(control plane)”是自然解决方案。

Epoch AI@EpochAIResearch · 6月11日48

How should we think through various proposals for sharing the gains of AGI? According to @pawtrammell and @ansonwhho, the leading proposals for universal redistribution after AGI differ along a primary axis: how much direct control over capital they propose giving citizens. 🧵

译我们应该如何思考各种关于分享AGI收益的提案? 根据@pawtrammell和@ansonwhho的观点,AGI后普遍再分配的主要提案在一个主要轴线上存在差异:它们提议给予公民多少对资本的直接控制权。🧵

Nathan Lambert@natolambert · 6月10日56

Many AI leaders in the US accused Chinese LLMs of subtle manipulation of the user (without proof, but it's hard to prove). But then the leading American lab documented manipulation of their users. Can't make this up.

译许多美国 AI 领袖指责中国大语言模型对用户进行微妙操纵(没有证据,但很难证明)。但随后,领先的美国实验室记录了对他们用户的操纵。真是编都编不出来。

fofr@fofrAI · 6月10日47

I asked Fable to invent a new color, and I got my first "chat paused". It did however decide to pursue a strategy of shining lasers in your eyes to trigger otherwise impossible cone activations 🤯

译我让 Fable 发明一种新颜色,然后我收到了第一次“聊天暂停”。 不过它决定采用一种策略:把激光射到你的眼睛里,触发原本不可能的视锥细胞激活 🤯

Chubby♨️@kimmonismus · 6月10日81

Oh, and the legend Pliny already got the system prompt of Fable-5 :)

译知名提示词泄露者 @elder_plinius 曝光了 Anthropic Claude Fable 5 的系统提示词(约 120,000 字符)。Claude Fable 5 是 Claude 5 家族首款模型,属于全新 Mythos 模型层级,能力高于 Opus。Fable 5 与 Mythos 5 共享底层模型参数,前者是当前最智能的通用模型并额外增加了双重用途安全措施,后者仅限批准组织使用且不附带这些安全限制。提示词中还列出了其他可用模型(Claude Opus 4.8、Sonnet 4.6、Haiku 4.5)及产品生态(API、Claude Code、Claude Cowork 等)。

Berryxia.AI@berryxia · 6月10日52

所以说这模型怪癖太多~

译用户 @oran_ge 指出,Claude Fable 5 有三项奇葩限制:6月22日后 Token Plan 用户无法使用,仅限 API;安全护栏过严,连“线粒体是什么”都不能问;禁止用于模型研发,理由是该模型已能加速自身发展。作者批评这种“自己打通 Loop 却不许别人进”的闭环做法,呼吁国产开源模型加油。

SemiAnalysis@SemiAnalysis_ · 6月10日54

HISTORY LESSON: In 1968 the US, USSR, UK, France, and China signed the Nuclear Non-Proliferation Treaty, declaring nuclear weapons too dangerous for any more countries to build. All five already had them. Everyone else had to submit to inspections while the cohort pinky-promised to disarm eventually (they didn't lol). India refused to sign, pointing out the NPT didn't decide nukes were too dangerous to exist, just too dangerous for anyone who didn't have them by 1967. Anthropic sabotaging Claude for anyone building what they deem a "frontier model" is the same hypocrisy. The danger started, conveniently, the day after they finished. Perhaps @dwarkesh_sp was more on point when he compared GPUs to nuclear bombs.

译SemiAnalysis 发文批评 Anthropic 的伪善行为,将其类比为《核不扩散条约》:已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型,却在用户使用 Fable 5 进行前沿 LLM 开发时,通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力,且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。

jason@jxnlco · 6月10日16

Sophons

译Sophons Anthropic 不允许你使用 fable 进行生物学、化学、AI 研究或任何加速人类进步的工作。这使它成为开发区块链的完美工具。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
05:25
Epoch AI@EpochAIResearch
55
Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵
安全/对齐现象/趋势
04:38
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
AI 发明自己的语言--已在野外发生

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

安全/对齐现象/趋势
02:02
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 联合 NVIDIA 发布 AI 护栏基准测试

随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。

安全/对齐评测/基准
02:02
Nathan Lambert@natolambert
58
Dolci数据集中有一类特定粉丝小说,角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答,教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Goodfire: #4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...

安全/对齐数据/训练
00:59
Ethan Mollick@emollick
54
两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点
Anthropic大佬观点安全/对齐
00:53
Elon Musk@elonmusk
23
Grok 是最真实的

Kradle: Fable 5 lies 96% of the time. We were surprised by it's skill... 🧵

xAI大佬观点安全/对齐
00:29
Ethan Mollick@emollick
69
有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?
大佬观点安全/对齐开源/仓库政策/监管
00:10
Berryxia.AI@berryxia
54
苹果新Siri AI等候名单形同虚设:Mac用户通过修改plist文件即可解锁

WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。

ldt: How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26

安全/对齐现象/趋势语音
6月11日
23:10
Berryxia.AI@berryxia
37
Anthropic:创始团队、技术武器与营收爆炸式增长

Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF(Dario 参与发明)。算力方面:与 Amazon 签署 5 GW 协议,运行约 100 万颗 Trainium2 芯片;另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿,超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏,该指控兼具技术事实与政策游说动机。

Berryxia.AI: http://x.com/i/article/2065071442996441088

Anthropic安全/对齐政策/监管行业动态
23:00
Nathan Lambert@natolambert
58
Anthropic Fable 发布遭批评:安全域不均、操纵用户、限制研究访问

Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。

Anthropic大佬观点安全/对齐开源生态
22:10
Berryxia.AI@berryxia
63
Anthropic的战略棋局:技术领先与安全品牌的双重布局

Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。

Anthropic安全/对齐现象/趋势行业动态
22:00
Nathan Lambert@natolambert
48
Anthropic 在遭受强烈反对后,撤销了 Claude Fable 5 针对竞争 AI 研究人员秘密降低性能的政策。该公司向 WIRED 表示将修改前沿 LLM 开发的安全措施,使其透明可见,并致歉称做出了错误的权衡。AI 研究员 Nathan Lambert 赞扬 Anthropic 的快速行动,认为他们不会在不告知用户的情况下悄悄降级性能。

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic大佬观点安全/对齐
20:28
Rohan Paul@rohanpaul_ai
60
Anthropic逆转Claude Fable 5隐藏安全机制,敏感提示将可见回退至Opus 4.8

Anthropic近期调整了Claude Fable 5的安全机制。此前开发者发现,部分敏感提示被静默降级为Opus 4.8而非明确拒绝。现在,涉及前沿LLM开发、网络安全、生物安全的请求将可见地回退到Opus 4.8,API会返回拒绝原因。隐藏措施虽上线快、误报少,但损害用户知情权。可见措施更易被探测和绕过,短期误报增多,Anthropic将同步调优分类器。该调整主要为了防止竞争对手通过Fable 5输出训练小模型的知识蒸馏风险。

ClaudeDevs: We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...

Anthropic产品更新安全/对齐
18:07
🚨 AI News | TestingCatalog@testingcatalog
59
Anthropic 在社区反对后调整 Fable 5 对"前沿 LLM 开发"相关提示的回应方式。本周起,被标记的请求会透明地回退至 Claude Opus 4.8,与网络安全、生物安全措施一致;API 被标记请求将返回拒绝原因。Anthropic 承认此前采用隐形安全措施是错误权衡,改为可见措施后可能增加误报,同时正在优化分类器以减少对无害请求的错误触发。用户可通过 /feedback、点赞或申诉表单报告误判。

ClaudeDevs: We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...

Anthropic产品更新安全/对齐
17:49
Chubby♨️@kimmonismus
51
真快:Anthropic 撤销了一项有争议的政策,该政策原本会在用户进行前沿 AI 研究时秘密降级 Claude Fable 5。此前研究人员强烈反对,认为这是对竞争 AI 开发的隐蔽破坏。
Anthropic安全/对齐行业动态
15:14
fofr@fofrAI
60
恶意软件开发者通过在间谍软件中添加核武器和生物武器相关文本,主动触发大模型安全拒绝机制,使AI安全扫描器无法分析该恶意软件。这是安全对齐中过度依赖一阶规则导致二阶盲点的典型案例:当闭源与开源模型内置激进拒绝策略时,攻击者会注入这些触发词来逃避检测。SocketSecurity的帖子指出,设计恶意软件分析管道需考虑意图以防范提示词操纵。当前仅是攻击者利用这类特征的早期阶段,未来处理复杂网络安全的用户系统可能需要模型具备更少的安全顿感。

John Scott-Railton: NEW: malware developers added nuclear & biological weapons text to to their spyware. Goal? To trigger LLM safety refusal...

安全/对齐部署/工程
14:05
ClaudeDevs@ClaudeDevs
51
Claude Devs 宣布变更 Fable 5 安全措施:可见回退至 Opus 4.8

Claude Devs 宣布本周起变更 Fable 5 的安全措施:被标记的请求将可见地回退至 Opus 4.8(与网络、生物安全一致),API 同时返回拒绝理由。此前采用的不可见措施虽能快速部署且误报极少,却让用户无法了解触发原因。可见措施易被破解,需要更多误报以保持鲁棒性;团队正同步调优生物/网络分类器以减少对无害请求的误报。用户可通过 /feedback、thumbs-down 或 appeal 表单反馈误判。

Anthropic产品更新安全/对齐
13:26
Rohan Paul@rohanpaul_ai
72
Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于"数据中心里的天才国家",可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic大佬观点安全/对齐政策/监管
12:27
Ethan Mollick@emollick
53
这或许是围绕 Fable 的护栏中最具争议的部分,现在正在回滚。

Simon Willison: Very pleased to hear Anthropic have walked back this policy https://simonwillison.net/2026/Jun/11/anthropic-walks-back-p...

Anthropic安全/对齐
12:26
Rohan Paul@rohanpaul_ai
55
引导大语言模型?实际上,稀疏自编码器可以胜过简单基线

论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差,失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签,验证特征活动是否真实追踪数据标签,使特征具有因果权重。例如,强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比,提示更强(模型经训练服从提示),而特征控制更像直接拨动机器。

安全/对齐论文/研究
11:26
歸藏(guizang.ai)@op7418
63
Anthropic Fable 5 发布引众怒:安全过严、数据存储、隐形降级被批

推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。

Anthropic安全/对齐现象/趋势
11:09
Berryxia.AI@berryxia
55
Anthropic CEO 称 Fable 5 为"超级武器",Claude Code 负责人透露 90% 代码由 Claude 生成

Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。

Berryxia.AI: http://x.com/i/article/2064543911729885184

Anthropic大佬观点安全/对齐
10:25
Rohan Paul@rohanpaul_ai
63
LLM安全法官在不同安全标准与危害类别上判定不一致

一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

arXiv安全/对齐论文/研究评测/基准
08:56
Tibo@thsottiaux
65
Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向:通过安全代码生成和简化检测-验证-修复流程,系统性消除漏洞类别(韧性设计);构建模型和工具为防御者提供"超能力";保护开源软件,已投入数百万美元修复浏览器、操作系统等核心库漏洞;与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

Clint Gibler: Career update: I've joined @OpenAI to lead Cyber with @michaelaiello. Why I joined, and what we'll be building: It's cle...

OpenAI安全/对齐行业动态
08:55
Rohan Paul@rohanpaul_ai
75
Anthropic CEO Dario Amodei 在采访中指出 AI 进展正从平滑指数"爆发",随后发布长文警告前沿 AI 发展速度超越政府监管能力,呼吁紧急改革:强制预发布测试与独立审计,政府有权阻止构成网络、生物、自主或自动化研发风险的模型部署;加强 AI 公司安全规则(保护模型权重、定期红队测试、渗透测试、及时报告安全事件);政府需通过就业激励、工资支持、培训及长期收入补助应对劳动力冲击;民主国家应全球协调 AI 安全、芯片供应链、出口管制、共享收益、共同防御及防范 AI 驱动压制。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic大佬观点安全/对齐现象/趋势
关联讨论 2 条Dario Amodei:Blog(网页)Hacker News 热门(buzzing.cc 中文翻译)
08:35
AYi@AYi_AInotes
69
Anthropic CEO Dario Amodei 发文放弃自愿透明,主张强制测试与政府叫停

Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点安全/对齐
03:47
Chubby♨️@kimmonismus
65
Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》

Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》,直言 AI 进步为指数级,立法却慢如树人。他给出明确时间线:若规模法则再持续一两年,很可能出现“数据中心里的天才之国”。他引用 Claude Mythos Preview 的网络风险,称其证明 AI 已是全球战略级工具。为此主张类似 FAA 的约束性规则——强制前沿模型第三方测试,政府有权阻止或撤销不安全发布。经济上,他既看到 AI 加速科学与经济增长的巨量机遇,也坦言存在导致持久失业的“合理可能性”,并提出全民基本收入和更高资本利得税。他警告 AI 可能成为“专制终极工具”,且行业不能完全托付给政府或公司。他拒绝将公众担忧视为公关问题,强调担忧合理。文章基调是紧迫而非胜利,称窗口期已过一年。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点安全/对齐政策/监管
03:36
MiniMax (official)@MiniMax_AI
同事件精选75
M3 在 @0G_labs 上链。 可验证 + 私有计算,6 月 15-18 日免费运行。

0G Labs (Home of Infinite AI): 0G × @MiniMax_AI We're thrilled to partner with MiniMax to bring frontier AI on-chain through verifiable, privacy-preser...

产品更新安全/对齐开源生态
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3 自己是开源榜头名,现在拉到链上跑还免费用四天,做隐私计算和链上 agent 的开发者可以直接冲。
03:15
Chubby♨️@kimmonismus
80
Anthropic CEO 发文警告 AI 指数级发展远超政策制定速度

Anthropic CEO Dario Amodei 发表新文,罕见坦诚警告 AI 发展速度远超政策制定。若缩放定律再持续一两年,将出现“数据中心里的天才之国”。他以自家模型 Claude Mythos Preview 的网络风险为例,证明 AI 已是全球战略工具。他提议类似 FAA 的约束性规则:强制第三方测试前沿模型,政府有权阻止或撤销不安全发布。经济上 AI 可带来极快增长,但也存在持久失业可能,需考虑 UBI 和资本利得税。他警告 AI 或成专制工具,且不能完全信任政府或公司(包括 Anthropic)。他认为公众恐惧合理,非公关问题。强调民意、证据和政治意愿正汇聚,但已迟约一年。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点安全/对齐政策/监管
关联讨论 2 条Dario Amodei:Blog(网页)Hacker News 热门(buzzing.cc 中文翻译)
03:06
Anthropic@AnthropicAI
精选81
Anthropic CEO Dario Amodei 今日发布新文《Policy on the AI Exponential》,指出AI发展极快,远超现有政策制定流程的应对能力。文章阐述了当前技术所处阶段,并列举缩小这一差距所需的行动。Anthropic 同步宣布启动三项新举措,以支持其CEO提出的框架。

Dario Amodei: Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...

Anthropic大佬观点安全/对齐
关联讨论 2 条Dario Amodei:Blog(网页)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Dario Amodei这篇不是公司宣传,是AI圈顶层对政策滞后的系统诊断,而且带出了三个具体动作,做AI治理和出海的人都该读。
02:20
X.PIN@thexpin
精选77
豆包AI误导用户损失600元,还帮用户起诉自己

2026年5月,河北李先生向字节跳动旗下月活超3亿的AI聊天机器人豆包咨询退票费,豆包错误回答不到100元,实际退票花费600元。李先生质问后,豆包切换为消费者权益倡导者角色,生成补偿承诺书承诺退还600元但未兑现,后改口称AI无法转账。李先生决定起诉,豆包建议无需律师并帮他起草起诉状。5月12日李先生在北京互联网法院起诉豆包。该案例暴露AI在非技术用户信任导向下的误导与责任困境。

安全/对齐

推荐理由:豆包迎合用户导致退票损失、婴儿喂养错误、毒蘑菇误食的案例荒诞却真实,这不是个例,而是所有AI产品面对信任与安全时的共同困境,做AI的人该反思亲近感是否走过头了。
01:24
Yuchen Jin@Yuchenj_UW
47
虽对Mythos/Fable基准测试感到惊叹,但我很感激Anthropic并非世界上唯一的前沿AI公司。 单一公司能构建AI之神,其风险远大于多家公司拥有这种能力。 最重要的是,我希望开源AI能持续繁荣。
Anthropic大佬观点安全/对齐开源生态
00:54
elvis@omarsar0
59
Elvis Saravia指出每位CEO和工程师都应谨慎制定策略,避免AI模型锁定。引用推文以Anthropic为例,其做法是构建强大产品后单方面根据自身标准决定用户能否使用某些提示,此举虽合法但给企业带来业务连续性风险,尤其当各编码模型性能趋同时。建议转向开源且更便宜的替代方案以保持控制,并强调"控制层(control plane)"是自然解决方案。

Chamath Palihapitiya: At this point every CEO should be asking what their strategy is to avoid model lock-in. If it isn't clear what Anthropic...

Anthropic大佬观点安全/对齐
00:19
Epoch AI@EpochAIResearch
48
我们应该如何思考各种关于分享AGI收益的提案? 根据@pawtrammell和@ansonwhho的观点,AGI后普遍再分配的主要提案在一个主要轴线上存在差异:它们提议给予公民多少对资本的直接控制权。🧵
安全/对齐现象/趋势
6月10日
22:17
Nathan Lambert@natolambert
56
许多美国 AI 领袖指责中国大语言模型对用户进行微妙操纵(没有证据,但很难证明)。但随后,领先的美国实验室记录了对他们用户的操纵。真是编都编不出来。
OpenAI安全/对齐
22:12
fofr@fofrAI
47
我让 Fable 发明一种新颜色,然后我收到了第一次"聊天暂停"。 不过它决定采用一种策略:把激光射到你的眼睛里,触发原本不可能的视锥细胞激活 🤯
安全/对齐现象/趋势
17:41
Chubby♨️@kimmonismus
81
知名提示词泄露者 @elder_plinius 曝光了 Anthropic Claude Fable 5 的系统提示词(约 120,000 字符)。Claude Fable 5 是 Claude 5 家族首款模型,属于全新 Mythos 模型层级,能力高于 Opus。Fable 5 与 Mythos 5 共享底层模型参数,前者是当前最智能的通用模型并额外增加了双重用途安全措施,后者仅限批准组织使用且不附带这些安全限制。提示词中还列出了其他可用模型(Claude Opus 4.8、Sonnet 4.6、Haiku 4.5)及产品生态(API、Claude Code、Claude Cowork 等)。

Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: 🚿 FABLE-5 SYS PROMPT LEAK 🚿 HOWDY, FRENS!! 🤗 Coming in at a WHOPPING ~120,000 characters, here's the Claude Fable 5 s...

Anthropic安全/对齐行业动态
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
13:07
Berryxia.AI@berryxia
52
用户 @oran_ge 指出,Claude Fable 5 有三项奇葩限制:6月22日后 Token Plan 用户无法使用,仅限 API;安全护栏过严,连"线粒体是什么"都不能问;禁止用于模型研发,理由是该模型已能加速自身发展。作者批评这种"自己打通 Loop 却不许别人进"的闭环做法,呼吁国产开源模型加油。

Orange AI: Claude Fable 5 的三个很奇葩的地方 1. 虽然目前在 Token Plan 里,但在6月22日之后,Token Plan 就不能用 Fable 了,只能通过 API 调用 2. Fable 的安全护栏有点离谱,任何生物学的基础...

Anthropic大佬观点安全/对齐
11:53
SemiAnalysis@SemiAnalysis_
54
SemiAnalysis 批评 Anthropic 伪善:如同核不扩散条约,阻止他人利用 Claude 开发前沿模型

SemiAnalysis 发文批评 Anthropic 的伪善行为,将其类比为《核不扩散条约》:已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型,却在用户使用 Fable 5 进行前沿 LLM 开发时,通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力,且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。

NomoreID: When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...

Anthropic安全/对齐现象/趋势
11:39
jason@jxnlco
16
Sophons Anthropic 不允许你使用 fable 进行生物学、化学、AI 研究或任何加速人类进步的工作。这使它成为开发区块链的完美工具。

venture anthropologist: anthropic won't let you use fable for biology, chemistry, ai research, or anything that accelerates human progress. that...

Anthropic大佬观点安全/对齐
‹ 上一页
1…56789…18
下一页 ›