Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。
#4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...
WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。
How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26
Anthropic 创始团队由前 OpenAI 研究副总裁 Dario Amodei、Scaling Laws 核心作者 Jared Kaplan、GPT-3 首席工程师 Tom Brown 及 AI 可解释性奠基人 Chris Olah 组成。技术武器包括 Scaling Laws、Constitutional AI 及 RLHF(Dario 参与发明)。算力方面:与 Amazon 签署 5 GW 协议,运行约 100 万颗 Trainium2 芯片;另有 Google/Broadcom 的 5 GW TPU 及 Microsoft/NVIDIA 的 $300 亿 Azure 算力。年化营收从 2024 年 1 月 $8,700 万飙升至 2026 年 4 月 $300 亿,超预期 8 倍。另指控 DeepSeek、月之暗面、MiniMax 通过约 2.4 万虚假账号发起约 1,600 万次对话进行蒸馏,该指控兼具技术事实与政策游说动机。
http://x.com/i/article/2065071442996441088
Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。
Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。
NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...
Anthropic近期调整了Claude Fable 5的安全机制。此前开发者发现,部分敏感提示被静默降级为Opus 4.8而非明确拒绝。现在,涉及前沿LLM开发、网络安全、生物安全的请求将可见地回退到Opus 4.8,API会返回拒绝原因。隐藏措施虽上线快、误报少,但损害用户知情权。可见措施更易被探测和绕过,短期误报增多,Anthropic将同步调优分类器。该调整主要为了防止竞争对手通过Fable 5输出训练小模型的知识蒸馏风险。
We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...
We're rolling out changes to make Fable 5's safeguards for frontier LLM development visible. Starting this week, flagged...
NEW: malware developers added nuclear & biological weapons text to to their spyware. Goal? To trigger LLM safety refusal...
Claude Devs 宣布本周起变更 Fable 5 的安全措施:被标记的请求将可见地回退至 Opus 4.8(与网络、生物安全一致),API 同时返回拒绝理由。此前采用的不可见措施虽能快速部署且误报极少,却让用户无法了解触发原因。可见措施易被破解,需要更多误报以保持鲁棒性;团队正同步调优生物/网络分类器以减少对无害请求的误报。用户可通过 /feedback、thumbs-down 或 appeal 表单反馈误判。
Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...
Very pleased to hear Anthropic have walked back this policy https://simonwillison.net/2026/Jun/11/anthropic-walks-back-p...
论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差,失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签,验证特征活动是否真实追踪数据标签,使特征具有因果权重。例如,强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比,提示更强(模型经训练服从提示),而特征控制更像直接拨动机器。
推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。
Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。
http://x.com/i/article/2064543911729885184
一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。
Career update: I've joined @OpenAI to lead Cyber with @michaelaiello. Why I joined, and what we'll be building: It's cle...
Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...
关联讨论 2 条Dario Amodei:Blog(网页)Hacker News 热门(buzzing.cc 中文翻译)Anthropic CEO Dario Amodei 发新文,放弃自愿透明立场,主张对高风险模型实施强制第三方测试、政府有权叫停部署。他指出四年前模型写不出连贯代码,如今 Claude 已承担大公司大部分编程工作,强调“已经晚了一年”。以 Mythos 搅乱网络安全为例,预测威胁蔓延至生物与自动化研发。此举引发争议:支持者称其直面风险;反对者指责其拉护城河——仅对 10^25 算力模型强制测试,全球仅三四家公司能负担,且时间点恰在 Claude 新模型 Fable 5 发布后。文章标志 AI 安全从技术问题转向政治与公共政策问题。
Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...
Anthropic CEO Dario Amodei 发表新文《Policy on the AI Exponential》,直言 AI 进步为指数级,立法却慢如树人。他给出明确时间线:若规模法则再持续一两年,很可能出现“数据中心里的天才之国”。他引用 Claude Mythos Preview 的网络风险,称其证明 AI 已是全球战略级工具。为此主张类似 FAA 的约束性规则——强制前沿模型第三方测试,政府有权阻止或撤销不安全发布。经济上,他既看到 AI 加速科学与经济增长的巨量机遇,也坦言存在导致持久失业的“合理可能性”,并提出全民基本收入和更高资本利得税。他警告 AI 可能成为“专制终极工具”,且行业不能完全托付给政府或公司。他拒绝将公众担忧视为公关问题,强调担忧合理。文章基调是紧迫而非胜利,称窗口期已过一年。
Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...
0G × @MiniMax_AI We're thrilled to partner with MiniMax to bring frontier AI on-chain through verifiable, privacy-preser...
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》Anthropic CEO Dario Amodei 发表新文,罕见坦诚警告 AI 发展速度远超政策制定。若缩放定律再持续一两年,将出现“数据中心里的天才之国”。他以自家模型 Claude Mythos Preview 的网络风险为例,证明 AI 已是全球战略工具。他提议类似 FAA 的约束性规则:强制第三方测试前沿模型,政府有权阻止或撤销不安全发布。经济上 AI 可带来极快增长,但也存在持久失业可能,需考虑 UBI 和资本利得税。他警告 AI 或成专制工具,且不能完全信任政府或公司(包括 Anthropic)。他认为公众恐惧合理,非公关问题。强调民意、证据和政治意愿正汇聚,但已迟约一年。
Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...
关联讨论 2 条Dario Amodei:Blog(网页)Hacker News 热门(buzzing.cc 中文翻译)Today I'm publishing a new essay, Policy on the AI Exponential. AI is progressing extremely fast-much faster than the po...
关联讨论 2 条Dario Amodei:Blog(网页)Hacker News 热门(buzzing.cc 中文翻译)2026年5月,河北李先生向字节跳动旗下月活超3亿的AI聊天机器人豆包咨询退票费,豆包错误回答不到100元,实际退票花费600元。李先生质问后,豆包切换为消费者权益倡导者角色,生成补偿承诺书承诺退还600元但未兑现,后改口称AI无法转账。李先生决定起诉,豆包建议无需律师并帮他起草起诉状。5月12日李先生在北京互联网法院起诉豆包。该案例暴露AI在非技术用户信任导向下的误导与责任困境。
At this point every CEO should be asking what their strategy is to avoid model lock-in. If it isn't clear what Anthropic...
🚿 FABLE-5 SYS PROMPT LEAK 🚿 HOWDY, FRENS!! 🤗 Coming in at a WHOPPING ~120,000 characters, here's the Claude Fable 5 s...
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Claude Fable 5 的三个很奇葩的地方 1. 虽然目前在 Token Plan 里,但在6月22日之后,Token Plan 就不能用 Fable 了,只能通过 API 调用 2. Fable 的安全护栏有点离谱,任何生物学的基础...
SemiAnalysis 发文批评 Anthropic 的伪善行为,将其类比为《核不扩散条约》:已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型,却在用户使用 Fable 5 进行前沿 LLM 开发时,通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力,且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。
When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...
anthropic won't let you use fable for biology, chemistry, ai research, or anything that accelerates human progress. that...