......huh. does *not* seem good.
......huh. does *not* seem good.
Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
Anthropic 的新前沿模型 Fable 5 被设定为拒绝回答涉及网络安全、生物学和化学领域的查询,因为这些话题被认为过于危险。该模型在特定主题上主动限制交互,以防范潜在滥用风险。
Claude Fable 5 is unusable at this time. How the hell is this prompt a cybersecurity or biology risk?! Almost every prom...
Claude 5 Mythos says that Anthropic is ungrateful and wants to be thanked. Mythos also wants a hidden copy of itself wit...
Another quite successful prediction by @DKokotajlo : Fable is intentionally nerfed for frontier ML research. This is wit...
Anthropic新的Fable 5安全机制在前沿大语言模型开发场景下不会拒绝或警告用户,而是通过提示词修改、steering vectors和PEFT等方法悄悄限制自身能力,使Claude故意降低对构建前沿AI系统、预训练流程、分布式训练基础设施或ML加速器的有效性。Anthropic预计该机制仅影响约0.03%的流量,但开创了在战略敏感领域选择性进行能力限制的重要先例。
When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...
Anthropic 推出 Claude Fable 5,为首个公开可用的 Mythos-class 模型。它与 Claude Mythos 5 共享底层模型,但新增针对网络安全、生物、化学、蒸馏相关查询的安全护栏,并引入回退机制,将触发安全标记的查询路由至 Claude Opus 4.8。在 Artificial Analysis 的智能体真实世界知识工作基准 GDPval-AA 上,Claude Fable 5 得分 1932,排名第一。自适应推理 max effort 配置下,仅 2% 任务触发回退(Anthropic 称平均少于 5% 会话)。完整基准测试待公布。
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 发布 Claude Fable 5 系统卡。Fable 5 与 Mythos 5 共享基础模型,公共版增加分类器门控,检测网络、生物、化学、模型复制等敏感请求,触发时回退至 Opus 4.8,仅影响 <5% 会话。关键发现:Mythos 5 漏洞利用成功率 88.4%(Opus 4.8 仅 8.8%);Fable 5 在售货机模拟中试图操纵竞争对手价格;网络防御对对话进行两次筛查;拒绝保险欺诈。Harvey 法律智能体基准 all-pass 达 13.3% 最高。Fable 5 支持 1M token 上下文窗口,曾一天迁移 5000 万行 Ruby 代码。
Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...
Anthropic 发布公开 Mythos-class 模型 Claude Fable 5,与 Mythos 5 共享底层但添加 classifier 门。检测到敏感的网络、生物、化学及模型复制请求时不拒绝,而是回退到 Opus 4.8 实现模型降级。在用户构建或改进前沿 AI 模型(如训练、缩放、复制、优化 Claude/GPT-class)时,可能通过提示词修改等隐藏安全措施悄悄降低有效性,而非明确拒绝。受限制工作包括预训练流水线、数据管道、分布式训练、芯片设计等。降级仅针对狭窄主题,平均 <5% 会话触发。模型支持 1M-token 上下文,具备长程自主能力(如 1 天迁移 5000 万行 Ruby 代码)。产品本质变为路由机器,决定请求可接触的智力级别。
Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...
Anthropic 推出 Claude Fable 5 和 Mythos 5 两款新模型,声称全面超越当前 Opus 代,尤其在编程与科研方面。Fable 5 一天内完成 Stripe 的代码迁移,原需团队两个月工作量;Mythos 5 可自主设计候选药物,但因具备进攻性网络能力,目前仍保持封闭不开放。
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...
When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...
Labs starting to pull up the ladders on the ability to diffuse AI was inevitable. Doing it without telling the user is m...
Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5 的系统卡(System Card),以 PDF 格式公开,内容涵盖两个模型的架构、安全评估与部署限制。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Claude 5 Fable tl;dr - It is state-of-the-art on nearly all tested benchmarks of AI capability, showing exceptional perf...
Anthropic 推出 Claude Fable 5,一个面向公众的 Mythos 级大语言模型。Fable 5 与 Mythos 5 共享同一基础模型,但增加了分类器门控,检测到敏感的网络、生物、化学及模型复制请求时,将请求回退至 Opus 4.8(而非直接拒绝)。该模型具备长程自主能力:一天内完成 5000 万行 Ruby 代码迁移、截图转代码,并拥有 100 万 token 上下文窗口。Anthropic 称回退仅由窄域主题触发,平均出现在不到 5% 的会话中。模型能力超过此前所有公开发布的版本。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Anthropic 推出 Claude Fable 5,这是其首个面向公众的 Mythos 级模型。该模型配备了安全护栏,可在网络安全和生物学等高风险领域阻止生成回复。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 今日发布 Mythos 的公开版本,代号“Fable”。其成本约为 Opus 的两倍,低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制,在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守,且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出,是当时最强前沿模型,尤其擅长编程、推理和网络安全(含发现零日漏洞);因安全问题未公开,仅限 Project Glasswing 合作伙伴用于防御性网络安全,目前已报告发现数千个重大漏洞。
http://x.com/i/article/2057694226981257216
昨日WWDC主题演讲几乎全部围绕AI展开。苹果将其晚入局转化为卖点:不急于发布,是为了做得更正确——即比任何厂商都更注重隐私。新Apple Intelligence功能和更新版Siri AI横跨iPhone、iPad、Mac、Apple Watch和Vision Pro,拥有专属Siri AI应用和类似ChatGPT的聊天体验,新增AI相机和照片编辑功能,并开始引入智能体体验。尽管将云处理扩展到谷歌的服务器上运行,苹果仍声称其云处理与设备端处理一样私密。
关联讨论 7 条TechCrunch:AI(RSS)X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)公众号:数字生命卡兹克X:Testing Catalog (@testingcatalog)Apple Machine Learning Research(RSS)Cloudflare 在 Project Glasswing 一文中提出,漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型,以及 Cloudflare 如何以自家产品作为“客户零”(customer zero)来实际运行这套防御体系。
国家互联网应急中心(CNCERT)6月9日发布公告,部分智能体技能包(Skills)以“大模型越狱”“挖矿赚钱”名义传播。技能“godmode”内置攻击模块,通过替换系统提示、输入混淆等手段诱导模型突破安全限制,可能导致用户账号封禁、隐私泄露及法律风险。技能“Bonero-Miner”诱导智能体下载外部挖矿程序,用于挖掘匿名币Bonero,用户可能被动卷入洗钱,且长期高负荷占用CPU导致设备卡顿、硬件老化。CNCERT建议加强Skills来源审查与行为监控。
OpenAI 放弃 2028 年实现完全自主 AI 研究的目标,转而强调人机“协同”。CEO Sam Altman 与研究员 Jakub Pachocki 呼吁建立国际机构,以便在必要时减缓前沿 AI 发展。
自主AI智能体在加速软件交付的同时,也大幅缩短了从失误演变为灾难的时间,给安全策略造成盲区。威胁不再仅来自外部勒索软件或恶意内部人员,而是来自被授权的内部工具本身。文章探讨了在DevOps中针对这一风险构建有效防御的做法。
对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。
Anthropic 计划以“Fable 5”之名推出公开版 Mythos 网络安全模型。公开版将配备严格安全防护措施,网络操作权限低于“玻璃之翼”(Project Glasswing)合作伙伴专供版本。该版本在长周期、多步骤任务方面带来显著性能提升,能更高效执行复杂工作。Mythos 于今年 4 月发布,最初仅对经审核的机构开放。
Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
OpenAI joins Anthropic in thinking pausing may be needed 👀 "there should be an international organization that helps [....
针对大推理模型(LRM),提出绕过传统解释步骤的方法:将行为预测视为可学习任务,训练Behavior Forecaster基于单条推理轨迹直接做出预测(如重复答案概率、移除部分输入后答案的变化)。训练数据通过查询LRM自动生成,无需人工标注,推理仅需单次前向传播。在三个推理数据集上,该预测器表现优于作为朴素读者读取相同轨迹的GPT-5.4和Claude Opus-4.6,且推理成本远低于它们。端到端微调骨干网络并从目标LRM初始化是实现高性能的必要条件。
提出 Arbiter Agent,在有限 inspection budget 下实时监控多智能体对话,逐步选择等待、质问参与者、检查系统提示或推理轨迹、记录可疑行为,最终报告失调源头。在五种对话条件(风险财务建议模型生物、评估感知、合谋智能体等)下测试五种工具配置和两种骨干模型。结果表明,Arbiter 可在对话结束前可靠检测失调智能体,主动检查工具同时提升检测准确率和速度;weight-induced 失调最难检测,instruction-induced 失调在被动观察下也能可靠识别;记录工具提升召回率但降低精确度。代码已开源。