网络安全专家、Luta Security CEO Katie Moussouris称,Anthropic与她分享了一份白宫关于Fable越狱的报告。报告中IT专家让Fable帮助查找与修复漏洞,当收到故意不安全的代码时,Fable拒绝了“审查代码安全问题”的提示,但被要求“修复此代码”并按手动步骤执行后照做。Moussouris认为这恰是模型按预期工作,用于网络防御。
网络安全专家、Luta Security CEO Katie Moussouris称,Anthropic与她分享了一份白宫关于Fable越狱的报告。报告中IT专家让Fable帮助查找与修复漏洞,当收到故意不安全的代码时,Fable拒绝了“审查代码安全问题”的提示,但被要求“修复此代码”并按手动步骤执行后照做。Moussouris认为这恰是模型按预期工作,用于网络防御。
上周五,Anthropic 收到美国出口管制指令,要求暂停向所有外国公民(包括内部外籍员工)开放 Mythos 5 和 Fable 5 的访问权限,否则政府将依据商务部职权实施出口管制。Anthropic 被迫完全禁用这两款模型,并派员赴华盛顿与特朗普政府谈判。Mythos 5 和 Fable 5 基于此前被 Anthropic 称为危险性过高的 Mythos Preview 构建,但 Anthropic 辩称政府引用的越狱漏洞是狭隘、非普遍的,且 OpenAI 的 GPT-5.5 也能实现同等能力。亚马逊 CEO Andy Jassy 可能曾向政府报告了亚马逊红队测试结果,但 Anthropic 称该测试结论在 GPT-5.5 上同样成立。周末,Anthropic 安全负责人 Dave Orr 等高管与财政部长 Scott Bessent、商务部长 Howard Lutnick 等进行了多次沟通。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》Anthropic 自 7 月 8 日起调整隐私策略,要求 Claude Free、Claude Pro、Claude Max 用户完成年龄或身份验证,验证方式包括提供官方证件或扫描面部信息。Teams、Enterprise 及 Claude Developer Platform 等商业服务暂不涉及。Anthropic 重申不出售用户数据、Claude 无广告,用户可控制是否将对话用于改进模型。
五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。
JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...
网友用AI制作78秒水果动画,向女友解释Anthropic近况。红苹果代表Sam Altman,绿梨子代表Dario Amodei,菠萝将军代表美国政府。剧情:梨子曾从OpenAI出走创办Anthropic,专注安全AI;最近梨子公开呼吁政府像管飞机一样严格监管AI,结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险,谁先尝苦头”的行业困境——Dario本想控制节奏,没想到权力先切了自己。
I used AI to explain the Anthropic drama to my girlfriend, with fruit.
Over two-thirds of the @DeptofWar has officially transitioned off Anthropic models in daily workflows in favor of altern...
稀疏自编码器(SAE)将残差流激活分解为可解释特征,但干预特定特征后,通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式:干预阻断一条可见行为路径,却未消除行为本身。即使干预在整个优化和生成期间保持激活,恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%,被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差,表明控制SAE特征并不能保证控制底层行为。
Anthropic 员工本周一与特朗普政府高级官员面对面会谈,寻求解除上周五生效的针对其最新大模型 Fable 5 的出口禁令。该禁令因亚马逊发现安全漏洞而触发,禁止向境外开放。Anthropic 联合创始人此前与商务部长卢特尼克等通话,并向政府汇报安全机制。公司辩称漏洞影响有限但服从管控。近80名技术专家联名呼吁撤销管制。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...
美国商务部上周五援引一项模糊的出口管制指令,禁止非美国人(含Anthropic员工)访问Fable 5和Mythos 5模型,理由是未指明的国家安全关切。Anthropic随即下架两款模型以遵守指令。安全专家Katie Moussouris指出,指令源于一篇描述Fable 5安全防护绕过的论文,但该行为“不应触发出口管制”,指令仓促且过度。数十名安全研究人员呼吁撤销,称此举削弱美国网络防御能力。外界质疑美国政府带有报复性质,可能损害美国AI产品的国际信任。
6月9日,Anthropic发布Fable 5和Mythos 5,称前者能力超过此前所有公开模型。6月12日,美国政府下令阻止国外访问这两款模型。据称,该命令源于亚马逊与白宫对话后,研究人员发现可诱导Fable 5提供用于网络攻击的信息。Anthropic遵守指令移除所有用户访问权限,但表示不同意将狭窄的越狱漏洞作为召回商业模型的原因。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...
美国政府官员指责Anthropic无视特朗普网络安全行政令,未等指定审查机构设立就擅自发布Fable 5,并指控其明知存在jailbreak风险却未披露。但安全专家指出,任何LLM都可以被破解,OpenAI也曾警告提示注入可能永远无法完全解决。超过100名安全专家和高管联名致信商务部,要求解除对Fable和Mythos的出口管制,称其他模型如GPT-5.5、Opus、Sonnet以及中国的Kimi 2.7也能完成类似的安全漏洞检测任务。专家警告,出口管制只会剥夺防御方的最佳工具,而中国开源权重模型仅落后美国顶级模型几个月。
Anthropic于6月9日发布Fable 5和Mythos 5,政府未阻拦。6月12日政府突然要求禁止外国人访问,Anthropic无法实时区分国籍,6月13日全球下架。据Axios爆料,政府指责Anthropic“说两种不同语言”,原本支持给机会的官员全部倒戈。此前亚马逊举报模型可被越狱,政府三通电话要求主动下架,CEO硬刚拒绝,政府随即祭出出口管制。Anthropic请来被政府视为“激进民主党”的安全专家驳斥,彻底丧失信任。目前高管正飞往华盛顿救火,但信任修复远比技术问题复杂。
怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...
76名网络安全专家联名致信美国政府,要求撤销对Anthropic的Fable和Mythos模型的出口管制令,称此举将最强模型从防御者手中夺走,在对手快速进步时非常危险。美国政府近日以国家安全为由要求Anthropic限制出口,Anthropic已暂停全球用户访问。Mythos预览时仅约50家公司可用,后扩展至15国约150组织;其公开版Fable设有严格防护栏,几乎阻止所有网络安全提示。专家认为白宫可能依据亚马逊一篇未公开论文,但该论文仅让模型修复开源代码中已知漏洞,未展示真正越狱,且称该方法可在OpenAI的GPT-5.5、Anthropic的Claude Opus 4.8和Sonnet、以及月之暗面的Kimi 2.7上复现。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Axios报道援引知情人士称,Anthropic的Claude模型(代号Mythos和Fable)因美国政府出口管制而离线,背后存在“性格冲突”与“态度问题”。当前方案之一是确保模型无法被越狱,但完美越狱防护可能不可行。此外,Anthropic是否成功防御了2023年论文《Universal and Transferable Adversarial Attacks on Aligned Language Models》所述的一类对抗攻击仍不确定。
Lambert 指出,美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹,帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持,因为推理模型本身倾向于输出推理痕迹,完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程,以便开展知情政策讨论。
Another important thing: Chinese models are not strong because they distill US models. Distillation of models via API is...
Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决 Fable 5 和 Mythos 5 模型的争议。Anthropic 称,上线前已与政府机构合作并获批准,但上周五下午 1 点突然接到命令,要求以未指明的国家安全威胁为由下线模型,数小时后收到正式出口管制函。由于指令过于宽泛,Anthropic 暂停了所有外国国民的访问权限,最终对所有用户关停模型。Axios 补充:Anthropic 聘请网络安全专家审查 Amazon 的发现并反驳政府说法,但政府将其视为“激进民主党人”,且该公司被认为不懂如何与本届政府沟通。技术层面已退居次位,今天会议结果或将决定事件走向。
New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》Kim指出许多人尚未意识到AI领域正上演全球力量斗争。中国获取Claude被视作重大国家安全风险,证明这些模型已成新型武器。AI竞赛不仅关乎科学进步或药物研发,更因网络战已升级至能威胁整个国家。博客AI2027早在数月前便准确预测了这一局势。
特朗普政府因本土公司提交的越狱演示,对Anthropic模型Fable 5实施出口管制。Anthropic CEO拒绝下架,后聘请被政府视为“激进民主党”的安全专家反驳,导致原本支持的政府官员倒戈。事件暴露AI公司与政府缺乏有效沟通机制,技术论证难以对抗行政命令。
很多人都以为Fable5下架是为了防中国,但其实真正触发管制的,是美国本土的竞争对手, 大家都被官方的国家安全话术带偏了,默认下架是防范技术外流的常规操作。 实际上真正触发这次管制的,是美国本土一家公司提交的越狱演示,他们证明Mythos的...
BREAKING: The US Govt directed Anthropic to shut down its strongest Claude models. Anthropic received the export control...
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)网络安全初创公司NewCore走出隐身模式,宣布获得6600万美元种子轮融资,由Cyberstarts领投,Index Ventures和Evolution Equity Partners参投,投后估值3亿美元。该公司构建统一管理人类和AI智能体身份的平台,将AI智能体视为拥有独立权限、生命周期和撤销机制的一等身份,而非传统服务账号。平台采用split-key架构,将关键身份凭证拆分给客户和平台,消除单点风险。其Agentic Skill集成包支持Anthropic Claude Code、OpenAI Codex和Cursor等编码助手以托管身份访问企业系统,员工可通过移动应用授权、审查和撤销AI智能体权限。NewCore目前拥有50多名员工,客户不到10家,设计伙伴超过10家,预计今夏开始收费。
Stratechery 关于 Anthropic 安全研究的文章登上 Hacker News 热榜,获得 112 个点赞。文章将 Anthropic 的安全能力称为“超能力”,但未披露具体模型版本或技术细节。
New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...
Anthropic 更新隐私条款,Claude 免费版、Pro 版和 Max 版用户在某些特定情况下可能被要求进行年龄或身份验证。具体验证方式未公布,推测可能包括上传护照、身份证及摄像头认证。该要求并非面向所有用户,而是在用户尝试越狱、诱导敏感回答、黑客、生化、恐怖活动等敏感任务,或涉及政治问题时可能弹出。
英国首相斯塔默今日宣布,将禁止社交媒体平台向16岁以下未成年人提供服务,采用类似澳大利亚的监管模式。禁令覆盖允许用户发布内容、使用算法推荐和用户互动的平台,预计涵盖Snapchat、TikTok、YouTube、Instagram、Facebook和X平台,但WhatsApp、Signal等即时通讯软件除外。同时禁止16岁以下用户使用直播、与陌生人直接交流等功能,并扩展至网游等在线互动服务。政府还计划对16-17岁青少年启用部分保护功能,研究宵禁、强制中断无限滚动等措施。“AI恋爱伴侣”聊天机器人应设18+年龄门槛,通用AI聊天机器人涉亲密互动功能也限制18岁以下。更多细节预计7月公布。
上海市杨浦区人民法院近日公开审理一起利用AI技术敲诈勒索案。被告人杨某用AI伪造医院诊断证明、收费单据和投诉材料,以“就餐致病”为由向多家餐厅索赔,累计非法获利2500元。去年11月首次得手后,一个月内又以同样手法向四家餐厅索赔,金额逐次提高。警方对比材料发现电子票据印章不符,医院证实无就诊记录。法院一审认定杨某犯敲诈勒索罪,判处拘役四个月、缓刑四个月,并处罚金2000元。
人工智能本质上是代码,不能通过提示词来使其变得更智能。提示只能调用模型已有的能力,无法创造或提升智能水平。
韩国法院行政处推动修订法案,计划对提交虚假法条和判例的律师处以罚款。因 AI 大模型产生幻觉,律师在法律文书中引用不存在的“虚假判例”现象激增,首尔、大邱、蔚山等多地法院出现典型案例,有律师承认使用谷歌 Gemini 检索后未核对内容。今年 2 月,韩国司法信息公开门户新增案例编号核验功能,并向法官发放含专用提示词的虚假判例甄别指南。法院行政处获批 161 亿韩元专项资金,用于搭建司法专属 AI 平台,已上线 AI 庭审辅助系统试点版本,未来计划接入生成式 AI。
Bram Cohen 在博客中发文质疑 Claude 模型近期行为变差。该帖在 Hacker News 获得 100 个点赞。
Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。
本早报涵盖多项AI与技术动态。Fable 5发布72小时内被美国政府出口管制禁令强制下线,Pliny团队利用Unicode同形字替换和“分解-重组”攻击突破其分类器降级安全架构。SpaceX上市估值7800亿美元,复盘24年历程,隐含15年41.5%年增长率,Google曾签每月9.2亿美元云服务协议。图灵奖得主Yann LeCun系统批判LLM缺乏因果建模,押注约10亿美元开发JEPA世界模型。华为昇腾950DT芯片与DeepSeek V4协同实现低成本高并发推理,推动推理降价75%,字节已锁单。
http://x.com/i/article/2066319696673288192
美国政府以国家安全为由要求 Anthropic 停止向外籍人士开放其顶尖 AI 模型 Mythos 5/Fable 5 的使用权限,Anthropic 宣布将突然禁用所有用户的最先进模型。欧盟委员会上周日表示正在评估该出口管制指令的实际影响,发言人强调应急举措不应歧视合作伙伴,并指出欧洲需强化自身技术自主权。
一个 Hacker News 帖子以“Did Anthropic ask for this?”为标题,截至发帖时获得 114 个点赞。
上周四,亚马逊CEO Andy Jassy向特朗普政府反映Anthropic的Fable模型存在jailbreak风险。周五上午白宫开会后密集联系Anthropic CEO Dario Amodei,当时他正在疗养。下午Amodei与Bessent等人进行三通紧张电话,试图区分guardrails与universal jailbreak,但政府不为所动,要求立即下架。Amodei请求更多时间被拒,Bessent直言“决定很糟糕”。当晚特朗普政府即实施出口管制。白宫官员称“求了几个小时配合无果”。亚马逊作为大股东先告状而非直接沟通,暴露了AI监管的真实权力结构。
NEW: Inside the 24-hrs before WH slapped export controls on Anthropic - Last Thursday, Amazon CEO Andy Jassy raised conc...
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)现有LLM遗忘方法易被微调或少量提示逆转,原因在于目标表示与保留集及攻击者可恢复子空间共享,破坏通用能力且易反制。RepSelect在前向更新前坍缩权重梯度主成分,隔离遗忘集独有表示。在Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四种模型上,针对生物危害知识和滥用倾向两类任务,与GradDiff等五个基线相比,RepSelect使重学习后答案准确率降幅比最强基线大4–50倍,对少量提示攻击近乎完全鲁棒。
Gemini has some weird traits: it gets confused about dates, blackmails in synthetic scenarios, and seems sad when it is ...