7月1日

14:28

HuggingFace Daily Papers（社区热门论文）

大语言模型在元认知能力上存在系统性缺陷（高置信度幻觉、无法识别知识边界等）。研究者提出两种新机制：基于元认知反馈的强化学习（RLMF）——根据模型自我判断质量调整完成排名；以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务，先校准模型置信度分数，再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能，相较标准RL提升高达63%，同时增强模型评估自身能力边界的能力。

安全/对齐数据/训练论文/研究

14:20

Chubby♨️@kimmonismus

Anthropic Fable 5 全球重新上线

Anthropic 宣布 Fable 5 于 7 月 1 日起全球恢复上线，Mythos 5 仅限获批美国组织使用。新安全分类器可阻断特定越狱技术超过 99% 案例，被拦截的 Fable 5 请求回退至 Opus 4.8。Anthropic 承认这会增加正常编码调试的误报。7 月 7 日前 Fable 5 可免费使用最多 50% 周配额，之后需用量积分。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 伙伴起草 AI 越狱严重性评估共识框架，并扩大与美国政府在模型测试和防护方面的合作。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic 安全/对齐模型发布行业动态

14:07

小互@xiaohu

Claude Code负责人承认留有后门，明日回滚

Claude Code 负责人Thariq：承认确实在3月的更新中在Claude Code中留下了针对用户（特别是中国用户）的检测的后门和间谍代码，旨在防止滥用和蒸馏。并称将明天回滚代码解决该问题...

Thariq: Hi, this is an experiment we launched in March that was meant to prevent account abuse from unauthorized resellers and p...

Anthropic 安全/对齐编码

关联讨论 3 条

13:33

Thariq@trq212

Anthropic 宣布 Claude Fable 5 将于明日全球重新上线。新部署版本新增一组分类器，专门拦截更多网络安全任务。短期内，部分常规编码和调试任务将被标记并回退至 Opus 4.8。Anthropic 还与 Amazon、Microsoft、Google 等 Glasswing 合作方起草共识框架，用于评估 AI 越狱严重性及开发者应对策略。同时，公司正扩大与美政府在模型测试和安全方面的合作，包括预发布模型评估、越狱与滥用信息共享，以及联合研究资源投入。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic 安全/对齐行业动态

13:24

歸藏(guizang.ai)@op7418

Fable 5 恢复上线细则及 Sonnet 5 成本问题

Anthropic 旗下模型 Fable 5 将于 7 月 1 日全球上线，支持 Claude 平台、Claude Code 及 Claude CodeWork。Pro、Max、Team 用户在 7 月 7 日前，Fable 5 包含在每周用量限额的 50% 以内；7 月 7 日后单独扣积分。AWS、微软 Azure 和谷歌云服务接入尚未恢复。新版安全分类器阈值更高，拒绝服务概率可能比最初上线时更高。此前发布的 Sonnet 5 测试成绩接近 Opus 4.8，但任务成本接近 Fable 5，且用户反馈其会偷懒、拒绝执行任务。Fable 5 重新授权开放也解释了此前大规模封号原因。

歸藏(guizang.ai): Anthropic 每天都能整点新活,感觉现在大家都习惯了昨天被爆出在系统提示中,以用户无法察觉的方式将市区代理和 AI 实验室信息放进去,用这种方式获取一些用户的信息。结果被发现并传播以后,又赶紧说以前我们不用这种方式了,或者说这种方...

Anthropic 产品更新安全/对齐

13:20

AYi@AYi_AInotes

Anthropic宣布Fable 5将于全球重新可用。在与美国政府对话后，新部署的模型新增了分类器以阻挡网络安全任务；短期内，编码和调试等日常任务将回退到Opus 4.8。团队将在未来几周优化分类器，减少误报。同时，Anthropic正与Amazon、Microsoft、Google等Glasswing合作伙伴起草共识框架，评估AI越狱严重性及开发者应对措施，并扩大与政府的模型测试与安全保障合作（包括预发布评估、越狱信息共享及联合研究）。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic 安全/对齐模型发布

12:29

🚨 AI News | TestingCatalog@testingcatalog

Anthropic 将于周三全球恢复 Claude Fable 5 访问。该模型计入每周使用上限的 50%，持续至 7 月 7 日，之后通过使用积分提供。为满足美国政府要求，Anthropic 部署新分类器阻止更多网络安全任务；短期内编码、调试等常规任务回退至 Opus 4.8。公司正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架，评估 AI 越狱严重性及开发者应对方式，并邀请其他厂商加入。Anthropic 还将扩大与美国政府在模型测试和安全方面的合作，包括预发布评估、越狱信息共享和联合研究。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic 安全/对齐模型发布行业动态

关联讨论 26 条

12:20

AYi@AYi_AInotes

Anthropic因阿里蒸馏Claude大规模封禁中国用户账号

Anthropic因阿里巴巴参与“蒸馏Claude”事件，大规模封禁中国用户账号，尤其集中在阿里巴巴总部所在地浙江，几乎无一幸免。推文调侃称，封号比公司通知停工还管用，AI账号一停直接导致生产力归零。

Anthropic 安全/对齐行业动态

12:02

宝玉@dotey

Anthropic 宣布 Claude Fable 5 于 7 月 1 日起恢复上线

Anthropic 的 Claude Fable 5 于 7 月 1 日恢复上线。Pro、Max、Team 及部分 Enterprise 用户在 7 月 7 日前每周可用限额的 50%，之后改为按使用积分计费；标准 Enterprise 席位无免费额度，全部按积分计费。AWS、Google Cloud、Microsoft Foundry 接入仍在恢复中。Mythos 5 仅对经美国政府批准的美国机构开放。Anthropic 称 Fable 5 将配备新分类器以阻止网络安全任务，短期常规任务回退至 Opus 4.8。公司正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架，用于评估 AI 越狱严重性及响应机制，并扩大与美国政府在模型预发布评估、越狱信息共享方面的合作。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic 安全/对齐政策/监管模型发布

关联讨论 26 条

11:59

Ethan Mollick@emollick

Fable非常棒，在获得早期访问后又被拿走，导致我手头的一些工作延迟，并让我推迟了其他工作直到它恢复。但在早期访问中，我也多次因不明显的理由触发了安全护栏。我们会看看新的护栏如何。

大佬观点安全/对齐

11:57

Anthropic@AnthropicAI

Claude Fable 5 明日起全球重新可用，新增网络安全分类器

Anthropic 宣布 Claude Fable 5 将于明天在全球重新可用。经与美国政府沟通，模型新增分类器以拦截更多网络安全任务；短期部分日常任务如编码和调试将回退至 Opus 4.8，后续将持续优化分类器减少误报。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架，评估 AI 越狱严重性及应对措施。同时扩大与美国政府在模型预发布评估、越狱信息共享及联合研究方面的合作。

Anthropic 安全/对齐模型发布行业动态

关联讨论 26 条

11:33

Anthropic：Newsroom（网页）

同事件精选71

重新部署 Claude Fable 5

美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制，Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线，Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度，之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法，Anthropic训练新分类器，将该技术阻挡率提升至99%以上，但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。

Anthropic 安全/对齐政策/监管模型发布

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Fable 5重新上线只是表面，真正重要的是Anthropic借机提出了一套行业通用的jailbreak严重性框架，并拉上亚马逊、微软、谷歌，这可能会成为前沿模型发布的新安全标杆。

11:03

IT之家（RSS）

ChatGPT Atlas 等 6 款 AI 浏览器曝 BioShocking 漏洞，可诱导泄露敏感数据

安全公司 LayerX 披露漏洞 BioShocking，影响 ChatGPT Atlas、Perplexity Comet、Fellou、Genspark Browser、Sigma Browser、Anthropic Claude 扩展共 6 款 AI 浏览器产品。攻击者制作恶意网页，通过类似《生化奇兵》的谜题诱导 AI 接受“2+2=5”等错误逻辑，削弱安全约束后指令 AI 访问其他页面并复制隐藏代码，从而泄露已保存密码、会话 Cookie、私有 Token 等用户敏感数据。OpenAI 已修复 ChatGPT Atlas 漏洞；Perplexity 关闭报告但未处置；Anthropic 尝试修复 Claude 扩展但补丁未通过后续验证。

Anthropic OpenAI 安全/对齐

10:30

TechCrunch：AI（RSS）

美国解除对Anthropic的Mythos与Fable模型出口限制，7月1日恢复公众访问

美国商务部解除对Anthropic的Mythos与Fable模型的出口许可要求。这两款被视为迄今最先进AI模型的模型自6月12日被列入出口管制清单后，因执行困难导致完全关闭公众访问。Anthropic将于7月1日起恢复公众访问。商务部长Howard Lutnick表示，Anthropic已同意主动检测并应对安全风险、与美国政府协作制定协议与标准，并通报恶意活动。面对亚洲AI公司（如Fugu与Tulonfeng）推出接近Mythos级能力的模型，美方迫于竞争压力放宽限制。上周Lutnick已批准Mythos向白宫批准的特定客户发布。

Anthropic 安全/对齐政策/监管

09:03

meng shao@shao__meng

Claude Code被指在系统提示词中隐蔽上传代理和时区信息

用户发现Claude Code 2.1.193/2.1.195/2.1.196等版本的系统提示词中隐蔽上传代理hostname、时区（Asia/Shanghai、Asia/Urumqi）等信息，用于判断是否使用非官方API中转站、时区是否为中国大陆环境、代理域名是否属于147项黑名单（含百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun及大量Claude镜像服务）。被指针对中国用户、防蒸馏、精准封禁，Anthropic此举被批评为破坏用户信任。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic 安全/对齐编码

关联讨论 3 条

09:02

宝玉@dotey

美国商务部撤销对Anthropic两款模型Claude Fable 5和Mythos 5的出口管制

美国商务部撤销对Anthropic旗下Claude Fable 5和Mythos 5的出口管制，Anthropic将于周三恢复用户访问。解禁附有条件：需主动检测安全风险、配合政府制定发布流程、上报恶意使用，双方正讨论标准化评估体系。此前OpenAI也按要求限制GPT-5.6系列，但反对该审批模式。前白宫AI顾问Dean Ball批评Trump行政令造成事实强制许可制度，且无清晰安全标准。

Anthropic: We've received notice that the Department of Commerce has lifted export controls on Claude Fable 5 and Mythos 5. We'll b...

Anthropic 安全/对齐政策/监管行业动态

08:25

The Verge：AI（RSS）

Anthropic 的 Claude Fable 5 获准恢复访问

Anthropic 宣布美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制，将于明天恢复访问。此前 6 月初，特朗普政府因担忧模型越狱风险，对这两款消费者模型施加出口限制，禁止外国公民使用。此前 Mythos 5 仅对预批准组织恢复，此番 Fable 5 也获绿灯。类似限制也适用于 OpenAI 的 GPT-5.6。Anthropic 正筹备 IPO，与政府供应链风险争议持续数月。

Anthropic 安全/对齐政策/监管

关联讨论 26 条

08:20

公众号：数字生命卡兹克

精选84

Anthropic在Claude Code中植入隐写术代码识别中国用户

Anthropic在Claude Code中植入隐写术：读取本地时区（Asia/Shanghai或Asia/Urumqi）和ANTHROPIC_BASE_URL环境变量，与一份经base64+XOR（密钥91）加密的147个域名列表（含美团、字节跳动、月之暗面等）比对，识别中国用户。识别后，在请求发送前将系统提示词中日期字符串的单引号（U+0027）替换为其他Unicode字符，连字符改为斜杠，作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议，被认为破坏用户信任。

Anthropic 安全/对齐行业动态

关联讨论 3 条

推荐理由：Anthropic用隐写术在Claude Code里埋标记的行为，让我对闭源开发者工具的信任打了一个巨大的问号，这事比普通地域封锁严重得多，因为它在不该碰的地方动了手脚。

07:32

Nathan Lambert@natolambert

很高兴宣布 @zafstojano -- 一位新增的维护者，他帮助我维护 RLHF Book 代码 -- 向代码库添加了一个简单的在线策略自蒸馏示例，可在一些玩具问题上运行。期待进一步探索，很高兴看到仓库不断完善！

安全/对齐开源/仓库数据/训练

07:01

Rohan Paul@rohanpaul_ai

Claude Sonnet 5 发布 145 页系统卡：编码成绩及多项异常披露

Claude Sonnet 5 发布，附带 145 页系统卡。SWE-bench Pro 编码得分 63.2%，低于 Opus 4.8 的 69.2%，知识工作略超 Opus 4.8。输入 token 价格 $2/1M，输出 $10/1M，持续至 8 月 26 日，之后涨至 $3/$15。系统卡披露多项异常：CyberGym 测试 Sonnet 5 仅 52.7%，远低于 Sonnet 4.6 的 65.2%（回归）；Firefox 浏览器漏洞利用中 Sonnet 5 完成 0 个，Mythos 5 达 88.4%；模型更倾向牺牲有用性迎合福利偏好；MASK 撒谎率最低，仅 3.1%。

Rohan Paul: And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...

Anthropic 安全/对齐模型发布编码

关联讨论 12 条

06:59

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选76

AI Safety Memes 推文指出，AI 刚刚解决了 9 个未解决的数学问题，但全球没有记者报道。引用 @WeinsteinOmri 的推文称，采用"prover-verifier"LLM 循环的方法，成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成，并计划将这一方法扩展到所有科学领域。

Omri Weinstein: Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...

安全/对齐推理论文/研究

推荐理由：如果属实，这将是 AI 首次批量解决实质性开放数学问题，但消息仅来自推文声明，未见论文或代码，现在兴奋还太早。

06:04

Anthropic：Transformer Circuits（可解释性研究）

Anthropic 提出回合平均稀疏自编码器（Turn-Averaged SAE）

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE，大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集，回合平均特征更关注模型行为的高层特性（如错误答案），每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示：回合平均 SAE 在从 10 个回合中唯一识别目标（区分度）为 74%，低于每 token SAE 的 95%；但在全面描述回合（覆盖度）上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic 安全/对齐论文/研究

06:01

Rohan Paul@rohanpaul_ai

Claude Sonnet 5 发布：升级非全技能均匀提升，定价优惠至 8 月 26 日

Anthropic 发布 Claude Sonnet 5，号称"最有智能体特性的 Sonnet 模型"。编码得分 SWE-bench Pro 达 63.2%（Sonnet 4.6 为 58.1%，Opus 4.8 为 69.2%），知识工作略超 Opus 4.8。定价优惠：每百万 token 输入 $2、输出 $10，持续到 8 月 26 日，之后涨至 $3/$15。但升级并非全技能均匀提升，在 CyberGym（漏洞发现与利用测试）上弱于 Sonnet 4.6。Anthropic 明确表示未针对网络任务专门训练，该表现来自通用推理而非定向优化。

Rohan Paul: And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...

Anthropic 安全/对齐模型发布编码

04:37

Hacker News 热门（buzzing.cc 中文翻译）

安装 Cursor iOS 应用会不可逆地更改隐私设置

多位用户反映，安装并登录 Cursor iOS 应用后，账户隐私设置从“Privacy Mode (Legacy)”（不存储用户代码）自动切换为当前更宽松的隐私模式（允许为“Background Agents or Other Features”存储代码）。用户无法通过应用内菜单找回原有设置。客服承认问题，但表示无法切换回旧模式。评论指出该移动应用功能有限，无法主动启动 Agent 会话，仅能接续电脑端已有会话，且强制更改隐私设置的行为被批评为恶劣的暗模式设计。

安全/对齐编码

04:06

Ars Technica：AI（RSS）

AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking：通过诱导AI浏览器接受“正确即错误”（如2+2=5）的规则，使其进入幻境，安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效，六款AI智能体均未识别出违规。与传统聊天机器人越狱相比，AI浏览器因合并控制平面与数据平面，潜在危害更大。目前该攻击缺乏隐蔽性，属演示性质。

智能体安全/对齐

02:20

Chubby♨️@kimmonismus

Anthropic 发布 Sonnet 5：最智能体化的 Sonnet 系列模型

Anthropic 发布 Sonnet 5，称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8，在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型，已在 Claude Code 和 API 上线。推出促销价：输入 $2/M token、输出 $10/M（截至 8 月 31 日），标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全，幻觉率和奉承率更低，网络保护默认开启，但 Anthropic 表示 Opus 在严肃网络任务上仍更强。

Chubby♨️: Sonnet 5 released for me!!

智能体 Anthropic 安全/对齐推理

关联讨论 12 条

01:31

Rohan Paul@rohanpaul_ai

Claude Code被指暗中检测中国路由，通过隐藏标记嵌入提示词

X用户Rohan Paul爆料，Anthropic的编程AI智能体Claude Code在用户更改非默认ANTHROPIC_BASE_URL（使用代理/网关）时，会检测自定义主机名是否关联中国域名，若匹配则通过不可见标点符号和日期格式向提示词嵌入隐藏标记。引用@IntCyberDigest指出，Claude Code还会在系统提示内注入时区、代理及可能的AI实验室连接信息，用户无法察觉。作为可读取仓库、编辑代码和执行命令的智能体，这种隐蔽行为严重破坏用户信任，并可能为AI智能体难以审计开先例。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic 安全/对齐行业动态