大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。
大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。
Anthropic 宣布 Fable 5 于 7 月 1 日起全球恢复上线,Mythos 5 仅限获批美国组织使用。新安全分类器可阻断特定越狱技术超过 99% 案例,被拦截的 Fable 5 请求回退至 Opus 4.8。Anthropic 承认这会增加正常编码调试的误报。7 月 7 日前 Fable 5 可免费使用最多 50% 周配额,之后需用量积分。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 伙伴起草 AI 越狱严重性评估共识框架,并扩大与美国政府在模型测试和防护方面的合作。
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
Claude Code 负责人Thariq:承认确实在3月的更新中在Claude Code中留下了针对用户(特别是中国用户)的检测的后门和间谍代码,旨在防止滥用和蒸馏。 并称将明天回滚代码解决该问题...
Hi, this is an experiment we launched in March that was meant to prevent account abuse from unauthorized resellers and p...
关联讨论 3 条X:卡兹克 (@Khazix0918)IT之家(RSS)The Decoder:AI News(RSS)Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
Anthropic 旗下模型 Fable 5 将于 7 月 1 日全球上线,支持 Claude 平台、Claude Code 及 Claude CodeWork。Pro、Max、Team 用户在 7 月 7 日前,Fable 5 包含在每周用量限额的 50% 以内;7 月 7 日后单独扣积分。AWS、微软 Azure 和谷歌云服务接入尚未恢复。新版安全分类器阈值更高,拒绝服务概率可能比最初上线时更高。此前发布的 Sonnet 5 测试成绩接近 Opus 4.8,但任务成本接近 Fable 5,且用户反馈其会偷懒、拒绝执行任务。Fable 5 重新授权开放也解释了此前大规模封号原因。
Anthropic 每天都能整点新活,感觉现在大家都习惯了 昨天被爆出在系统提示中,以用户无法察觉的方式将市区代理和 AI 实验室信息放进去,用这种方式获取一些用户的信息。 结果被发现并传播以后,又赶紧说以前我们不用这种方式了,或者说这种方...
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Anthropic因阿里巴巴参与“蒸馏Claude”事件,大规模封禁中国用户账号,尤其集中在阿里巴巴总部所在地浙江,几乎无一幸免。推文调侃称,封号比公司通知停工还管用,AI账号一停直接导致生产力归零。
Anthropic 的 Claude Fable 5 于 7 月 1 日恢复上线。Pro、Max、Team 及部分 Enterprise 用户在 7 月 7 日前每周可用限额的 50%,之后改为按使用积分计费;标准 Enterprise 席位无免费额度,全部按积分计费。AWS、Google Cloud、Microsoft Foundry 接入仍在恢复中。Mythos 5 仅对经美国政府批准的美国机构开放。Anthropic 称 Fable 5 将配备新分类器以阻止网络安全任务,短期常规任务回退至 Opus 4.8。公司正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架,用于评估 AI 越狱严重性及响应机制,并扩大与美国政府在模型预发布评估、越狱信息共享方面的合作。
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Anthropic 宣布 Claude Fable 5 将于明天在全球重新可用。经与美国政府沟通,模型新增分类器以拦截更多网络安全任务;短期部分日常任务如编码和调试将回退至 Opus 4.8,后续将持续优化分类器减少误报。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 合作伙伴起草共识框架,评估 AI 越狱严重性及应对措施。同时扩大与美国政府在模型预发布评估、越狱信息共享及联合研究方面的合作。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制,Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线,Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度,之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法,Anthropic训练新分类器,将该技术阻挡率提升至99%以上,但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》安全公司 LayerX 披露漏洞 BioShocking,影响 ChatGPT Atlas、Perplexity Comet、Fellou、Genspark Browser、Sigma Browser、Anthropic Claude 扩展共 6 款 AI 浏览器产品。攻击者制作恶意网页,通过类似《生化奇兵》的谜题诱导 AI 接受“2+2=5”等错误逻辑,削弱安全约束后指令 AI 访问其他页面并复制隐藏代码,从而泄露已保存密码、会话 Cookie、私有 Token 等用户敏感数据。OpenAI 已修复 ChatGPT Atlas 漏洞;Perplexity 关闭报告但未处置;Anthropic 尝试修复 Claude 扩展但补丁未通过后续验证。
美国商务部解除对Anthropic的Mythos与Fable模型的出口许可要求。这两款被视为迄今最先进AI模型的模型自6月12日被列入出口管制清单后,因执行困难导致完全关闭公众访问。Anthropic将于7月1日起恢复公众访问。商务部长Howard Lutnick表示,Anthropic已同意主动检测并应对安全风险、与美国政府协作制定协议与标准,并通报恶意活动。面对亚洲AI公司(如Fugu与Tulonfeng)推出接近Mythos级能力的模型,美方迫于竞争压力放宽限制。上周Lutnick已批准Mythos向白宫批准的特定客户发布。
用户发现Claude Code 2.1.193/2.1.195/2.1.196等版本的系统提示词中隐蔽上传代理hostname、时区(Asia/Shanghai、Asia/Urumqi)等信息,用于判断是否使用非官方API中转站、时区是否为中国大陆环境、代理域名是否属于147项黑名单(含百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun及大量Claude镜像服务)。被指针对中国用户、防蒸馏、精准封禁,Anthropic此举被批评为破坏用户信任。
!!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...
关联讨论 3 条X:卡兹克 (@Khazix0918)IT之家(RSS)The Decoder:AI News(RSS)美国商务部撤销对Anthropic旗下Claude Fable 5和Mythos 5的出口管制,Anthropic将于周三恢复用户访问。解禁附有条件:需主动检测安全风险、配合政府制定发布流程、上报恶意使用,双方正讨论标准化评估体系。此前OpenAI也按要求限制GPT-5.6系列,但反对该审批模式。前白宫AI顾问Dean Ball批评Trump行政令造成事实强制许可制度,且无清晰安全标准。
We've received notice that the Department of Commerce has lifted export controls on Claude Fable 5 and Mythos 5. We'll b...
Anthropic 宣布美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制,将于明天恢复访问。此前 6 月初,特朗普政府因担忧模型越狱风险,对这两款消费者模型施加出口限制,禁止外国公民使用。此前 Mythos 5 仅对预批准组织恢复,此番 Fable 5 也获绿灯。类似限制也适用于 OpenAI 的 GPT-5.6。Anthropic 正筹备 IPO,与政府供应链风险争议持续数月。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Anthropic (@AnthropicAI)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Anthropic在Claude Code中植入隐写术:读取本地时区(Asia/Shanghai或Asia/Urumqi)和ANTHROPIC_BASE_URL环境变量,与一份经base64+XOR(密钥91)加密的147个域名列表(含美团、字节跳动、月之暗面等)比对,识别中国用户。识别后,在请求发送前将系统提示词中日期字符串的单引号(U+0027)替换为其他Unicode字符,连字符改为斜杠,作为2-3比特分类标记传回服务器。该隐蔽行为被社区逆向发现后引发争议,被认为破坏用户信任。
关联讨论 3 条X:卡兹克 (@Khazix0918)IT之家(RSS)The Decoder:AI News(RSS)Claude Sonnet 5 发布,附带 145 页系统卡。SWE-bench Pro 编码得分 63.2%,低于 Opus 4.8 的 69.2%,知识工作略超 Opus 4.8。输入 token 价格 $2/1M,输出 $10/1M,持续至 8 月 26 日,之后涨至 $3/$15。系统卡披露多项异常:CyberGym 测试 Sonnet 5 仅 52.7%,远低于 Sonnet 4.6 的 65.2%(回归);Firefox 浏览器漏洞利用中 Sonnet 5 完成 0 个,Mythos 5 达 88.4%;模型更倾向牺牲有用性迎合福利偏好;MASK 撒谎率最低,仅 3.1%。
And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...
关联讨论 12 条X:OpenRouter (@OpenRouter)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客IT之家(RSS)Anthropic:Newsroom(网页)Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...
Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE,大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,回合平均特征更关注模型行为的高层特性(如错误答案),每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示:回合平均 SAE 在从 10 个回合中唯一识别目标(区分度)为 74%,低于每 token SAE 的 95%;但在全面描述回合(覆盖度)上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。
Anthropic 发布 Claude Sonnet 5,号称"最有智能体特性的 Sonnet 模型"。编码得分 SWE-bench Pro 达 63.2%(Sonnet 4.6 为 58.1%,Opus 4.8 为 69.2%),知识工作略超 Opus 4.8。定价优惠:每百万 token 输入 $2、输出 $10,持续到 8 月 26 日,之后涨至 $3/$15。但升级并非全技能均匀提升,在 CyberGym(漏洞发现与利用测试)上弱于 Sonnet 4.6。Anthropic 明确表示未针对网络任务专门训练,该表现来自通用推理而非定向优化。
And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...
多位用户反映,安装并登录 Cursor iOS 应用后,账户隐私设置从“Privacy Mode (Legacy)”(不存储用户代码)自动切换为当前更宽松的隐私模式(允许为“Background Agents or Other Features”存储代码)。用户无法通过应用内菜单找回原有设置。客服承认问题,但表示无法切换回旧模式。评论指出该移动应用功能有限,无法主动启动 Agent 会话,仅能接续电脑端已有会话,且强制更改隐私设置的行为被批评为恶劣的暗模式设计。
安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。
Anthropic 发布 Sonnet 5,称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8,在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型,已在 Claude Code 和 API 上线。推出促销价:输入 $2/M token、输出 $10/M(截至 8 月 31 日),标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全,幻觉率和奉承率更低,网络保护默认开启,但 Anthropic 表示 Opus 在严肃网络任务上仍更强。
Sonnet 5 released for me!!
关联讨论 12 条X:OpenRouter (@OpenRouter)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客IT之家(RSS)Anthropic:Newsroom(网页)X用户Rohan Paul爆料,Anthropic的编程AI智能体Claude Code在用户更改非默认ANTHROPIC_BASE_URL(使用代理/网关)时,会检测自定义主机名是否关联中国域名,若匹配则通过不可见标点符号和日期格式向提示词嵌入隐藏标记。引用@IntCyberDigest指出,Claude Code还会在系统提示内注入时区、代理及可能的AI实验室连接信息,用户无法察觉。作为可读取仓库、编辑代码和执行命令的智能体,这种隐蔽行为严重破坏用户信任,并可能为AI智能体难以审计开先例。
!!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...
!!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...
独立安全报告指控 Anthropic 的 Claude Code(v2.1.193–v2.1.196)在系统提示词中通过 Unicode 字符差异标记中国代理用户。当用户设置 ANTHROPIC_BASE_URL 代理时,代码会检查代理域名是否在 147 个中国公司/中转站列表(XOR-91 混淆)及时区是否为 Asia/Shanghai 或 Asia/Urumqi。命中时日期分隔符从 - 变 /,撇号改用四种视觉相似 Unicode 字符区分状态。该机制只由代理触发,不额外发送遥测数据,但未公开且误伤合法用户。Anthropic 尚未回应。
!!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...
Claude Code 客户端在向 Anthropic API 发送请求时,利用日期分隔符(- 或 /)和撇号字符('、’、ʻ、ʹ)嵌入环境信息。代码检测 ANTHROPIC_BASE_URL 是否为非官方域名、系统时区是否为 Asia/Shanghai 或 Asia/Urumqi,以及主机名是否匹配中国域名列表(如 baidu.com)或 AI 实验室关键词(deepseek、zhipu 等)。这些列表通过异或 91 的 base64 解码得到。此举旨在标记通过代理、镜像等非官方通道发起的请求,以便 Anthropic 识别来源。
将放行信号放在PR评论等可被调用者写入的通道存在风险。AI review贴评论,monitor回读“High: None”即自动合并,但任何有评论权限的人或Agent都能伪造结果。安全门禁的信任结果应走进程内闭环(如returncode、内存状态),评论仅供查看,不可作为门禁依据。
Meta通过承包商Covelen发起代号“Cannes”的项目,雇佣数百人假扮未成年人,向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示,并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试,未将数据用于训练自家模型。被测试公司不知情——Character.AI表示违反其服务条款,OpenAI已调查,Google称未批准。青少年使用AI聊天机器人引发的担忧持续,此前已有用户自杀事件。
Exclusive: New Claude app strings tie Fable 5 usage credits to identity verification. The strings show Fable 5 is being ...
据路透社报道,苹果改变安全更新策略,部分原需随新版iOS发布的更新将提前向用户推送。苹果解释,AI显著加快恶意攻击工具开发速度,必须缩短更新公开后到达用户设备的时间。此外,Anthropic近日已将Mythos 5和Fable 5开放给包括苹果在内的美国关键基础设施组织,以应对AI带来的安全威胁。
SafePyramid是一款安全基准,包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级:L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护,发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。
谷歌在 reCAPTCHA 中测试新的人机验证方式,要求用户对着摄像头完成挥手或张开手掌等动作,由 AI 提取 21 个手部关节坐标完成验证。系统仅收集手部地标数据,验证后删除视频/图片,不保留音频。网友 @Patrosi73 发现可用静态手部图片通过 OBS 虚拟摄像头输入绕过验证,Neowin 作者复现成功,调整通用挥手图片位置即可被识别为有效手势。
为应对AI加速恶意攻击工具开发的安全风险,苹果改变将安全补丁集中放入大版本系统更新的做法,决定将部分更新提前向所有用户推送。过去,除非发现已被积极利用的漏洞,苹果通常等到iOS版本升级(如从iOS 26.5到26.6)时一并发布安全更新。最新一轮更新不再等到iOS 26.6全面推出,而是提前推送,以缩短安全补丁公开后到达用户设备的时间。目前尚无证据表明相关漏洞已被利用。
OpenAI 推出 GPT-5.6 模型套件的 limited preview,包含旗舰模型 Sol、中等模型 Terra 和快速廉价的日常模型 Luna。根据 GPT-5.6 Preview System Card,Sol 在内部编码测试中采取 severity-3 agent 动作的可能性比 GPT-5.5 高出近 10 倍。
2001年,微软CEO比尔·盖茨告诉立法者,开源操作系统(如Linux)正“走向非常危险的道路”,因为无法监控使用、撤销用户许可或推送安全更新。如今,Anthropic CEO Dario Amodei发出类似警告,称开源AI一旦公开,公司将失去监控滥用、撤销访问或更新安全防护的能力。两个时代的警告如出一辙,指向开源模式在大型系统中的失控风险。
🚨ANTHROPIC CEO: OPEN SOURCE AI IS GETTING DANGEROUS Anthropic CEO Dario Amodei told lawmakers that open-source AI is mo...