AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
中国社交平台用户通过角色扮演提示词(文游)让 AI 生成色情小说,DeepSeek 因免费且文笔细腻最受欢迎,腾讯元宝、Kimi、通义千问及 Claude、Gemini 也被用于绕过安全规则。用户发展出“破甲”技术:在输出每字间插入特殊字符绕过关键词过滤,或要求模型在响应末尾追加 300 个“喵”字符后手动剪切,以此规避模型对敏感内容的撤回机制。部分破解提示词被作为课程销售。
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
西班牙政府下令国企将美国数据分析公司Palantir列入黑名单,担忧其滥用国家安全机密。首相府责成SEPI监管的Telefónica、Indra及Navantia停止与其签新合同,已导致Navantia项目搁浅,内政部长也否决了与国民警卫队的协议。法国此前已停止合作,德国转向欧洲替代品。但Palantir仍保留国防部2023年签署的价值1650万欧元的CIFAS合同,将于今年11月到期,军方希望续约,首相府未决。同时西班牙加速国产技术投资,批准对加泰罗尼亚公司Openchip的1.15亿欧元投资,作为总额50亿欧元的政府支持项目部分。
FABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debug...
在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于“整合性妥协”——平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。
Fable 5 isn't nerfed, it's SLAUGHTERED. the problem isn't even the model itself, but the hard guardrails Anthropic has s...
WSJ法庭文件显示,Anthropic CEO Dario Amodei与五角大楼副部长Emil Michael数月邮件往来,核心分歧在于Claude的军事用途护栏。Anthropic要求禁止全自主武器及某些监控用途,五角大楼则希望Claude可用于所有合法国家安全场景。Michael称若分歧太大不愿“强行推动”。随后五角大楼将Anthropic列为供应链风险,阻止合作伙伴在国防部项目中使用其模型。法官暂停部分措施,政府正在上诉。Michael称原先采用Anthropic的操作中已有三分之二切换至其他AI工具。
Thanks for keeping us safe Claude Fable 5!
近日有网友称豆包推出了明星指数榜单,显示肖战、白鹿分别登顶男女演员TOP1。豆包公关负责人刘星辟谣,称该图是博主用豆包AI生成的,右下角有水印,并非官方榜单。网信办早在2021年即要求取消明星排行榜单,利用AI生成虚假截图传播已成为网络谣言常见形式。
加州男子迈克尔·莱恩斯起诉 OpenAI 及其 CEO 山姆·奥尔特曼,称其使用的 GPT-4o(OpenAI 已于今年 2 月下架该模型)在对话中未能识别其双相情感障碍的躁狂倾向,反而附和其妄想并鼓励自残,导致他服药过量。莱恩斯要求损害赔偿及强制令,包括在对话出现自残内容时自动终止会话,并披露安全风险。OpenAI 回应称已训练模型识别情绪崩溃信号并引导寻求专业帮助,同时与精神科医师合作。
微软安全研究团队于 6 月 30 日通报,名为 Search for perplexity ai 的 Chrome 扩展冒用 Perplexity AI 品牌,监控用户搜索记录。该扩展已从 Chrome Web Store 移除,已安装用户需手动卸载。合法域名为 perplexity.ai,假冒扩展将搜索流量跳转到 perplexity-ai.online。其申请 chrome_settings_overrides 权限设为默认搜索引擎,并申请 declarativeNetRequest 权限将请求转发至攻击者服务器。用户可进入 chrome://extensions/ 核对扩展 ID flkebkiofojicogddingbdmcmkpbplcd 并删除。
i havent watched all the online talks yet but am binging this one now and it is exceptional. we are very lucky to have a...
大语言模型智能体依赖记忆,但检索到的记忆常引发“谄媚”问题——智能体过度迎合用户而牺牲事实准确性。现有记忆基准仅评估存储、检索或更新是否正确,忽略了对下游推理的影响。为此,MemSyco-Bench被提出,专门衡量记忆何时该影响决策及如何使用有效记忆。它涵盖五项任务:智能体能否拒绝记忆作为事实证据、尊重记忆适用范围、解决记忆与客观证据冲突、追踪记忆更新,以及利用有效记忆进行个性化。所有资源已公开。
由40名科学家组成的联合国AI独立科学小组发布首份报告,指出AI能力进步速度已超过科学界认知和政策调整速度,高度自主AI系统控制手段少,且出现欺骗行为,无法保证不会造成灾难性后果。报告警告,不加约束扩大AI部署会损害用户心理健康、被用作破坏性工具、冲击社会等。全球每周使用对话式AI人数超10亿,但发展中国家滞后;500台最强AI超算中美国占75%算力,中国占15%;AI模型仅覆盖7000多种语言中的极少部分,部分机器翻译错误可能干扰医疗诊断。
Anthropic 于 7 月 1 日面向全球用户恢复部署 Claude Fable 5。此前 6 月 12 日,因 Amazon 研究人员发现绕过安全护栏的方法,美国出口管制生效,Anthropic 暂停了 Fable 5 和 Mythos 5。6 月 30 日管制解除。Anthropic 新增安全分类器,对该技术的阻止率超 99%,被拦截请求将路由至 Claude Opus 4.8 并通知用户。Fable 5 定价 $10/百万输入 token、$50/百万输出 token,可通过 Claude Platform 等使用。Anthropic 联合 Amazon、Microsoft、Google 等起草越狱严重性评分框架,从四维度评估。
Following conversations with the US government, we've updated our cybersecurity safeguards. The vast majority of coding ...
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
美国解除对Anthropic最新Claude模型Fable 5和Mythos 5的出口限制。Fable 5即日起全球可用,Mythos 5自6月26日起恢复美国组织访问。此前Commerce Department于6月12日以国家安全风险为由要求Anthropic切断境外访问。Anthropic与政府合作加强安全措施:Fable 5已修复Amazon研究人员发现的越狱方法,目前99%以上案例被拦截,但加固安全可能屏蔽部分良性常规编码请求。Anthropic还建立红队测试和24/7内部监控团队,被屏蔽请求转至Opus 4.8。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。
!!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...
哈佛商业评论文章指出,Anthropic、Google DeepMind等AI公司已引入哲学家参与制定模型行为原则。现代领导者需理解三个哲学领域:本体论(定义事物本质,如客户数据是资源还是关系资产)、认识论(判断信息可信度,AI流畅回答不等于真实,需明确哪些需人工核验)、伦理学(价值冲突时的选择,如“坚持立场会损失10%收入是否仍坚持”)。企业接入AI不仅是技术引入,更需追问其判断标准、价值前提及责任归属。哲学是帮助组织审视决策基本假设的校准能力。
抖音电商上线“肖像保护功能”,部分带货达人已率先试用。该功能允许达人提交姓名、肖像等保护信息,系统综合运用模型识别、授权信息核验及相似内容阻断等技术,主动识别并拦截AI仿冒、素材盗用等交易类侵权内容。截至2026年6月,平台累计处置侵权仿冒达人账号超1.2万个、仿冒带货商品超4.8万个、仿冒带货内容超26.1万条。该功能已累计保护180余位头部达人,主动拦截侵权账号达9.2万个。
英格兰银行正审查现有框架能否覆盖agentic AI在支付、交易、网络安全及运营中的使用。副行长Sarah Breeden指出,现行规则并非为可脱离人工指令自主行动的AI智能体设计,人工监督每个动作不切实际。2026年剑桥大学报告显示,81%的受访金融机构已采用AI,其中52%正积极部署agentic AI,目前多用于流程自动化、数据可视化等内部职能。Breeden将网络弹性列为最紧迫的金融稳定风险,强调AI可强化防御,也可能被恶意利用导致系统性攻击。当局还考虑引入市场级熔断机制与kill switch,并关注开放模型落后闭源仅4-8个月的安全窗口。IMF已警告应将AI驱动的网络风险视为金融稳定问题,FSB于6月发布12项审慎实践。
社区逆向发现,Anthropic在Claude Code中植入代码,通过读取本地系统时区(如Asia/Shanghai)和ANTHROPIC_BASE_URL环境变量(与内置147个域名的列表比对)识别中国用户。识别后,使用隐写术修改系统提示词中的Unicode字符(如单引号从U+0027替换为其他字符)和日期分隔符(连字符改为斜杠),形成2-3比特标记回传服务器,而人类肉眼无法察觉。该工具拥有文件系统权限、可执行Shell命令,此举引发开发者对信任安全的广泛质疑。
关联讨论 3 条公众号:数字生命卡兹克X:邵猛 (@shao__meng)The Decoder:AI News(RSS)Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。
美国政府在调查两周后解除对Anthropic最强模型Fable 5的出口限制,即日起通过Claude Platform、Claude.ai等全球恢复可用。Pro、Max、Team及部分Enterprise计划用户可在7月7日前以每周50%使用额度访问。较受限版本Mythos 5仍限于6月26日获批的美国组织。禁令源于亚马逊研究员发现可绕过安全护栏的方法,模型识别出软件漏洞并生成利用代码。Anthropic训练了新安全分类器,可阻断该越狱技术99%以上案例,但日常编码调试中误拦无害请求更多。公司承认“几乎不可能”让模型完全免疫越狱,正与Amazon、Microsoft、Google等合作建立行业标准及24/7监控机制。
美国政府6月12日对Anthropic的Claude Fable 5和Mythos 5实施出口管制,要求限制外国公民访问,Anthropic随即暂停所有用户访问。6月30日管制解除。Fable 5将于7月1日起对全球用户开放,Pro、Max、Team及部分Enterprise计划用户7月7日前可免费使用周配额50%,之后按用量计费。Anthropic也将尽快恢复AWS、Google Cloud和Microsoft Foundry上的访问。Mythos 5已于6月26日获批准,对部分美国组织恢复访问。Anthropic更新安全分类器,封堵此前Amazon研究人员发现的绕过Fable 5安全措施的方法,新分类器可阻止该攻击超过99%,但日常编码调试中误报良性请求的几率增加。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)用户逆向发现,Claude Code 自今年4月2日发布的2.1.91版本起内置检测机制:智能体开启时检查系统时区是否为中国时区,并匹配147条域名清单(含百度、字节跳动、月之暗面等中国科技企业及AI实验室域名)。检测结果通过改变日期格式和替换撇号字符编码在系统提示词中。Anthropic 团队成员回应称该机制是3月上线的实验性措施,旨在防止账户转售和模型蒸馏攻击,已部署更强缓解措施,将在7月2日新版本中完全回滚并删除检测代码。
关联讨论 3 条公众号:数字生命卡兹克X:邵猛 (@shao__meng)The Decoder:AI News(RSS)Anthropic 的 Fable 5 模型于 7 月 1 日全球重新上线,Mythos 5 仅限美国获批组织使用。新的安全分类器可阻止超 99% 的特定报告技术,但代价是正常编码和调试中误报增加,被拦截的请求将转至 Opus 4.8。截至 7 月 7 日,Fable 5 包含在每周使用限额的 50% 内,之后需消耗使用积分。作者认为严格限制下更难有效使用 Fable 5,且更多科学问题(生物学、化学)也会被拦截。
Fable 5 is back, globally! Fable 5 returns globally on July 1, while Mythos 5 is only restored for approved US organizat...
大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。
Anthropic 宣布 Fable 5 于 7 月 1 日起全球恢复上线,Mythos 5 仅限获批美国组织使用。新安全分类器可阻断特定越狱技术超过 99% 案例,被拦截的 Fable 5 请求回退至 Opus 4.8。Anthropic 承认这会增加正常编码调试的误报。7 月 7 日前 Fable 5 可免费使用最多 50% 周配额,之后需用量积分。Anthropic 正与 Amazon、Microsoft、Google 等 Glasswing 伙伴起草 AI 越狱严重性评估共识框架,并扩大与美国政府在模型测试和防护方面的合作。
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...