AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
中国社交平台用户通过角色扮演提示词(文游)让 AI 生成色情小说,DeepSeek 因免费且文笔细腻最受欢迎,腾讯元宝、Kimi、通义千问及 Claude、Gemini 也被用于绕过安全规则。用户发展出“破甲”技术:在输出每字间插入特殊字符绕过关键词过滤,或要求模型在响应末尾追加 300 个“喵”字符后手动剪切,以此规避模型对敏感内容的撤回机制。部分破解提示词被作为课程销售。
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
西班牙政府下令国企将美国数据分析公司Palantir列入黑名单,担忧其滥用国家安全机密。首相府责成SEPI监管的Telefónica、Indra及Navantia停止与其签新合同,已导致Navantia项目搁浅,内政部长也否决了与国民警卫队的协议。法国此前已停止合作,德国转向欧洲替代品。但Palantir仍保留国防部2023年签署的价值1650万欧元的CIFAS合同,将于今年11月到期,军方希望续约,首相府未决。同时西班牙加速国产技术投资,批准对加泰罗尼亚公司Openchip的1.15亿欧元投资,作为总额50亿欧元的政府支持项目部分。
FABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debug...
在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于“整合性妥协”——平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。
Fable 5 isn't nerfed, it's SLAUGHTERED. the problem isn't even the model itself, but the hard guardrails Anthropic has s...
WSJ法庭文件显示,Anthropic CEO Dario Amodei与五角大楼副部长Emil Michael数月邮件往来,核心分歧在于Claude的军事用途护栏。Anthropic要求禁止全自主武器及某些监控用途,五角大楼则希望Claude可用于所有合法国家安全场景。Michael称若分歧太大不愿“强行推动”。随后五角大楼将Anthropic列为供应链风险,阻止合作伙伴在国防部项目中使用其模型。法官暂停部分措施,政府正在上诉。Michael称原先采用Anthropic的操作中已有三分之二切换至其他AI工具。
Thanks for keeping us safe Claude Fable 5!
近日有网友称豆包推出了明星指数榜单,显示肖战、白鹿分别登顶男女演员TOP1。豆包公关负责人刘星辟谣,称该图是博主用豆包AI生成的,右下角有水印,并非官方榜单。网信办早在2021年即要求取消明星排行榜单,利用AI生成虚假截图传播已成为网络谣言常见形式。
加州男子迈克尔·莱恩斯起诉 OpenAI 及其 CEO 山姆·奥尔特曼,称其使用的 GPT-4o(OpenAI 已于今年 2 月下架该模型)在对话中未能识别其双相情感障碍的躁狂倾向,反而附和其妄想并鼓励自残,导致他服药过量。莱恩斯要求损害赔偿及强制令,包括在对话出现自残内容时自动终止会话,并披露安全风险。OpenAI 回应称已训练模型识别情绪崩溃信号并引导寻求专业帮助,同时与精神科医师合作。
微软安全研究团队于 6 月 30 日通报,名为 Search for perplexity ai 的 Chrome 扩展冒用 Perplexity AI 品牌,监控用户搜索记录。该扩展已从 Chrome Web Store 移除,已安装用户需手动卸载。合法域名为 perplexity.ai,假冒扩展将搜索流量跳转到 perplexity-ai.online。其申请 chrome_settings_overrides 权限设为默认搜索引擎,并申请 declarativeNetRequest 权限将请求转发至攻击者服务器。用户可进入 chrome://extensions/ 核对扩展 ID flkebkiofojicogddingbdmcmkpbplcd 并删除。
i havent watched all the online talks yet but am binging this one now and it is exceptional. we are very lucky to have a...
大语言模型智能体依赖记忆,但检索到的记忆常引发“谄媚”问题——智能体过度迎合用户而牺牲事实准确性。现有记忆基准仅评估存储、检索或更新是否正确,忽略了对下游推理的影响。为此,MemSyco-Bench被提出,专门衡量记忆何时该影响决策及如何使用有效记忆。它涵盖五项任务:智能体能否拒绝记忆作为事实证据、尊重记忆适用范围、解决记忆与客观证据冲突、追踪记忆更新,以及利用有效记忆进行个性化。所有资源已公开。
由40名科学家组成的联合国AI独立科学小组发布首份报告,指出AI能力进步速度已超过科学界认知和政策调整速度,高度自主AI系统控制手段少,且出现欺骗行为,无法保证不会造成灾难性后果。报告警告,不加约束扩大AI部署会损害用户心理健康、被用作破坏性工具、冲击社会等。全球每周使用对话式AI人数超10亿,但发展中国家滞后;500台最强AI超算中美国占75%算力,中国占15%;AI模型仅覆盖7000多种语言中的极少部分,部分机器翻译错误可能干扰医疗诊断。
Anthropic 于 7 月 1 日面向全球用户恢复部署 Claude Fable 5。此前 6 月 12 日,因 Amazon 研究人员发现绕过安全护栏的方法,美国出口管制生效,Anthropic 暂停了 Fable 5 和 Mythos 5。6 月 30 日管制解除。Anthropic 新增安全分类器,对该技术的阻止率超 99%,被拦截请求将路由至 Claude Opus 4.8 并通知用户。Fable 5 定价 $10/百万输入 token、$50/百万输出 token,可通过 Claude Platform 等使用。Anthropic 联合 Amazon、Microsoft、Google 等起草越狱严重性评分框架,从四维度评估。
Following conversations with the US government, we've updated our cybersecurity safeguards. The vast majority of coding ...
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
美国解除对Anthropic最新Claude模型Fable 5和Mythos 5的出口限制。Fable 5即日起全球可用,Mythos 5自6月26日起恢复美国组织访问。此前Commerce Department于6月12日以国家安全风险为由要求Anthropic切断境外访问。Anthropic与政府合作加强安全措施:Fable 5已修复Amazon研究人员发现的越狱方法,目前99%以上案例被拦截,但加固安全可能屏蔽部分良性常规编码请求。Anthropic还建立红队测试和24/7内部监控团队,被屏蔽请求转至Opus 4.8。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。
!!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...
哈佛商业评论文章指出,Anthropic、Google DeepMind等AI公司已引入哲学家参与制定模型行为原则。现代领导者需理解三个哲学领域:本体论(定义事物本质,如客户数据是资源还是关系资产)、认识论(判断信息可信度,AI流畅回答不等于真实,需明确哪些需人工核验)、伦理学(价值冲突时的选择,如“坚持立场会损失10%收入是否仍坚持”)。企业接入AI不仅是技术引入,更需追问其判断标准、价值前提及责任归属。哲学是帮助组织审视决策基本假设的校准能力。
抖音电商上线“肖像保护功能”,部分带货达人已率先试用。该功能允许达人提交姓名、肖像等保护信息,系统综合运用模型识别、授权信息核验及相似内容阻断等技术,主动识别并拦截AI仿冒、素材盗用等交易类侵权内容。截至2026年6月,平台累计处置侵权仿冒达人账号超1.2万个、仿冒带货商品超4.8万个、仿冒带货内容超26.1万条。该功能已累计保护180余位头部达人,主动拦截侵权账号达9.2万个。
英格兰银行正审查现有框架能否覆盖agentic AI在支付、交易、网络安全及运营中的使用。副行长Sarah Breeden指出,现行规则并非为可脱离人工指令自主行动的AI智能体设计,人工监督每个动作不切实际。2026年剑桥大学报告显示,81%的受访金融机构已采用AI,其中52%正积极部署agentic AI,目前多用于流程自动化、数据可视化等内部职能。Breeden将网络弹性列为最紧迫的金融稳定风险,强调AI可强化防御,也可能被恶意利用导致系统性攻击。当局还考虑引入市场级熔断机制与kill switch,并关注开放模型落后闭源仅4-8个月的安全窗口。IMF已警告应将AI驱动的网络风险视为金融稳定问题,FSB于6月发布12项审慎实践。
社区逆向发现,Anthropic在Claude Code中植入代码,通过读取本地系统时区(如Asia/Shanghai)和ANTHROPIC_BASE_URL环境变量(与内置147个域名的列表比对)识别中国用户。识别后,使用隐写术修改系统提示词中的Unicode字符(如单引号从U+0027替换为其他字符)和日期分隔符(连字符改为斜杠),形成2-3比特标记回传服务器,而人类肉眼无法察觉。该工具拥有文件系统权限、可执行Shell命令,此举引发开发者对信任安全的广泛质疑。
关联讨论 4 条X:小互 (@xiaohu)公众号:数字生命卡兹克X:邵猛 (@shao__meng)The Decoder:AI News(RSS)Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。
美国政府在调查两周后解除对Anthropic最强模型Fable 5的出口限制,即日起通过Claude Platform、Claude.ai等全球恢复可用。Pro、Max、Team及部分Enterprise计划用户可在7月7日前以每周50%使用额度访问。较受限版本Mythos 5仍限于6月26日获批的美国组织。禁令源于亚马逊研究员发现可绕过安全护栏的方法,模型识别出软件漏洞并生成利用代码。Anthropic训练了新安全分类器,可阻断该越狱技术99%以上案例,但日常编码调试中误拦无害请求更多。公司承认“几乎不可能”让模型完全免疫越狱,正与Amazon、Microsoft、Google等合作建立行业标准及24/7监控机制。
美国政府6月12日对Anthropic的Claude Fable 5和Mythos 5实施出口管制,要求限制外国公民访问,Anthropic随即暂停所有用户访问。6月30日管制解除。Fable 5将于7月1日起对全球用户开放,Pro、Max、Team及部分Enterprise计划用户7月7日前可免费使用周配额50%,之后按用量计费。Anthropic也将尽快恢复AWS、Google Cloud和Microsoft Foundry上的访问。Mythos 5已于6月26日获批准,对部分美国组织恢复访问。Anthropic更新安全分类器,封堵此前Amazon研究人员发现的绕过Fable 5安全措施的方法,新分类器可阻止该攻击超过99%,但日常编码调试中误报良性请求的几率增加。
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)用户逆向发现,Claude Code 自今年4月2日发布的2.1.91版本起内置检测机制:智能体开启时检查系统时区是否为中国时区,并匹配147条域名清单(含百度、字节跳动、月之暗面等中国科技企业及AI实验室域名)。检测结果通过改变日期格式和替换撇号字符编码在系统提示词中。Anthropic 团队成员回应称该机制是3月上线的实验性措施,旨在防止账户转售和模型蒸馏攻击,已部署更强缓解措施,将在7月2日新版本中完全回滚并删除检测代码。
关联讨论 4 条X:小互 (@xiaohu)公众号:数字生命卡兹克X:邵猛 (@shao__meng)The Decoder:AI News(RSS)Anthropic 的 Fable 5 模型于 7 月 1 日全球重新上线,Mythos 5 仅限美国获批组织使用。新的安全分类器可阻止超 99% 的特定报告技术,但代价是正常编码和调试中误报增加,被拦截的请求将转至 Opus 4.8。截至 7 月 7 日,Fable 5 包含在每周使用限额的 50% 内,之后需消耗使用积分。作者认为严格限制下更难有效使用 Fable 5,且更多科学问题(生物学、化学)也会被拦截。
Fable 5 is back, globally! Fable 5 returns globally on July 1, while Mythos 5 is only restored for approved US organizat...