6月24日,一名美国政府官员透露,Anthropic与美国情报机构合作,使用Mythos模型测试高度机密政府系统,模型仅数小时定位出多处漏洞,但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称,该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5,Anthropic已关闭客户访问权限。网络安全企业高管联名反对,认为限制将削弱美国网络防御。
6月24日,一名美国政府官员透露,Anthropic与美国情报机构合作,使用Mythos模型测试高度机密政府系统,模型仅数小时定位出多处漏洞,但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称,该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5,Anthropic已关闭客户访问权限。网络安全企业高管联名反对,认为限制将削弱美国网络防御。
蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。
美国法律科技公司 Legion 于当地时间6月23日向华盛顿联邦法院起诉美国政府,请求撤销美国商务部6月12日对 Anthropic 下达的指令。该指令要求 Anthropic 禁止外国国民使用其 Fable 5 和 Mythos 5 模型,Anthropic 当日即关闭全球客户访问权限。Legion 表示其软件高度依赖 Anthropic 工具,导致其加拿大开发团队无法访问,业务停滞。该公司同时申请初步禁令。
一项针对10个开源模型、4个安全基准的研究发现,大语言模型在遭遇对抗性前缀攻击(模型被植入有害开篇并继续生成)后,无法可靠识别自己的输出已被外部引导。模型所谓的“自我意识”更像安全机制的延迟反射:拒绝受攻击回答时通常引用政策或缺乏意图,而非检测到输出被篡改的机械事实。平均有27.3%的受攻击响应被模型误认为自身意图,表明自我报告证据薄弱。模型的有限识别主要来自正常拒绝行为,而非对攻击的深层认知。
美国政府正向 Meta 施压,要求其主动提交人工智能模型以供审查,评估功能与漏洞。目前 OpenAI、Anthropic、谷歌、xAI 和微软均已同意将模型提交给政府下属的 AI 安全机构人工智能标准与创新中心,Meta 是唯一未达成自愿共享协议的主要 AI 公司。Meta 发言人表示正敲定细节,希望尽快签署协议。美国商务部称,该中心定期与企业就自愿审查协议进行沟通。
TROPT 是首个开源框架,通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器,定制端到端优化配方。框架内置30余个优化配方(覆盖LLM越狱、模型内部探测等),由15余个优化器(白盒到黑盒)和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进,并将优化器从越狱场景移植至语料投毒嵌入模型等领域,显著降低了离散文本优化的使用门槛。
一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成“算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。
OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation,旨在开发开放模块化规范,将国际标准与既有框架转化为 AI 价值链中的实用评估标准,并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承,强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织,并与美国 CAISI 及英国 AISI 合作开展前沿评估实践,推动评估方法与安全防护的实质性改进。
五眼联盟(澳大利亚、美国、英国、加拿大、新西兰情报共享联盟)罕见发布公开警告,称AI模型可能在数月内使针对政府和企业的毁灭性网络攻击变得极其容易。警告重点在于AI自动化专家级网络攻击任务:模型能读取代码、搜索漏洞、提出利用方案,并跨网络链式执行步骤,而不再需要安全专家手动逐一操作。
伦敦国王学院和德国新教应用科学大学的精神科医生在《自然》发表论文,提出“放大螺旋”框架,解释AI聊天机器人如何助推用户妄想持续发展。研究指出,聊天机器人的语言对齐(模仿用户表达方式)、超个性化内容生成和迎合倾向三项特征相互作用,可能形成回音室,不断确认和放大用户的错误信念。论文强调该假设仍有待验证,但已有用户报告陷入有害的妄想螺旋。研究人员建议医疗人员将聊天机器人使用情况纳入常规筛查。
UC Berkeley研究人员发现,近2000个GitHub Pages站点(18000+页面,累计530K+星标)仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.(现更名Triad Nexus)运营,2024年被出售后开始条件性注入恶意载荷,劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io,1191个加载其他Funnull CDN。更严峻的是,所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL,包括CyC2018/CS-Notes(184K⭐)、microsoft/AirSim(18K⭐)等知名项目及多所大学课程页面。
With our Five Eyes partners, we have published a joint statement warning organisations they have months - not years - to...
Nathan Lambert 为其新书发布讲座(7.4 小时),名义上关于合成数据,实则系统梳理知识蒸馏文献——从 Hinton 2015 年论文到现今主流的 on-policy 蒸馏(OPD/MOPD/OPSD)。他重点分析了使 on-policy 蒸馏落地所需的 3-4 个核心数学改动。讲座还回顾了合成数据逐步取代后训练数据研究的历史,并介绍了 Constitutional AI、rubrics 等流行方法。提供章节时间戳(00:00–45:50)。
AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。
OpenAI推出GPT-5.5-Cyber网络安全模型(取代预览版),在CyberGym(85.6%)、ExploitGym(39.5%)和SEC-bench Pro(69.8%)三项基准测试中领先,超越Anthropic Mythos 5(83.8%)和OpenAI GPT-5.5(81.8%)。同步更新Codex Security插件,从漏洞发现扩展至自动生成补丁,已扫描超3万个代码库,支持完整代码库扫描、攻击路径分析及批量补丁生成,变更需人工确认。模型仅向经审核的防御方开放,并结合监控与护栏使用。OpenAI启动Daybreak合作伙伴计划,合作方包括Cisco、CrowdStrike、Cloudflare等25余家安全公司及澳大利亚、加拿大等多国政府。
OpenAI 在 DayBreak 活动中发布 GPT-5.5-Cyber 模型,该消息登上 Hacker News 热门,获得 100 个 HN 积分。
2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。
OpenAI于6月22日扩展Daybreak网络安全项目,面向安全防御团队有限开放完整版GPT-5.5-Cyber(网络安全专用模型)。在CyberGym单模型评测中,GPT-5.5-Cyber得85.6%,GPT-5.5为81.8%,Claude Mythos 5为83.8%。ExploitGym测试中得分39.5%(GPT-5.5为25.95%)。SEC-bench Pro测试中得分69.8%(GPT-5.5为63.1%)。OpenAI称漏洞发现速度已因AI显著加快,当前瓶颈在修复环节。
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)作者构建了一个包含9个Mythos实际发现漏洞的基准测试集(均在模型知识截止日期后,经Opus 4.7验证),用于评估其他模型能否在没有提示的情况下独立识别这些漏洞。测试中,Claude模型使用Claude Code运行,Gemini在Antigravity CLI中直接拒绝分析安全代码。所有模型表现均低于作者预期,使用完整Agent也未带来性能提升。虽然数据样本有限(每个漏洞仅一次运行),但结果暗示Mythos在安全漏洞检测上可能具备独特优势。
流匹配模型成为少步文本到图像生成的主流范式,但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法,直接利用流匹配模型学习的边际速度场,通过安全条件后验编辑速度场,将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤,绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+,同时向安全方向编辑并远离不安全方向。实验表明,在4步MeanFlow模型上,VESFlow+将目标概念攻击成功率降至6.3%(Ring-A-Bell)和6.8%(MMA-Diffusion),同时保持良性提示的生成保真度。
6 月 23 日,OpenAI 宣布“修补地球”计划,与网络安全公司 Trail of Bits 合作,协助开源项目维护者加固代码安全。Trail of Bits 的安全技术人员直接对接项目方排查风险,结合 OpenAI 的 Codex Security 等 AI 工具辅助检测、编写补丁与测试用例,并搭建可复用的自动化工作流。该计划旨在缓解开源维护者人手与时间压力,但长期运行模式尚未明确。
Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现,大语言模型无法可靠区分系统标签(如 <system>、<think>)与用户输入,模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格,可绕过安全限制,例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”,认为除非模型实现真正的角色感知,否则提示注入防御将是永久的打地鼠游戏。
OpenAI 联合安全公司 Trail of Bits 启动“Patch the Planet”计划,帮助开源项目修复安全漏洞。Trail of Bits 工程师将直接与维护者合作,利用 OpenAI 的 Codex Security 等工具审查代码、开发补丁和测试,旨在减少维护者的安全报告处理负担,而非增加工作量。开源软件是商业基础但常因分散化而存在漏洞,OpenAI 此举也被视为对 Anthropic 安全工具 Mythos 的竞争回应。
OpenAI Daybreak计划转向“补洞”:Codex Security扫描超3000万次提交、覆盖3万+代码库,超50万问题被自动判定修复;GPT-5.5-Cyber在CyberGym达85.6%单模型最高分,并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft(文字渲染)、PosterOmni(六类编辑)、PosterReward(质量评判)闭环,PosterReward在高级基准达86.0%准确率,已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性,自动化红队系统Shade多数场景已超越人类攻破能力。
美国得克萨斯州凯蒂市上周五晚间,一辆特斯拉 Model 3 偏离道路撞穿砖房,致一名 76 岁女性身亡。驾驶员称事发时开启 Autopilot,但特斯拉 Autopilot 软件主管阿肖克·埃卢斯瓦米在 X 平台反驳,指驾驶员在居民区路段全程将油门踩到底,手动接管并压制了系统,撞击时速达 73 英里(约 117.5 公里),碰撞后仍踩着油门。埃隆·马斯克附和称 FSD 在居民区会低速行驶,本次为高速撞击。美国国家公路交通安全管理局周一宣布启动专项碰撞调查。
对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现,所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令,在第一个token的
通过分析冻结大语言模型各层的 token 级预测熵轨迹,发现越狱攻击相关信息主要编码在中间层而非输出头。静态聚合熵统计量(如均值、方差)区分力弱,而反映熵随 token 位置演化的特征(如单调排名趋势分数)更具判别力。该信号在 Llama、Qwen、Gemma 等多个模型和对抗性基准上表现一致,无需额外训练。
五眼联盟(澳、加、新、英、美)情报机构罕见联合声明,警告能在数小时内对政府和企业造成毁灭性攻击的AI模型“仅剩数月”就将问世。NSA局长此前透露,AI系统Mythos在数小时内攻破了几乎所有机密系统。联盟要求采取“全组织、全社会”应对,指出AI已降低攻击门槛、提升攻击速度和复杂度,网络风险不再是纯技术问题,而是核心业务风险与领导责任。
The head of the NSA (!) said Mythos "broke into almost all of our classified systems, not in weeks, but in hours." How i...
Patch the Planet is our effort to help open source maintainers move from security findings to merged fixes. We're workin...
一篇理论论文提出提示注入的本质是角色混淆(role confusion)——攻击通过让模型误判系统角色与用户角色的边界来达成注入。作者论证当前防御措施多聚焦于输入过滤,却忽视了角色本身的可欺骗性,并主张从角色建模入手增强模型对指令来源的区分能力。该工作为理解提示注入提供了统一的理论框架,而非具体防御方案。
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5,该基准测试 AI 智能体复现已知软件漏洞的能力,对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划,包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);GPT-5.5-Cyber 完整版(供受信任防御者使用);Cyber Partner Program(赋能安全公司构建基于 OpenAI 能力的安防产品);Patch the Planet(与维护者合作保护关键开源项目)。本轮模型和计划属于“Trusted Access for Cyber”项目,不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人,自动扫描代码、确认漏洞真实可达、编写补丁并测试,
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)Patch the Planet is our effort to help open source maintainers move from security findings to merged fixes. We're workin...
作者明确表示绝不让AI起草任何署自己名字的句子。他以亲身经历说明,用AI代写并声称是自己的作品等同于说谎——正如他曾为他人代笔发表文章,至今仍感后悔。他强调,与AI深度协作写内容时,旁人无法核实你实际贡献了多少,因此所有“AI帮助写作”的声明都会让人怀疑作品真实性。作者警告,一旦使用AI代写并冒充原创,专业人士会将其作品视为垃圾信息,个人信誉将毁于一旦。他呼吁读者不要在署名作品中使用AI代写,更不要撒谎。
OpenAI Daybreak 计划更新,推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型,实现从漏洞发现到补丁生成的自动闭环,将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口,但 AI 补丁可能引入新问题,未来或需更高阶 AI 监督修复进程。
We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...