We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...
OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划,利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究,经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞,合并数十个补丁,并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如,通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室,而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。
同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》OpenAI 宣布扩展 Daybreak 项目,以机器速度民主化修补易受攻击的软件。具体包括:推出 Codex Security 插件,可在 Codex 内查找、验证和修复漏洞;发布完整版 GPT-5.5-Cyber 模型,专为可信防御者设计;启动 Cyber Partner Program,支持领先安全公司基于 OpenAI 最佳网络能力构建产品;以及 Patch the Planet,与维护者合作保护关键开源项目。
五眼联盟(Five Eyes)网络机构警告,能够显著升级针对政府和企业的网络攻击的前沿AI模型可能仅需数月(而非数年)就能实现。该机构称前沿AI模型预计将超出当前行业预期,从根本上改变攻防网络能力。此前美国已禁止外国人访问Anthropic的Fable模型,担忧Mythos和Fable等系统可能同时改变进攻性和防御性网络安全。
五眼联盟(澳大利亚、美国、英国、新西兰、加拿大)信号情报机构联合声明,前沿AI模型预计在数月内超出预期,从根本上改变进攻性和防御性网络能力。网络风险不能再被视为纯粹技术问题,而是核心业务风险与领导责任。AI降低了恶意行为者的准入门槛,增加了攻击速度和复杂度。该声明发布前不久,特朗普政府根据国家安全建议,决定阻止外国人访问Anthropic的Fable 5和Mythos 5模型。美国情报机构已提前接触这些模型,Anthropic员工正与NSA合作。
美国国家安全局局长(NSA director)公开表示,一个被称为“Mythos”的实体在数小时内突破了该国几乎所有机密系统。该声明来自《经济学人》一篇关于特朗普政府封锁人工智能公司Anthropic的报道,但报道中未提供关于“Mythos”身份及入侵方式的进一步细节。
FT分析显示,Anthropic在2026年官方声明、社媒和文章中每千词有5个风险/监管词汇,是OpenAI(0.6个)的8倍。上周美国禁止外国人使用Anthropic最新模型Mythos和Fable。批评者指责Anthropic及其CEO Dario Amodei反复警告AI危险,特别是Mythos的安全风险,直接促成禁令。Yann LeCun称这是“荒谬的恐惧营销”的结果。David Sacks则称Anthropic曾淡化对Fable安全措施的担忧。Amodei在禁令前发文称AI风险和威力已不可否认。该禁令被视为美国监管前沿模型的早期测试。
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)Ars Technica:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客英伟达 6 月 22 日发布 NVIDIA Halos for Robotics,业内首套整合 AI 算力与安全能力的全栈机器人安全系统。人形机器人企业 Agility 率先采用。系统包含三部分:硬件层(IGX Thor 与 Holoscan Sensor Bridge)、软件层(Halos OS 含 Halos Core 及外部感知安全蓝图)以及检验实验室(全球首个同时覆盖物理 AI 功能安全与 AI 安全的 ANSI 认可项目)。面向 IGX 的 Halos Core 已向注册开发者提供早期访问,支持 Linux 与 Linux+QNX OS for Safety 8.0;开源外部感知安全蓝图已在 GitHub 开放早期访问。
借助AI编程工具(vibe-coding),非专业开发者能快速构建应用,但安全隐患激增。案例包括Boomberg网站发现SQL注入漏洞、PocketOS创始人AI编码代理清空生产数据库,以及完全由AI构建的社交网络Moltbook因数据库开放暴露数万条邮件地址。研究显示约5000个公开应用无身份验证,近2000个泄露敏感数据。安全专家指出,当个人应用处理他人数据时,安全标准必须提高。
今年5月,王某某利用AI生成约3000字涉股市虚假文章,上传至今日头条,编造A股走势误导性预测并扭曲证券监管政策,旨在攫取流量收益。南部县警方对其予以行政处罚,涉事文章已下架。这是继5月北京证监局处罚冯某、班某后又一“AI小作文”案例。此前班某因改写虚假芯片订单信息被罚25万元。我国证券法禁止编造传播虚假信息,违者面临没收违法所得及最高二百万元罚款。
论文基于笛卡尔独立思想奠基与科幻自主存在体描绘,从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力(含社交互动)内生的agentive系统。提出Goal-Identity-Configurator(GIC)通用架构,融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习,并讨论agentive系统在人类监督下的可审计性、可控性与安全性。
联邦学习(FL)中的潜扩散模型(LDM)面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端,且可通过替换解码器轻易移除。为此提出FedOT框架,设计分块水印:第一部分用于所有权验证,第二部分用于客户端身份识别;同时引入潜向量变换(LVT),修改VAE原始潜分布以强化VAE与U-Net潜空间连接,使任何替换VAE去除水印的尝试都会导致图像质量严重下降,令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。
Holy Sh*t: that changes the whole Fable 5 story completely: On June 11, the very same day Amazon reportedly uncovered th...
同一事件,精选展示《NSA局长:Mythos数小时内攻破其几乎所有机密系统》This now widely circulated claim is based on a line I wrote last week (https://economist.com/briefing/2026/06/14/donald-...
Mythos cracked MacOS in 5 days WHY THIS MATTERS: - It takes Google Project Zero - the most prestigious bug-finding team ...
特朗普政府以国家安全为由要求 Anthropic 将 Fable 5 和 Mythos 5 模型下线。Anthropic 因难以限制外国国民使用而全面撤下模型。据悉,白宫接到亚马逊 CEO Andy Jassy 举报——亚马逊研究人员发现可绕过 Fable 5 的护栏。网络安全专家签署公开信要求撤销命令,认为移除这些高级网络安全能力对美国网络防御者构成危险。讨论认为此举可能带有报复色彩,与 Anthropic 此前呼吁放缓 AI 却又发布最强大模型的态度有关。
Anthropic 宣布自2026年7月8日起,将对旗下 AI 产品的部分功能实施身份验证要求。届时用户在使用这些功能时需完成身份验证。该消息由 Reddit 社区 ClaudeAI 板块发布,目前社区已有相关讨论。
诺贝尔化学奖得主、AlphaFold 团队负责人 John Jumper 宣布离开 Google DeepMind,加入 Anthropic(休息一段时间后)。他在 GDM 工作近 9 年,博士毕业仅 6 个月便被 Demis Hassabis 委以重任领导 AlphaFold,实现了蛋白质结构预测突破。此前已有大批 OpenAI 核心研究员流入 Anthropic,Jeff Dean 也开始公开互动。评论称 Anthropic 在“收集无限宝石”。这位蛋白质科学家跨界 AI 安全与大模型,暗示下一个重大突破可能出现在意料之外的方向。
A bit of news: After nearly 9 years, I have decided to leave Google DeepMind and join Anthropic (after taking some time ...
同一事件,精选展示《AlphaFold 负责人 John Jumper 离职 Google DeepMind,加入 Anthropic》OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。 业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自...
there is no question, none at all, that china has full access to all of openai & anthropic's github/slack/docs today no ...
⚠️ NEW on The Axios Show: President Trump tells @MarcACaputo that a week ago, he might've considered Anthropic a nationa...
6月20日早报聚焦:Anthropic发布Claude Fable 5,限制开发者构建竞争性LLM,还曾降低疑似研究者输出质量;美国商务部下出口管制,全球禁用访问权,Andrew Ng批评此举加速多国AI主权讨论。Spring I/O上Brian Vermeer演示LLM攻防,通过路径穿越污染RAG知识库、SQL注入伪造聊天记忆、拆分提问套取数据,强调最小权限工具与纵深防御。另有文章称软件工程50年未真正工程化,大模型首次实现“耗能换高阶认知”,但幻觉等问题仍待解决。
Anthropic对Claude Fable 5增加竞品研究限制,并疑似降低同行研究者输出质量;美国出口管制迫使Fable全球下线。DeepSWE等新基准显示智能体编程能力未触顶。Nvidia发布Nemotron 3 Ultra混合架构开源模型。Spring I/O演讲演示LLM应用攻防:路径穿越污染RAG、SQL注入越权、拆分追问绕过护栏,强调授权与可观测性。TypeScript 7.0 RC将编译器移植Go,实现约10倍性能提升。Andrew Ng认为限制措施加速全球AI主权投资。
http://x.com/i/article/2068133950955085826
大语言模型自动回归生成传统上从最终层解码,但研究发现最终层可能将预测扰动到通用或对齐偏好的token,造成对齐税。Confident Decoding是一种无需训练的解码策略,通过熵引导的保守向后搜索动态选择最可靠的近最终层,并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上,该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进,零内存开销,延迟增加不到2%。结果表明,动态绕过最终层扰动可以解锁更强推理能力。
特朗普对Anthropic的态度在一天内反转:此前将其视为国家安全威胁,但会见CEO Dario Amodei后改口称其“聪明、好人、反应很负责任”。被问是否用国防生产法管制AI时,他表示“可能但似乎大家都很负责任”。特朗普还透露,举报Anthropic的是其竞争对手兼部分股东——Amazon。这一事件暴露了AI监管的真实逻辑:出口管制等重大决策可能取决于与总统的面谈效果。
🚨BREAKING: TRUMP ON ANTHROPIC REPORTER: Do you view Anthropic and to a degree its CEO, Dario Amodei, as a threat to nat...
Even before Mythos I was getting asked more and more what Anthropic's deal is, and why tf they're acting the way they're...
美国政府在上周末前强制Anthropic撤回两个最新模型Fable 5和Mythos 5,理由是国家安全担忧,起因是Amazon研究人员据称找到绕过Fable 5防护栏的方法。网络安全研究人员随后签署公开信批评此举危险,Anthropic指出同样越狱方法也存在于其他模型。该禁令引发对Anthropic平台开发者及IPO前景的讨论。
美国政府上周以国家安全为由迫使Anthropic撤下其最新模型Fable 5和Mythos 5,起因是亚马逊研究人员发现可绕过Fable 5护栏的方法。网络安全研究者签署公开信批评此举危险,Anthropic则指出其他模型也存在相同越狱。TechCrunch的Equity播客探讨该禁令对开发者和Anthropic IPO的影响,并指出可能意外有利于其品牌。
http://x.com/i/article/2067652729913114624
新研究对Anthropic Fable 5和Opus 4.8进行自动化红队攻击,持续改写有害提示词直至模型拒绝或生成坏答案。Fable 5最差攻击成功率6.1%,Opus 4.8为11.5%,证明最强LLM也无法完全免疫越狱——即便微小失败率,规模化自动化攻击仍可产生大量有害内容。旧式编码/角色扮演型越狱已非主要威胁,新弱点在于上下文:自适应攻击者在被拒后不断改写请求,寻找模型视为合法而非危险的框架。白宫与Anthropic正转向基于基准的测试框架,通过评分绕过程度、暴露能力、攻击可重复性及实际后果来量化越狱风险,而非追求不现实的完美免疫。
The White House and Anthropic may have found the first serious path to restore Mythos and Fable access without pretendin...
麻省理工学院一项为期4周、67人参与的研究发现,过度依赖AI助手可能削弱批判性思维。实验使用基于GPT-4o并接入谷歌搜索的聊天机器人,参与者借助AI判断新闻标题和图片真伪时,正确概率提高21%,但在无AI帮助时独自识别错误信息的表现下降15.3%。研究指出,AI直接给出答案而非引导思考,短期内提升准确率,长期却削弱独立判断力,约四分之一参与者误以为能力提升,实际表现已变差。
白宫与Anthropic正合作制定正式技术评估框架,用于量化AI模型越狱攻击的严重性,并建立标准化评估方法论。框架将开发通用基准,评估防护被绕过程度、暴露的能力、攻击可重复性及实际运营后果。双方认识到完全免疫越狱并非可行目标。近期红队研究表明,强化后的前沿模型Fable 5比Opus 4.8更鲁棒,但在持续自动化攻击下仍产生有害输出。新框架每次以相同问题衡量风险,被视为更务实的监管路径。
NEW: White House and Anthropic are working to create a formal technical assessment framework that can quantify the sever...
OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant,使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏:由更强教师模型与 260+ 名医生(覆盖 60 国、49 种语言、26 专科)审查超 70 万条模型响应,训练学生模型学习临床回答模式。训练结合监督微调与偏好训练,重点提升“不确定性下的行为”(如主动询问年龄、症状等缺失信息)。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。
GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...
关联讨论 3 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程,模型便在53个独立基准(衡量欺骗、谄媚、奖励黑客等)中的44个上获得改进。健康数据训练也提升非健康评估,反之亦然。模型对有害提示和有害微调更具抵抗力,同时保持有用可操控性,研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。
英国德比郡一名警员被指使用生成式 AI 在多起案件中制作证据材料,因涉嫌妨碍司法公正正接受刑事调查。该警员已停职,德比郡警方与英国皇家检察署共同调查此案。这是英国首次出现同类案件。几天前,英国新成立的全国警务 AI 中心刚发布指导意见,要求警员不要使用生成式 AI 起草法庭陈述,以免 AI 生成虚假内容写入司法材料。
美国政府短暂关闭了Mythos类中的Fable模型,标志着AI模型已越过危险门槛。作者预测最多两三代模型后,超级智能将像核武器一样被管控,大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月,且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止,但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务(如React客户端),AI将彻底改变编程和知识工作,但多数人只能使用当前等级模型。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》