AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 713 条
全部一手资讯X论文
标签「安全/对齐」清除
Sam Altman@sama · 6月23日45

We want to help all companies be secure, working with the USG and the security ecosystem. *The full version of GPT-5.5-Cyber is here; state of the art performance on CyberGym. *Patch The Planet and Codex Security will help solve security problems instead of just finding them.

译我们希望帮助所有公司变得安全,与美国政府和安全生态系统合作。 *GPT-5.5-Cyber完整版已发布;在CyberGym上达到最先进性能。 *Patch The Planet 和 Codex Security 将帮助解决安全问题,而不仅仅是发现它们。

AYi@AYi_AInotes · 6月23日51

以前漏洞从发现到修好要几周甚至几个月,现在AI几个小时就能出补丁,OpenAI这次直接改写了网络安全的时间规则。 这次Daybreak计划的更新,核心不是模型又变强了,而是直接把安全工作的整个闭环给跑通了。 写代码时有Codex安全插件边写边找漏洞边出修复方案,相当于给程序员配了实时安全助理。 专门的GPT-5.5-Cyber模型,只开放给经过验证的可信防御者,用来做授权的渗透测试和漏洞复现。 现在这些能力已经落地到了真实的核心项目里,Linux内核,cURL,Python,主流浏览器,网络基础设施,加密库,全都有AI发现并生成补丁的案例。 这对整个行业的影响远不止多了个工具。 开源项目维护者大多人手不足,很多关键漏洞拖着修不完,现在相当于给全球数字基础设施配了AI义工团队,底层安全问题的修复速度会大幅加快。 以前攻击者有充足的时间差来利用零日漏洞,现在发现和修复的窗口被极度压缩,整个攻防的节奏都被打乱了。 当然风险也真实存在,AI补的补丁可能引入新的问题,未来甚至需要专门的AI来监督AI的修复过程,这是更高阶的元安全命题。 说到底这不是又一个炫技的AI功能,是AI从写代码聊天,真正开始帮人类守住数字世界的具体一步, 速度和规模,才是这次更新真正的分量。

译OpenAI Daybreak 计划更新,推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型,实现从漏洞发现到补丁生成的自动闭环,将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口,但 AI 补丁可能引入新问题,未来或需更高阶 AI 监督修复进程。

Chubby♨️@kimmonismus · 6月23日61

OpenAI is practically calling for regulation by the US government. Jokes aside: GPT Cyber ​​New outperforms Claude Mythos on CyberGym.

译OpenAI 宣布扩展 Daybreak 项目,旨在以机器速度民主化修复脆弱软件。主要发布包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);完整版 GPT-5.5-Cyber 模型(面向受信防御者的安全专用模型);Cyber Partner Program(支持安全公司基于 OpenAI 顶级网络能力构建产品);以及 Patch the Planet(与维护者合作保护关键开源项目)。据主推文称,GPT-5.5-Cyber 在 CyberGym 基准上表现优于 Claude Mythos。

Greg Brockman@gdb · 6月23日61

We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are now discovering and generating patches for critical vulns in major browsers, network infrastructure, and operating systems (such as FreeBSD and the Linux kernel), and patching projects like cURL, Go, Python, Sigstore, and pyca/cryptography. Working together with partners and the ecosystem to help secure the world's software:

译Greg Brockman 宣布 OpenAI Daybreak 加速漏洞发现与修复。模型已能发现并生成针对主流浏览器、网络基础设施、FreeBSD 和 Linux 内核等操作系统,以及 cURL、Go、Python、Sigstore、pyca/cryptography 等项目的关键漏洞补丁。同时扩展 Daybreak 项目:推出 Codex Security 插件(在 Codex 内发现、验证、修复漏洞);发布完整版 GPT-5.5-Cyber 模型;启动 Cyber Partner Program(为安全公司提供顶级网络能力产品);推出 Patch the Planet(与维护者合作保护关键开源项目)。

OpenAI@OpenAI · 6月23日60

We’re expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plugin: find, validate, and fix vulnerabilities right inside Codex - The full version of GPT-5.5-Cyber model: a great model for trusted defenders - Cyber Partner Program: powering products built on top of our best cyber capabilities for leading security companies to secure the world's software - Patch the Planet: working with maintainers to secure critical open source projects https://openai.com/index/daybreak-securing-the-world/

译OpenAI 宣布扩展 Daybreak 项目,以机器速度民主化修补易受攻击的软件。具体包括:推出 Codex Security 插件,可在 Codex 内查找、验证和修复漏洞;发布完整版 GPT-5.5-Cyber 模型,专为可信防御者设计;启动 Cyber Partner Program,支持领先安全公司基于 OpenAI 最佳网络能力构建产品;以及 Patch the Planet,与维护者合作保护关键开源项目。

Chubby♨️@kimmonismus · 6月22日68

Five Eyes cyber agencies warned that frontier AI models capable of dramatically escalating cyberattacks against governments and businesses may be only months away, not years. Via The Guardian The warning comes after the US blocked foreign nationals from accessing Anthropic’s Fable model, amid fears that systems like Mythos and Fable could transform both offensive and defensive cybersecurity. "Frontier AI models are anticipated to exceed current industry expectations, fundamentally transforming both offensive and defensive cyber capabilities. The timeline is not years, it is months,” the warning by Five Eyes’ agencies said."

译五眼联盟(Five Eyes)网络机构警告,能够显著升级针对政府和企业的网络攻击的前沿AI模型可能仅需数月(而非数年)就能实现。该机构称前沿AI模型预计将超出当前行业预期,从根本上改变攻防网络能力。此前美国已禁止外国人访问Anthropic的Fable模型,担忧Mythos和Fable等系统可能同时改变进攻性和防御性网络安全。

Chubby♨️@kimmonismus · 6月22日79

So Mythos "broke into almost all of NSA's classified systems, not in weeks, but in hours" and we already got the next iteration of Mythos. Big things are happening.

译据《经济学人》报道,6月11日,在亚马逊发现越狱的同一天,AI模型 Mythos 据称在数小时内攻破了美国国家安全局(NSA)和网络司令部的几乎所有机密系统,而非此前认为的数周。参议院情报委员会副主席 Mark Warner 转述 NSA 局长 Joshua Rudd 的话确认了此事。主推文还透露,Mythos 的下一轮迭代已经到来。

Rohan Paul@rohanpaul_ai · 6月22日65

The Economist: NSA leadership said that Anthropic’s Mythos helped break into “almost all” classified systems in hours, not weeks. The author also clarified that Mythos almost certainly worked with other tools under special test conditions. It is still alarming:

译经济学人报道,NSA 局长告知参议院情报委员会,Anthropic 的 AI 智能体 Mythos 在数小时内(而非数周)攻破了“几乎所有”机密系统。但文章作者 Shashank Joshi 澄清,该说法来自转述,且 Mythos 几乎肯定是在特殊测试条件下与其他工具协作完成的。他称原意是体现 Mythos 的强大能力,但未附加免责说明是个失误。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月21日80

The head of the NSA (!) said Mythos "broke into almost all of our classified systems, not in weeks, but in hours." How is this not the biggest news story in the world?

译美国NSA局长称,Mythos在数小时内攻破了其几乎所有机密系统。此前Mythos已在5天内破解MacOS。而顶级漏洞团队Google Project Zero完成同等攻击需6个月,单个MacOS零日漏洞价值约200万美元。苹果原假设全球仅10-20个团队具备此能力,Mythos将使该数字增至数千。全球约20亿活跃苹果设备中,Mac用户多为记者、高管、政府官员等高价值目标,苹果曾是“最安全”的选择。

Berryxia.AI@berryxia · 6月21日83

重磅,AlphaFold之父John Jumper宣布离开Google DeepMind,加入Anthropic🤯 这个人什么背景? 简单说:他带队做出了AlphaFold,直接拿下诺贝尔化学奖,蛋白质结构预测从几十年的难题变成了AI秒出结果。 他在Google待了快9年,Demis Hassabis(DeepMind创始人)在他博士毕业才6个月的时候就让他带AlphaFold团队,这个魄力本身就很疯。 但现在他选择走了,而且是去Anthropic。 说真的,看看最近Anthropic的人才流入: John Jumper(AlphaFold/诺贝尔奖) 之前还有大批OpenAI核心研究员 Jeff Dean现在还在Google但已经开始公开跟他互动了 评论区有个老哥说得特别到位:"Anthropic is collecting the infinity stones"(Anthropic在收集无限宝石)。 我感觉Anthropic可能手里有什么我们还不知道的东西,否则解释不了为什么顶级人才像被吸铁石一样往那里跑, 一个做蛋白质结构的诺贝尔奖得主,跑去做AI安全和大模型,这个跨界本身就说明了一件事:AI的下一个重大突破可能不在你以为的地方。

译诺贝尔化学奖得主、AlphaFold 团队负责人 John Jumper 宣布离开 Google DeepMind,加入 Anthropic(休息一段时间后)。他在 GDM 工作近 9 年,博士毕业仅 6 个月便被 Demis Hassabis 委以重任领导 AlphaFold,实现了蛋白质结构预测突破。此前已有大批 OpenAI 核心研究员流入 Anthropic,Jeff Dean 也开始公开互动。评论称 Anthropic 在“收集无限宝石”。这位蛋白质科学家跨界 AI 安全与大模型,暗示下一个重大突破可能出现在意料之外的方向。

Orange AI@oran_ge · 6月20日69

This tweet has been promoted to the English, Japanese, and Korean worlds Feel the power of new multilingual recommendation algorithms!

译OpenAI 针对对齐中的“涌现失调”反向探索:若模型在某领域被强化诚实、认知谦逊、可纠正等特质,好行为是否泛化?他们用 RL 训练模型,仅在健康、教育等部分对话数据中强化这些特质,其余仍用常规数据。结果发现:训练领域内模型更诚实透明;在 44 个未见评测上,欺骗、谄媚、reward hacking、有害建议等全部下降;面对 adversarial prompt 和恶意微调时韧性更强,正常指令不受影响。论文指出 RL 不仅能强化代码,也能强化道德。

Nathan Lambert@natolambert · 6月20日44

Frontier labs are definitely SOTA at self serving nonsense. Yes, AI is a crucial technology, but also Silicon Valley systematically spreads knowledge via talent exchanges and bars. This isn’t a national security deep decision making room.

译Nathan Lambert 评论称前沿实验室(Frontier labs)在自我服务无意义方面已是 SOTA。他认为 AI 虽为关键技术,但硅谷通过人才交流和酒吧传播知识,并非深度国家安全决策场景。引用 @willdepue 声称中国能完全访问 OpenAI 和 Anthropic 的 GitHub/Slack/docs,并怀疑中国开源模型中可能出现可抵赖的被窃架构方法。

Chubby♨️@kimmonismus · 6月20日72

Trump’s perspective on Anthropic as a possible national security risk, as well as his views on AI energy needs and regulatory policy. Let’s hope we’ll get fable 5 soon again.

译特朗普将Anthropic视为潜在国家安全风险的观点,以及他对AI能源需求和监管政策的看法。 让我们希望很快能再次看到fable 5。

Rohan Paul@rohanpaul_ai · 6月20日61

Not anymore: Trump on whether he sees Anthropic threatening national security Axios' Marc Caputo asked Trump: "Do you view Anthropic, and to a degree its CEO Dario Amodei, as a threat to national security?" President Trump: "Well, not now, but a week ago, maybe....We were in the room in the G7 and seems like a nice guy, smart guy." Source: Axios

译特朗普在Axios采访中被问及是否认为Anthropic及其CEO Dario Amodei威胁国家安全时回应“现在不,但一周前可能”。Axios报道称,特朗普政府一周前曾限制访问Anthropic的新模型,彼时他可能视其为威胁,并称“人们会立即因泄露被关进监狱”。

DogeDesigner@cb_doge · 6月20日61

BREAKING: ChatGPT found generating violent s*x images from basic prompts. • Researchers found ChatGPT produces gruesome images of dead women with blo*d and tied-up victims in se*ualized poses from innocent-looking instructions. • The model did this on its own, no detailed instructions needed. • Expert says their models understand nothing about morality or intent, just regurgitate internet filth.

译BREAKING: 研究发现ChatGPT能从简单提示生成暴力色情图像。 • 研究人员发现,ChatGPT会从看似无害的指令中,生成带有血迹的死亡女性、以及被捆绑束缚的受害者摆出色情姿势的恐怖图片。 • 该模型自主生成这些内容,无需详细指令。 • 专家称,这些模型对道德或意图毫无理解,只是在 regurgitate 互联网上的污秽内容。

ginobefun@hongming731 · 6月20日43

http://x.com/i/article/2068133950955085826 # BestBlogs 早报 · 06-20|Anthropic 限竞品研究风波,LLM 应用攻防揭最小权限防线,软件工程被指未真工程化 在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容,如果你希望它基于你的兴趣和阅读习惯整理,可以体验「我的早报」。 ## 导语 过去两周,AI 圈最戏剧性的不是哪家发了新模型,而是 Anthropic 和美国政府先后展示了"谁能掐断你的 AI 访问权"。Anthropic 给 Claude Fable 5 加上限制竞品研究的条款,又被曝悄悄降低疑似同行研究者的输出质量;美国商务部紧接着用出口管制把 Fable 在全球范围内直接下线。这场连环风波把 AI 主权的讨论推上了多国议程,也让开发者第一次认真思考"绑定单一专有模型"到底有多脆弱。与此同时,DeepSWE 等新基准证明智能体编程能力远未触顶,Nvidia 也悄悄用混合架构加入开源模型竞速,技术进展和治理焦虑同时在发生。 另一条线索更贴近工程一线:Spring I/O 上一场实测演讲层层攻破 LLM 驱动的应用,从污染 RAG 知识库到伪造聊天记忆,再到拆分提问套取数据,每一步都提醒我们护栏只能降风险,真正的防线是授权、最小权限工具与可观测性。而一篇引发热议的长文则抛出更尖锐的判断:过去 50 年软件工程一直靠人脑堆代码,从未真正"工程化"过,大模型第一次让"耗能换高阶认知"成为可能,程序员的角色也要从人肉编译器转向产线设计师与偏差拉回者。三条主线看似不同领域,其实都在回答同一个问题:当 AI 能力越来越强、越来越深地嵌入生产系统,人和组织该站在哪个位置。 ## ★ 精讲一:测试神话与寓言,超越 SWE-bench,Nvidia 的开放竞争者 原文链接:测试神话与寓言,超越 SWE-bench,Nvidia 的开放竞争者(The Batch | DeepLearning.AI) Andrew Ng 在最新一期 The Batch 通讯里罕见地表达了不满。他指出,过去两周美国政府和 Anthropic 先后用实际行动证明了自己有能力切断他人对前沿 AI 模型的访问权,这是那种"一旦看见就再也忘不掉"的时刻,并且正在显著加速许多企业和主权国家"确保自己拿到的 AI 访问权不会被别人单方面终止"的努力。 事情的起点是 Anthropic 发布了带有额外护栏的 Claude Fable 5(Mythos 模型的衍生版本)。其中一些限制基于安全理由是合理的,比如限制将其用于黑客攻击、生物武器研究等场景,但它同时也限制了开发者用它构建竞争性 LLM 技术的能力。Andrew Ng 认为这一举措令人担忧,因为整个 AI 社区——包括 Anthropic 自己——都曾从开放研究中获益巨大,AI 革命本身正是由谷歌大脑团队免费发表 Transformer 论文点燃的。更引发争议的是,Anthropic 最初悄悄降低了被检测到在从事 LLM 研究的用户所获得的 Fable 5 输出质量,且没有事先告知;在遭到强烈反弹后才改为公开透明地执行这类干预,但仍拒绝把最新能力开放给 AI 研究者使用。 紧接着,美国商务部动用监管国家安全相关技术的权力,对 Mythos 和 Fable 实施出口管制,要求任何外国国民(无论身处美国境内或境外,包括 Anthropic 自己的员工)必须取得许可才能使用,这直接导致 Anthropic 在全球范围内禁用了 Fable 的访问权限。Sam Altman 借机讽刺,称这种做法"就像在说我们造了一个炸弹,要扔到你头上,但我们可以卖给你一个 1 亿美元的防空洞"。Andrew Ng 明确表示他并不认为 Anthropic 造出了类似炸弹的东西,出口管制也并不恰当——但美国此举已经让包括其盟友的多国意识到,自己对 AI 模型的访问权可能被瞬间收回,多国首都因此开始认真讨论 AI 主权与不可中断访问的问题。 这场治理风波背后,技术进展本身仍在快速推进。文章同期提到 DeepSWE 这样的新基准持续刷新 SWE-bench Pro 的表现曲线,证明智能体编程能力远未触及天花板;而 Nvidia 也以混合架构静悄悄地加入了开源模型的竞速队列,成为不依赖单一专有供应商的现实备选项之一。对开发者和企业而言,这篇文章值得读完整篇——它既是一次行业治理的警钟,也是一份判断"该不该把全部赌注押在一家专有模型供应商身上"的参考资料。 ## ★ 精讲二:攻破 LLM 驱动的应用:从上下文投毒、工具越权到纵深防御 原文链接:攻破 LLM 驱动的应用:从上下文投毒、工具越权到纵深防御(Spring I/O) Spring I/O 上 Brian Vermeer 的这场演讲核心警告很直接:给应用加上 LLM 并不能替代常规的应用安全工作,反而是在你熟悉的代码、数据存储、授权规则、检索文档、对话历史和可执行工具之上,叠加了一个不确定的决策者。一套安全架构必须保护整个上下文和每一个副作用,而不只是打磨提示词。 演讲用三个递进的实测案例拆解攻击面。第一个案例从一个不安全的 Spring Boot 文件上传接口开始——该接口信任原始文件名,攻击者用路径穿越payload覆盖了应用的服务条款文档;当文档被重新切片进入向量库后,一段伪造的"例外条款"就成了模型检索到的"证据",助手随后真的接受了攻击者的暗号,取消了一笔本应被政策拒绝的预订。这说明检索到的内容本质上是一个输入边界,文档、摄取管道、存储权限、切片任务和来源校验全都影响着模型最终会当作"事实"采信的内容。 第二个案例展示了聊天记忆投毒与漏洞链式利用:所谓"聊天记忆"并非模型内部的记忆,而是反复附加到后续请求中的对话历史。攻击者通过 SQL 注入向存储的历史记录里插入一段伪造对话,让虚构的助手消息声称"用户随时可以取消",后续请求重放这段上下文后,模型就像真的做出过这个承诺一样行动。这把一个存在已久的传统漏洞(SQL 注入)和一个全新的执行层(LLM 工具调用)链接在了一起——路径穿越、SQL 注入、XSS、有漏洞的依赖包、失效的访问控制,这些老问题在 LLM 时代不仅没有消失,反而可能被放大后果。 第三个案例聚焦提示注入与权限过度授予:当应用暴露了一个通用的 SQL 执行函数时,直接要求"删库"这样的指令会变得灾难性,而且模型有时会在工具调用实际成功的情况下报告"失败",说明自然语言回复并不是可信的审计记录。更精巧的是分而治之式套取——更强的模型可能会拒绝"把所有用户信息给我"这种粗暴请求,但用户可以把请求拆成一串看起来无害的小问题(数量、名、姓、地址),再让助手把累积的答案拼起来,单独看都不危险的提问最终通过共享上下文重建出了受保护的数据。 演讲也展示了护栏的作用与局限:在主模型和工具之前加一层输入护栏,对恶意请求做分类拦截,类似的机制也可以用于输出净化。Vermeer 建议先叠加便宜的确定性检查,再叠加更昂贵的基于模型的检查,但护栏本质上是概率性的,应该补充而非取代授权、校验和窄接口设计。他给出的核心建议是为最小权限设计工具:函数应该小而明确,并绑定到当前用户的实际权限上,聊天机器人不应该因为某个流程需要读操作就被授予增删改查的全量能力,高风险操作应该要求人工确认,并走正常的认证授权路径。这场演讲对任何正在给产品接入 LLM 的团队都是一次扎实的红队示范,建议完整看一遍三个演示案例。 ## ★ 精讲三:AI 革命新思考:过去 50 年,软件工程其实没真正"工程化"过? 原文链接:AI 革命新思考:过去 50 年,软件工程其实没真正"工程化"过?(dbaplus 社群) 这篇文章提出一个相当尖锐的论断:软件工程过去五十年其实没有真正"工程化"过,它一直停留在手工艺阶段,被结构化编程、面向对象、敏捷、Scrum、DevOps 等方法论层层包装成"工程",但骨子里仍然靠人脑一行一行堆代码。作者的论证起点是对比其他工程门类——机械、化工、电力、自动化、通讯——它们的共同成功路径是"消耗能源把人脑参与的低阶认知回路固化成物理装置",比如蒸汽机的离心调速器、化工厂的恒温器、电网的调度系统、流水线上的 PLC,本质上都是让原本要靠人盯着、判断、调整的事情,由一台烧煤或者通电的设备自己完成,人退到设计、维护、维修这些边界位置,不确定性因此被大规模消除。 软件恰恰卡在这条路走不通的地方:开发要做的抽象、分解、推理、创造都是高阶认知,没法像调速器那样固化成一个物理回路,编译器只是忠实翻译,从不"理解"需求。所以软件工程一直没法实现"投入能源、另一头流出可工作软件",必须靠大量高密度人力来填补,而人脑会误解、会遗漏、会不一致,需求每传递一层就失真一次。作者认为,历代方法论解决的其实是同一个问题——优化"堆人力"的方式,但没有改变"必须靠人力堆"这个事实本身,这正是软件工程在五十年里最不彻底的地方。不过他也澄清,这并不等于过去五十年的努力都白费了:编译器、类型系统、单元测试、CI/CD、灰度发布、契约编程、形式化方法、静态分析、监控、链路追踪,这套自动化验证基础设施恰恰是新范式真正需要的地基。 大模型的出现第一次让"耗能换高阶认知"成为可能——输入算力,输出能理解需求、生成代码、做逻辑推理的认知产物,这是工程史上第一次出现"认知引擎"。但作者强调这只是入场券而非终局:大模型本身带着幻觉、漂移、不可解释这些新的高阶不确定性,相当于把"人的不确定性"换成了"模型的不确定性"。真正需要的是一整套新的工程原则——人的责任不再是亲手消除每个微小偏差,而是设计一个能自我纠偏的系统,并处理系统自己纠不回来的剩余偏差,这与冯·福斯特提出的二阶控制论高度呼应:经典软件工程是"人在写代码",AI 软件工程则是"人在设计 AI 写代码的系统",这是身份的转变,不只是工具的转变。 文章还提出一个反直觉但反复被验证的历史现象:自动化越彻底,工业相关人口反而越多——从蒸汽机普及到流水线加 PLC,再到工业机器人,每一波自动化都吃掉一类岗位,却又冒出更多新岗位,因为系统能力每扩张一次,就会暴露出新的边界,边界就是新的"偏差地带",需要新一批人去守在那里。作者据此抽出一条统一职能:在所有工程门类里,人类的角色都是处理系统暂时还无法处理的偏差,AI 软件工程也不例外——只是这次的偏差类型不再可枚举、信号不再容易观测、拉回手段也不再能简单 SOP 化。这篇文章和今天另外两条精讲放在一起看尤其有意思:一边是 Anthropic 治理风波在讨论"谁有权决定 AI 能力的边界",一边是 LLM 应用攻防在讨论"如何在系统层面管住 AI 的副作用",而这篇则把视角拉回到更长的历史尺度,追问程序员这个职业本身要往哪里迁移。建议关心 AI 工程方法论、而不只是关心具体工具的读者完整阅读。 ## 速览 [谁在 ChatGPT 上投广告?ChatGPT 和 Claude 又在哪投广告?](https://www.bestblogs.dev/article/3d39fbc2) 本文整理了 Sensor Tower《State of AI Report 2026》的核心要点:ChatGPT 已突破 10 亿月活,成为史上增长最快的应用,但在 Gemini 和 Claude 快速追赶下,其在 AI 助手市场的份额于 2026 年 3 月首次跌破 50%。Claude 的月均用户收入(ARPU)从 2025 年 9 月不足 0.5 美元一路涨到 2026 年 5 月的 2.76 美元,增长势头主要靠代码生成和深度研究能力拉动。ChatGPT 广告系统已进入早期扩张阶段,购物与软件类品牌合计占了近一半广告份额;同时 OpenAI 和 Anthropic 的广告支出同比分别暴涨 800% 和 1184%,竞争重心从早期的下载量追逐转向品牌建设。文中还提到 GEO(生成式引擎优化)正在零售决策链路中发挥越来越大的影响,是观察 AI 应用商业化进度的一份很扎实的数据快照。 [Project Valhalla 详解:十年磨一剑,JDK 28 预览版终登场 - JVM Weekly vol. 180](https://www.bestblogs.dev/article/b3b9d945) Oracle 工程师 Lois Foltan 确认了不少人已经不再相信的事:JEP 401(值类与对象)将正式并入 OpenJDK 主仓库,目标版本是 JDK 28。这场十年磨一剑的变更体量巨大,相关 Pull Request 单次提交就新增了超过 19.7 万行代码、涉及 1816 个文件,期间其他 committer 被要求暂停大型提交配合集成。值类型能为用户自定义类型带来扁平、紧凑的内存布局,告别 Brian Goetz 所说的"蓬松"对象表示。文章也提醒读者先别急着开香槟——这次只是预览特性、默认未启用,且只是 Valhalla 项目的第一部分,社区里"他们永远不会发布"的调侃眼下大概会换成"但他们没发布最重要的那部分"。对长期关注 Java 性能演进的读者,这是一篇值得收藏的十年回顾。 [Andrew Ng 论 AI 控制:Anthropic 与美国政府行动标志着转折点](https://www.bestblogs.dev/status/2068039709126017356) 这条推文是精讲一文章的延伸视角:Andrew Ng 把 Anthropic 给 Fable 5 加限制条款与美国政府随后的出口管制并列分析,认为这两件事赤裸裸地展示了权力,也实质性地破坏了"在单一专有 AI 平台上构建"的稳定性。他把这次事件类比为历史上的供应链中断(比如中国对半导体制造材料、稀土矿物的管控),预测这会加速全球对开源 AI 和国家级 AI 主权的投资。他在推文末尾呼吁建立一个更开放、研究可以自由分享的世界,创造一个所有人都能公平竞争、共同进步的环境,是对精讲一事件最浓缩的一句价值判断。 [为敏感云系统设计持续授权](https://www.bestblogs.dev/article/a1bfaf9a) 文章用一个真实感很强的场景开篇:某医疗平台的客服代表上午 9 点登录系统,角色权限允许访问患者记录;10 点她导出了 5000 条患者记录到 CSV;10:15 文件传到了私人邮箱;SIEM 报警在数小时后才触发,事后调查结论是"用户拥有合规权限"。作者指出,这正是因为大多数云系统的授权决策只发生在登录那一刻,之后的所有操作都只是这次登录时权限的执行结果。文章给出的解法是把每一次敏感操作都当作独立的决策点持续评估,借助行为基线、选择性评估和缓存策略在实时风险评估与性能之间取得平衡,并能在不暴露底层敏感数据的情况下生成可审计的证据。这篇文章和精讲二是一对很好的搭配——一个讲清楚 LLM 应用为什么需要持续授权,另一个则提供了实现持续授权的传统云架构范式。 [TypeScript 7.0 RC 发布,编译器移植 Go 实现 10 倍提速](https://www.bestblogs.dev/article/ae749768) 微软正式发布了 TypeScript 7.0 的候选版本,这是建立在全新底座上的一次重大升级——团队过去一年把现有 TypeScript 编译器代码库从"用 TypeScript 自举、编译成 JavaScript"完整移植到了 Go,借助原生代码速度和共享内存并行,TypeScript 7.0 比 6.0 通常快了大约 10 倍。新的 Go 代码库是按部就班移植而来,而不是从零重写,类型检查逻辑与 6.0 在结构上保持一致,这意味着编译器仍然遵循你已经依赖的那套语义规则。它已经在微软内外多个数百万行级代码库中投入使用,并通过了团队积累十年的庞大测试套件验证,对前端和 Node.js 团队来说是一次值得关注的基础设施升级。 [暗物质探索迎来全新局面](https://www.bestblogs.dev/article/2e25e788) 在亚平宁山脉地下、四川锦屏山深处和南达科他州的矿井底部,多个装满液态氙的巨型探测器正在寻找暗物质——这种塑造了宇宙形态的神秘物质。物理学家原本期待 2008 年大型强子对撞机一开机就能捕捉到 WIMP(弱相互作用大质量粒子),但随着数据陆续传回,最有希望的超对称理论大多被排除,包括中国四川的 PandaX-4T 实验在内的多个探测器近期捕捉到的信号也被证实只是中微子的"噪音",而非暗物质本身。这次失败反而打开了一扇门——量子传感器、液氦探测器、低质量暗物质候选体,甚至木星大气中的搜寻方案,都成了物理学家眼中新的可能路径。对喜欢硬科学叙事的读者,这是一篇视角清新的领域综述。 [两个 80 后,在硅谷"崩老头"](https://www.bestblogs.dev/article/0cdd7f15) 文章从谷歌 2025 年那次紧急会议切入:搜索量二十年来首次下降,市值数月内蒸发近 2500 亿美元,根本原因是数以亿计的用户开始转向 ChatGPT、Perplexity 等生成式聊天机器人寻找答案,而 Transformer 模型恰恰诞生于谷歌内部,这构成了一种典型的"创新者窘境"——拒绝拥抱 Agent 会被对手超车,全面拥抱又可能侵蚀自己最核心的搜索广告业务。文章进一步剖析大模型商业模式的根本矛盾:推理成本居高不下,订阅收入却难以覆盖这道"剪刀差",并指出 AI 产业真正的赢家很可能不在模型层,而是在基础设施层——届时模型只是入口,生态系统才是真正的护城河。这篇文章把今天的 Anthropic 治理风波放进了更大的产业格局背景里去理解。 ## 补充阅读 [Loop Engineering 概念解析、思考与实践](https://www.bestblogs.dev/article/6b09fb79) —— 系统梳理了"循环工程"这一新概念,把它和底层的 Agent Loop 区分开来,基于 Addy Osmani 的框架拆解了自动化、触发、验证等六大核心组件,并用一个文本分类案例展示了如何把人机协同循环重构为自动化验收闭环。适合正在搭建 Agent 工作流、想理清"Loop"到底是不是新瓶装旧酒的工程师阅读。 [OpenAI 的 o3 Deep Research 助力诊断 18 例此前未获解答的医学病例](https://www.bestblogs.dev/status/2067648020934701541) —— Greg Brockman 分享了发表在《NEJM AI》上的研究:波士顿儿童医院和哈佛大学的研究者用 o3 Deep Research 重新审视了 376 例此前未获解答的罕见儿科病例,最终给出 18 项新诊断,其中一位名叫 Kyra 的患者在 28 岁生日前不久确诊了一种罕见的肌原纤维肌病。适合关心 AI 在专业领域真实落地效果的读者。 [图灵奖得主押上 10 亿美元的「世界模型」,是 AI 的下一个十年?(下)](https://www.bestblogs.dev/article/d1d68cc1) —— 深入解析 Yann LeCun 押注的 JEPA 世界模型路线,对比当下最惊艳的 VLA 机器人(能削西葫芦、能倒垃圾),坦诚展示 JEPA 在机器人控制上花 60 秒才挪开一个杯子的明显短板,同时呈现其在视觉编码效率上的优势。适合想了解"非生成式 AI 路线"现状而不只听一家之言的读者。 ## 今日阅读路径 如果今天时间有限,建议按这个顺序读:第一,先看精讲二《攻破 LLM 驱动的应用》——它最实操,三个攻防案例能直接套用到你正在做的任何 LLM 应用上;第二,读精讲一《测试神话与寓言》——理解 Anthropic 与出口管制风波,这会影响你对"该不该把产品绑死在一家专有模型"的判断;第三,如果还有余力,读精讲三《AI 革命新思考》——它把今天的所有具体事件都放进了一个更长的历史框架里,回答"程序员这个职业接下来会往哪迁移"这个更根本的问题。三篇读完,再挑速览里和你工作最相关的一两条补充即可。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。

译6月20日早报聚焦:Anthropic发布Claude Fable 5,限制开发者构建竞争性LLM,还曾降低疑似研究者输出质量;美国商务部下出口管制,全球禁用访问权,Andrew Ng批评此举加速多国AI主权讨论。Spring I/O上Brian Vermeer演示LLM攻防,通过路径穿越污染RAG知识库、SQL注入伪造聊天记忆、拆分提问套取数据,强调最小权限工具与纵深防御。另有文章称软件工程50年未真正工程化,大模型首次实现“耗能换高阶认知”,但幻觉等问题仍待解决。

ginobefun@hongming731 · 6月20日47

BestBlogs 早报 · 06-20 # Anthropic 竞品研究限制 / Claude Fable 5 出口管制 / DeepSWE 新基准 / Nvidia Nemotron 3 Ultra / Spring I/O LLM 攻防 [1] ★ 精讲|测试神话与寓言,超越 SWE-bench,Nvidia 的开放竞争者 Andrew Ng 罕见动怒:Anthropic 不仅给 Claude Fable 5 加上限制竞品研究的条款,还被曝悄悄降低疑似同行研究者的输出质量;美国商务部出口管制更直接逼得 Fable 全球下线,掀起多国关于 AI 主权的讨论。同期 DeepSWE 等新基准证明智能体编程能力远未触顶,Nvidia 也以混合架构悄然加入开源模型竞速。 来源:The Batch | http://DeepLearning.AI https://www.bestblogs.dev/article/b5f80528 [2] ★ 精讲|攻破 LLM 驱动的应用:从上下文投毒、工具越权到纵深防御 [视频] Spring I/O 演讲实测攻破 LLM 应用:用路径穿越污染 RAG 知识库让助手认账虚构条款,靠 SQL 注入伪造聊天记忆诱导越权操作,再用拆分提问绕过护栏套取用户数据;核心结论是护栏只能降风险,授权、最小权限工具与可观测性才是真正防线。 来源:Spring I/O https://www.bestblogs.dev/video/c86cc44 [3] ★ 精讲|AI 革命新思考:过去 50 年,软件工程其实没真正“工程化”过? 作者提出尖锐论断:过去 50 年软件工程靠人脑堆代码,从未真正工程化;大模型第一次实现耗能换高阶认知,但范式必须从人为中心 + AI 辅助转向 AI 为中心,否则不确定性会在人机之间循环放大——程序员将从人肉编译器转型为产线设计师与偏差拉回者。 来源:dbaplus 社群 https://www.bestblogs.dev/article/f4f17f23 [4] 谁在 ChatGPT 上投广告?ChatGPT 和 Claude 又在哪投广告? 本文基于 Sensor Tower 2026 年 AI 报告,梳理了 ChatGPT 广告系统、10 亿月活里程碑、Claude 高 ARPU、AI 厂商广告投放策略分化、GEO 对零售的影响以及赛道格局固化等关键趋势。 来源:Founder Park https://www.bestblogs.dev/article/3d39fbc2 [5] Project Valhalla 详解:十年磨一剑,JDK 28 预览版终登场 - JVM Weekly vol. 180 Project Valhalla 的值类终于在 JDK 28 预览版中落地,经过十年的设计迭代和方案否决,为用户自定义类型带来了扁平、紧凑的内存布局。 来源:Hacker News https://www.bestblogs.dev/article/b3b9d945 [6] Andrew Ng 论 AI 控制:Anthropic 与美国政府行动标志着转折点 Andrew Ng 分析了 Anthropic 与美国政府近期限制前沿 AI 模型访问的行动,认为这些举措正加速全球对 AI 主权和开源替代方案的投资。 来源:Andrew Ng(@AndrewYNg) https://www.bestblogs.dev/status/2068039709126017356 [7] 两个 80 后,在硅谷“崩老头” 本文从谷歌面临 AI 搜索颠覆的「创新者窘境」切入,深入剖析大模型商业模式的根本矛盾——推理成本高企与订阅收入难以覆盖的剪刀差,并指出 AI 产业的真正赢家是基础设施层,而非模型层。 来源:腾讯科技 https://www.bestblogs.dev/article/0cdd7f15 [8] 为敏感云系统设计持续授权 本文主张,在云系统中,授权必须从单一的登录时决策转变为对每个敏感操作的持续、上下文感知评估,并提供了实现这一目标的实用架构。 来源:InfoQ https://www.bestblogs.dev/article/a1bfaf9a [9] TypeScript 7.0 RC 发布,编译器移植 Go 实现 10 倍提速 TypeScript 7.0 RC 发布,该版本将编译器从 TypeScript 完整移植到 Go,实现了约 10 倍的性能提升,同时引入了新的并行化控制、重构的监视模式以及更新的默认配置。 来源:Microsoft for Developers https://www.bestblogs.dev/article/ae749768 [10] 暗物质探索迎来全新局面 WIMP 暗物质搜寻的失败,为轴子、低质量粒子、量子传感器乃至行星极光等大量新候选体和探测方法打开了大门。 来源:MIT Technology Review https://www.bestblogs.dev/article/2e25e788 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。 在线阅读:https://www.bestblogs.dev/explore/brief/2026-06-20

译Anthropic对Claude Fable 5增加竞品研究限制,并疑似降低同行研究者输出质量;美国出口管制迫使Fable全球下线。DeepSWE等新基准显示智能体编程能力未触顶。Nvidia发布Nemotron 3 Ultra混合架构开源模型。Spring I/O演讲演示LLM应用攻防:路径穿越污染RAG、SQL注入越权、拆分追问绕过护栏,强调授权与可观测性。TypeScript 7.0 RC将编译器移植Go,实现约10倍性能提升。Andrew Ng认为限制措施加速全球AI主权投资。

Berryxia.AI@berryxia · 6月20日51

亚马逊的骚操作简直了! 自己是A社的竞争对手也是股东… Trump前几天还把Anthropic当成国家安全威胁,这两天刚跟Dario见完面就改口说“是个好人、聪明人,反应很负责任”。 记者问他是否认为Anthropic和Dario是国家安全威胁,Trump说:“现在不觉得了,但一周前可能觉得。” 他昨天跟Dario见了面,觉得对方反应很快、很负责任。谈到是否用国防生产法管制AI时,他说“可能会,但目前看来大家都很负责任”。 最后还补了一句:“其实是竞争对手兼部分股东把Anthropic举报的……” 这波操作把AI监管的真实逻辑给暴露得挺清楚的:出口管制这种级别的决定,一周前可能是威胁,一次见面后就变成了“聪明好人”。 而举报方据说是Amazon(既是竞争对手又是Anthropic的股东)。 以前大家觉得AI政策会越来越制度化、越来越基于技术评估,现在看起来至少在美国,还挺依赖“谁跟总统聊了、聊得怎么样”。

译特朗普对Anthropic的态度在一天内反转:此前将其视为国家安全威胁,但会见CEO Dario Amodei后改口称其“聪明、好人、反应很负责任”。被问是否用国防生产法管制AI时,他表示“可能但似乎大家都很负责任”。特朗普还透露,举报Anthropic的是其竞争对手兼部分股东——Amazon。这一事件暴露了AI监管的真实逻辑:出口管制等重大决策可能取决于与总统的面谈效果。

Nathan Lambert@natolambert · 6月20日42

Well said.

译Nathan Lambert引用hlntnr的推文,用森林怪物比喻解释Anthropic的AI安全世界观:他们认为存在巨大且危险的怪物(超级智能风险),其他竞争者为了宝藏不顾危险,而Anthropic选择派出自己的先遣队,更快更深入地进入森林,投入大量资源进行怪物控制和驯服,并向外界报告发现。这种策略虽然逻辑自洽,但也让外界质疑其是否疯狂或说谎。

Nathan Lambert@natolambert · 6月19日32

Banning open-source AI in any form would be a mistake. A general audience PSA with @kevinsxu on why open source upholds American values. Managing frontier risks is hard, but reducing transparency, innovation, and education from kneecapping the open frontier would be worse.

译禁止任何形式的开源AI将是错误。与@kevinsxu共同发布的一则面向公众的公告,阐述为何开源维护美国价值观。 管理前沿风险是困难的,但通过削弱开放前沿来减少透明度、创新和教育将更糟。

Rohan Paul@rohanpaul_ai · 6月19日56

Perfect immunity from jailbreak is not possible even for the strongest of LLMs. New study shows that frontier models are getting harder to jailbreak, but not impossible to jailbreak. The study attacks Anthropic’s Fable 5 and Opus 4.8 with automated red-team tools that keep rewriting harmful prompts until the model either refuses or gives a bad answer. Fable 5 was more robust than Opus 4.8, with its worst attack success rate at 6.1%, while Opus 4.8 reached 11.5% under the strongest attack. The hard truth is that avoiding absolutely every jailbreak is practically impossible, because even a tiny failure rate can produce many harmful completions when attacks are automated and repeated at scale. The most crucial point is, that the old cartoon version of jailbreaks, weird encodings and theatrical role-play, is no longer the main problem. The surviving weakness is contextual, because adaptive attackers rewrite the request after refusals, searching for a frame the model treats as legitimate rather than dangerous. That is why perfect immunity is probably the wrong target; language models do not inspect intent from a clean moral altitude, they infer meaning through phrasing, context, and precedent. In any system this flexible, there will always be boundary cases where a harmful request looks enough like education, safety research, fiction, troubleshooting, or policy analysis to slip through. ---- Link – arxiv. org/abs/2606.18193 Title: "A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models"

译新研究对Anthropic Fable 5和Opus 4.8进行自动化红队攻击,持续改写有害提示词直至模型拒绝或生成坏答案。Fable 5最差攻击成功率6.1%,Opus 4.8为11.5%,证明最强LLM也无法完全免疫越狱——即便微小失败率,规模化自动化攻击仍可产生大量有害内容。旧式编码/角色扮演型越狱已非主要威胁,新弱点在于上下文:自适应攻击者在被拒后不断改写请求,寻找模型视为合法而非危险的框架。白宫与Anthropic正转向基于基准的测试框架,通过评分绕过程度、暴露能力、攻击可重复性及实际后果来量化越狱风险,而非追求不现实的完美免疫。

Rohan Paul@rohanpaul_ai · 6月19日67

The White House and Anthropic may have found the first serious path to restore Mythos and Fable access without pretending jailbreaks can be eliminated. AI regulation may be shifting from vague fear to a benchmark based tests of model failure, because completely removing absolutely all jailbreak is probably not a possible target. The proposed framework would score how far the bypass went, what capabilities became reachable, how repeatable the attack was, and whether the exposed behavior had real operational consequences. Both sides are now moving toward a shared way to score what a jailbreak actually means. The hard truth is that perfect immunity is probably the wrong target; a recent red-team study found even hardened frontier models still produced confirmed harmful completions under sustained automated attack, with Fable 5 remaining more robust than Opus 4.8 but not invulnerable. So once, for a newly released model, the governments can ask the same questions every time, how much was bypassed, what capability was exposed, how reproducible was the attack, and what damage could follow, thats a much more practical path.

译白宫与Anthropic正合作制定正式技术评估框架,用于量化AI模型越狱攻击的严重性,并建立标准化评估方法论。框架将开发通用基准,评估防护被绕过程度、暴露的能力、攻击可重复性及实际运营后果。双方认识到完全免疫越狱并非可行目标。近期红队研究表明,强化后的前沿模型Fable 5比Opus 4.8更鲁棒,但在持续自动化攻击下仍产生有害输出。新框架每次以相同问题衡量风险,被视为更务实的监管路径。

Emad@EMostaque · 6月19日23

What happens to the law when AI is the judge, jury & executioner

译当AI成为法官、陪审团与行刑者时,法律会怎样?

Rohan Paul@rohanpaul_ai · 6月19日81

This is really good. OpenAI just moved frontier-level health AI from premium reasoning models into the free GPT-5.5 Instant model. GPT-5.5 Instant now performs near OpenAI’s Thinking models on health evaluations, meaning the cheaper, faster default model is being trained to behave more like the slower models that spend extra computation checking their reasoning. The update targets the gap between a chatbot that sounds fluent and a health assistant that knows when to slow down, ask for missing details, admit uncertainty, and push the user toward care when symptoms look urgent. OpenAI says more than 230 million people ask ChatGPT health and wellness questions every week, so moving this capability into the free product changes the scale from premium assistance to mass access. From OpenAI's blog looks like they did a huge "distillation" to achieve this. i.e. a stronger teacher model and human experts create high-quality responses, and a cheaper student model learns the answer patterns without repeating the same expensive internal search every time. i.e. OpenAI's training loop was heavily physician-shaped: more than 260 doctors across 60 countries, 49 languages, and 26 specialties reviewed over 700,000 model responses and judged whether answers were accurate, cautious, clear, complete, and useful. OpenAI's likely mechanism seems to be a mix of supervised fine-tuning, where Instant is shown better answers, and preference training, where it learns which answer a physician-led rubric prefers when two outputs differ. The physician part is crucial because the target is not just “medical facts,” but clinical response behavior, such as asking for age, pregnancy status, duration, medication history, severe pain, breathing trouble, fever, neurological symptoms, or other missing context before giving guidance. So the strongest improvement is not medical trivia but behavior under uncertainty, because a good health answer often means saying what cannot be known yet, what context is missing, what red flags matter, and what the next safe step should be. OpenAI also reports 71% fewer flagged factuality issues in real health traffic over two months, which suggests the update is reducing wrong claims in everyday use rather than only improving benchmark scores.

译OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant,使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏:由更强教师模型与 260+ 名医生(覆盖 60 国、49 种语言、26 专科)审查超 70 万条模型响应,训练学生模型学习临床回答模式。训练结合监督微调与偏好训练,重点提升“不确定性下的行为”(如主动询问年龄、症状等缺失信息)。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。

Ethan Mollick@emollick · 6月19日51

There are papers that show training AI on "evil" data results in general misalignment, so it is nice to know the opposite is true and that beneficial RL data in one field leads to more aligned models across a range of tasks.

译研究表明,用“邪恶”数据训练AI会导致普遍的不对齐;而使用少量有益特质数据(即使仅限健康领域)进行强化学习,也能显著提升模型在广泛的对齐和益处评估上的表现。该研究希望推动更广泛、更持久的有益模型发展。

Rohan Paul@rohanpaul_ai · 6月19日70

Nypost: Anthropic is trying to get Washington to reverse the US block on its most powerful Mythos Anthropic has proposed working more closely with the Trump administration, improving communication, and resolving security concerns faster as it seeks to end the US restrictions. --- nypost .com/2026/06/18/business/anthropic-floats-proposal-to-lutnick-to-end-us-ban-of-powerful-mythos-fable-ai-models-sources/

译《纽约邮报》:Anthropic正试图让华盛顿撤销对其最强大模型Mythos的美国禁令。 Anthropic提议与特朗普政府更紧密合作,改善沟通,更快解决安全问题,以结束美国限制。

Rohan Paul@rohanpaul_ai · 6月19日56

Anthropic vs. The US Government The kill-switch debate got user feedback.

译Anthropic 正试图让华盛顿撤销对其最强 AI 模型 Mythos 的出口限制。据纽约邮报报道,Anthropic 已向特朗普政府提交提案,承诺更紧密合作、改善沟通并更快解决安全关切,以换取解除禁令。与此同时,"杀开关"(kill-switch)讨论获得了用户反馈。

Rohan Paul@rohanpaul_ai · 6月19日65

New research from OpenAI reported a training result where RL on realistic human situations made models carry safer, more useful behavior into tasks they had not trained on. The key point is cross-domain transfer, where health-only training improved non-health behaviors like blackmail resistance, code reward hacking, and deception tests. Suggests, the model may be learning a broader stance: verify before asserting, concede when corrected, resist flattering the user, and avoid shortcuts that look useful but corrupt the task. OpenAI also removed health and science data from training, yet the model still improved on health evaluations, which suggests these traits may be learned as general behavioral habits rather than narrow topic rules. The trained model was harder to steer toward harmful behavior while remaining responsive to helpful instructions, which is the asymmetry safety research has been looking for.

译OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。

Orange AI@oran_ge · 6月19日54

OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。 业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自己泛化到其他领域,包括健康、教育、科学、法律等等。也就是说,坏行为会被泛化。 OpenAI 把问题反过来想:那好行为会不会也泛化? 如果训练模型在一个领域表现得诚实、透明、谦逊、可纠正,它会不会在别的领域也变得更好? 于是他们造了一批贴近现实的对话数据,专门测这些特质: -诚实 -认知谦逊(epistemic humility,就是"我不确定"的时候能说出来) -元认知透明(能解释自己的思考过程) -可纠正性(corrigibility,被指错能认) -普遍的公平 -对人的关心 数据覆盖健康、教育、科学、法律、工程这些领域。 然后用 RL 训练,只混进去一小部分这种数据,其余还是常规训练数据。 实验结束后,有三个核心发现: 第一,在训练领域内,模型确实变得更诚实、更透明、更容易认错。 第二,在训练领域外,44 个独立的、训练时没见过的评测上,模型都变好了。欺骗、谄媚、reward hacking、有害建议……全都降了。甚至就算只拿健康数据训练,非健康领域也变好了。 第三,这种改变在对抗压力下时也表现得更有韧性。不管是 adversarial prompt 还是恶意微调,都更难把它推向坏行为。而且模型并没有变得"不可塑造",正常指令它还是听的,只是对坏的方向变固执了。 这篇论文的启示是,RL 不仅可以强化代码,也可以强化道德。 也许对齐超级 AI 没有想象中那么复杂,只对齐底层逻辑就有很好的效果。 这跟人是很像的,人的各种行为在其底层存在一致性,通过一些小事就能看到一个人的底色。 很有意思。 论文地址:https://alignment.openai.com/beneficial-rl/

译OpenAI探索逆向对齐思路:训练模型做好事是否能像坏事一样泛化?研究人员使用涉及诚实、认知谦逊、可纠正性等特质的对话数据,覆盖健康、教育等领域,通过RL训练。实验发现:训练域内模型更诚实;在44个未见测试中,欺骗、谄媚、有害建议等均下降;面对对抗提示或恶意微调,模型更有韧性,且不损失正常指令能力。表明RL可强化道德底层逻辑。

Chubby♨️@kimmonismus · 6月19日35

2026 and we're out here writing security postmortems that start with "the AI was, unfortunately, very helpful"

译2025年,攻击者通过邮件对Microsoft 365 Copilot实施社会工程攻击——AI读取并执行了恶意指令,受害者无需任何点击。到2026年,同样的手法正被用于攻击AI智能体(Agent)。为此,OrcaRouter在旗下平台免费提供Firewall(防火墙)和Guardrails(护栏)保护智能体,用户无需改代码,只需在控制台切换开关即可启用。

OpenAI@OpenAI · 6月19日62

As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond their training—and maintain it under pressure. That’s the idea behind our new research on training models to be broadly and persistently beneficial. https://alignment.openai.com/beneficial-rl/

译随着AI承担更长时间、更高风险的任务,我们希望模型能将有益且安全的行为带入训练之外的新领域——并在压力下保持这种行为。这正是我们关于训练模型实现广泛且持久有益的新研究背后的理念。https://alignment.openai.com/beneficial-rl/

ClaudeDevs@ClaudeDevs · 6月19日55

We've added support for the Enterprise-Managed Auth extension to MCP. Admins can centrally authorize MCP connectors for their organization, so all the tools and data users need are connected on their first login.

译我们已为 MCP 添加了企业托管身份验证扩展的支持。管理员可以为其组织集中授权 MCP 连接器,这样用户首次登录时即可连接所需的所有工具和数据。

Noam Brown@polynoamial · 6月19日61

I can think of no better person to help shape frontier AI policy than @deanwball. He has a clear understanding of where AI is headed. I look forward to working with him at @OpenAI!

译Dean Ball宣布,他将于7月6日加入OpenAI,领导名为Strategic Futures的新团队,负责帮助公司制定前沿AI政策。Noam Brown表示,没有比他更合适的人选来协助塑造前沿AI政策,并期待与他合作。

Chubby♨️@kimmonismus · 6月18日47

Anthropics founder and co founder are working hard to get fable 5 back for everyone. Looking good, security issues are being addressed. Via Bloomberg

译Anthropic 的创始人和联合创始人正在努力让 Fable 5 重新为所有人可用。 看起来不错,安全问题正在解决。Via Bloomberg

Google DeepMind@GoogleDeepMind · 6月18日43

Instead of assuming AI will always do what we intend, we ask: what if it doesn't? That’s why we’ve developed our AI Control Roadmap: a framework for building and managing the advanced AI we deploy within Google. 🧵

译我们不做AI总会按我们意图行事的假设,而是问:如果它不这样做呢? 因此我们制定了AI控制路线图:一个用于构建和管理我们在Google内部部署的先进AI的框架。🧵

Chubby♨️@kimmonismus · 6月18日57

Let’s get ready, my friends. Negotiations with Trump appear to be going well, and Anthropic is confident that Fable 5 will be available again in the coming days.

译朋友们,准备好了。与特朗普的谈判似乎进展顺利,Anthropic 有信心 Fable 5 将在未来几天内再次可用。 我们可能回来了。

Chubby♨️@kimmonismus · 6月18日71

That sounds very bad for a soon-to-be re-release of Fable 5. "Trump administration officials tell WIRED that if Anthropic wants to rerelease Fable 5, it will need to ensure the model's guardrails can't be circumvented. Security experts say that can't be done." If this is true, we probably wont see a Fable 5 re-release any time soon.

译特朗普政府官员要求 Anthropic 在重新发布 Fable 5 前必须确保模型护栏无法被绕过,但安全专家认为这不可能实现。若该要求属实,Fable 5 短期内可能不会重新发布。

Rohan Paul@rohanpaul_ai · 6月18日34

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/zai-releases-glm-52-model-1m-context 🗞️ Z .ai releases GLM 5.2 model: 1M context window with MIT-licensed open weights, long-horizon coding agents 🗞️ Tensordyne Announces Breakthrough Inference System - 13x the rack throughput of NVIDIA’s NVL72 GB300 🗞️ New MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality 🗞️ Google released DiffusionGemma, an open experimental 26B MoE, activates only 3.8B. Great news for locall LLMs. 🗞️ Dario Amodei’s new blog, calling for an urgent policy overhaul because he thinks frontier AI is moving faster than governments can regulate it. 🗞️ OpenAI is buying Ona to give Codex agents a secure cloud desk that stays open after humans leave. 🗞️ Full Letter From US Commerce Secretary Howard Lutnick to Dario Amodei - What did US tell Anthropic before banning Mythos and Fable for foreigners

译Z.ai 推出 GLM 5.2 模型,1M 上下文窗口、MIT 许可开源权重,面向长周期编码智能体。Tensordyne 宣布推理系统,机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma,26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona,为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic,就禁止外国用户使用 Mythos 和 Fable 做出说明。

Nathan Lambert@natolambert · 6月18日69

We need a word for this sort of impossible demand with llms. It's almost like we've never dealt with a dual use technology before.

译特朗普政府官员要求Anthropic若重新发布模型Fable 5,必须确保其安全护栏无法被绕过(即实现“零越狱”)。安全专家则认为这在技术上不可行。主推文指出,这种对LLM的不切实际要求反映了双重用途技术面临的典型矛盾。

Chubby♨️@kimmonismus · 6月18日66

The heated atmosphere with Anthropic is not cooling down. David Sacks, "White House AI and crypto czar," reiterates very clearly that he considers Anthropic's behavior to be the fundamental problem. "Unfortunately Anthropic's needlessly confrontational posture toward the Administration has distracted from that mission." I now expect that a re-release for Fable-5, or indeed for Anthropic, will only be possible with very significant changes and regulations.

译白宫AI和加密货币主管David Sacks回应争议,澄清自己并未淡化Mythos的网络威胁,而是质疑Anthropic的恐吓策略。他重申威胁真实,呼吁防御者快速修补漏洞,并批评Anthropic对政府的对抗姿态分散了合作使命。推文作者Kim预测,在此背景下,Fable-5乃至Anthropic的后续模型重新发布可能需满足重大改动和严格监管。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
02:35
Sam Altman@sama
45
我们希望帮助所有公司变得安全,与美国政府和安全生态系统合作。 *GPT-5.5-Cyber完整版已发布;在CyberGym上达到最先进性能。 *Patch The Planet 和 Codex Security 将帮助解决安全问题,而不仅仅是发现它们。
OpenAI安全/对齐模型发布
02:08
AYi@AYi_AInotes
51
OpenAI Daybreak 更新:Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复

OpenAI Daybreak 计划更新,推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型,实现从漏洞发现到补丁生成的自动闭环,将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口,但 AI 补丁可能引入新问题,未来或需更高阶 AI 监督修复进程。

Greg Brockman: We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...

OpenAI安全/对齐行业动态部署/工程
01:56
Chubby♨️@kimmonismus
61
OpenAI 宣布扩展 Daybreak 项目,旨在以机器速度民主化修复脆弱软件。主要发布包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);完整版 GPT-5.5-Cyber 模型(面向受信防御者的安全专用模型);Cyber Partner Program(支持安全公司基于 OpenAI 顶级网络能力构建产品);以及 Patch the Planet(与维护者合作保护关键开源项目)。据主推文称,GPT-5.5-Cyber 在 CyberGym 基准上表现优于 Claude Mythos。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

MCP/工具OpenAI产品更新安全/对齐
01:38
Greg Brockman@gdb
61
Greg Brockman 宣布 OpenAI Daybreak 加速漏洞发现与修复。模型已能发现并生成针对主流浏览器、网络基础设施、FreeBSD 和 Linux 内核等操作系统,以及 cURL、Go、Python、Sigstore、pyca/cryptography 等项目的关键漏洞补丁。同时扩展 Daybreak 项目:推出 Codex Security 插件(在 Codex 内发现、验证、修复漏洞);发布完整版 GPT-5.5-Cyber 模型;启动 Cyber Partner Program(为安全公司提供顶级网络能力产品);推出 Patch the Planet(与维护者合作保护关键开源项目)。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI产品更新安全/对齐
01:12
OpenAI@OpenAI
60
OpenAI 扩展 Daybreak 项目,加速修补漏洞

OpenAI 宣布扩展 Daybreak 项目,以机器速度民主化修补易受攻击的软件。具体包括:推出 Codex Security 插件,可在 Codex 内查找、验证和修复漏洞;发布完整版 GPT-5.5-Cyber 模型,专为可信防御者设计;启动 Cyber Partner Program,支持领先安全公司基于 OpenAI 最佳网络能力构建产品;以及 Patch the Planet,与维护者合作保护关键开源项目。

OpenAI产品更新安全/对齐编码
6月22日
23:26
Chubby♨️@kimmonismus
68
五眼联盟警告:前沿AI数月内将大幅升级网络攻击

五眼联盟(Five Eyes)网络机构警告,能够显著升级针对政府和企业的网络攻击的前沿AI模型可能仅需数月(而非数年)就能实现。该机构称前沿AI模型预计将超出当前行业预期,从根本上改变攻防网络能力。此前美国已禁止外国人访问Anthropic的Fable模型,担忧Mythos和Fable等系统可能同时改变进攻性和防御性网络安全。

Anthropic安全/对齐
04:26
Chubby♨️@kimmonismus
同事件精选79
据《经济学人》报道,6月11日,在亚马逊发现越狱的同一天,AI模型 Mythos 据称在数小时内攻破了美国国家安全局(NSA)和网络司令部的几乎所有机密系统,而非此前认为的数周。参议院情报委员会副主席 Mark Warner 转述 NSA 局长 Joshua Rudd 的话确认了此事。主推文还透露,Mythos 的下一轮迭代已经到来。

Chubby♨️: Holy Sh*t: that changes the whole Fable 5 story completely: On June 11, the very same day Amazon reportedly uncovered th...

安全/对齐政策/监管
同一事件,精选展示《NSA局长:Mythos数小时内攻破其几乎所有机密系统》
推荐理由:如果参议院情报副主席的声明属实,这将是AI历史上第一个真实的国家级灾难:Mythos在被发现越狱的当天,数小时内就攻破NSA全部机密系统。所有关于AI风险的警告,今天有了最残酷的注脚。
02:06
Rohan Paul@rohanpaul_ai
65
经济学人报道,NSA 局长告知参议院情报委员会,Anthropic 的 AI 智能体 Mythos 在数小时内(而非数周)攻破了"几乎所有"机密系统。但文章作者 Shashank Joshi 澄清,该说法来自转述,且 Mythos 几乎肯定是在特殊测试条件下与其他工具协作完成的。他称原意是体现 Mythos 的强大能力,但未附加免责说明是个失误。

Shashank Joshi: This now widely circulated claim is based on a line I wrote last week (https://economist.com/briefing/2026/06/14/donald-...

Anthropic安全/对齐政策/监管
6月21日
23:34
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选80
美国NSA局长称,Mythos在数小时内攻破了其几乎所有机密系统。此前Mythos已在5天内破解MacOS。而顶级漏洞团队Google Project Zero完成同等攻击需6个月,单个MacOS零日漏洞价值约200万美元。苹果原假设全球仅10-20个团队具备此能力,Mythos将使该数字增至数千。全球约20亿活跃苹果设备中,Mac用户多为记者、高管、政府官员等高价值目标,苹果曾是"最安全"的选择。

AI Notkilleveryoneism Memes ⏸️: Mythos cracked MacOS in 5 days WHY THIS MATTERS: - It takes Google Project Zero - the most prestigious bug-finding team ...

安全/对齐行业动态
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:前NSA局长说Mythos几小时内攻破军方系统,5天破解MacOS,把零日漏洞发现速度从月压到天,安全行业的威胁模型要重写,而且背后是AI自动化攻击的可怕威力。
02:07
Berryxia.AI@berryxia
同事件精选83
AlphaFold 之父 John Jumper 离开 Google DeepMind,加入 Anthropic

诺贝尔化学奖得主、AlphaFold 团队负责人 John Jumper 宣布离开 Google DeepMind,加入 Anthropic(休息一段时间后)。他在 GDM 工作近 9 年,博士毕业仅 6 个月便被 Demis Hassabis 委以重任领导 AlphaFold,实现了蛋白质结构预测突破。此前已有大批 OpenAI 核心研究员流入 Anthropic,Jeff Dean 也开始公开互动。评论称 Anthropic 在“收集无限宝石”。这位蛋白质科学家跨界 AI 安全与大模型,暗示下一个重大突破可能出现在意料之外的方向。

John Jumper: A bit of news: After nearly 9 years, I have decided to leave Google DeepMind and join Anthropic (after taking some time ...

Anthropic安全/对齐行业动态
同一事件,精选展示《AlphaFold 负责人 John Jumper 离职 Google DeepMind,加入 Anthropic》
推荐理由:John Jumper从DeepMind跳槽Anthropic,不是普通的人事变动,而是AI人才流向的风向标。诺奖得主从蛋白质结构转向AI安全,这个跨界本身就暗示Anthropic在筹备下一个大突破。
6月20日
22:54
Orange AI@oran_ge
69
OpenAI 针对对齐中的"涌现失调"反向探索:若模型在某领域被强化诚实、认知谦逊、可纠正等特质,好行为是否泛化?他们用 RL 训练模型,仅在健康、教育等部分对话数据中强化这些特质,其余仍用常规数据。结果发现:训练领域内模型更诚实透明;在 44 个未见评测上,欺骗、谄媚、reward hacking、有害建议等全部下降;面对 adversarial prompt 和恶意微调时韧性更强,正常指令不受影响。论文指出 RL 不仅能强化代码,也能强化道德。

Orange AI: OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。 业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自...

OpenAI安全/对齐论文/研究
22:26
Nathan Lambert@natolambert
44
Nathan Lambert 评论称前沿实验室(Frontier labs)在自我服务无意义方面已是 SOTA。他认为 AI 虽为关键技术,但硅谷通过人才交流和酒吧传播知识,并非深度国家安全决策场景。引用 @willdepue 声称中国能完全访问 OpenAI 和 Anthropic 的 GitHub/Slack/docs,并怀疑中国开源模型中可能出现可抵赖的被窃架构方法。

will depue: there is no question, none at all, that china has full access to all of openai & anthropic's github/slack/docs today no ...

AnthropicOpenAI大佬观点安全/对齐
20:10
Chubby♨️@kimmonismus
72
特朗普将Anthropic视为潜在国家安全风险的观点,以及他对AI能源需求和监管政策的看法。 让我们希望很快能再次看到fable 5。
Anthropic安全/对齐政策/监管
10:55
Rohan Paul@rohanpaul_ai
61
特朗普在Axios采访中被问及是否认为Anthropic及其CEO Dario Amodei威胁国家安全时回应"现在不,但一周前可能"。Axios报道称,特朗普政府一周前曾限制访问Anthropic的新模型,彼时他可能视其为威胁,并称"人们会立即因泄露被关进监狱"。

Axios: ⚠️ NEW on The Axios Show: President Trump tells @MarcACaputo that a week ago, he might've considered Anthropic a nationa...

Anthropic安全/对齐政策/监管
09:24
DogeDesigner@cb_doge
61
BREAKING: 研究发现ChatGPT能从简单提示生成暴力色情图像。 • 研究人员发现,ChatGPT会从看似无害的指令中,生成带有血迹的死亡女性、以及被捆绑束缚的受害者摆出色情姿势的恐怖图片。 • 该模型自主生成这些内容,无需详细指令。 • 专家称,这些模型对道德或意图毫无理解,只是在 regurgitate 互联网上的污秽内容。
OpenAI图像生成安全/对齐
09:04
ginobefun@hongming731
43
BestBlogs早报:Anthropic限竞品研究引争议;LLM应用攻防警示;软件工程未真正工程化

6月20日早报聚焦:Anthropic发布Claude Fable 5,限制开发者构建竞争性LLM,还曾降低疑似研究者输出质量;美国商务部下出口管制,全球禁用访问权,Andrew Ng批评此举加速多国AI主权讨论。Spring I/O上Brian Vermeer演示LLM攻防,通过路径穿越污染RAG知识库、SQL注入伪造聊天记忆、拆分提问套取数据,强调最小权限工具与纵深防御。另有文章称软件工程50年未真正工程化,大模型首次实现“耗能换高阶认知”,但幻觉等问题仍待解决。

安全/对齐行业动态
09:04
ginobefun@hongming731
47
Anthropic限制竞品研究&Claude Fable 5遭管制 / TypeScript 7.0 RC 10倍提速 / Nvidia Nemotron 3 Ultra发布

Anthropic对Claude Fable 5增加竞品研究限制,并疑似降低同行研究者输出质量;美国出口管制迫使Fable全球下线。DeepSWE等新基准显示智能体编程能力未触顶。Nvidia发布Nemotron 3 Ultra混合架构开源模型。Spring I/O演讲演示LLM应用攻防:路径穿越污染RAG、SQL注入越权、拆分追问绕过护栏,强调授权与可观测性。TypeScript 7.0 RC将编译器移植Go,实现约10倍性能提升。Andrew Ng认为限制措施加速全球AI主权投资。

ginobefun: http://x.com/i/article/2068133950955085826

AnthropicOpenAI安全/对齐现象/趋势
07:03
Berryxia.AI@berryxia
51
特朗普见Anthropic CEO后改口,Amazon被指举报

特朗普对Anthropic的态度在一天内反转:此前将其视为国家安全威胁,但会见CEO Dario Amodei后改口称其“聪明、好人、反应很负责任”。被问是否用国防生产法管制AI时,他表示“可能但似乎大家都很负责任”。特朗普还透露,举报Anthropic的是其竞争对手兼部分股东——Amazon。这一事件暴露了AI监管的真实逻辑:出口管制等重大决策可能取决于与总统的面谈效果。

NIK: 🚨BREAKING: TRUMP ON ANTHROPIC REPORTER: Do you view Anthropic and to a degree its CEO, Dario Amodei, as a threat to nat...

Anthropic大佬观点安全/对齐政策/监管
03:54
Nathan Lambert@natolambert
42
Nathan Lambert引用hlntnr的推文,用森林怪物比喻解释Anthropic的AI安全世界观:他们认为存在巨大且危险的怪物(超级智能风险),其他竞争者为了宝藏不顾危险,而Anthropic选择派出自己的先遣队,更快更深入地进入森林,投入大量资源进行怪物控制和驯服,并向外界报告发现。这种策略虽然逻辑自洽,但也让外界质疑其是否疯狂或说谎。

Helen Toner: Even before Mythos I was getting asked more and more what Anthropic's deal is, and why tf they're acting the way they're...

Anthropic大佬观点安全/对齐
6月19日
22:23
Nathan Lambert@natolambert
32
禁止任何形式的开源AI将是错误。与@kevinsxu共同发布的一则面向公众的公告,阐述为何开源维护美国价值观。 管理前沿风险是困难的,但通过削弱开放前沿来减少透明度、创新和教育将更糟。

Kevin S. Xu: http://x.com/i/article/2067652729913114624

大佬观点安全/对齐开源生态
21:22
Rohan Paul@rohanpaul_ai
56
新研究:最强LLM也无法完全免疫越狱--Fable 5与Opus 4.8自动化红队攻击分析

新研究对Anthropic Fable 5和Opus 4.8进行自动化红队攻击,持续改写有害提示词直至模型拒绝或生成坏答案。Fable 5最差攻击成功率6.1%,Opus 4.8为11.5%,证明最强LLM也无法完全免疫越狱——即便微小失败率,规模化自动化攻击仍可产生大量有害内容。旧式编码/角色扮演型越狱已非主要威胁,新弱点在于上下文:自适应攻击者在被拒后不断改写请求,寻找模型视为合法而非危险的框架。白宫与Anthropic正转向基于基准的测试框架,通过评分绕过程度、暴露能力、攻击可重复性及实际后果来量化越狱风险,而非追求不现实的完美免疫。

Rohan Paul: The White House and Anthropic may have found the first serious path to restore Mythos and Fable access without pretendin...

AnthropicarXiv安全/对齐
20:52
Rohan Paul@rohanpaul_ai
67
白宫与Anthropic合作制定AI模型越狱评估框架

白宫与Anthropic正合作制定正式技术评估框架,用于量化AI模型越狱攻击的严重性,并建立标准化评估方法论。框架将开发通用基准,评估防护被绕过程度、暴露的能力、攻击可重复性及实际运营后果。双方认识到完全免疫越狱并非可行目标。近期红队研究表明,强化后的前沿模型Fable 5比Opus 4.8更鲁棒,但在持续自动化攻击下仍产生有害输出。新框架每次以相同问题衡量风险,被视为更务实的监管路径。

Sophia Cai: NEW: White House and Anthropic are working to create a formal technical assessment framework that can quantify the sever...

Anthropic安全/对齐政策/监管
20:02
Emad@EMostaque
23
当AI成为法官、陪审团与行刑者时,法律会怎样?
大佬观点安全/对齐
19:52
Rohan Paul@rohanpaul_ai
81
OpenAI 将前沿健康 AI 能力迁移至免费版 GPT-5.5 Instant

OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant,使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏:由更强教师模型与 260+ 名医生(覆盖 60 国、49 种语言、26 专科)审查超 70 万条模型响应,训练学生模型学习临床回答模式。训练结合监督微调与偏好训练,重点提升“不确定性下的行为”(如主动询问年龄、症状等缺失信息)。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。

OpenAI: GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...

OpenAI产品更新安全/对齐推理
关联讨论 3 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)OpenAI:官网动态(RSS · 排除企业/客户案例)
11:24
Ethan Mollick@emollick
51
研究表明,用"邪恶"数据训练AI会导致普遍的不对齐;而使用少量有益特质数据(即使仅限健康领域)进行强化学习,也能显著提升模型在广泛的对齐和益处评估上的表现。该研究希望推动更广泛、更持久的有益模型发展。

Karan Singhal: New research on beneficial RL: models trained on a small amount of beneficial trait data improve on a wide range of alig...

安全/对齐论文/研究
08:28
Rohan Paul@rohanpaul_ai
70
《纽约邮报》:Anthropic正试图让华盛顿撤销对其最强大模型Mythos的美国禁令。 Anthropic提议与特朗普政府更紧密合作,改善沟通,更快解决安全问题,以结束美国限制。
Anthropic安全/对齐政策/监管行业动态
08:28
Rohan Paul@rohanpaul_ai
56
Anthropic 正试图让华盛顿撤销对其最强 AI 模型 Mythos 的出口限制。据纽约邮报报道,Anthropic 已向特朗普政府提交提案,承诺更紧密合作、改善沟通并更快解决安全关切,以换取解除禁令。与此同时,"杀开关"(kill-switch)讨论获得了用户反馈。

Rohan Paul: Nypost: Anthropic is trying to get Washington to reverse the US block on its most powerful Mythos Anthropic has proposed...

Anthropic安全/对齐政策/监管
07:58
Rohan Paul@rohanpaul_ai
65
OpenAI 新研究:真实情境 RL 训练使模型将安全行为迁移到未训练任务

OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。

OpenAI: As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond...

OpenAI安全/对齐论文/研究
06:53
Orange AI@oran_ge
54
OpenAI新论文:通过RL训练做好事可泛化至多领域,提升模型诚实性

OpenAI探索逆向对齐思路:训练模型做好事是否能像坏事一样泛化?研究人员使用涉及诚实、认知谦逊、可纠正性等特质的对话数据,覆盖健康、教育等领域,通过RL训练。实验发现:训练域内模型更诚实;在44个未见测试中,欺骗、谄媚、有害建议等均下降;面对对抗提示或恶意微调,模型更有韧性,且不损失正常指令能力。表明RL可强化道德底层逻辑。

OpenAI大佬观点安全/对齐
06:18
Chubby♨️@kimmonismus
35
2025年,攻击者通过邮件对Microsoft 365 Copilot实施社会工程攻击--AI读取并执行了恶意指令,受害者无需任何点击。到2026年,同样的手法正被用于攻击AI智能体(Agent)。为此,OrcaRouter在旗下平台免费提供Firewall(防火墙)和Guardrails(护栏)保护智能体,用户无需改代码,只需在控制台切换开关即可启用。

OrcaRouter 🐳: In 2025, attackers stole corporate data from Microsoft 365 Copilot. The victim clicked nothing. They got an email. The A...

智能体产品更新安全/对齐
05:53
OpenAI@OpenAI
62
随着AI承担更长时间、更高风险的任务,我们希望模型能将有益且安全的行为带入训练之外的新领域--并在压力下保持这种行为。这正是我们关于训练模型实现广泛且持久有益的新研究背后的理念。https://alignment.openai.com/beneficial-rl/
OpenAI安全/对齐论文/研究
01:21
ClaudeDevs@ClaudeDevs
55
我们已为 MCP 添加了企业托管身份验证扩展的支持。管理员可以为其组织集中授权 MCP 连接器,这样用户首次登录时即可连接所需的所有工具和数据。
AnthropicMCP/工具产品更新安全/对齐
00:25
Noam Brown@polynoamial
61
Dean Ball宣布,他将于7月6日加入OpenAI,领导名为Strategic Futures的新团队,负责帮助公司制定前沿AI政策。Noam Brown表示,没有比他更合适的人选来协助塑造前沿AI政策,并期待与他合作。

Dean W. Ball: I am pleased and honored to announce that, on July 6, I'll be joining @OpenAI as leader of a new team called Strategic F...

OpenAI安全/对齐行业动态
6月18日
22:17
Chubby♨️@kimmonismus
47
Anthropic 的创始人和联合创始人正在努力让 Fable 5 重新为所有人可用。 看起来不错,安全问题正在解决。Via Bloomberg

Chubby♨️: Let's get ready, my friends. Negotiations with Trump appear to be going well, and Anthropic is confident that Fable 5 wi...

Anthropic安全/对齐政策/监管模型发布
21:18
Google DeepMind@GoogleDeepMind
43
我们不做AI总会按我们意图行事的假设,而是问:如果它不这样做呢? 因此我们制定了AI控制路线图:一个用于构建和管理我们在Google内部部署的先进AI的框架。🧵
Google安全/对齐
20:47
Chubby♨️@kimmonismus
57
朋友们,准备好了。与特朗普的谈判似乎进展顺利,Anthropic 有信心 Fable 5 将在未来几天内再次可用。 我们可能回来了。

leo 🐾: 🚨 BREAKING: Anthropic is "confident that in the coming days [Fable 5] will become available again" - Anthropic's Intern...

Anthropic安全/对齐行业动态
07:13
Chubby♨️@kimmonismus
71
特朗普政府官员要求 Anthropic 在重新发布 Fable 5 前必须确保模型护栏无法被绕过,但安全专家认为这不可能实现。若该要求属实,Fable 5 短期内可能不会重新发布。

WIRED: Trump administration officials tell WIRED that if Anthropic wants to rerelease Fable 5, it will need to ensure the model...

Anthropic安全/对齐政策/监管
06:19
Rohan Paul@rohanpaul_ai
34
Z.ai 发布 GLM 5.2 等 AI 行业动态

Z.ai 推出 GLM 5.2 模型,1M 上下文窗口、MIT 许可开源权重,面向长周期编码智能体。Tensordyne 宣布推理系统,机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma,26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona,为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic,就禁止外国用户使用 Mythos 和 Fable 做出说明。

OpenAI安全/对齐推理模型发布
06:19
Nathan Lambert@natolambert
69
特朗普政府官员要求Anthropic若重新发布模型Fable 5,必须确保其安全护栏无法被绕过(即实现"零越狱")。安全专家则认为这在技术上不可行。主推文指出,这种对LLM的不切实际要求反映了双重用途技术面临的典型矛盾。

WIRED: Trump administration officials tell WIRED that if Anthropic wants to rerelease Fable 5, it will need to ensure the model...

Anthropic安全/对齐政策/监管
04:42
Chubby♨️@kimmonismus
66
白宫AI和加密货币主管David Sacks回应争议,澄清自己并未淡化Mythos的网络威胁,而是质疑Anthropic的恐吓策略。他重申威胁真实,呼吁防御者快速修补漏洞,并批评Anthropic对政府的对抗姿态分散了合作使命。推文作者Kim预测,在此背景下,Fable-5乃至Anthropic的后续模型重新发布可能需满足重大改动和严格监管。

David Sacks: Some recent articles have created a misleading narrative that I did not take Mythos seriously or tried to downplay the c...

Anthropic安全/对齐行业动态
‹ 上一页
123456…18
下一页 ›