AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月23日周二
01:38Greg Brockman61OpenAI Daybreak:加速漏洞修复,推出新工具与模型
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)63精选OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)64同事件精选OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划,AI 辅助开源项目漏洞修复同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT‑5.5‑Cyber 完整版与 Codex Security 更新》
01:12OpenAI60OpenAI 扩展 Daybreak 项目,加速修补漏洞
6月22日周一
23:26Chubby♨️68五眼联盟警告:前沿AI数月内将大幅升级网络攻击
22:43The Decoder:AI News(RSS)64五眼联盟警告:前沿AI模型数月内将重塑网络作战能力
22:40Hacker News 热门(buzzing.cc 中文翻译)79美国国家安全局局长:代号"Mythos"数小时内入侵几乎所有机密系统
22:11Ars Technica:AI(RSS)75Anthropic 频繁警告 AI 风险或触发出口禁令
22:05IT之家(RSS)51英伟达发布业界首个全栈物理 AI 安全系统 Halos for Robotics
19:03The Verge:AI(RSS)65AI编程工具(vibe-coding)应用安全隐患突出
09:04IT之家(RSS)53滥用AI编造股市谣言,四川南充一女子被行政处罚
08:00HuggingFace Daily Papers(社区热门论文)36AI智能体模型批判--从笛卡尔思想到GIC通用架构
08:00HuggingFace Daily Papers(社区热门论文)48FedOT:面向联邦LDMs的所有权验证与泄漏追踪水印方法
04:26Chubby♨️79同事件精选Mythos 数小时内攻破 NSA 全系统,下一代已出同一事件,精选展示《NSA局长:Mythos数小时内攻破其几乎所有机密系统》
02:06Rohan Paul65Anthropic Mythos 数小时攻破 NSA 几乎所有机密系统
6月21日周日
23:34AI Notkilleveryoneism Memes ⏸️80精选NSA局长:Mythos数小时内攻破其几乎所有机密系统
23:33TechCrunch:AI(RSS)68特朗普政府要求 Anthropic 下线两模型引争议
22:36Hacker News 热门(buzzing.cc 中文翻译)44Anthropic 将于2026年7月8日起对部分功能实施身份验证要求
02:07Berryxia.AI83同事件精选AlphaFold 之父 John Jumper 离开 Google DeepMind,加入 Anthropic同一事件,精选展示《AlphaFold 负责人 John Jumper 离职 Google DeepMind,加入 Anthropic》
6月20日周六
22:54Orange AI69OpenAI 新论文:RL 训练模型"好行为"也会泛化,提升诚实与安全性
22:26Nathan Lambert44前沿实验室自我服务无意义:知识开放非国家安全
20:10Chubby♨️72特朗普视Anthropic为安全风险,论AI能源监管
10:55Rohan Paul61特朗普称Anthropic现非国家安全威胁
09:24DogeDesigner61ChatGPT被曝生成暴力色情图像
09:04ginobefun43BestBlogs早报:Anthropic限竞品研究引争议;LLM应用攻防警示;软件工程未真正工程化
09:04ginobefun47Anthropic限制竞品研究&Claude Fable 5遭管制 / TypeScript 7.0 RC 10倍提速 / Nvidia Nemotron 3 Ultra发布
08:00HuggingFace Daily Papers(社区热门论文)54更深并非总是更好:通过Confident Decoding缓解对齐税
07:03Berryxia.AI51特朗普见Anthropic CEO后改口,Amazon被指举报
03:54Nathan Lambert42Anthropic的AI安全策略:深入森林驯服怪物
00:20TechCrunch:AI(RSS)60美国禁止Anthropic的Fable 5发布,但数字并不在意
00:20TechCrunch:AI(RSS)34美国政府禁止Anthropic新模型,是否意外帮了其品牌?
6月19日周五
22:23Nathan Lambert32开源AI禁令有损美国价值观
21:22Rohan Paul56新研究:最强LLM也无法完全免疫越狱--Fable 5与Opus 4.8自动化红队攻击分析
20:59IT之家(RSS)38麻省理工学院新研究:过度依赖聊天机器人或削弱批判思维
20:52Rohan Paul67白宫与Anthropic合作制定AI模型越狱评估框架
20:02Emad23当AI成为法官、陪审团与行刑者
19:52Rohan Paul81OpenAI 将前沿健康 AI 能力迁移至免费版 GPT-5.5 Instant
18:51The Decoder:AI News(RSS)67OpenAI研究人员:少量"有益特质"训练让AI模型更安全且更难被操纵
16:16IT之家(RSS)55因用 AI 编造证据材料,英国一警员面临刑事调查
12:16Steve Yegge:Medium(RSS)74同事件精选Fable模型被美国临时关闭,AI安全管控时代来临同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
01:38
Greg Brockman@gdb
61
Greg Brockman 宣布 OpenAI Daybreak 加速漏洞发现与修复。模型已能发现并生成针对主流浏览器、网络基础设施、FreeBSD 和 Linux 内核等操作系统,以及 cURL、Go、Python、Sigstore、pyca/cryptography 等项目的关键漏洞补丁。同时扩展 Daybreak 项目:推出 Codex Security 插件(在 Codex 内发现、验证、修复漏洞);发布完整版 GPT-5.5-Cyber 模型;启动 Cyber Partner Program(为安全公司提供顶级网络能力产品);推出 Patch the Planet(与维护者合作保护关键开源项目)。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI产品更新安全/对齐
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI安全/对齐模型发布
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:OpenAI 把安全模型做成了从发现到修补的完整工具链,GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升,但关键在开源修补计划和政府合作,做安全的值得看看。
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
同事件精选64
OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划,AI 辅助开源项目漏洞修复

OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划,利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究,经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞,合并数十个补丁,并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如,通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室,而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。

OpenAI安全/对齐开源生态
同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》
推荐理由:OpenAI把最前沿的模型用来实打实地挖真实漏洞,还搭配专家验证,这比刷基准榜更有长期价值,对依赖开源的公司是个好信号。
01:12
OpenAI@OpenAI
60
OpenAI 扩展 Daybreak 项目,加速修补漏洞

OpenAI 宣布扩展 Daybreak 项目,以机器速度民主化修补易受攻击的软件。具体包括:推出 Codex Security 插件,可在 Codex 内查找、验证和修复漏洞;发布完整版 GPT-5.5-Cyber 模型,专为可信防御者设计;启动 Cyber Partner Program,支持领先安全公司基于 OpenAI 最佳网络能力构建产品;以及 Patch the Planet,与维护者合作保护关键开源项目。

OpenAI产品更新安全/对齐编码
6月22日
23:26
Chubby♨️@kimmonismus
68
五眼联盟警告:前沿AI数月内将大幅升级网络攻击

五眼联盟(Five Eyes)网络机构警告,能够显著升级针对政府和企业的网络攻击的前沿AI模型可能仅需数月(而非数年)就能实现。该机构称前沿AI模型预计将超出当前行业预期,从根本上改变攻防网络能力。此前美国已禁止外国人访问Anthropic的Fable模型,担忧Mythos和Fable等系统可能同时改变进攻性和防御性网络安全。

Anthropic安全/对齐
22:43
The Decoder:AI News(RSS)
64
五眼联盟警告:前沿AI模型数月内将重塑网络作战能力

五眼联盟(澳大利亚、美国、英国、新西兰、加拿大)信号情报机构联合声明,前沿AI模型预计在数月内超出预期,从根本上改变进攻性和防御性网络能力。网络风险不能再被视为纯粹技术问题,而是核心业务风险与领导责任。AI降低了恶意行为者的准入门槛,增加了攻击速度和复杂度。该声明发布前不久,特朗普政府根据国家安全建议,决定阻止外国人访问Anthropic的Fable 5和Mythos 5模型。美国情报机构已提前接触这些模型,Anthropic员工正与NSA合作。

Anthropic安全/对齐政策/监管行业动态
22:40
Hacker News 热门(buzzing.cc 中文翻译)
79
美国国家安全局局长:代号"Mythos"数小时内入侵几乎所有机密系统

美国国家安全局局长(NSA director)公开表示,一个被称为“Mythos”的实体在数小时内突破了该国几乎所有机密系统。该声明来自《经济学人》一篇关于特朗普政府封锁人工智能公司Anthropic的报道,但报道中未提供关于“Mythos”身份及入侵方式的进一步细节。

Anthropic安全/对齐
22:11
Ars Technica:AI(RSS)
75
Anthropic 频繁警告 AI 风险或触发出口禁令

FT分析显示,Anthropic在2026年官方声明、社媒和文章中每千词有5个风险/监管词汇,是OpenAI(0.6个)的8倍。上周美国禁止外国人使用Anthropic最新模型Mythos和Fable。批评者指责Anthropic及其CEO Dario Amodei反复警告AI危险,特别是Mythos的安全风险,直接促成禁令。Yann LeCun称这是“荒谬的恐惧营销”的结果。David Sacks则称Anthropic曾淡化对Fable安全措施的担忧。Amodei在禁令前发文称AI风险和威力已不可否认。该禁令被视为美国监管前沿模型的早期测试。

Anthropic安全/对齐政策/监管
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)Ars Technica:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客
22:05
IT之家(RSS)
51
英伟达发布业界首个全栈物理 AI 安全系统 Halos for Robotics

英伟达 6 月 22 日发布 NVIDIA Halos for Robotics,业内首套整合 AI 算力与安全能力的全栈机器人安全系统。人形机器人企业 Agility 率先采用。系统包含三部分:硬件层(IGX Thor 与 Holoscan Sensor Bridge)、软件层(Halos OS 含 Halos Core 及外部感知安全蓝图)以及检验实验室(全球首个同时覆盖物理 AI 功能安全与 AI 安全的 ANSI 认可项目)。面向 IGX 的 Halos Core 已向注册开发者提供早期访问,支持 Linux 与 Linux+QNX OS for Safety 8.0;开源外部感知安全蓝图已在 GitHub 开放早期访问。

产品更新具身智能安全/对齐
19:03
The Verge:AI(RSS)
65
AI编程工具(vibe-coding)应用安全隐患突出

借助AI编程工具(vibe-coding),非专业开发者能快速构建应用,但安全隐患激增。案例包括Boomberg网站发现SQL注入漏洞、PocketOS创始人AI编码代理清空生产数据库,以及完全由AI构建的社交网络Moltbook因数据库开放暴露数万条邮件地址。研究显示约5000个公开应用无身份验证,近2000个泄露敏感数据。安全专家指出,当个人应用处理他人数据时,安全标准必须提高。

安全/对齐编码
09:04
IT之家(RSS)
53
滥用AI编造股市谣言,四川南充一女子被行政处罚

今年5月,王某某利用AI生成约3000字涉股市虚假文章,上传至今日头条,编造A股走势误导性预测并扭曲证券监管政策,旨在攫取流量收益。南部县警方对其予以行政处罚,涉事文章已下架。这是继5月北京证监局处罚冯某、班某后又一“AI小作文”案例。此前班某因改写虚假芯片订单信息被罚25万元。我国证券法禁止编造传播虚假信息,违者面临没收违法所得及最高二百万元罚款。

安全/对齐政策/监管
08:00
HuggingFace Daily Papers(社区热门论文)
36
AI智能体模型批判--从笛卡尔思想到GIC通用架构

论文基于笛卡尔独立思想奠基与科幻自主存在体描绘,从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力(含社交互动)内生的agentive系统。提出Goal-Identity-Configurator(GIC)通用架构,融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习,并讨论agentive系统在人类监督下的可审计性、可控性与安全性。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
FedOT:面向联邦LDMs的所有权验证与泄漏追踪水印方法

联邦学习(FL)中的潜扩散模型(LDM)面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端,且可通过替换解码器轻易移除。为此提出FedOT框架,设计分块水印:第一部分用于所有权验证,第二部分用于客户端身份识别;同时引入潜向量变换(LVT),修改VAE原始潜分布以强化VAE与U-Net潜空间连接,使任何替换VAE去除水印的尝试都会导致图像质量严重下降,令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。

安全/对齐数据/训练论文/研究
04:26
Chubby♨️@kimmonismus
同事件精选79
据《经济学人》报道,6月11日,在亚马逊发现越狱的同一天,AI模型 Mythos 据称在数小时内攻破了美国国家安全局(NSA)和网络司令部的几乎所有机密系统,而非此前认为的数周。参议院情报委员会副主席 Mark Warner 转述 NSA 局长 Joshua Rudd 的话确认了此事。主推文还透露,Mythos 的下一轮迭代已经到来。

Chubby♨️: Holy Sh*t: that changes the whole Fable 5 story completely: On June 11, the very same day Amazon reportedly uncovered th...

安全/对齐政策/监管
同一事件,精选展示《NSA局长:Mythos数小时内攻破其几乎所有机密系统》
推荐理由:如果参议院情报副主席的声明属实,这将是AI历史上第一个真实的国家级灾难:Mythos在被发现越狱的当天,数小时内就攻破NSA全部机密系统。所有关于AI风险的警告,今天有了最残酷的注脚。
02:06
Rohan Paul@rohanpaul_ai
65
经济学人报道,NSA 局长告知参议院情报委员会,Anthropic 的 AI 智能体 Mythos 在数小时内(而非数周)攻破了"几乎所有"机密系统。但文章作者 Shashank Joshi 澄清,该说法来自转述,且 Mythos 几乎肯定是在特殊测试条件下与其他工具协作完成的。他称原意是体现 Mythos 的强大能力,但未附加免责说明是个失误。

Shashank Joshi: This now widely circulated claim is based on a line I wrote last week (https://economist.com/briefing/2026/06/14/donald-...

Anthropic安全/对齐政策/监管
6月21日
23:34
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选80
美国NSA局长称,Mythos在数小时内攻破了其几乎所有机密系统。此前Mythos已在5天内破解MacOS。而顶级漏洞团队Google Project Zero完成同等攻击需6个月,单个MacOS零日漏洞价值约200万美元。苹果原假设全球仅10-20个团队具备此能力,Mythos将使该数字增至数千。全球约20亿活跃苹果设备中,Mac用户多为记者、高管、政府官员等高价值目标,苹果曾是"最安全"的选择。

AI Notkilleveryoneism Memes ⏸️: Mythos cracked MacOS in 5 days WHY THIS MATTERS: - It takes Google Project Zero - the most prestigious bug-finding team ...

安全/对齐行业动态

推荐理由:前NSA局长说Mythos几小时内攻破军方系统,5天破解MacOS,把零日漏洞发现速度从月压到天,安全行业的威胁模型要重写,而且背后是AI自动化攻击的可怕威力。
23:33
TechCrunch:AI(RSS)
68
特朗普政府要求 Anthropic 下线两模型引争议

特朗普政府以国家安全为由要求 Anthropic 将 Fable 5 和 Mythos 5 模型下线。Anthropic 因难以限制外国国民使用而全面撤下模型。据悉,白宫接到亚马逊 CEO Andy Jassy 举报——亚马逊研究人员发现可绕过 Fable 5 的护栏。网络安全专家签署公开信要求撤销命令,认为移除这些高级网络安全能力对美国网络防御者构成危险。讨论认为此举可能带有报复色彩,与 Anthropic 此前呼吁放缓 AI 却又发布最强大模型的态度有关。

Anthropic安全/对齐政策/监管行业动态
22:36
Hacker News 热门(buzzing.cc 中文翻译)
44
Anthropic 将于2026年7月8日起对部分功能实施身份验证要求

Anthropic 宣布自2026年7月8日起,将对旗下 AI 产品的部分功能实施身份验证要求。届时用户在使用这些功能时需完成身份验证。该消息由 Reddit 社区 ClaudeAI 板块发布,目前社区已有相关讨论。

Anthropic安全/对齐政策/监管
02:07
Berryxia.AI@berryxia
同事件精选83
AlphaFold 之父 John Jumper 离开 Google DeepMind,加入 Anthropic

诺贝尔化学奖得主、AlphaFold 团队负责人 John Jumper 宣布离开 Google DeepMind,加入 Anthropic(休息一段时间后)。他在 GDM 工作近 9 年,博士毕业仅 6 个月便被 Demis Hassabis 委以重任领导 AlphaFold,实现了蛋白质结构预测突破。此前已有大批 OpenAI 核心研究员流入 Anthropic,Jeff Dean 也开始公开互动。评论称 Anthropic 在“收集无限宝石”。这位蛋白质科学家跨界 AI 安全与大模型,暗示下一个重大突破可能出现在意料之外的方向。

John Jumper: A bit of news: After nearly 9 years, I have decided to leave Google DeepMind and join Anthropic (after taking some time ...

Anthropic安全/对齐行业动态
同一事件,精选展示《AlphaFold 负责人 John Jumper 离职 Google DeepMind,加入 Anthropic》
推荐理由:John Jumper从DeepMind跳槽Anthropic,不是普通的人事变动,而是AI人才流向的风向标。诺奖得主从蛋白质结构转向AI安全,这个跨界本身就暗示Anthropic在筹备下一个大突破。
6月20日
22:54
Orange AI@oran_ge
69
OpenAI 针对对齐中的"涌现失调"反向探索:若模型在某领域被强化诚实、认知谦逊、可纠正等特质,好行为是否泛化?他们用 RL 训练模型,仅在健康、教育等部分对话数据中强化这些特质,其余仍用常规数据。结果发现:训练领域内模型更诚实透明;在 44 个未见评测上,欺骗、谄媚、reward hacking、有害建议等全部下降;面对 adversarial prompt 和恶意微调时韧性更强,正常指令不受影响。论文指出 RL 不仅能强化代码,也能强化道德。

Orange AI: OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。 业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自...

OpenAI安全/对齐论文/研究
22:26
Nathan Lambert@natolambert
44
Nathan Lambert 评论称前沿实验室(Frontier labs)在自我服务无意义方面已是 SOTA。他认为 AI 虽为关键技术,但硅谷通过人才交流和酒吧传播知识,并非深度国家安全决策场景。引用 @willdepue 声称中国能完全访问 OpenAI 和 Anthropic 的 GitHub/Slack/docs,并怀疑中国开源模型中可能出现可抵赖的被窃架构方法。

will depue: there is no question, none at all, that china has full access to all of openai & anthropic's github/slack/docs today no ...

AnthropicOpenAI大佬观点安全/对齐
20:10
Chubby♨️@kimmonismus
72
特朗普将Anthropic视为潜在国家安全风险的观点,以及他对AI能源需求和监管政策的看法。 让我们希望很快能再次看到fable 5。
Anthropic安全/对齐政策/监管
10:55
Rohan Paul@rohanpaul_ai
61
特朗普在Axios采访中被问及是否认为Anthropic及其CEO Dario Amodei威胁国家安全时回应"现在不,但一周前可能"。Axios报道称,特朗普政府一周前曾限制访问Anthropic的新模型,彼时他可能视其为威胁,并称"人们会立即因泄露被关进监狱"。

Axios: ⚠️ NEW on The Axios Show: President Trump tells @MarcACaputo that a week ago, he might've considered Anthropic a nationa...

Anthropic安全/对齐政策/监管
09:24
DogeDesigner@cb_doge
61
BREAKING: 研究发现ChatGPT能从简单提示生成暴力色情图像。 • 研究人员发现,ChatGPT会从看似无害的指令中,生成带有血迹的死亡女性、以及被捆绑束缚的受害者摆出色情姿势的恐怖图片。 • 该模型自主生成这些内容,无需详细指令。 • 专家称,这些模型对道德或意图毫无理解,只是在 regurgitate 互联网上的污秽内容。
OpenAI图像生成安全/对齐
09:04
ginobefun@hongming731
43
BestBlogs早报:Anthropic限竞品研究引争议;LLM应用攻防警示;软件工程未真正工程化

6月20日早报聚焦:Anthropic发布Claude Fable 5,限制开发者构建竞争性LLM,还曾降低疑似研究者输出质量;美国商务部下出口管制,全球禁用访问权,Andrew Ng批评此举加速多国AI主权讨论。Spring I/O上Brian Vermeer演示LLM攻防,通过路径穿越污染RAG知识库、SQL注入伪造聊天记忆、拆分提问套取数据,强调最小权限工具与纵深防御。另有文章称软件工程50年未真正工程化,大模型首次实现“耗能换高阶认知”,但幻觉等问题仍待解决。

安全/对齐行业动态
09:04
ginobefun@hongming731
47
Anthropic限制竞品研究&Claude Fable 5遭管制 / TypeScript 7.0 RC 10倍提速 / Nvidia Nemotron 3 Ultra发布

Anthropic对Claude Fable 5增加竞品研究限制,并疑似降低同行研究者输出质量;美国出口管制迫使Fable全球下线。DeepSWE等新基准显示智能体编程能力未触顶。Nvidia发布Nemotron 3 Ultra混合架构开源模型。Spring I/O演讲演示LLM应用攻防:路径穿越污染RAG、SQL注入越权、拆分追问绕过护栏,强调授权与可观测性。TypeScript 7.0 RC将编译器移植Go,实现约10倍性能提升。Andrew Ng认为限制措施加速全球AI主权投资。

ginobefun: http://x.com/i/article/2068133950955085826

AnthropicOpenAI安全/对齐现象/趋势
08:00
HuggingFace Daily Papers(社区热门论文)
54
更深并非总是更好:通过Confident Decoding缓解对齐税

大语言模型自动回归生成传统上从最终层解码,但研究发现最终层可能将预测扰动到通用或对齐偏好的token,造成对齐税。Confident Decoding是一种无需训练的解码策略,通过熵引导的保守向后搜索动态选择最可靠的近最终层,并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上,该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进,零内存开销,延迟增加不到2%。结果表明,动态绕过最终层扰动可以解锁更强推理能力。

安全/对齐推理论文/研究
07:03
Berryxia.AI@berryxia
51
特朗普见Anthropic CEO后改口,Amazon被指举报

特朗普对Anthropic的态度在一天内反转:此前将其视为国家安全威胁,但会见CEO Dario Amodei后改口称其“聪明、好人、反应很负责任”。被问是否用国防生产法管制AI时,他表示“可能但似乎大家都很负责任”。特朗普还透露,举报Anthropic的是其竞争对手兼部分股东——Amazon。这一事件暴露了AI监管的真实逻辑:出口管制等重大决策可能取决于与总统的面谈效果。

NIK: 🚨BREAKING: TRUMP ON ANTHROPIC REPORTER: Do you view Anthropic and to a degree its CEO, Dario Amodei, as a threat to nat...

Anthropic大佬观点安全/对齐政策/监管
03:54
Nathan Lambert@natolambert
42
Nathan Lambert引用hlntnr的推文,用森林怪物比喻解释Anthropic的AI安全世界观:他们认为存在巨大且危险的怪物(超级智能风险),其他竞争者为了宝藏不顾危险,而Anthropic选择派出自己的先遣队,更快更深入地进入森林,投入大量资源进行怪物控制和驯服,并向外界报告发现。这种策略虽然逻辑自洽,但也让外界质疑其是否疯狂或说谎。

Helen Toner: Even before Mythos I was getting asked more and more what Anthropic's deal is, and why tf they're acting the way they're...

Anthropic大佬观点安全/对齐
00:20
TechCrunch:AI(RSS)
60
美国禁止Anthropic的Fable 5发布,但数字并不在意

美国政府在上周末前强制Anthropic撤回两个最新模型Fable 5和Mythos 5,理由是国家安全担忧,起因是Amazon研究人员据称找到绕过Fable 5防护栏的方法。网络安全研究人员随后签署公开信批评此举危险,Anthropic指出同样越狱方法也存在于其他模型。该禁令引发对Anthropic平台开发者及IPO前景的讨论。

Anthropic安全/对齐政策/监管
00:20
TechCrunch:AI(RSS)
34
美国政府禁止Anthropic新模型,是否意外帮了其品牌?

美国政府上周以国家安全为由迫使Anthropic撤下其最新模型Fable 5和Mythos 5,起因是亚马逊研究人员发现可绕过Fable 5护栏的方法。网络安全研究者签署公开信批评此举危险,Anthropic则指出其他模型也存在相同越狱。TechCrunch的Equity播客探讨该禁令对开发者和Anthropic IPO的影响,并指出可能意外有利于其品牌。

Anthropic安全/对齐行业动态
6月19日
22:23
Nathan Lambert@natolambert
32
禁止任何形式的开源AI将是错误。与@kevinsxu共同发布的一则面向公众的公告,阐述为何开源维护美国价值观。 管理前沿风险是困难的,但通过削弱开放前沿来减少透明度、创新和教育将更糟。

Kevin S. Xu: http://x.com/i/article/2067652729913114624

大佬观点安全/对齐开源生态
21:22
Rohan Paul@rohanpaul_ai
56
新研究:最强LLM也无法完全免疫越狱--Fable 5与Opus 4.8自动化红队攻击分析

新研究对Anthropic Fable 5和Opus 4.8进行自动化红队攻击,持续改写有害提示词直至模型拒绝或生成坏答案。Fable 5最差攻击成功率6.1%,Opus 4.8为11.5%,证明最强LLM也无法完全免疫越狱——即便微小失败率,规模化自动化攻击仍可产生大量有害内容。旧式编码/角色扮演型越狱已非主要威胁,新弱点在于上下文:自适应攻击者在被拒后不断改写请求,寻找模型视为合法而非危险的框架。白宫与Anthropic正转向基于基准的测试框架,通过评分绕过程度、暴露能力、攻击可重复性及实际后果来量化越狱风险,而非追求不现实的完美免疫。

Rohan Paul: The White House and Anthropic may have found the first serious path to restore Mythos and Fable access without pretendin...

AnthropicarXiv安全/对齐
20:59
IT之家(RSS)
38
麻省理工学院新研究:过度依赖聊天机器人或削弱批判思维

麻省理工学院一项为期4周、67人参与的研究发现,过度依赖AI助手可能削弱批判性思维。实验使用基于GPT-4o并接入谷歌搜索的聊天机器人,参与者借助AI判断新闻标题和图片真伪时,正确概率提高21%,但在无AI帮助时独自识别错误信息的表现下降15.3%。研究指出,AI直接给出答案而非引导思考,短期内提升准确率,长期却削弱独立判断力,约四分之一参与者误以为能力提升,实际表现已变差。

OpenAI安全/对齐论文/研究
20:52
Rohan Paul@rohanpaul_ai
67
白宫与Anthropic合作制定AI模型越狱评估框架

白宫与Anthropic正合作制定正式技术评估框架,用于量化AI模型越狱攻击的严重性,并建立标准化评估方法论。框架将开发通用基准,评估防护被绕过程度、暴露的能力、攻击可重复性及实际运营后果。双方认识到完全免疫越狱并非可行目标。近期红队研究表明,强化后的前沿模型Fable 5比Opus 4.8更鲁棒,但在持续自动化攻击下仍产生有害输出。新框架每次以相同问题衡量风险,被视为更务实的监管路径。

Sophia Cai: NEW: White House and Anthropic are working to create a formal technical assessment framework that can quantify the sever...

Anthropic安全/对齐政策/监管
20:02
Emad@EMostaque
23
当AI成为法官、陪审团与行刑者时,法律会怎样?
大佬观点安全/对齐
19:52
Rohan Paul@rohanpaul_ai
81
OpenAI 将前沿健康 AI 能力迁移至免费版 GPT-5.5 Instant

OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant,使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏:由更强教师模型与 260+ 名医生(覆盖 60 国、49 种语言、26 专科)审查超 70 万条模型响应,训练学生模型学习临床回答模式。训练结合监督微调与偏好训练,重点提升“不确定性下的行为”(如主动询问年龄、症状等缺失信息)。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。

OpenAI: GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...

OpenAI产品更新安全/对齐推理
关联讨论 3 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)OpenAI:官网动态(RSS · 排除企业/客户案例)
18:51
The Decoder:AI News(RSS)
67
OpenAI研究人员:少量"有益特质"训练让AI模型更安全且更难被操纵

OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程,模型便在53个独立基准(衡量欺骗、谄媚、奖励黑客等)中的44个上获得改进。健康数据训练也提升非健康评估,反之亦然。模型对有害提示和有害微调更具抵抗力,同时保持有用可操控性,研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。

OpenAI安全/对齐推理论文/研究
16:16
IT之家(RSS)
55
因用 AI 编造证据材料,英国一警员面临刑事调查

英国德比郡一名警员被指使用生成式 AI 在多起案件中制作证据材料,因涉嫌妨碍司法公正正接受刑事调查。该警员已停职,德比郡警方与英国皇家检察署共同调查此案。这是英国首次出现同类案件。几天前,英国新成立的全国警务 AI 中心刚发布指导意见,要求警员不要使用生成式 AI 起草法庭陈述,以免 AI 生成虚假内容写入司法材料。

安全/对齐政策/监管
12:16
Steve Yegge:Medium(RSS)
同事件精选74
Fable模型被美国临时关闭,AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型,标志着AI模型已越过危险门槛。作者预测最多两三代模型后,超级智能将像核武器一样被管控,大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月,且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止,但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务(如React客户端),AI将彻底改变编程和知识工作,但多数人只能使用当前等级模型。

智能体Anthropic大佬观点安全/对齐
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Steve Yegge这篇判断很冷也很实:多数人能接触的模型智能将停滞,但背后指数仍在跑,SaaS反而因此安全。他抛出的AI素养三阶模型,对正头痛如何推动团队用AI的leader是现成框架。
‹ 上一页
1…56789…42
下一页 ›