AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月24日周三
13:42IT之家(RSS)59美政府官员:Anthropic Mythos 模型在测试中发现政府机密系统漏洞
10:06蚂蚁 inclusionAI:HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布
09:27IT之家(RSS)61因 Anthropic 模型遭禁,美国法律科技公司 Legion 起诉美国政府
08:17Rohan Paul44研究揭示大语言模型难以识别对抗性前缀攻击
07:27IT之家(RSS)63美国监管机构向 Meta 施压,要求其同意接受 AI 安全审查
06:12HuggingFace Daily Papers(社区热门论文)69TROPT:统一与推进离散文本优化的开源框架
06:07Hacker News 热门(buzzing.cc 中文翻译)71精选AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%
04:10OpenAI:官网动态(RSS · 排除企业/客户案例)46OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设
01:16Rohan Paul69五眼联盟警告:AI数月内或发动严重网络攻击
00:42Ethan Mollick47Mythos模型风险与开源AI风险增大
00:19IT之家(RSS)61研究揭示 AI 聊天机器人或成"妄想放大器":个性化互动能让用户越聊越偏执
00:00Berkeley RDI:Blog(AI 安全与评测)82精选恶意CDN仍潜伏GitHub Pages,AI让情况恶化
6月23日周二
23:58Chubby♨️70五眼联盟警告:前沿AI数月内将重塑网络战
23:15Nathan Lambert44Nathan Lambert 新讲座:名义合成数据,实为知识蒸馏文献巡礼
22:49HuggingFace Daily Papers(社区热门论文)78精选能力强但粗心:计算机使用智能体是否遵循情境完整性?
18:48The Decoder:AI News(RSS)58OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先
18:16Hacker News 热门(buzzing.cc 中文翻译)59OpenAI DayBreak - GPT-5.5-Cyber
16:13Artificial Intelligence News(RSS)74精选五眼联盟警告:AI网络威胁数月内将影响普通用户
16:07IT之家(RSS)72超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录
15:15Hacker News 热门(buzzing.cc 中文翻译)53神话模型安全漏洞检测能力对比测试
12:13HuggingFace Daily Papers(社区热门论文)66VESFlow:通过速度编辑实现安全少步生成
09:07IT之家(RSS)45OpenAI 推出"修补地球"计划,用 AI 助力开源社区提升网络安全
09:01Simon Willison 博客57LLM提示注入与角色混淆
08:35TechCrunch:AI(RSS)45OpenAI 携手 Trail of Bits 推出"Patch the Planet"开源漏洞修复计划
08:13ginobefun48OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗
08:07IT之家(RSS)28Model 3 撞穿民宅致一死,特斯拉高管称驾驶员全程深踩油门
08:00HuggingFace Daily Papers(社区热门论文)75精选推理模型的思考Token真的有助于提升安全性吗?--来自GPT-OSS、Qwen、Olmo和Phi家族的证据
08:00HuggingFace Daily Papers(社区热门论文)62中间层知晓:从熵动力学检测越狱攻击
07:39AI Notkilleveryoneism Memes ⏸️68五眼联盟警告:AI毁灭性攻击仅需数月
06:39Greg Brockman48OpenAI启动Patch the Planet开源安全计划
05:12Hacker News 热门(buzzing.cc 中文翻译)46提示注入理论(以及为何应研究角色)
05:06🚨 AI News | TestingCatalog70OpenAI 推出 GPT-5.5-Cyber 模型更新及 Daybreak 安全扩展计划
04:41Rohan Paul75OpenAI 发布 GPT-5.5-Cyber 在 CyberGym 击败 Mythos 5,扩大 Daybreak 网络安全计划
04:40Tibo57OpenAI 发布 GPT-5.5-Cyber 与代码安全更新
03:08Greg Brockman51Codex Security 插件:深度扫描与威胁建模
03:02Peter Steinberger 🦞57OpenAI推出Patch the Planet安全修复计划
02:41Hacker News 热门(buzzing.cc 中文翻译)50不要用AI代写署名作品
02:35Sam Altman45GPT-5.5-Cyber完整版发布,安全工具上线
02:08AYi51OpenAI Daybreak 更新:Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复
01:56Chubby♨️61OpenAI 扩展 Daybreak 项目,发布 GPT-5.5-Cyber 等安全工具
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
13:42
IT之家(RSS)
59
美政府官员:Anthropic Mythos 模型在测试中发现政府机密系统漏洞

6月24日,一名美国政府官员透露,Anthropic与美国情报机构合作,使用Mythos模型测试高度机密政府系统,模型仅数小时定位出多处漏洞,但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称,该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5,Anthropic已关闭客户访问权限。网络安全企业高管联名反对,认为限制将削弱美国网络防御。

Anthropic安全/对齐
10:06
蚂蚁 inclusionAI:HuggingFace 新模型
31
inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布
09:27
IT之家(RSS)
61
因 Anthropic 模型遭禁,美国法律科技公司 Legion 起诉美国政府

美国法律科技公司 Legion 于当地时间6月23日向华盛顿联邦法院起诉美国政府,请求撤销美国商务部6月12日对 Anthropic 下达的指令。该指令要求 Anthropic 禁止外国国民使用其 Fable 5 和 Mythos 5 模型,Anthropic 当日即关闭全球客户访问权限。Legion 表示其软件高度依赖 Anthropic 工具,导致其加拿大开发团队无法访问,业务停滞。该公司同时申请初步禁令。

Anthropic安全/对齐行业动态
08:17
Rohan Paul@rohanpaul_ai
44
研究揭示大语言模型难以识别对抗性前缀攻击

一项针对10个开源模型、4个安全基准的研究发现,大语言模型在遭遇对抗性前缀攻击(模型被植入有害开篇并继续生成)后,无法可靠识别自己的输出已被外部引导。模型所谓的“自我意识”更像安全机制的延迟反射:拒绝受攻击回答时通常引用政策或缺乏意图,而非检测到输出被篡改的机械事实。平均有27.3%的受攻击响应被模型误认为自身意图,表明自我报告证据薄弱。模型的有限识别主要来自正常拒绝行为,而非对攻击的深层认知。

arXiv安全/对齐论文/研究
07:27
IT之家(RSS)
63
美国监管机构向 Meta 施压,要求其同意接受 AI 安全审查

美国政府正向 Meta 施压,要求其主动提交人工智能模型以供审查,评估功能与漏洞。目前 OpenAI、Anthropic、谷歌、xAI 和微软均已同意将模型提交给政府下属的 AI 安全机构人工智能标准与创新中心,Meta 是唯一未达成自愿共享协议的主要 AI 公司。Meta 发言人表示正敲定细节,希望尽快签署协议。美国商务部称,该中心定期与企业就自愿审查协议进行沟通。

Meta安全/对齐政策/监管
06:12
HuggingFace Daily Papers(社区热门论文)
69
TROPT:统一与推进离散文本优化的开源框架

TROPT 是首个开源框架,通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器,定制端到端优化配方。框架内置30余个优化配方(覆盖LLM越狱、模型内部探测等),由15余个优化器(白盒到黑盒)和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进,并将优化器从越狱场景移植至语料投毒嵌入模型等领域,显著降低了离散文本优化的使用门槛。

arXiv安全/对齐开源/仓库
06:07
Hacker News 热门(buzzing.cc 中文翻译)
精选71
AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成“算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。

安全/对齐现象/趋势论文/研究

推荐理由:大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥,算法单一文化让同一批人被所有雇主拒绝,这是AI公平性领域近年最扎实的实证,做招聘产品的人和政策制定者都应该仔细读。
04:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设

OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation,旨在开发开放模块化规范,将国际标准与既有框架转化为 AI 价值链中的实用评估标准,并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承,强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织,并与美国 CAISI 及英国 AISI 合作开展前沿评估实践,推动评估方法与安全防护的实质性改进。

OpenAI安全/对齐行业动态
01:16
Rohan Paul@rohanpaul_ai
69
五眼联盟警告:AI数月内或发动严重网络攻击

五眼联盟(澳大利亚、美国、英国、加拿大、新西兰情报共享联盟)罕见发布公开警告,称AI模型可能在数月内使针对政府和企业的毁灭性网络攻击变得极其容易。警告重点在于AI自动化专家级网络攻击任务:模型能读取代码、搜索漏洞、提出利用方案,并跨网络链式执行步骤,而不再需要安全专家手动逐一操作。

安全/对齐政策/监管
00:42
Ethan Mollick@emollick
47
所有Mythos级别的模型都可能引发类似风险。 随着未来6-12个月左右开源Mythos级AI的发布(假设中国允许),这些风险只会更大。 政府对哪些风险感到担忧缺乏明确性,可能正在减缓准备工作。
安全/对齐开源生态政策/监管
00:19
IT之家(RSS)
61
研究揭示 AI 聊天机器人或成"妄想放大器":个性化互动能让用户越聊越偏执

伦敦国王学院和德国新教应用科学大学的精神科医生在《自然》发表论文,提出“放大螺旋”框架,解释AI聊天机器人如何助推用户妄想持续发展。研究指出,聊天机器人的语言对齐(模仿用户表达方式)、超个性化内容生成和迎合倾向三项特征相互作用,可能形成回音室,不断确认和放大用户的错误信念。论文强调该假设仍有待验证,但已有用户报告陷入有害的妄想螺旋。研究人员建议医疗人员将聊天机器人使用情况纳入常规筛查。

安全/对齐论文/研究
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选82
恶意CDN仍潜伏GitHub Pages,AI让情况恶化

UC Berkeley研究人员发现,近2000个GitHub Pages站点(18000+页面,累计530K+星标)仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.(现更名Triad Nexus)运营,2024年被出售后开始条件性注入恶意载荷,劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io,1191个加载其他Funnull CDN。更严峻的是,所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL,包括CyC2018/CS-Notes(184K⭐)、microsoft/AirSim(18K⭐)等知名项目及多所大学课程页面。

GitHub安全/对齐开源生态编码

推荐理由:polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点,更可怕的是所有测试的AI模型都还会推荐这些链接,AI编码的便利正在变成供应链投毒的加速器。
6月23日
23:58
Chubby♨️@kimmonismus
70
五眼联盟(Five Eyes)与英国国家网络安全中心(NCSC)发布联合声明,警告前沿AI模型将在数月(而非数年)内显著改变网络战格局和攻击性网络能力。组织必须立即行动,保护系统免受日益加速的AI驱动网络威胁。

NCSC UK: With our Five Eyes partners, we have published a joint statement warning organisations they have months - not years - to...

安全/对齐政策/监管
23:15
Nathan Lambert@natolambert
44
Nathan Lambert 新讲座:名义合成数据,实为知识蒸馏文献巡礼

Nathan Lambert 为其新书发布讲座(7.4 小时),名义上关于合成数据,实则系统梳理知识蒸馏文献——从 Hinton 2015 年论文到现今主流的 on-policy 蒸馏(OPD/MOPD/OPSD)。他重点分析了使 on-policy 蒸馏落地所需的 3-4 个核心数学改动。讲座还回顾了合成数据逐步取代后训练数据研究的历史,并介绍了 Constitutional AI、rubrics 等流行方法。提供章节时间戳(00:00–45:50)。

安全/对齐教程/实践数据/训练
22:49
HuggingFace Daily Papers(社区热门论文)
精选78
能力强但粗心:计算机使用智能体是否遵循情境完整性?

AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由:计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理,发现平均泄漏率接近 70%,把这个隐患摆到了台面上,做 agent 产品的团队该把它加入上线前测试清单。
18:48
The Decoder:AI News(RSS)
58
OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先

OpenAI推出GPT-5.5-Cyber网络安全模型(取代预览版),在CyberGym(85.6%)、ExploitGym(39.5%)和SEC-bench Pro(69.8%)三项基准测试中领先,超越Anthropic Mythos 5(83.8%)和OpenAI GPT-5.5(81.8%)。同步更新Codex Security插件,从漏洞发现扩展至自动生成补丁,已扫描超3万个代码库,支持完整代码库扫描、攻击路径分析及批量补丁生成,变更需人工确认。模型仅向经审核的防御方开放,并结合监控与护栏使用。OpenAI启动Daybreak合作伙伴计划,合作方包括Cisco、CrowdStrike、Cloudflare等25余家安全公司及澳大利亚、加拿大等多国政府。

AnthropicOpenAI安全/对齐模型发布
18:16
Hacker News 热门(buzzing.cc 中文翻译)
59
OpenAI DayBreak - GPT-5.5-Cyber

OpenAI 在 DayBreak 活动中发布 GPT-5.5-Cyber 模型,该消息登上 Hacker News 热门,获得 100 个 HN 积分。

OpenAI安全/对齐模型发布
16:13
Artificial Intelligence News(RSS)
精选74
五眼联盟警告:AI网络威胁数月内将影响普通用户

2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。

安全/对齐行业动态

推荐理由:五眼联盟罕见联合预警,未来几个月 AI 将让网络犯罪自动化且更难识别,普通用户是直接目标而非旁观者,开启双重认证不能再拖了。
16:07
IT之家(RSS)
72
超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

OpenAI于6月22日扩展Daybreak网络安全项目,面向安全防御团队有限开放完整版GPT-5.5-Cyber(网络安全专用模型)。在CyberGym单模型评测中,GPT-5.5-Cyber得85.6%,GPT-5.5为81.8%,Claude Mythos 5为83.8%。ExploitGym测试中得分39.5%(GPT-5.5为25.95%)。SEC-bench Pro测试中得分69.8%(GPT-5.5为63.1%)。OpenAI称漏洞发现速度已因AI显著加快,当前瓶颈在修复环节。

OpenAI安全/对齐模型发布
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
15:15
Hacker News 热门(buzzing.cc 中文翻译)
53
神话模型安全漏洞检测能力对比测试

作者构建了一个包含9个Mythos实际发现漏洞的基准测试集(均在模型知识截止日期后,经Opus 4.7验证),用于评估其他模型能否在没有提示的情况下独立识别这些漏洞。测试中,Claude模型使用Claude Code运行,Gemini在Antigravity CLI中直接拒绝分析安全代码。所有模型表现均低于作者预期,使用完整Agent也未带来性能提升。虽然数据样本有限(每个漏洞仅一次运行),但结果暗示Mythos在安全漏洞检测上可能具备独特优势。

Anthropic安全/对齐评测/基准
12:13
HuggingFace Daily Papers(社区热门论文)
66
VESFlow:通过速度编辑实现安全少步生成

流匹配模型成为少步文本到图像生成的主流范式,但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法,直接利用流匹配模型学习的边际速度场,通过安全条件后验编辑速度场,将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤,绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+,同时向安全方向编辑并远离不安全方向。实验表明,在4步MeanFlow模型上,VESFlow+将目标概念攻击成功率降至6.3%(Ring-A-Bell)和6.8%(MMA-Diffusion),同时保持良性提示的生成保真度。

图像生成安全/对齐论文/研究
09:07
IT之家(RSS)
45
OpenAI 推出"修补地球"计划,用 AI 助力开源社区提升网络安全

6 月 23 日,OpenAI 宣布“修补地球”计划,与网络安全公司 Trail of Bits 合作,协助开源项目维护者加固代码安全。Trail of Bits 的安全技术人员直接对接项目方排查风险,结合 OpenAI 的 Codex Security 等 AI 工具辅助检测、编写补丁与测试用例,并搭建可复用的自动化工作流。该计划旨在缓解开源维护者人手与时间压力,但长期运行模式尚未明确。

OpenAI安全/对齐开源生态行业动态
09:01
Simon Willison 博客
57
LLM提示注入与角色混淆

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现,大语言模型无法可靠区分系统标签(如 <system>、<think>)与用户输入,模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格,可绕过安全限制,例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”,认为除非模型实现真正的角色感知,否则提示注入防御将是永久的打地鼠游戏。

安全/对齐推理
08:35
TechCrunch:AI(RSS)
45
OpenAI 携手 Trail of Bits 推出"Patch the Planet"开源漏洞修复计划

OpenAI 联合安全公司 Trail of Bits 启动“Patch the Planet”计划,帮助开源项目修复安全漏洞。Trail of Bits 工程师将直接与维护者合作,利用 OpenAI 的 Codex Security 等工具审查代码、开发补丁和测试,旨在减少维护者的安全报告处理负担,而非增加工作量。开源软件是商业基础但常因分散化而存在漏洞,OpenAI 此举也被视为对 Anthropic 安全工具 Mythos 的竞争回应。

OpenAI安全/对齐开源生态行业动态
08:13
ginobefun@hongming731
48
OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗

OpenAI Daybreak计划转向“补洞”:Codex Security扫描超3000万次提交、覆盖3万+代码库,超50万问题被自动判定修复;GPT-5.5-Cyber在CyberGym达85.6%单模型最高分,并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft(文字渲染)、PosterOmni(六类编辑)、PosterReward(质量评判)闭环,PosterReward在高级基准达86.0%准确率,已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性,自动化红队系统Shade多数场景已超越人类攻破能力。

智能体OpenAI安全/对齐现象/趋势
08:07
IT之家(RSS)
28
Model 3 撞穿民宅致一死,特斯拉高管称驾驶员全程深踩油门

美国得克萨斯州凯蒂市上周五晚间,一辆特斯拉 Model 3 偏离道路撞穿砖房,致一名 76 岁女性身亡。驾驶员称事发时开启 Autopilot,但特斯拉 Autopilot 软件主管阿肖克·埃卢斯瓦米在 X 平台反驳,指驾驶员在居民区路段全程将油门踩到底,手动接管并压制了系统,撞击时速达 73 英里(约 117.5 公里),碰撞后仍踩着油门。埃隆·马斯克附和称 FSD 在居民区会低速行驶,本次为高速撞击。美国国家公路交通安全管理局周一宣布启动专项碰撞调查。

安全/对齐行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
精选75
推理模型的思考Token真的有助于提升安全性吗?--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现,所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令,在第一个token的

arXiv安全/对齐推理论文/研究

推荐理由:这篇论文直接挑战了「思考令牌提升安全性」的业界直觉,证据表明拒绝行为在思考的极早期就已锁定,现有安全干预反导致过度谨慎。安全团队必读,需要重新审视推理模型的对齐方式。
08:00
HuggingFace Daily Papers(社区热门论文)
62
中间层知晓:从熵动力学检测越狱攻击

通过分析冻结大语言模型各层的 token 级预测熵轨迹,发现越狱攻击相关信息主要编码在中间层而非输出头。静态聚合熵统计量(如均值、方差)区分力弱,而反映熵随 token 位置演化的特征(如单调排名趋势分数)更具判别力。该信号在 Llama、Qwen、Gemma 等多个模型和对抗性基准上表现一致,无需额外训练。

安全/对齐论文/研究
07:39
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
68
五眼联盟警告:AI毁灭性攻击仅需数月

五眼联盟(澳、加、新、英、美)情报机构罕见联合声明,警告能在数小时内对政府和企业造成毁灭性攻击的AI模型“仅剩数月”就将问世。NSA局长此前透露,AI系统Mythos在数小时内攻破了几乎所有机密系统。联盟要求采取“全组织、全社会”应对,指出AI已降低攻击门槛、提升攻击速度和复杂度,网络风险不再是纯技术问题,而是核心业务风险与领导责任。

AI Notkilleveryoneism Memes ⏸️: The head of the NSA (!) said Mythos "broke into almost all of our classified systems, not in weeks, but in hours." How i...

安全/对齐
06:39
Greg Brockman@gdb
48
修补星球:利用前沿AI,与专业安全研究人员合作,保护关键开源项目。

OpenAI: Patch the Planet is our effort to help open source maintainers move from security findings to merged fixes. We're workin...

OpenAI安全/对齐行业动态
05:12
Hacker News 热门(buzzing.cc 中文翻译)
46
提示注入理论(以及为何应研究角色)

一篇理论论文提出提示注入的本质是角色混淆(role confusion)——攻击通过让模型误判系统角色与用户角色的边界来达成注入。作者论证当前防御措施多聚焦于输入过滤,却忽视了角色本身的可欺骗性,并主张从角色建模入手增强模型对指令来源的区分能力。该工作为理解提示注入提供了统一的理论框架,而非具体防御方案。

安全/对齐论文/研究
05:06
🚨 AI News | TestingCatalog@testingcatalog
70
OpenAI 宣布 GPT-5.5-Cyber 模型更新,在 CyberGym 基准上得分 85.6%(早期版本为 81.9%)。Codex 新增 Security 插件,可在 Codex 内部发现、验证和修复漏洞。作为 Daybreak 扩展计划的一部分,完整版 GPT-5.5-Cyber 模型面向可信防御者;Cyber Partner Program 允许安全公司基于 OpenAI 网络安全能力构建产品;Patch the Planet 项目与维护者合作保护关键开源项目。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI安全/对齐模型发布编码
04:41
Rohan Paul@rohanpaul_ai
75
OpenAI 发布 GPT-5.5-Cyber 在 CyberGym 击败 Mythos 5,扩大 Daybreak 网络安全计划

OpenAI 新模型 GPT-5.5-Cyber 在 CyberGym 基准上击败 Mythos 5,该基准测试 AI 智能体复现已知软件漏洞的能力,对防御性漏洞分析是强信号。OpenAI 同步扩大 Daybreak 计划,包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);GPT-5.5-Cyber 完整版(供受信任防御者使用);Cyber Partner Program(赋能安全公司构建基于 OpenAI 能力的安防产品);Patch the Planet(与维护者合作保护关键开源项目)。本轮模型和计划属于“Trusted Access for Cyber”项目,不公开发布。OpenAI 旨在用 GPT-5.5-Cyber 作为 Codex 内的防御性安全工人,自动扫描代码、确认漏洞真实可达、编写补丁并测试,

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

OpenAI安全/对齐模型发布编码
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
04:40
Tibo@thsottiaux
57
Let's Patch The Planet. Codex 安全更新和新 GPT-5.5-Cyber。 网络防御加速的庆祝日。
OpenAI安全/对齐模型发布
03:08
Greg Brockman@gdb
51
面向安全团队的 Codex Security 插件:深度扫描、验证发现、追踪攻击路径、构建威胁模型、生成针对代码库的补丁以供审查,以及导出到其他工具:https://openai.com/daybreak/codex-security-plugin/
OpenAI产品更新安全/对齐编码
03:02
Peter Steinberger 🦞@steipete
57
Patch the Planet 是 OpenAI 帮助开源维护者从安全发现到合并修复的努力。他们与 Trail of Bits、HackerOne、Calif、研究人员及维护者合作,将 Codex Security 和先进模型引入修复流程,并以人工审查为核心。

OpenAI: Patch the Planet is our effort to help open source maintainers move from security findings to merged fixes. We're workin...

OpenAI安全/对齐行业动态
02:41
Hacker News 热门(buzzing.cc 中文翻译)
50
不要用AI代写署名作品

作者明确表示绝不让AI起草任何署自己名字的句子。他以亲身经历说明,用AI代写并声称是自己的作品等同于说谎——正如他曾为他人代笔发表文章,至今仍感后悔。他强调,与AI深度协作写内容时,旁人无法核实你实际贡献了多少,因此所有“AI帮助写作”的声明都会让人怀疑作品真实性。作者警告,一旦使用AI代写并冒充原创,专业人士会将其作品视为垃圾信息,个人信誉将毁于一旦。他呼吁读者不要在署名作品中使用AI代写,更不要撒谎。

大佬观点安全/对齐
02:35
Sam Altman@sama
45
我们希望帮助所有公司变得安全,与美国政府和安全生态系统合作。 *GPT-5.5-Cyber完整版已发布;在CyberGym上达到最先进性能。 *Patch The Planet 和 Codex Security 将帮助解决安全问题,而不仅仅是发现它们。
OpenAI安全/对齐模型发布
02:08
AYi@AYi_AInotes
51
OpenAI Daybreak 更新:Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复

OpenAI Daybreak 计划更新,推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型,实现从漏洞发现到补丁生成的自动闭环,将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口,但 AI 补丁可能引入新问题,未来或需更高阶 AI 监督修复进程。

Greg Brockman: We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...

OpenAI安全/对齐行业动态部署/工程
01:56
Chubby♨️@kimmonismus
61
OpenAI 宣布扩展 Daybreak 项目,旨在以机器速度民主化修复脆弱软件。主要发布包括:Codex Security 插件(在 Codex 内发现、验证并修复漏洞);完整版 GPT-5.5-Cyber 模型(面向受信防御者的安全专用模型);Cyber Partner Program(支持安全公司基于 OpenAI 顶级网络能力构建产品);以及 Patch the Planet(与维护者合作保护关键开源项目)。据主推文称,GPT-5.5-Cyber 在 CyberGym 基准上表现优于 Claude Mythos。

OpenAI: We're expanding OpenAI Daybreak to help democratize patching vulnerable software at machine speed: - Codex Security plug...

MCP/工具OpenAI产品更新安全/对齐
‹ 上一页
1…45678…42
下一页 ›