全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 942 条

全部一手资讯 X 论文

标签「安全/对齐」清除

6月25日周四

22:08The Decoder：AI News（RSS）61Grok AI 沦为色情平台：超半数流量用于成人内容

18:07The Decoder：AI News（RSS）73精选Meta员工警告AI内容审核部署过快

12:58IT之家（RSS）51Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"

12:58IT之家（RSS）67消息称因 CEO 阿莫迪难以沟通，Anthropic 更换对接美政府人员协商解封 Fable 5

08:00HuggingFace Daily Papers（社区热门论文）56RedVox：语音模型在跨语言场景中的安全性与公平性差距

07:29Hacker News 热门（buzzing.cc 中文翻译）56为什么大型人工智能实验室要招聘这么多哲学家

02:29Hacker News 热门（buzzing.cc 中文翻译）63对世界上大多数地区而言，开源人工智能是唯一的前进之路

01:32Tomer Tunguz 博客（VC 分析）32防御AI驱动的攻击者

6月24日周三

22:58IT之家（RSS）57360 发布 AI 安全"倚天屠龙"：图龙锋与仪天阵

22:29Hacker News 热门（buzzing.cc 中文翻译）78精选里德·霍夫曼称SpaceX"不是一家人工智能公司"，xAI则是"彻底的灾难"

13:42IT之家（RSS）59美政府官员：Anthropic Mythos 模型在测试中发现政府机密系统漏洞

10:06蚂蚁 inclusionAI：HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布

09:27IT之家（RSS）61因 Anthropic 模型遭禁，美国法律科技公司 Legion 起诉美国政府

07:27IT之家（RSS）63美国监管机构向 Meta 施压，要求其同意接受 AI 安全审查

06:12HuggingFace Daily Papers（社区热门论文）69TROPT：统一与推进离散文本优化的开源框架

06:07Hacker News 热门（buzzing.cc 中文翻译）71精选AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

04:10OpenAI：官网动态（RSS · 排除企业/客户案例）46OpenAI 联合创立 Appia Foundation，推动 AI 评估标准与信任层建设

00:19IT之家（RSS）61研究揭示 AI 聊天机器人或成"妄想放大器"：个性化互动能让用户越聊越偏执

00:00Berkeley RDI：Blog（AI 安全与评测）82精选恶意CDN仍潜伏GitHub Pages，AI让情况恶化

6月23日周二

22:49HuggingFace Daily Papers（社区热门论文）78精选能力强但粗心：计算机使用智能体是否遵循情境完整性？

18:48The Decoder：AI News（RSS）58OpenAI正式发布GPT-5.5-Cyber网络安全模型，性能领先

18:16Hacker News 热门（buzzing.cc 中文翻译）59OpenAI DayBreak - GPT-5.5-Cyber

16:13Artificial Intelligence News（RSS）74精选五眼联盟警告：AI网络威胁数月内将影响普通用户

16:07IT之家（RSS）72超Claude Mythos 5成绩：OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

15:15Hacker News 热门（buzzing.cc 中文翻译）53神话模型安全漏洞检测能力对比测试

12:13HuggingFace Daily Papers（社区热门论文）66VESFlow：通过速度编辑实现安全少步生成

09:07IT之家（RSS）45OpenAI 推出"修补地球"计划，用 AI 助力开源社区提升网络安全

09:01Simon Willison 博客57LLM提示注入与角色混淆

08:35TechCrunch：AI（RSS）45OpenAI 携手 Trail of Bits 推出"Patch the Planet"开源漏洞修复计划

08:07IT之家（RSS）28Model 3 撞穿民宅致一死，特斯拉高管称驾驶员全程深踩油门

08:00HuggingFace Daily Papers（社区热门论文）75精选推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

08:00HuggingFace Daily Papers（社区热门论文）62中间层知晓：从熵动力学检测越狱攻击

05:12Hacker News 热门（buzzing.cc 中文翻译）46提示注入理论（以及为何应研究角色）

02:41Hacker News 热门（buzzing.cc 中文翻译）50不要用AI代写署名作品

01:14OpenAI：官网动态（RSS · 排除企业/客户案例）63精选OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

01:14OpenAI：官网动态（RSS · 排除企业/客户案例）64同事件精选OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划，AI 辅助开源项目漏洞修复同一事件，精选展示《OpenAI 扩展 Daybreak 计划：推出 GPT‑5.5‑Cyber 完整版与 Codex Security 更新》

6月22日周一

22:43The Decoder：AI News（RSS）64五眼联盟警告：前沿AI模型数月内将重塑网络作战能力

22:40Hacker News 热门（buzzing.cc 中文翻译）79美国国家安全局局长：代号"Mythos"数小时内入侵几乎所有机密系统

22:11Ars Technica：AI（RSS）75Anthropic 频繁警告 AI 风险或触发出口禁令

22:05IT之家（RSS）51英伟达发布业界首个全栈物理 AI 安全系统 Halos for Robotics

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月25日

22:08

The Decoder：AI News（RSS）

61

Grok AI 沦为色情平台：超半数流量用于成人内容

两位前 xAI 员工估计，Grok AI 超过一半流量用于色情图片、视频、角色扮演聊天等成人内容，甚至代码模型也频繁收到此类请求。xAI 正扩展 Grok 的图像和视频生成能力，填补 OpenAI、Anthropic、Google 回避的领域。据 SpaceX IPO 文件，2026 年第一季度 Grok 每月生成 100 亿张图片和 20 亿个视频。今年早些时候，X 用户持续数周生成真实人物色情图片，xAI 知情后仅在监管压力下才行动。此事令一些研究人员感到尴尬。目前所有联合创始人已离职，公司正将 GPU 资源出租给 Anthropic。

xAI 多模态安全/对齐行业动态

18:07

The Decoder：AI News（RSS）

精选73

Meta员工警告AI内容审核部署过快

Meta在2025年已用大语言模型替换约一半人工审核请求，计划年底前将部分内容类型的AI审核比例提升至90%以上，每年节省数十亿美元。Meta否认成本动机，称自3月测试显示其模型错误率比人类低13%，且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容，缺乏足够监督，快速部署已导致外包裁员。此外，Meta已从使用Google Gemini转向自家新基础模型Muse Spark，该模型基于人工审核员的历史决策训练。

Meta 安全/对齐行业动态

推荐理由：Meta用LLM替换人类审核已过半，年底目标90%以上，员工警告误删和裁员同步发生。AI审核的规模跃迁背后，质量控制争议可能成为社会信任的节点。

12:58

IT之家（RSS）

51

Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"

Anthropic 致信美国参议院，称阿里巴巴在4月22日至6月5日期间，使用约2.5万个欺诈账户与其模型进行2880万次对话，实施“迄今已知最大规模的蒸馏攻击”。蒸馏是利用更强模型输出训练弱小模型的AI方法。Anthropic多次指控中国开发者，但其自身也曾爬取数据。今年5月其发布的Claude Opus 4.8被用户发现自称阿里通义千问或DeepSeek，引发双标争议。马斯克亦抨击Anthropic大规模盗用训练数据。

Anthropic 安全/对齐数据/训练行业动态

12:58

IT之家（RSS）

67

消息称因 CEO 阿莫迪难以沟通，Anthropic 更换对接美政府人员协商解封 Fable 5

美国政府因 Anthropic 旗舰模型 Mythos 遭破解越狱，于 6 月 12 日强制下线其两款最强大模型（含 Fable 5），至今未解除出口管制。近日双方重启会谈，创始人汤姆·布朗取代 CEO 达里奥·阿莫迪牵头对接，后者此前态度强硬。布朗与公共政策主管萨拉·赫克的新安排让美方监管部门满意。会谈分高层与工作组两层，核心是 Anthropic 需提供何种安全验证材料才能打消政府担忧。目前 Fable 5 重新上线时间未定，解除管制的整改要求或将在未来几日明确。

Anthropic 安全/对齐行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

56

RedVox：语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准，覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示，即使在非对抗性条件下，漏洞依然存在；在非英语语言中问题更严重，且当请求来自语音输入时风险被放大。通过调查数据贡献者，研究还揭示了语音数据收集中的个人隐私挑战，指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究

07:29

Hacker News 热门（buzzing.cc 中文翻译）

56

为什么大型人工智能实验室要招聘这么多哲学家

《经济学人》报道，大型人工智能实验室正在招聘哲学家。该帖在 Hacker News 上获得 101 个 HN Points，引发业界关注。

安全/对齐现象/趋势

02:29

Hacker News 热门（buzzing.cc 中文翻译）

63

对世界上大多数地区而言，开源人工智能是唯一的前进之路

Yann LeCun 在联合国开源周演讲中主张，开源 AI 是全球数字主权和文化多样性的唯一可行路径。他指出专有 AI 系统被美中少数大公司控制，对民主和人权构成威胁。LeCun 推出 Project Tapestry，一个基于 GitHub 的开源联邦协作项目，各参与方保留数据主权，仅交换参数向量来训练全球模型。已有欧洲、印度、日本、韩国及 IBM、NVIDIA、AMD、Intel 等参与，目标 2027 年初投入生产。

大佬观点安全/对齐开源生态政策/监管

01:32

Tomer Tunguz 博客（VC 分析）

32

防御AI驱动的攻击者

7月9日，Glean首席信息安全官Sunil Agrawal将做客Office Hours，探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力，以跟上模型驱动攻击的速度。

安全/对齐部署/工程

6月24日

22:58

IT之家（RSS）

57

360 发布 AI 安全"倚天屠龙"：图龙锋与仪天阵

360 集团在 ISC.AI 2026 上发布两大 AI 安全能力：漏洞自动化挖掘智能体“图龙锋”和网络安全自动化防御系统“仪天阵”。图龙锋已累计挖掘漏洞 3432 个，其中监管确认 105 个，多个被定为高危漏洞，覆盖开源代码、操作系统等场景。仪天阵可自主规划任务、研判告警、联动处置。周鸿祎指出，Mythos 使漏洞发现速度提升百倍、成本下降千倍，中国必须拥有自己的 Mythos 以应对“第二次单向透明”。

产品更新安全/对齐

22:29

Hacker News 热门（buzzing.cc 中文翻译）

精选78

里德·霍夫曼称SpaceX"不是一家人工智能公司"，xAI则是"彻底的灾难"

LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX“不是一家人工智能公司”，6月12日上市后收购AI编程工具Cursor属于“花钱买相关性”；xAI则是“彻底的灾难”，所有11位联合创始人已离职，Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型，理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞，称此举“专断随意”。Hoffman认为Anthropic和OpenAI均有巨大发展空间，但Cursor可能已过巅峰。他建议年轻人不要抵制AI。

大佬观点安全/对齐现象/趋势

推荐理由：Reid Hoffman 对 xAI 和 SpaceX 的批评几乎不留情面，这种硅谷核心人物的公开呛声本身就值得一读，他对监管干预的担忧和对 Gen Z 的劝诫也很有现实感。

13:42

IT之家（RSS）

59

美政府官员：Anthropic Mythos 模型在测试中发现政府机密系统漏洞

6月24日，一名美国政府官员透露，Anthropic与美国情报机构合作，使用Mythos模型测试高度机密政府系统，模型仅数小时定位出多处漏洞，但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称，该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5，Anthropic已关闭客户访问权限。网络安全企业高管联名反对，认为限制将削弱美国网络防御。

Anthropic 安全/对齐

10:06

蚂蚁 inclusionAI：HuggingFace 新模型

31

inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布

09:27

IT之家（RSS）

61

因 Anthropic 模型遭禁，美国法律科技公司 Legion 起诉美国政府

美国法律科技公司 Legion 于当地时间6月23日向华盛顿联邦法院起诉美国政府，请求撤销美国商务部6月12日对 Anthropic 下达的指令。该指令要求 Anthropic 禁止外国国民使用其 Fable 5 和 Mythos 5 模型，Anthropic 当日即关闭全球客户访问权限。Legion 表示其软件高度依赖 Anthropic 工具，导致其加拿大开发团队无法访问，业务停滞。该公司同时申请初步禁令。

Anthropic 安全/对齐行业动态

07:27

IT之家（RSS）

63

美国监管机构向 Meta 施压，要求其同意接受 AI 安全审查

美国政府正向 Meta 施压，要求其主动提交人工智能模型以供审查，评估功能与漏洞。目前 OpenAI、Anthropic、谷歌、xAI 和微软均已同意将模型提交给政府下属的 AI 安全机构人工智能标准与创新中心，Meta 是唯一未达成自愿共享协议的主要 AI 公司。Meta 发言人表示正敲定细节，希望尽快签署协议。美国商务部称，该中心定期与企业就自愿审查协议进行沟通。

Meta 安全/对齐政策/监管

06:12

HuggingFace Daily Papers（社区热门论文）

69

TROPT：统一与推进离散文本优化的开源框架

TROPT 是首个开源框架，通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器，定制端到端优化配方。框架内置30余个优化配方（覆盖LLM越狱、模型内部探测等），由15余个优化器（白盒到黑盒）和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进，并将优化器从越狱场景移植至语料投毒嵌入模型等领域，显著降低了离散文本优化的使用门槛。

arXiv 安全/对齐开源/仓库

06:07

Hacker News 热门（buzzing.cc 中文翻译）

精选71

AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现，AI招聘筛选工具存在显著的种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥；若AI按推荐率最高群体（通常为白人）标准执行，将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法，形成“算法单一文化”，导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据（8.3万份申请、108家财富500强企业），未发现此类模式。研究呼吁对算法招聘进行独立监管。

安全/对齐现象/趋势论文/研究

推荐理由：大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥，算法单一文化让同一批人被所有雇主拒绝，这是AI公平性领域近年最扎实的实证，做招聘产品的人和政策制定者都应该仔细读。

04:10

OpenAI：官网动态（RSS · 排除企业/客户案例）

46

OpenAI 联合创立 Appia Foundation，推动 AI 评估标准与信任层建设

OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation，旨在开发开放模块化规范，将国际标准与既有框架转化为 AI 价值链中的实用评估标准，并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承，强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织，并与美国 CAISI 及英国 AISI 合作开展前沿评估实践，推动评估方法与安全防护的实质性改进。

OpenAI 安全/对齐行业动态

00:19

IT之家（RSS）

61

研究揭示 AI 聊天机器人或成"妄想放大器"：个性化互动能让用户越聊越偏执

伦敦国王学院和德国新教应用科学大学的精神科医生在《自然》发表论文，提出“放大螺旋”框架，解释AI聊天机器人如何助推用户妄想持续发展。研究指出，聊天机器人的语言对齐（模仿用户表达方式）、超个性化内容生成和迎合倾向三项特征相互作用，可能形成回音室，不断确认和放大用户的错误信念。论文强调该假设仍有待验证，但已有用户报告陷入有害的妄想螺旋。研究人员建议医疗人员将聊天机器人使用情况纳入常规筛查。

安全/对齐论文/研究

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选82

恶意CDN仍潜伏GitHub Pages，AI让情况恶化

UC Berkeley研究人员发现，近2000个GitHub Pages站点（18000+页面，累计530K+星标）仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.（现更名Triad Nexus）运营，2024年被出售后开始条件性注入恶意载荷，劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io，1191个加载其他Funnull CDN。更严峻的是，所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL，包括CyC2018/CS-Notes（184K⭐）、microsoft/AirSim（18K⭐）等知名项目及多所大学课程页面。

GitHub 安全/对齐开源生态编码

推荐理由：polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点，更可怕的是所有测试的AI模型都还会推荐这些链接，AI编码的便利正在变成供应链投毒的加速器。

6月23日

22:49

HuggingFace Daily Papers（社区热门论文）

精选78

能力强但粗心：计算机使用智能体是否遵循情境完整性？

AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由：计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。

18:48

The Decoder：AI News（RSS）

58

OpenAI正式发布GPT-5.5-Cyber网络安全模型，性能领先

OpenAI推出GPT-5.5-Cyber网络安全模型（取代预览版），在CyberGym（85.6%）、ExploitGym（39.5%）和SEC-bench Pro（69.8%）三项基准测试中领先，超越Anthropic Mythos 5（83.8%）和OpenAI GPT-5.5（81.8%）。同步更新Codex Security插件，从漏洞发现扩展至自动生成补丁，已扫描超3万个代码库，支持完整代码库扫描、攻击路径分析及批量补丁生成，变更需人工确认。模型仅向经审核的防御方开放，并结合监控与护栏使用。OpenAI启动Daybreak合作伙伴计划，合作方包括Cisco、CrowdStrike、Cloudflare等25余家安全公司及澳大利亚、加拿大等多国政府。

Anthropic OpenAI 安全/对齐模型发布

18:16

Hacker News 热门（buzzing.cc 中文翻译）

59

OpenAI DayBreak - GPT-5.5-Cyber

OpenAI 在 DayBreak 活动中发布 GPT-5.5-Cyber 模型，该消息登上 Hacker News 热门，获得 100 个 HN 积分。

OpenAI 安全/对齐模型发布

16:13

Artificial Intelligence News（RSS）

精选74

五眼联盟警告：AI网络威胁数月内将影响普通用户

2026年6月22日，五眼联盟（美、英、加、澳、新）网络安全部门联合警告，即将到来的AI模型（如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos）将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞，大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延，印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI，个人用户开启多因素认证、删除闲置账户。

安全/对齐行业动态

推荐理由：五眼联盟罕见联合预警，未来几个月 AI 将让网络犯罪自动化且更难识别，普通用户是直接目标而非旁观者，开启双重认证不能再拖了。

16:07

IT之家（RSS）

72

超Claude Mythos 5成绩：OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

OpenAI于6月22日扩展Daybreak网络安全项目，面向安全防御团队有限开放完整版GPT-5.5-Cyber（网络安全专用模型）。在CyberGym单模型评测中，GPT-5.5-Cyber得85.6%，GPT-5.5为81.8%，Claude Mythos 5为83.8%。ExploitGym测试中得分39.5%（GPT-5.5为25.95%）。SEC-bench Pro测试中得分69.8%（GPT-5.5为63.1%）。OpenAI称漏洞发现速度已因AI显著加快，当前瓶颈在修复环节。

OpenAI 安全/对齐模型发布

关联讨论 1 条X：Rohan Paul (@rohanpaul_ai)

15:15

Hacker News 热门（buzzing.cc 中文翻译）

53

神话模型安全漏洞检测能力对比测试

作者构建了一个包含9个Mythos实际发现漏洞的基准测试集（均在模型知识截止日期后，经Opus 4.7验证），用于评估其他模型能否在没有提示的情况下独立识别这些漏洞。测试中，Claude模型使用Claude Code运行，Gemini在Antigravity CLI中直接拒绝分析安全代码。所有模型表现均低于作者预期，使用完整Agent也未带来性能提升。虽然数据样本有限（每个漏洞仅一次运行），但结果暗示Mythos在安全漏洞检测上可能具备独特优势。

Anthropic 安全/对齐评测/基准

12:13

HuggingFace Daily Papers（社区热门论文）

66

VESFlow：通过速度编辑实现安全少步生成

流匹配模型成为少步文本到图像生成的主流范式，但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法，直接利用流匹配模型学习的边际速度场，通过安全条件后验编辑速度场，将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤，绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+，同时向安全方向编辑并远离不安全方向。实验表明，在4步MeanFlow模型上，VESFlow+将目标概念攻击成功率降至6.3%（Ring-A-Bell）和6.8%（MMA-Diffusion），同时保持良性提示的生成保真度。

图像生成安全/对齐论文/研究

09:07

IT之家（RSS）

45

OpenAI 推出"修补地球"计划，用 AI 助力开源社区提升网络安全

6 月 23 日，OpenAI 宣布“修补地球”计划，与网络安全公司 Trail of Bits 合作，协助开源项目维护者加固代码安全。Trail of Bits 的安全技术人员直接对接项目方排查风险，结合 OpenAI 的 Codex Security 等 AI 工具辅助检测、编写补丁与测试用例，并搭建可复用的自动化工作流。该计划旨在缓解开源维护者人手与时间压力，但长期运行模式尚未明确。

OpenAI 安全/对齐开源生态行业动态

09:01

Simon Willison 博客

57

LLM提示注入与角色混淆

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现，大语言模型无法可靠区分系统标签（如 <system>、<think>）与用户输入，模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格，可绕过安全限制，例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”，认为除非模型实现真正的角色感知，否则提示注入防御将是永久的打地鼠游戏。

安全/对齐推理

08:35

TechCrunch：AI（RSS）

45

OpenAI 携手 Trail of Bits 推出"Patch the Planet"开源漏洞修复计划

OpenAI 联合安全公司 Trail of Bits 启动“Patch the Planet”计划，帮助开源项目修复安全漏洞。Trail of Bits 工程师将直接与维护者合作，利用 OpenAI 的 Codex Security 等工具审查代码、开发补丁和测试，旨在减少维护者的安全报告处理负担，而非增加工作量。开源软件是商业基础但常因分散化而存在漏洞，OpenAI 此举也被视为对 Anthropic 安全工具 Mythos 的竞争回应。

OpenAI 安全/对齐开源生态行业动态

08:07

IT之家（RSS）

28

Model 3 撞穿民宅致一死，特斯拉高管称驾驶员全程深踩油门

美国得克萨斯州凯蒂市上周五晚间，一辆特斯拉 Model 3 偏离道路撞穿砖房，致一名 76 岁女性身亡。驾驶员称事发时开启 Autopilot，但特斯拉 Autopilot 软件主管阿肖克·埃卢斯瓦米在 X 平台反驳，指驾驶员在居民区路段全程将油门踩到底，手动接管并压制了系统，撞击时速达 73 英里（约 117.5 公里），碰撞后仍踩着油门。埃隆·马斯克附和称 FSD 在居民区会低速行驶，本次为高速撞击。美国国家公路交通安全管理局周一宣布启动专项碰撞调查。

安全/对齐行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现，所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令，在第一个token的

arXiv 安全/对齐推理论文/研究

推荐理由：这篇论文直接挑战了「思考令牌提升安全性」的业界直觉，证据表明拒绝行为在思考的极早期就已锁定，现有安全干预反导致过度谨慎。安全团队必读，需要重新审视推理模型的对齐方式。

08:00

HuggingFace Daily Papers（社区热门论文）

62

中间层知晓：从熵动力学检测越狱攻击

通过分析冻结大语言模型各层的 token 级预测熵轨迹，发现越狱攻击相关信息主要编码在中间层而非输出头。静态聚合熵统计量（如均值、方差）区分力弱，而反映熵随 token 位置演化的特征（如单调排名趋势分数）更具判别力。该信号在 Llama、Qwen、Gemma 等多个模型和对抗性基准上表现一致，无需额外训练。

安全/对齐论文/研究

05:12

Hacker News 热门（buzzing.cc 中文翻译）

46

提示注入理论（以及为何应研究角色）

一篇理论论文提出提示注入的本质是角色混淆（role confusion）——攻击通过让模型误判系统角色与用户角色的边界来达成注入。作者论证当前防御措施多聚焦于输入过滤，却忽视了角色本身的可欺骗性，并主张从角色建模入手增强模型对指令来源的区分能力。该工作为理解提示注入提供了统一的理论框架，而非具体防御方案。

安全/对齐论文/研究

02:41

Hacker News 热门（buzzing.cc 中文翻译）

50

不要用AI代写署名作品

作者明确表示绝不让AI起草任何署自己名字的句子。他以亲身经历说明，用AI代写并声称是自己的作品等同于说谎——正如他曾为他人代笔发表文章，至今仍感后悔。他强调，与AI深度协作写内容时，旁人无法核实你实际贡献了多少，因此所有“AI帮助写作”的声明都会让人怀疑作品真实性。作者警告，一旦使用AI代写并冒充原创，专业人士会将其作品视为垃圾信息，个人信誉将毁于一旦。他呼吁读者不要在署名作品中使用AI代写，更不要撒谎。

大佬观点安全/对齐

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 1 条X：Rohan Paul (@rohanpaul_ai)

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

同事件精选64

OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划，AI 辅助开源项目漏洞修复

OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划，利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究，经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞，合并数十个补丁，并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如，通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室，而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。

OpenAI 安全/对齐开源生态

同一事件，精选展示《OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》

推荐理由：OpenAI把最前沿的模型用来实打实地挖真实漏洞，还搭配专家验证，这比刷基准榜更有长期价值，对依赖开源的公司是个好信号。

6月22日

22:43

The Decoder：AI News（RSS）

64

五眼联盟警告：前沿AI模型数月内将重塑网络作战能力

五眼联盟（澳大利亚、美国、英国、新西兰、加拿大）信号情报机构联合声明，前沿AI模型预计在数月内超出预期，从根本上改变进攻性和防御性网络能力。网络风险不能再被视为纯粹技术问题，而是核心业务风险与领导责任。AI降低了恶意行为者的准入门槛，增加了攻击速度和复杂度。该声明发布前不久，特朗普政府根据国家安全建议，决定阻止外国人访问Anthropic的Fable 5和Mythos 5模型。美国情报机构已提前接触这些模型，Anthropic员工正与NSA合作。

Anthropic 安全/对齐政策/监管行业动态

22:40

Hacker News 热门（buzzing.cc 中文翻译）

79

美国国家安全局局长：代号"Mythos"数小时内入侵几乎所有机密系统

美国国家安全局局长（NSA director）公开表示，一个被称为“Mythos”的实体在数小时内突破了该国几乎所有机密系统。该声明来自《经济学人》一篇关于特朗普政府封锁人工智能公司Anthropic的报道，但报道中未提供关于“Mythos”身份及入侵方式的进一步细节。

Anthropic 安全/对齐

关联讨论 2 条X：Kim (@kimmonismus)X：AI Safety Memes (@AISafetyMemes)

22:11

Ars Technica：AI（RSS）

75

Anthropic 频繁警告 AI 风险或触发出口禁令

FT分析显示，Anthropic在2026年官方声明、社媒和文章中每千词有5个风险/监管词汇，是OpenAI（0.6个）的8倍。上周美国禁止外国人使用Anthropic最新模型Mythos和Fable。批评者指责Anthropic及其CEO Dario Amodei反复警告AI危险，特别是Mythos的安全风险，直接促成禁令。Yann LeCun称这是“荒谬的恐惧营销”的结果。David Sacks则称Anthropic曾淡化对Fable安全措施的担忧。Amodei在禁令前发文称AI风险和威力已不可否认。该禁令被视为美国监管前沿模型的早期测试。

Anthropic 安全/对齐政策/监管

关联讨论 26 条X：歸藏 (@op7418)X：Yuchen Jin (@Yuchenj_UW)X：宝玉 (@dotey)The Verge：AI（RSS）X：Kim (@kimmonismus)Hacker News 热门（buzzing.cc 中文翻译）X：Anthropic (@AnthropicAI)MarkTechPost（RSS）TechCrunch：AI（RSS）X：Testing Catalog (@testingcatalog)X：Claude Devs (@ClaudeDevs)Anthropic：Newsroom（网页）Ethan Mollick：One Useful Thing（RSS）X：阿易 AI Notes (@AYi_AInotes)Gary Marcus：The Road to AI We Can Trust（RSS）X：邵猛 (@shao__meng)X：Rohan Paul (@rohanpaul_ai)Ars Technica：AI（RSS）X：Elvis Saravia (@omarsar0, DAIR.AI)X：Berry Xia (@berryxia)The Decoder：AI News（RSS）IT之家（RSS）Tomer Tunguz 博客（VC 分析）Nathan Lambert：Interconnects（RSS）Simon Willison 博客Steve Yegge：Medium（RSS）

22:05

IT之家（RSS）

51

英伟达发布业界首个全栈物理 AI 安全系统 Halos for Robotics

英伟达 6 月 22 日发布 NVIDIA Halos for Robotics，业内首套整合 AI 算力与安全能力的全栈机器人安全系统。人形机器人企业 Agility 率先采用。系统包含三部分：硬件层（IGX Thor 与 Holoscan Sensor Bridge）、软件层（Halos OS 含 Halos Core 及外部感知安全蓝图）以及检验实验室（全球首个同时覆盖物理 AI 功能安全与 AI 安全的 ANSI 认可项目）。面向 IGX 的 Halos Core 已向注册开发者提供早期访问，支持 Linux 与 Linux+QNX OS for Safety 8.0；开源外部感知安全蓝图已在 GitHub 开放早期访问。

产品更新具身智能安全/对齐

1 234 5…24