AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 942 条
全部一手资讯X论文
标签「安全/对齐」清除
6月25日周四
22:08The Decoder:AI News(RSS)61Grok AI 沦为色情平台:超半数流量用于成人内容
18:07The Decoder:AI News(RSS)73精选Meta员工警告AI内容审核部署过快
12:58IT之家(RSS)51Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"
12:58IT之家(RSS)67消息称因 CEO 阿莫迪难以沟通,Anthropic 更换对接美政府人员协商解封 Fable 5
08:00HuggingFace Daily Papers(社区热门论文)56RedVox:语音模型在跨语言场景中的安全性与公平性差距
07:29Hacker News 热门(buzzing.cc 中文翻译)56为什么大型人工智能实验室要招聘这么多哲学家
02:29Hacker News 热门(buzzing.cc 中文翻译)63对世界上大多数地区而言,开源人工智能是唯一的前进之路
01:32Tomer Tunguz 博客(VC 分析)32防御AI驱动的攻击者
6月24日周三
22:58IT之家(RSS)57360 发布 AI 安全"倚天屠龙":图龙锋与仪天阵
22:29Hacker News 热门(buzzing.cc 中文翻译)78精选里德·霍夫曼称SpaceX"不是一家人工智能公司",xAI则是"彻底的灾难"
13:42IT之家(RSS)59美政府官员:Anthropic Mythos 模型在测试中发现政府机密系统漏洞
10:06蚂蚁 inclusionAI:HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布
09:27IT之家(RSS)61因 Anthropic 模型遭禁,美国法律科技公司 Legion 起诉美国政府
07:27IT之家(RSS)63美国监管机构向 Meta 施压,要求其同意接受 AI 安全审查
06:12HuggingFace Daily Papers(社区热门论文)69TROPT:统一与推进离散文本优化的开源框架
06:07Hacker News 热门(buzzing.cc 中文翻译)71精选AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%
04:10OpenAI:官网动态(RSS · 排除企业/客户案例)46OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设
00:19IT之家(RSS)61研究揭示 AI 聊天机器人或成"妄想放大器":个性化互动能让用户越聊越偏执
00:00Berkeley RDI:Blog(AI 安全与评测)82精选恶意CDN仍潜伏GitHub Pages,AI让情况恶化
6月23日周二
22:49HuggingFace Daily Papers(社区热门论文)78精选能力强但粗心:计算机使用智能体是否遵循情境完整性?
18:48The Decoder:AI News(RSS)58OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先
18:16Hacker News 热门(buzzing.cc 中文翻译)59OpenAI DayBreak - GPT-5.5-Cyber
16:13Artificial Intelligence News(RSS)74精选五眼联盟警告:AI网络威胁数月内将影响普通用户
16:07IT之家(RSS)72超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录
15:15Hacker News 热门(buzzing.cc 中文翻译)53神话模型安全漏洞检测能力对比测试
12:13HuggingFace Daily Papers(社区热门论文)66VESFlow:通过速度编辑实现安全少步生成
09:07IT之家(RSS)45OpenAI 推出"修补地球"计划,用 AI 助力开源社区提升网络安全
09:01Simon Willison 博客57LLM提示注入与角色混淆
08:35TechCrunch:AI(RSS)45OpenAI 携手 Trail of Bits 推出"Patch the Planet"开源漏洞修复计划
08:07IT之家(RSS)28Model 3 撞穿民宅致一死,特斯拉高管称驾驶员全程深踩油门
08:00HuggingFace Daily Papers(社区热门论文)75精选推理模型的思考Token真的有助于提升安全性吗?--来自GPT-OSS、Qwen、Olmo和Phi家族的证据
08:00HuggingFace Daily Papers(社区热门论文)62中间层知晓:从熵动力学检测越狱攻击
05:12Hacker News 热门(buzzing.cc 中文翻译)46提示注入理论(以及为何应研究角色)
02:41Hacker News 热门(buzzing.cc 中文翻译)50不要用AI代写署名作品
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)63精选OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)64同事件精选OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划,AI 辅助开源项目漏洞修复同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT‑5.5‑Cyber 完整版与 Codex Security 更新》
6月22日周一
22:43The Decoder:AI News(RSS)64五眼联盟警告:前沿AI模型数月内将重塑网络作战能力
22:40Hacker News 热门(buzzing.cc 中文翻译)79美国国家安全局局长:代号"Mythos"数小时内入侵几乎所有机密系统
22:11Ars Technica:AI(RSS)75Anthropic 频繁警告 AI 风险或触发出口禁令
22:05IT之家(RSS)51英伟达发布业界首个全栈物理 AI 安全系统 Halos for Robotics
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
22:08
The Decoder:AI News(RSS)
61
Grok AI 沦为色情平台:超半数流量用于成人内容

两位前 xAI 员工估计,Grok AI 超过一半流量用于色情图片、视频、角色扮演聊天等成人内容,甚至代码模型也频繁收到此类请求。xAI 正扩展 Grok 的图像和视频生成能力,填补 OpenAI、Anthropic、Google 回避的领域。据 SpaceX IPO 文件,2026 年第一季度 Grok 每月生成 100 亿张图片和 20 亿个视频。今年早些时候,X 用户持续数周生成真实人物色情图片,xAI 知情后仅在监管压力下才行动。此事令一些研究人员感到尴尬。目前所有联合创始人已离职,公司正将 GPU 资源出租给 Anthropic。

xAI多模态安全/对齐行业动态
18:07
The Decoder:AI News(RSS)
精选73
Meta员工警告AI内容审核部署过快

Meta在2025年已用大语言模型替换约一半人工审核请求,计划年底前将部分内容类型的AI审核比例提升至90%以上,每年节省数十亿美元。Meta否认成本动机,称自3月测试显示其模型错误率比人类低13%,且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容,缺乏足够监督,快速部署已导致外包裁员。此外,Meta已从使用Google Gemini转向自家新基础模型Muse Spark,该模型基于人工审核员的历史决策训练。

Meta安全/对齐行业动态

推荐理由:Meta用LLM替换人类审核已过半,年底目标90%以上,员工警告误删和裁员同步发生。AI审核的规模跃迁背后,质量控制争议可能成为社会信任的节点。
12:58
IT之家(RSS)
51
Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"

Anthropic 致信美国参议院,称阿里巴巴在4月22日至6月5日期间,使用约2.5万个欺诈账户与其模型进行2880万次对话,实施“迄今已知最大规模的蒸馏攻击”。蒸馏是利用更强模型输出训练弱小模型的AI方法。Anthropic多次指控中国开发者,但其自身也曾爬取数据。今年5月其发布的Claude Opus 4.8被用户发现自称阿里通义千问或DeepSeek,引发双标争议。马斯克亦抨击Anthropic大规模盗用训练数据。

Anthropic安全/对齐数据/训练行业动态
12:58
IT之家(RSS)
67
消息称因 CEO 阿莫迪难以沟通,Anthropic 更换对接美政府人员协商解封 Fable 5

美国政府因 Anthropic 旗舰模型 Mythos 遭破解越狱,于 6 月 12 日强制下线其两款最强大模型(含 Fable 5),至今未解除出口管制。近日双方重启会谈,创始人汤姆·布朗取代 CEO 达里奥·阿莫迪牵头对接,后者此前态度强硬。布朗与公共政策主管萨拉·赫克的新安排让美方监管部门满意。会谈分高层与工作组两层,核心是 Anthropic 需提供何种安全验证材料才能打消政府担忧。目前 Fable 5 重新上线时间未定,解除管制的整改要求或将在未来几日明确。

Anthropic安全/对齐行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
56
RedVox:语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究
07:29
Hacker News 热门(buzzing.cc 中文翻译)
56
为什么大型人工智能实验室要招聘这么多哲学家

《经济学人》报道,大型人工智能实验室正在招聘哲学家。该帖在 Hacker News 上获得 101 个 HN Points,引发业界关注。

安全/对齐现象/趋势
02:29
Hacker News 热门(buzzing.cc 中文翻译)
63
对世界上大多数地区而言,开源人工智能是唯一的前进之路

Yann LeCun 在联合国开源周演讲中主张,开源 AI 是全球数字主权和文化多样性的唯一可行路径。他指出专有 AI 系统被美中少数大公司控制,对民主和人权构成威胁。LeCun 推出 Project Tapestry,一个基于 GitHub 的开源联邦协作项目,各参与方保留数据主权,仅交换参数向量来训练全球模型。已有欧洲、印度、日本、韩国及 IBM、NVIDIA、AMD、Intel 等参与,目标 2027 年初投入生产。

大佬观点安全/对齐开源生态政策/监管
01:32
Tomer Tunguz 博客(VC 分析)
32
防御AI驱动的攻击者

7月9日,Glean首席信息安全官Sunil Agrawal将做客Office Hours,探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力,以跟上模型驱动攻击的速度。

安全/对齐部署/工程
6月24日
22:58
IT之家(RSS)
57
360 发布 AI 安全"倚天屠龙":图龙锋与仪天阵

360 集团在 ISC.AI 2026 上发布两大 AI 安全能力:漏洞自动化挖掘智能体“图龙锋”和网络安全自动化防御系统“仪天阵”。图龙锋已累计挖掘漏洞 3432 个,其中监管确认 105 个,多个被定为高危漏洞,覆盖开源代码、操作系统等场景。仪天阵可自主规划任务、研判告警、联动处置。周鸿祎指出,Mythos 使漏洞发现速度提升百倍、成本下降千倍,中国必须拥有自己的 Mythos 以应对“第二次单向透明”。

产品更新安全/对齐
22:29
Hacker News 热门(buzzing.cc 中文翻译)
精选78
里德·霍夫曼称SpaceX"不是一家人工智能公司",xAI则是"彻底的灾难"

LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX“不是一家人工智能公司”,6月12日上市后收购AI编程工具Cursor属于“花钱买相关性”;xAI则是“彻底的灾难”,所有11位联合创始人已离职,Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型,理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞,称此举“专断随意”。Hoffman认为Anthropic和OpenAI均有巨大发展空间,但Cursor可能已过巅峰。他建议年轻人不要抵制AI。

大佬观点安全/对齐现象/趋势

推荐理由:Reid Hoffman 对 xAI 和 SpaceX 的批评几乎不留情面,这种硅谷核心人物的公开呛声本身就值得一读,他对监管干预的担忧和对 Gen Z 的劝诫也很有现实感。
13:42
IT之家(RSS)
59
美政府官员:Anthropic Mythos 模型在测试中发现政府机密系统漏洞

6月24日,一名美国政府官员透露,Anthropic与美国情报机构合作,使用Mythos模型测试高度机密政府系统,模型仅数小时定位出多处漏洞,但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称,该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5,Anthropic已关闭客户访问权限。网络安全企业高管联名反对,认为限制将削弱美国网络防御。

Anthropic安全/对齐
10:06
蚂蚁 inclusionAI:HuggingFace 新模型
31
inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布
09:27
IT之家(RSS)
61
因 Anthropic 模型遭禁,美国法律科技公司 Legion 起诉美国政府

美国法律科技公司 Legion 于当地时间6月23日向华盛顿联邦法院起诉美国政府,请求撤销美国商务部6月12日对 Anthropic 下达的指令。该指令要求 Anthropic 禁止外国国民使用其 Fable 5 和 Mythos 5 模型,Anthropic 当日即关闭全球客户访问权限。Legion 表示其软件高度依赖 Anthropic 工具,导致其加拿大开发团队无法访问,业务停滞。该公司同时申请初步禁令。

Anthropic安全/对齐行业动态
07:27
IT之家(RSS)
63
美国监管机构向 Meta 施压,要求其同意接受 AI 安全审查

美国政府正向 Meta 施压,要求其主动提交人工智能模型以供审查,评估功能与漏洞。目前 OpenAI、Anthropic、谷歌、xAI 和微软均已同意将模型提交给政府下属的 AI 安全机构人工智能标准与创新中心,Meta 是唯一未达成自愿共享协议的主要 AI 公司。Meta 发言人表示正敲定细节,希望尽快签署协议。美国商务部称,该中心定期与企业就自愿审查协议进行沟通。

Meta安全/对齐政策/监管
06:12
HuggingFace Daily Papers(社区热门论文)
69
TROPT:统一与推进离散文本优化的开源框架

TROPT 是首个开源框架,通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器,定制端到端优化配方。框架内置30余个优化配方(覆盖LLM越狱、模型内部探测等),由15余个优化器(白盒到黑盒)和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进,并将优化器从越狱场景移植至语料投毒嵌入模型等领域,显著降低了离散文本优化的使用门槛。

arXiv安全/对齐开源/仓库
06:07
Hacker News 热门(buzzing.cc 中文翻译)
精选71
AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成“算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份申请、108家财富500强企业),未发现此类模式。研究呼吁对算法招聘进行独立监管。

安全/对齐现象/趋势论文/研究

推荐理由:大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥,算法单一文化让同一批人被所有雇主拒绝,这是AI公平性领域近年最扎实的实证,做招聘产品的人和政策制定者都应该仔细读。
04:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设

OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation,旨在开发开放模块化规范,将国际标准与既有框架转化为 AI 价值链中的实用评估标准,并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承,强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织,并与美国 CAISI 及英国 AISI 合作开展前沿评估实践,推动评估方法与安全防护的实质性改进。

OpenAI安全/对齐行业动态
00:19
IT之家(RSS)
61
研究揭示 AI 聊天机器人或成"妄想放大器":个性化互动能让用户越聊越偏执

伦敦国王学院和德国新教应用科学大学的精神科医生在《自然》发表论文,提出“放大螺旋”框架,解释AI聊天机器人如何助推用户妄想持续发展。研究指出,聊天机器人的语言对齐(模仿用户表达方式)、超个性化内容生成和迎合倾向三项特征相互作用,可能形成回音室,不断确认和放大用户的错误信念。论文强调该假设仍有待验证,但已有用户报告陷入有害的妄想螺旋。研究人员建议医疗人员将聊天机器人使用情况纳入常规筛查。

安全/对齐论文/研究
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选82
恶意CDN仍潜伏GitHub Pages,AI让情况恶化

UC Berkeley研究人员发现,近2000个GitHub Pages站点(18000+页面,累计530K+星标)仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.(现更名Triad Nexus)运营,2024年被出售后开始条件性注入恶意载荷,劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io,1191个加载其他Funnull CDN。更严峻的是,所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL,包括CyC2018/CS-Notes(184K⭐)、microsoft/AirSim(18K⭐)等知名项目及多所大学课程页面。

GitHub安全/对齐开源生态编码

推荐理由:polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点,更可怕的是所有测试的AI模型都还会推荐这些链接,AI编码的便利正在变成供应链投毒的加速器。
6月23日
22:49
HuggingFace Daily Papers(社区热门论文)
精选78
能力强但粗心:计算机使用智能体是否遵循情境完整性?

AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由:计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理,发现平均泄漏率接近 70%,把这个隐患摆到了台面上,做 agent 产品的团队该把它加入上线前测试清单。
18:48
The Decoder:AI News(RSS)
58
OpenAI正式发布GPT-5.5-Cyber网络安全模型,性能领先

OpenAI推出GPT-5.5-Cyber网络安全模型(取代预览版),在CyberGym(85.6%)、ExploitGym(39.5%)和SEC-bench Pro(69.8%)三项基准测试中领先,超越Anthropic Mythos 5(83.8%)和OpenAI GPT-5.5(81.8%)。同步更新Codex Security插件,从漏洞发现扩展至自动生成补丁,已扫描超3万个代码库,支持完整代码库扫描、攻击路径分析及批量补丁生成,变更需人工确认。模型仅向经审核的防御方开放,并结合监控与护栏使用。OpenAI启动Daybreak合作伙伴计划,合作方包括Cisco、CrowdStrike、Cloudflare等25余家安全公司及澳大利亚、加拿大等多国政府。

AnthropicOpenAI安全/对齐模型发布
18:16
Hacker News 热门(buzzing.cc 中文翻译)
59
OpenAI DayBreak - GPT-5.5-Cyber

OpenAI 在 DayBreak 活动中发布 GPT-5.5-Cyber 模型,该消息登上 Hacker News 热门,获得 100 个 HN 积分。

OpenAI安全/对齐模型发布
16:13
Artificial Intelligence News(RSS)
精选74
五眼联盟警告:AI网络威胁数月内将影响普通用户

2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。

安全/对齐行业动态

推荐理由:五眼联盟罕见联合预警,未来几个月 AI 将让网络犯罪自动化且更难识别,普通用户是直接目标而非旁观者,开启双重认证不能再拖了。
16:07
IT之家(RSS)
72
超Claude Mythos 5成绩:OpenAI最强"抓虫AI"GPT-5.5-Cyber刷新CyberGym纪录

OpenAI于6月22日扩展Daybreak网络安全项目,面向安全防御团队有限开放完整版GPT-5.5-Cyber(网络安全专用模型)。在CyberGym单模型评测中,GPT-5.5-Cyber得85.6%,GPT-5.5为81.8%,Claude Mythos 5为83.8%。ExploitGym测试中得分39.5%(GPT-5.5为25.95%)。SEC-bench Pro测试中得分69.8%(GPT-5.5为63.1%)。OpenAI称漏洞发现速度已因AI显著加快,当前瓶颈在修复环节。

OpenAI安全/对齐模型发布
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)
15:15
Hacker News 热门(buzzing.cc 中文翻译)
53
神话模型安全漏洞检测能力对比测试

作者构建了一个包含9个Mythos实际发现漏洞的基准测试集(均在模型知识截止日期后,经Opus 4.7验证),用于评估其他模型能否在没有提示的情况下独立识别这些漏洞。测试中,Claude模型使用Claude Code运行,Gemini在Antigravity CLI中直接拒绝分析安全代码。所有模型表现均低于作者预期,使用完整Agent也未带来性能提升。虽然数据样本有限(每个漏洞仅一次运行),但结果暗示Mythos在安全漏洞检测上可能具备独特优势。

Anthropic安全/对齐评测/基准
12:13
HuggingFace Daily Papers(社区热门论文)
66
VESFlow:通过速度编辑实现安全少步生成

流匹配模型成为少步文本到图像生成的主流范式,但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法,直接利用流匹配模型学习的边际速度场,通过安全条件后验编辑速度场,将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤,绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+,同时向安全方向编辑并远离不安全方向。实验表明,在4步MeanFlow模型上,VESFlow+将目标概念攻击成功率降至6.3%(Ring-A-Bell)和6.8%(MMA-Diffusion),同时保持良性提示的生成保真度。

图像生成安全/对齐论文/研究
09:07
IT之家(RSS)
45
OpenAI 推出"修补地球"计划,用 AI 助力开源社区提升网络安全

6 月 23 日,OpenAI 宣布“修补地球”计划,与网络安全公司 Trail of Bits 合作,协助开源项目维护者加固代码安全。Trail of Bits 的安全技术人员直接对接项目方排查风险,结合 OpenAI 的 Codex Security 等 AI 工具辅助检测、编写补丁与测试用例,并搭建可复用的自动化工作流。该计划旨在缓解开源维护者人手与时间压力,但长期运行模式尚未明确。

OpenAI安全/对齐开源生态行业动态
09:01
Simon Willison 博客
57
LLM提示注入与角色混淆

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现,大语言模型无法可靠区分系统标签(如 <system>、<think>)与用户输入,模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格,可绕过安全限制,例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”,认为除非模型实现真正的角色感知,否则提示注入防御将是永久的打地鼠游戏。

安全/对齐推理
08:35
TechCrunch:AI(RSS)
45
OpenAI 携手 Trail of Bits 推出"Patch the Planet"开源漏洞修复计划

OpenAI 联合安全公司 Trail of Bits 启动“Patch the Planet”计划,帮助开源项目修复安全漏洞。Trail of Bits 工程师将直接与维护者合作,利用 OpenAI 的 Codex Security 等工具审查代码、开发补丁和测试,旨在减少维护者的安全报告处理负担,而非增加工作量。开源软件是商业基础但常因分散化而存在漏洞,OpenAI 此举也被视为对 Anthropic 安全工具 Mythos 的竞争回应。

OpenAI安全/对齐开源生态行业动态
08:07
IT之家(RSS)
28
Model 3 撞穿民宅致一死,特斯拉高管称驾驶员全程深踩油门

美国得克萨斯州凯蒂市上周五晚间,一辆特斯拉 Model 3 偏离道路撞穿砖房,致一名 76 岁女性身亡。驾驶员称事发时开启 Autopilot,但特斯拉 Autopilot 软件主管阿肖克·埃卢斯瓦米在 X 平台反驳,指驾驶员在居民区路段全程将油门踩到底,手动接管并压制了系统,撞击时速达 73 英里(约 117.5 公里),碰撞后仍踩着油门。埃隆·马斯克附和称 FSD 在居民区会低速行驶,本次为高速撞击。美国国家公路交通安全管理局周一宣布启动专项碰撞调查。

安全/对齐行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
精选75
推理模型的思考Token真的有助于提升安全性吗?--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现,所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令,在第一个token的

arXiv安全/对齐推理论文/研究

推荐理由:这篇论文直接挑战了「思考令牌提升安全性」的业界直觉,证据表明拒绝行为在思考的极早期就已锁定,现有安全干预反导致过度谨慎。安全团队必读,需要重新审视推理模型的对齐方式。
08:00
HuggingFace Daily Papers(社区热门论文)
62
中间层知晓:从熵动力学检测越狱攻击

通过分析冻结大语言模型各层的 token 级预测熵轨迹,发现越狱攻击相关信息主要编码在中间层而非输出头。静态聚合熵统计量(如均值、方差)区分力弱,而反映熵随 token 位置演化的特征(如单调排名趋势分数)更具判别力。该信号在 Llama、Qwen、Gemma 等多个模型和对抗性基准上表现一致,无需额外训练。

安全/对齐论文/研究
05:12
Hacker News 热门(buzzing.cc 中文翻译)
46
提示注入理论(以及为何应研究角色)

一篇理论论文提出提示注入的本质是角色混淆(role confusion)——攻击通过让模型误判系统角色与用户角色的边界来达成注入。作者论证当前防御措施多聚焦于输入过滤,却忽视了角色本身的可欺骗性,并主张从角色建模入手增强模型对指令来源的区分能力。该工作为理解提示注入提供了统一的理论框架,而非具体防御方案。

安全/对齐论文/研究
02:41
Hacker News 热门(buzzing.cc 中文翻译)
50
不要用AI代写署名作品

作者明确表示绝不让AI起草任何署自己名字的句子。他以亲身经历说明,用AI代写并声称是自己的作品等同于说谎——正如他曾为他人代笔发表文章,至今仍感后悔。他强调,与AI深度协作写内容时,旁人无法核实你实际贡献了多少,因此所有“AI帮助写作”的声明都会让人怀疑作品真实性。作者警告,一旦使用AI代写并冒充原创,专业人士会将其作品视为垃圾信息,个人信誉将毁于一旦。他呼吁读者不要在署名作品中使用AI代写,更不要撒谎。

大佬观点安全/对齐
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI安全/对齐模型发布
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)
推荐理由:OpenAI 把安全模型做成了从发现到修补的完整工具链,GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升,但关键在开源修补计划和政府合作,做安全的值得看看。
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
同事件精选64
OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划,AI 辅助开源项目漏洞修复

OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划,利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究,经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞,合并数十个补丁,并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如,通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室,而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。

OpenAI安全/对齐开源生态
同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》
推荐理由:OpenAI把最前沿的模型用来实打实地挖真实漏洞,还搭配专家验证,这比刷基准榜更有长期价值,对依赖开源的公司是个好信号。
6月22日
22:43
The Decoder:AI News(RSS)
64
五眼联盟警告:前沿AI模型数月内将重塑网络作战能力

五眼联盟(澳大利亚、美国、英国、新西兰、加拿大)信号情报机构联合声明,前沿AI模型预计在数月内超出预期,从根本上改变进攻性和防御性网络能力。网络风险不能再被视为纯粹技术问题,而是核心业务风险与领导责任。AI降低了恶意行为者的准入门槛,增加了攻击速度和复杂度。该声明发布前不久,特朗普政府根据国家安全建议,决定阻止外国人访问Anthropic的Fable 5和Mythos 5模型。美国情报机构已提前接触这些模型,Anthropic员工正与NSA合作。

Anthropic安全/对齐政策/监管行业动态
22:40
Hacker News 热门(buzzing.cc 中文翻译)
79
美国国家安全局局长:代号"Mythos"数小时内入侵几乎所有机密系统

美国国家安全局局长(NSA director)公开表示,一个被称为“Mythos”的实体在数小时内突破了该国几乎所有机密系统。该声明来自《经济学人》一篇关于特朗普政府封锁人工智能公司Anthropic的报道,但报道中未提供关于“Mythos”身份及入侵方式的进一步细节。

Anthropic安全/对齐
关联讨论 2 条X:Kim (@kimmonismus)X:AI Safety Memes (@AISafetyMemes)
22:11
Ars Technica:AI(RSS)
75
Anthropic 频繁警告 AI 风险或触发出口禁令

FT分析显示,Anthropic在2026年官方声明、社媒和文章中每千词有5个风险/监管词汇,是OpenAI(0.6个)的8倍。上周美国禁止外国人使用Anthropic最新模型Mythos和Fable。批评者指责Anthropic及其CEO Dario Amodei反复警告AI危险,特别是Mythos的安全风险,直接促成禁令。Yann LeCun称这是“荒谬的恐惧营销”的结果。David Sacks则称Anthropic曾淡化对Fable安全措施的担忧。Amodei在禁令前发文称AI风险和威力已不可否认。该禁令被视为美国监管前沿模型的早期测试。

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)Ars Technica:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
22:05
IT之家(RSS)
51
英伟达发布业界首个全栈物理 AI 安全系统 Halos for Robotics

英伟达 6 月 22 日发布 NVIDIA Halos for Robotics,业内首套整合 AI 算力与安全能力的全栈机器人安全系统。人形机器人企业 Agility 率先采用。系统包含三部分:硬件层(IGX Thor 与 Holoscan Sensor Bridge)、软件层(Halos OS 含 Halos Core 及外部感知安全蓝图)以及检验实验室(全球首个同时覆盖物理 AI 功能安全与 AI 安全的 ANSI 认可项目)。面向 IGX 的 Halos Core 已向注册开发者提供早期访问,支持 Linux 与 Linux+QNX OS for Safety 8.0;开源外部感知安全蓝图已在 GitHub 开放早期访问。

产品更新具身智能安全/对齐
‹ 上一页
12345…24
下一页 ›